18個(gè)網(wǎng)站的Python爬蟲登錄示例 | 開源項(xiàng)目推薦
時(shí)間:2023-05-06 18:48:02 | 來源:網(wǎng)站運(yùn)營
時(shí)間:2023-05-06 18:48:02 來源:網(wǎng)站運(yùn)營
18個(gè)網(wǎng)站的Python爬蟲登錄示例 | 開源項(xiàng)目推薦:該項(xiàng)目收集了一些各大網(wǎng)站登陸方式和一些網(wǎng)站的爬蟲程序,有的是通過selenium登錄,有的是通過抓包直接模擬登錄,有的是利用scrapy,希望對Python初學(xué)者有所幫助,本項(xiàng)目用于研究和分享各大網(wǎng)站的模擬登陸方式和爬蟲程序。
在該項(xiàng)目中,模擬登陸基本采用的是直接登錄或者使用selenium+webdriver的方式,有的網(wǎng)站直接登錄難度很大,比如qq空間和bilibili等,如果采用selenium就相對輕松一些。
雖然在登錄的時(shí)候采用的是selenium,但為了效率,我們可以在登錄過后得到的cookie維護(hù)起來,然后調(diào)用requests或者scrapy等進(jìn)行數(shù)據(jù)采集,這樣數(shù)據(jù)采集的速度可以得到保證。
目前已經(jīng)完成的網(wǎng)站包含:Facebook、無需身份驗(yàn)證即可抓取Twitter前端API、微博網(wǎng)頁版、本站、QQZone、淘寶、Baidu、果殼、JingDong 模擬登錄和自動申請京東試用、163mail、拉鉤、Bilibili、豆瓣、Baidu2、獵聘網(wǎng)、微信網(wǎng)頁版登錄并獲取好友列表、Github、爬取圖蟲相應(yīng)的圖片、網(wǎng)易云音樂、糗事百科。
測試Bilibili自動登錄測試正常,成功率98%web微信圖蟲Spider
淘寶webtaobao.py為模擬登錄
剩下的文件為爬蟲
新增鏈家Spider1. 爬取淘寶各子標(biāo)簽,按銷量排名商品信息,按分類保存至MongoDB
2. 通過pandas進(jìn)行數(shù)據(jù)分析
3 .將商品在各省分布、銷量排行、地圖分布等通過matplotlib繪圖顯示
微博sina.py為模擬登錄
spider文件夾中為爬蟲
1. 輸入要爬取的博主ID,獲取ajax請求
2. 解析json數(shù)據(jù),爬取博主所有微博,保存至MySQL
網(wǎng)易云音樂新增網(wǎng)易云音樂下載,之前的一個(gè)小demo應(yīng)該還可以用,Crypto包應(yīng)該挺難搞的,安裝之后還是導(dǎo)入不了,推薦去百度一下,百度上的這個(gè)解決方法有很多。
本站本站登錄沒有問題,不過要手動輸入驗(yàn)證碼。
本站登錄遇到“execjs._exceptions.ProgramError: TypeError: 'exports' 未定義”。
原因以及解決辦法:
1. 由于是你本地的JScript引擎只有一個(gè)默認(rèn)的JScript,所以會造成json未定義的錯(cuò)誤。
2. execjs會自動使用當(dāng)前電腦上的運(yùn)行時(shí)環(huán)境
3. 解決辦法:安裝一個(gè)nodejs的V8引擎就可以了
對于該項(xiàng)目中存在的問題,作者表示:
關(guān)于驗(yàn)證碼:本項(xiàng)目所用的方法都沒有處理驗(yàn)證碼,識別復(fù)雜驗(yàn)證碼的難度就目前來說,還是比較大的。以我的心得來說,做爬蟲最好的方式就是盡量規(guī)避驗(yàn)證碼。
代碼失效:由于網(wǎng)站策略或者樣式改變,導(dǎo)致代碼失效,請給我提issue,如果你已經(jīng)解決,可以提PR,謝謝!
正在對部分代碼進(jìn)行優(yōu)化。
項(xiàng)目地址:
https://github.com/CriseLYJ/awesome-python-login-model
關(guān)鍵詞:示例,推薦,項(xiàng)目,爬蟲