21個(gè)Python爬蟲(chóng)開(kāi)源項(xiàng)目代碼,包含微信、淘寶、豆瓣、知乎、微博等
時(shí)間:2023-05-20 08:16:01 | 來(lái)源:網(wǎng)站運(yùn)營(yíng)
時(shí)間:2023-05-20 08:16:01 來(lái)源:網(wǎng)站運(yùn)營(yíng)
21個(gè)Python爬蟲(chóng)開(kāi)源項(xiàng)目代碼,包含微信、淘寶、豆瓣、知乎、微博等:今天為大家整理了23個(gè)Python爬蟲(chóng)項(xiàng)目。整理的原因是,爬蟲(chóng)入門(mén)簡(jiǎn)單快速,也非常適合新入門(mén)的小伙伴培養(yǎng)信心,所有鏈接指向GitHub,微信不能直接打開(kāi),老規(guī)矩,可以用電腦打開(kāi)。
1. WechatSogou – 微信公眾號(hào)爬蟲(chóng)
基于搜狗微信搜索的微信公眾號(hào)爬蟲(chóng)接口,可以擴(kuò)展成基于搜狗搜索的爬蟲(chóng),返回結(jié)果是列表,每一項(xiàng)均是公眾號(hào)具體信息字典。
部分代碼截圖:
2. DouBanSpider – 豆瓣讀書(shū)爬蟲(chóng)
可以爬下豆瓣讀書(shū)標(biāo)簽下的所有圖書(shū),按評(píng)分排名依次存儲(chǔ),存儲(chǔ)到Excel中,可方便大家篩選搜羅,比如篩選評(píng)價(jià)人數(shù)>1000的高分書(shū)籍;可依據(jù)不同的主題存儲(chǔ)到Excel不同的Sheet ,采用User Agent偽裝為瀏覽器進(jìn)行爬取,并加入隨機(jī)延時(shí)來(lái)更好的模仿瀏覽器行為,避免爬蟲(chóng)被封。
部分代碼截圖:
3. zhihu_spider – 本站爬蟲(chóng)
此項(xiàng)目的功能是爬取本站用戶信息以及人際拓?fù)潢P(guān)系,爬蟲(chóng)框架使用scrapy,數(shù)據(jù)存儲(chǔ)使用mongo
部分代碼截圖:
4. bilibili-user – Bilibili用戶爬蟲(chóng)
總數(shù)據(jù)數(shù):20119918,抓取字段:用戶id,昵稱,性別,頭像,等級(jí),經(jīng)驗(yàn)值,粉絲數(shù),生日,地址,注冊(cè)時(shí)間,簽名,等級(jí)與經(jīng)驗(yàn)值等。抓取之后生成B站用戶數(shù)據(jù)報(bào)告。
部分代碼截圖:
5. SinaSpider – 新浪微博爬蟲(chóng)
主要爬取新浪微博用戶的個(gè)人信息、微博信息、粉絲和關(guān)注。代碼獲取新浪微博Cookie進(jìn)行登錄,可通過(guò)多賬號(hào)登錄來(lái)防止新浪的反扒。主要使用 scrapy 爬蟲(chóng)框架。
部分代碼截圖:
6. distribute_crawler – 小說(shuō)下載分布式爬蟲(chóng)
使用scrapy,Redis, MongoDB,graphite實(shí)現(xiàn)的一個(gè)分布式網(wǎng)絡(luò)爬蟲(chóng),底層存儲(chǔ)MongoDB集群,分布式使用Redis實(shí)現(xiàn),爬蟲(chóng)狀態(tài)顯示使用graphite實(shí)現(xiàn),主要針對(duì)一個(gè)小說(shuō)站點(diǎn)。
部分代碼截圖:
7. CnkiSpider – 中國(guó)知網(wǎng)爬蟲(chóng)。
設(shè)置檢索條件后,執(zhí)行src/CnkiSpider.py抓取數(shù)據(jù),抓取數(shù)據(jù)存儲(chǔ)在/data目錄下,每個(gè)數(shù)據(jù)文件的第一行為字段名稱。
部分代碼截圖:
8. LianJiaSpider – 鏈家網(wǎng)爬蟲(chóng)。
爬取杭州地區(qū)鏈家歷年二手房成交記錄。涵蓋鏈家爬蟲(chóng)一文的全部代碼,包括鏈家模擬登錄代碼。
部分代碼截圖:
9. scrapy_jingdong – 京東爬蟲(chóng)。
基于scrapy的京東網(wǎng)站爬蟲(chóng),保存格式為csv。
部分代碼截圖:
10. QQ-Groups-Spider – QQ 群爬蟲(chóng)。
批量抓取 QQ 群信息,包括群名稱、群號(hào)、群人數(shù)、群主、群簡(jiǎn)介等內(nèi)容,最終生成 XLS(X) / CSV 結(jié)果文件。
部分代碼截圖:
11. wooyun_public -烏云爬蟲(chóng)。
烏云公開(kāi)漏洞、知識(shí)庫(kù)爬蟲(chóng)和搜索。全部公開(kāi)漏洞的列表和每個(gè)漏洞的文本內(nèi)容存在MongoDB中,大概約2G內(nèi)容;如果整站爬全部文本和圖片作為離線查詢,大概需要10G空間、2小時(shí)(10M電信帶寬);爬取全部知識(shí)庫(kù),總共約500M空間。漏洞搜索使用了Flask作為web server,bootstrap作為前端。
部分代碼:
12. spider – hao123網(wǎng)站爬蟲(chóng)。
以hao123為入口頁(yè)面,滾動(dòng)爬取外鏈,收集網(wǎng)址,并記錄網(wǎng)址上的內(nèi)鏈和外鏈數(shù)目,記錄title等信息,windows7 32位上測(cè)試,目前每24個(gè)小時(shí),可收集數(shù)據(jù)為10萬(wàn)左右
部分代碼:
13. findtrip – 機(jī)票爬蟲(chóng)(去哪兒和攜程網(wǎng))。
Findtrip是一個(gè)基于Scrapy的機(jī)票爬蟲(chóng),目前整合了國(guó)內(nèi)兩大機(jī)票網(wǎng)站(去哪兒 + 攜程)。
部分代碼:
14. QQSpider – QQ空間爬蟲(chóng),包括日志、說(shuō)說(shuō)、個(gè)人信息等,一天可抓取 400 萬(wàn)條數(shù)據(jù)。
部分代碼:
15. baidu-music-spider – 百度mp3全站爬蟲(chóng),使用redis支持?jǐn)帱c(diǎn)續(xù)傳。
部分代碼:
16. tbcrawler – 淘寶和天貓的爬蟲(chóng),可以根據(jù)搜索關(guān)鍵詞,物品id來(lái)抓去頁(yè)面的信息,數(shù)據(jù)存儲(chǔ)在mongodb。
部分代碼:
17. stockholm – 一個(gè)股票數(shù)據(jù)(滬深)爬蟲(chóng)和選股策略測(cè)試框架。根據(jù)選定的日期范圍抓取所有滬深兩市股票的行情數(shù)據(jù)。支持使用表達(dá)式定義選股策略。支持多線程處理。保存數(shù)據(jù)到JSON文件、CSV文件。
部分代碼:
18. BaiduyunSpider - 百度云盤(pán)爬蟲(chóng)。
部分代碼:
19. Spider - 社交數(shù)據(jù)爬蟲(chóng)。支持微博,本站,豆瓣。
部分代碼:
20. proxy pool - Python爬蟲(chóng)代理IP池(proxy pool)。
部分代碼:
21. music-163 - 爬取網(wǎng)易云音樂(lè)所有歌曲的評(píng)論。
在學(xué)習(xí)Python的過(guò)程中,往往因?yàn)闆](méi)有資料或者沒(méi)人指導(dǎo)從而導(dǎo)致自己不想學(xué)下去了,因此我特意準(zhǔn)備了個(gè)群 592539176 ,群里有大量的PDF書(shū)籍、教程都給大家免費(fèi)使用!不管是學(xué)習(xí)到哪個(gè)階段的小伙伴都可以獲取到自己相對(duì)應(yīng)的資料!
部分代碼:
1
關(guān)鍵詞:包含,爬蟲(chóng),項(xiàng)目