爬蟲系列之新浪微博爬蟲源碼weibospider_v2
時間:2023-05-14 19:06:01 | 來源:網(wǎng)站運營
時間:2023-05-14 19:06:01 來源:網(wǎng)站運營
爬蟲系列之新浪微博爬蟲源碼weibospider_v2:爬蟲方式:
1 爬取某個話題的所有的評論
2 爬取某個博主的所有微博的評論
3 爬取某個博主的所有粉絲的用戶信息,位置信息
以“迪麗熱巴的微博”為案例,爬取熱巴的所有微博,所有微博評論,所有粉絲的用戶信息,并對所有的粉絲進行位置分析,在地圖上顯示粉絲分布。
1 requests_weibo.py功能:爬取迪麗熱巴的所有的微博,微博內(nèi)容的text保存在excel中,包括微博id
2 requests_weibo_comment.py 功能:讀取熱巴所有的微博id, 爬取某個微博的所有評論內(nèi)容,粉絲id
3 user_infro.py 功能:讀取所有粉絲id, 爬取微博用戶(熱巴粉絲)的基本信息(生日,位置,性別)。粉絲信息接口在代碼中。
4 map_weibo_fensi.py: 對粉絲的性別和位置信息進行可視化
注意事項:
新浪微博評論內(nèi)容獲取時,url參數(shù)第1頁,第2頁至第15頁,第16頁及以后頁碼,參數(shù)是不同的。
第1頁:https://m.weibo.cn/comments/hotflow?id=4511519801087016&mid=4511519801087016
第2 -15 頁:max_id_type 的數(shù)值為 0
https://m.weibo.cn/comments/hotflow?id=4511519801087016&mid=4511519801087016&max_id=1290444946018013&max_id_type=0第16頁及以后:
從第16頁開始max_id_type 的數(shù)值為 1, 這里最后是通過請求獲取該值,不要手動修改為1。
效果圖
項目源碼下載地址: