《新浪微博爬蟲分享（一天可抓取 1300 萬條數(shù)據(jù)）》、

《新浪微博分布式爬蟲分享》
Github地址：

SinaSpider
Q群討論：537549079

更新完

《QQ空間爬蟲分享（2016年11月1" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

<ruby id="ak2zn"><sup id="ak2zn"></sup></ruby>

首頁

15158846557 或

在線咨詢

所在位置：首頁 > 營銷資訊 > 網(wǎng)站運營 > 新浪微博爬蟲分享（2016年12月01日更新）

新浪微博爬蟲分享（2016年12月01日更新）

時間：2023-05-13 19:51:01 | 來源：網(wǎng)站運營

時間：2023-05-13 19:51:01 來源：網(wǎng)站運營

新浪微博爬蟲分享（2016年12月01日更新）：

前言：

上篇文章：

《新浪微博爬蟲分享（一天可抓取 1300 萬條數(shù)據(jù)）》、

《新浪微博分布式爬蟲分享》
Github地址：

SinaSpider
Q群討論：537549079

更新完

《QQ空間爬蟲分享（2016年11月18日更新）》，現(xiàn)在將新浪微博爬蟲的代碼也更新一下吧。

這次主要對爬蟲的種子隊列和去重策略作了優(yōu)化，并更新了Cookie池的維護(hù)，只需拷貝代碼即可實現(xiàn)爬蟲分布式擴展，適合大規(guī)模抓取。

使用說明：

需要安裝的軟件：Python2、Redis、MongoDB；需要安裝的Python模塊：scrapy、requests、lxml。
進(jìn)入cookies.py，填入你的微博賬號（已有兩個賬號示例）。
進(jìn)入settings.py，如果你填入的賬號足夠多，可以將`DOWNLOAD_DELAY = 10` 和 `CONCURRENT_REQUESTS = 1`注釋掉。另外可以修改存放種子和去重隊列的機器，可以存放在兩臺不同的機器上面。
運行l(wèi)aunch.py啟動爬蟲，也可在命令行執(zhí)行`scrapy crawl SinaSpider`（Linux只能采用后者）。
分布式擴展：將代碼拷貝到一臺新機器上，運行即可。注意各子爬蟲要共用一個去重隊列，即將settings.py里面的`FILTER_HOST`設(shè)成同一臺機的IP。

代碼說明：

爬蟲基于scrapy+redis架構(gòu)進(jìn)行開發(fā)、優(yōu)化。
爬蟲支持?jǐn)帱c續(xù)爬。
非常簡易地，便可實現(xiàn)分布式擴展。
使用Redis的“位”進(jìn)行去重，1G的內(nèi)存可滿足80億個用戶ID的瞬間去重。
將種子優(yōu)化到不足40個字符，大大降低了Redis的內(nèi)存消耗，也提高了各子爬蟲從Redis取種子的速度。

注：本項目用代碼提交請求進(jìn)行登錄，不會遇到驗證碼。但是有個情況：如果一次性獲取幾十個Cookie，新浪會檢測到你的IP異常（大約多久會被檢測出來？以前是一分鐘左右，現(xiàn)在好像幾十秒，我們就用這幾十秒登陸完所有賬號，放心代碼登錄很快的），大約十個小時后會給你的IP恢復(fù)正常。IP被檢測為異常會怎樣？不會影響爬蟲的抓取，只是你再登錄賬號時會被要求輸入驗證碼，日志如：

[Sina_spider3.cookies] WARNING: Failed!( Reason:為了您的帳號安全，請輸入驗證碼 )如果我的賬號還沒登錄完就出現(xiàn)這種情況怎么辦？可以先將爬蟲停了，機器換個IP繼續(xù)獲取Cookie，放心已獲取到Cookie的賬號會自動跳過。當(dāng)然如果你不喜歡受這個限制，可以用打碼平臺或著自己寫個程序把驗證碼搞定。其實只是第一次啟動爬蟲才是需要獲取那么多Cookie，之后只有等哪個Cookie失效了才會去更新。

數(shù)據(jù)說明：

用戶發(fā)表的微博：

    _id :  用戶ID-微博ID    ID :  用戶ID    Content :  微博內(nèi)容    PubTime :  發(fā)表時間    Co_oridinates :  定位坐標(biāo)    Tools :  發(fā)表工具/平臺    Like :  點贊數(shù)    Comment :  評論數(shù)    Transfer :  轉(zhuǎn)載數(shù)

用戶的個人信息：

  	_id: 用戶ID    NickName: 昵稱    Gender: 性別    Province: 所在省    City: 所在城市    BriefIntroduction: 簡介    Birthday: 生日    Num_Tweets: 微博數(shù)    Num_Follows: 關(guān)注數(shù)    Num_Fans: 粉絲數(shù)    SexOrientation: 性取向    Sentiment: 感情狀況    VIPlevel: 會員等級    Authentication: 認(rèn)證    URL: 首頁鏈接

轉(zhuǎn)載請注明出處，謝謝?。ㄔ逆溄樱?br>
http://blog.csdn.net/bone_ace/article/details/53379904）

關(guān)鍵詞：更新,爬蟲

網(wǎng)站
營銷
設(shè)計
運營
優(yōu)化
效率
專注
電商
方案
推廣

解決方案&服務(wù)

客戶&案例

營銷資訊

關(guān)于我們

解決方案&服務(wù)

客戶&案例

營銷資訊

關(guān)于我們

微信公眾號

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果，本站不支持IE9及以下版本的瀏覽器，建議您使用谷歌Chrome瀏覽器。點擊下載Chrome瀏覽器

關(guān)閉

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

快捷入口

新浪微博爬蟲分享（2016年12月01日更新）

前言：

使用說明：

代碼說明：

數(shù)據(jù)說明：

杭州微門戶，杭州本地生活微信門戶平臺

南陽商旗教育室內(nèi)設(shè)計培訓(xùn) 全屋定制培訓(xùn) CAD軟件課程 3DMAX軟件培訓(xùn) SU草圖大

騰訊王者榮耀人工客服

什么是營銷型網(wǎng)站？據(jù)說現(xiàn)在很多企業(yè)做這個？

完美的企業(yè)網(wǎng)站應(yīng)具有哪些特征？

5個我常用的素材網(wǎng)站，超高清、不限速、無版權(quán)、可商用，能解決你95%的素材

還不知道如何自己建站？應(yīng)該這樣做

招聘網(wǎng)站優(yōu)化工程師

可以免費做軟文推廣的網(wǎng)站有哪些

新浪、搜狐、網(wǎng)易、鳳凰，這四大網(wǎng)站做的新聞各有什么特點？

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

快捷入口

新浪微博爬蟲分享（2016年12月01日更新）

前言：

使用說明：

代碼說明：

數(shù)據(jù)說明：

推薦文章

新浪微博爬蟲分享（2016年12月01日更新）

【緊急通知】關(guān)于微信開放平臺針對iOS移動應(yīng)用SDK更新-MobTech

運動課產(chǎn)品更新公告：產(chǎn)品教學(xué)視頻補充和更新

微信7.0.15正式版更新！終于可以修改微信號了？

信譽網(wǎng)站，持續(xù)更新。

【抖竹軟件提醒】抖竹軟件更新適配最新平臺版本

圖片直播平臺對比|2022年10月更新

全網(wǎng)課程打包，永久更新，不斷更！抖音直播帶貨，短視頻，抖音ip，抖音小店

微信官方發(fā)布：7.0.10版本開始更新！新增2項實用功能，用戶卻有2大遺憾

漂亮的小視頻呦，微信更新的可用

杭州微門戶，杭州本地生活微信門戶平臺

南陽商旗教育室內(nèi)設(shè)計培訓(xùn) 全屋定制培訓(xùn) CAD軟件課程 3DMAX軟件培訓(xùn) SU草圖大

騰訊王者榮耀人工客服

什么是營銷型網(wǎng)站？據(jù)說現(xiàn)在很多企業(yè)做這個？

完美的企業(yè)網(wǎng)站應(yīng)具有哪些特征？

5個我常用的素材網(wǎng)站，超高清、不限速、無版權(quán)、可商用，能解決你95%的素材

還不知道如何自己建站？應(yīng)該這樣做

招聘網(wǎng)站優(yōu)化工程師

可以免費做軟文推廣的網(wǎng)站有哪些

新浪、搜狐、網(wǎng)易、鳳凰，這四大網(wǎng)站做的新聞各有什么特點？

微信7.0.15正式版更新！終于可以修改微信號了？

信譽網(wǎng)站，持續(xù)更新。

全網(wǎng)課程打包，永久更新，不斷更！抖音直播帶貨，短視頻，抖音ip，抖音小店

微信官方發(fā)布：7.0.10版本開始更新！新增2項實用功能，用戶卻有2大遺憾

漂亮的小視頻呦，微信更新的可用

杭州微門戶，杭州本地生活微信門戶平臺

什么是營銷型網(wǎng)站？據(jù)說現(xiàn)在很多企業(yè)做這個？

完美的企業(yè)網(wǎng)站應(yīng)具有哪些特征？

5個我常用的素材網(wǎng)站，超高清、不限速、無版權(quán)、可商用，能解決你95%的素材

還不知道如何自己建站？應(yīng)該這樣做

新浪、搜狐、網(wǎng)易、鳳凰，這四大網(wǎng)站做的新聞各有什么特點？