時間:2023-11-19 06:06:01 | 來源:網(wǎng)站運營
時間:2023-11-19 06:06:01 來源:網(wǎng)站運營
想用爬蟲抓取新浪微博的內容,但查看新浪微博的頁面源代碼,卻看不到微博的內容,請問這是什么原因?:因為PC端微博的源碼包裹在了FM.view/((.*)/)這個塊中。你需要先用正則表達式把它提取出來,然后就可以拿到頁面的內容了。另外有一些內容是通過ajax動態(tài)加載的,比如評論列表、用戶主頁的部分微博數(shù)據(jù)。我寫了一個分布式的微博爬蟲,其中對微博解析模塊做了大量的工作,可以參考一下
關鍵詞:內容,爬蟲
微信公眾號
版權所有? 億企邦 1997-2025 保留一切法律許可權利。