1、使用requests抓取import" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

15158846557 在線咨詢 在線咨詢
15158846557 在線咨詢
所在位置: 首頁 > 營銷資訊 > 網(wǎng)站運營 > 爬蟲雜談(二)使用Selenium抓取動態(tài)網(wǎng)站

爬蟲雜談(二)使用Selenium抓取動態(tài)網(wǎng)站

時間:2023-07-27 10:30:01 | 來源:網(wǎng)站運營

時間:2023-07-27 10:30:01 來源:網(wǎng)站運營

爬蟲雜談(二)使用Selenium抓取動態(tài)網(wǎng)站:很多電商網(wǎng)站內(nèi)容是動態(tài)加載的,requests無法抓取全部內(nèi)容,內(nèi)容是隨著用戶向下瀏覽而逐步加載的。Selenium可以抓取動態(tài)內(nèi)容,提供針對瀏覽器的很多操作。

1、使用requests抓取

import requestsurl = 'https://www.jd.com/'r = requests.get(url).textprint(len(r))with open('jd.html','w',encoding='gbk') as f: f.write(r)抓取到108399

用chrome 打開jd.html,如下圖

說明并沒有抓取到全部內(nèi)容

2、使用Selenium抓取

from selenium import webdriverimport timedef scroll(n,i): return "window.scrollTo(0,(document.body.scrollHeight/{0})*{1});"./ format(n,i)url = 'https://www.jd.com/'firefox = webdriver.Firefox()firefox.maximize_window()firefox.get(url)n = 10for i in range(0,n+1): s = scroll(n,i) print(s) firefox.execute_script(s) time.sleep(2)print(len(firefox.page_source))with open("jd2.html",'w',encoding="utf-8",errors='ignore') as f: f.write(firefox.page_source)
打開“jd2.html”,往下滑動,發(fā)現(xiàn)內(nèi)容都在,就是圖片沒有顯示,右鍵查看源代碼,和京東網(wǎng)站上面的一樣。

3、總結

可以明顯發(fā)現(xiàn)Selenium比requests抓取內(nèi)容的差異,當然也可以利用Ajax+requests,喜歡用哪種都可以。

firefox.page_source就和requests.get類似,可以使用bs4進行解析,當然Selenium也有自帶的元素定位,各有各的優(yōu)缺點??葱枨罅?。


Selenium可以做得東西很多

關于爬蟲可以看看靜覓的博客Python爬蟲實戰(zhàn)八之利用Selenium抓取淘寶匿名旺旺 | 靜覓

關于模擬登錄Selenium+Python自動更新本站首頁內(nèi)容 - 本站專欄

關于元素定位 [python爬蟲] Selenium常見元素定位方法和操作的學習介紹

======================================================================個人微信:zhang7350

關鍵詞:動態(tài),使用,爬蟲

74
73
25
news

版權所有? 億企邦 1997-2025 保留一切法律許可權利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關閉