時間:2023-07-27 10:30:01 | 來源:網(wǎng)站運營
時間:2023-07-27 10:30:01 來源:網(wǎng)站運營
爬蟲雜談(二)使用Selenium抓取動態(tài)網(wǎng)站:很多電商網(wǎng)站內(nèi)容是動態(tài)加載的,requests無法抓取全部內(nèi)容,內(nèi)容是隨著用戶向下瀏覽而逐步加載的。Selenium可以抓取動態(tài)內(nèi)容,提供針對瀏覽器的很多操作。import requestsurl = 'https://www.jd.com/'r = requests.get(url).textprint(len(r))with open('jd.html','w',encoding='gbk') as f: f.write(r)
抓取到108399from selenium import webdriverimport timedef scroll(n,i): return "window.scrollTo(0,(document.body.scrollHeight/{0})*{1});"./ format(n,i)url = 'https://www.jd.com/'firefox = webdriver.Firefox()firefox.maximize_window()firefox.get(url)n = 10for i in range(0,n+1): s = scroll(n,i) print(s) firefox.execute_script(s) time.sleep(2)print(len(firefox.page_source))with open("jd2.html",'w',encoding="utf-8",errors='ignore') as f: f.write(firefox.page_source)
關鍵詞:動態(tài),使用,爬蟲
微信公眾號
版權所有? 億企邦 1997-2025 保留一切法律許可權利。