使用功能點(diǎn):l 分頁列表信息采集

http://www.bazhuayu.com/tu" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

15158846557 在線咨詢 在線咨詢
15158846557 在線咨詢
所在位置: 首頁 > 營(yíng)銷資訊 > 網(wǎng)站運(yùn)營(yíng) > 搜狗微信文章采集-熱門下的文章為例-數(shù)據(jù)采集從八爪魚開始

搜狗微信文章采集-熱門下的文章為例-數(shù)據(jù)采集從八爪魚開始

時(shí)間:2023-05-10 11:42:02 | 來源:網(wǎng)站運(yùn)營(yíng)

時(shí)間:2023-05-10 11:42:02 來源:網(wǎng)站運(yùn)營(yíng)

搜狗微信文章采集-熱門下的文章為例-數(shù)據(jù)采集從八爪魚開始:

本文介紹使用八爪魚采集搜狗微信文章(以熱門文章為例)的方法

采集網(wǎng)站:http://weixin.sogou.com/




使用功能點(diǎn):

l 分頁列表信息采集

http://www.bazhuayu.com/tutorial/fylb-70.aspx?t=1

l Xpath

http://www.bazhuayu.com/search?query=XPath

l AJAX點(diǎn)擊和翻頁

http://www.bazhuayu.com/tutorial/ajaxdjfy_7.aspx?t=1

步驟1:創(chuàng)建采集任務(wù)

1)進(jìn)入主界面,點(diǎn)擊左側(cè)“新建”,選擇“自定義任務(wù)”




2)將要采集的網(wǎng)址URL復(fù)制粘貼到網(wǎng)站輸入框中,點(diǎn)擊“保存設(shè)置







步驟2:創(chuàng)建翻頁循環(huán)

1)網(wǎng)頁打開后,默認(rèn)顯示“熱門”文章。下拉頁面,找到并點(diǎn)擊“加載更多內(nèi)容”按鈕,在操作提示框中,選擇“循環(huán)點(diǎn)擊單個(gè)鏈接”







由于此網(wǎng)頁涉及Ajax技術(shù),我們需要進(jìn)行一些高級(jí)選項(xiàng)的設(shè)置。在操作提示框中,將Ajjax超時(shí)設(shè)置為“2秒”




注:AJAX即延時(shí)加載、異步更新的一種腳本技術(shù),通過在后臺(tái)與服務(wù)器進(jìn)行少量數(shù)據(jù)交換,可以在不重新加載整個(gè)網(wǎng)頁的情況下,對(duì)網(wǎng)頁的某部分進(jìn)行更新。

表現(xiàn)特征:a、點(diǎn)擊網(wǎng)頁中某個(gè)選項(xiàng)時(shí),大部分網(wǎng)站的網(wǎng)址不會(huì)改變;b、網(wǎng)頁不是完全加載,只是局部進(jìn)行了數(shù)據(jù)加載,有所變化。

驗(yàn)證方式:點(diǎn)擊操作后,在瀏覽器中,網(wǎng)址輸入欄不會(huì)出現(xiàn)加載中的狀態(tài)或者轉(zhuǎn)圈狀態(tài)。




觀察網(wǎng)頁,我們發(fā)現(xiàn),通過5次點(diǎn)擊“加載更多內(nèi)容”,頁面加載到最底部,一共顯示100篇文章。因此,我們?cè)O(shè)置整個(gè)“循環(huán)翻頁”步驟執(zhí)行5次。選中“循環(huán)翻頁”步驟,打開“高級(jí)選項(xiàng)”,打開“滿足以下條件時(shí)退出循環(huán)”,設(shè)置循環(huán)次數(shù)等于“5次”,點(diǎn)擊“確定”










步驟3:創(chuàng)建列表循環(huán)并提取數(shù)據(jù)

1)移動(dòng)鼠標(biāo),選中頁面里第一篇文章的區(qū)塊。系統(tǒng)會(huì)識(shí)別此區(qū)塊中的子元素,在操作提示框中,選擇“選中子元素”




2)繼續(xù)選中頁面中第二篇文章的區(qū)塊,系統(tǒng)會(huì)自動(dòng)選中第二篇文章中的子元素,并識(shí)別出頁面中的其他10組同類元素,在操作提示框中,選擇“選中全部”




3)我們可以看到,頁面中文章區(qū)塊里的所有元素均被選中,變?yōu)榫G色。下方出現(xiàn)字段預(yù)覽表,將鼠標(biāo)移到表頭,點(diǎn)擊垃圾桶圖標(biāo),可刪除不需要的字段。字段選擇完成后,選擇“采集以下數(shù)據(jù)”







4)字段選擇完成后,選中相應(yīng)的字段,可以進(jìn)行字段的自定義命名







步驟4:修改Xpath

我們繼續(xù)觀察,通過5次點(diǎn)擊“加載更多內(nèi)容”后,此網(wǎng)頁加載出全部100篇文章。因而我們配置規(guī)則的思路是,先建立翻頁循環(huán),加載出全部100篇文章,再建立循環(huán)列表,提取數(shù)據(jù)

1)選中整個(gè)“循環(huán)”步驟,將其拖出“循環(huán)翻頁”步驟。如果不進(jìn)行此項(xiàng)操作,那么將會(huì)出現(xiàn)很多重復(fù)數(shù)據(jù)




拖動(dòng)后完成后,如下圖所示




2)在“列表循環(huán)”步驟中,我們建立100篇文章的循環(huán)列表。選中整個(gè)“循環(huán)步驟”,打開“高級(jí)選項(xiàng)”,將不固定元素列表中的這條Xpath:

//BODY[@id="loginWrap"]/DIV[4]/DIV[1]/DIV[3]/UL[1]/LI,復(fù)制粘貼到火狐瀏覽器中的相應(yīng)位置




Xpath:是一種路徑查詢語言,簡(jiǎn)單的說就是利用一個(gè)路徑表達(dá)式找到我們需要的數(shù)據(jù)位置。

Xpath是用于XML中沿著路徑查找數(shù)據(jù)用的,但是八爪魚采集器內(nèi)部有一套針對(duì)HTML的Xpath引擎,使得直接用XPATH就能精準(zhǔn)的查找定位網(wǎng)頁里面的數(shù)據(jù)。




3)3)在火狐瀏覽器中,我們發(fā)現(xiàn),通過這條Xpath:

//BODY[@id='loginWrap']/DIV[4]/DIV[1]/DIV[3]/UL[1]/LI ,頁面中被定位的是20篇文章




4)將Xpath修改為: //BODY[@id='loginWrap']/DIV/DIV[1]/DIV[3]/UL/LI,我們發(fā)現(xiàn)頁面中所有要采集的文章都被定位了




5)將改好的Xpath://BODY[@id='loginWrap']/DIV/DIV[1]/DIV[3]/UL/LI,復(fù)制粘貼到圖片中所示的位置,然后點(diǎn)擊“確定”




6)點(diǎn)擊左上角的“保存并啟動(dòng)”,選擇“啟動(dòng)本次采集”







步驟5:數(shù)據(jù)采集及導(dǎo)出

1)采集完成后,會(huì)跳出提示,選擇“導(dǎo)出數(shù)據(jù)”,選擇“合適的導(dǎo)出方式”,將采集好的搜狗微信文章的數(shù)據(jù)導(dǎo)出




2)這里我們選擇excel作為導(dǎo)出為格式,數(shù)據(jù)導(dǎo)出后如下圖

希望這篇文檔的介紹,能讓你掌握搜狗微信公眾號(hào)信息網(wǎng)頁數(shù)據(jù)采集,你可以試著上八爪魚官網(wǎng)http://www.bazhuayu.com下載八爪魚最新版本客戶端,也可以關(guān)注八爪魚官方微信了解到更多教程案例。

八爪魚·三分鐘就上手的網(wǎng)頁數(shù)據(jù)采集軟件·而且是免費(fèi)軟件

點(diǎn)擊鏈接進(jìn)入官網(wǎng)

八爪魚采集器 - 最好用的網(wǎng)頁數(shù)據(jù)采集器







關(guān)鍵詞:采集,文章,數(shù)據(jù),熱門

74
73
25
news

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉