搜狗微信文章采集-熱門下的文章為例-數(shù)據(jù)采集從八爪魚開始
時(shí)間:2023-05-10 11:42:02 | 來源:網(wǎng)站運(yùn)營(yíng)
時(shí)間:2023-05-10 11:42:02 來源:網(wǎng)站運(yùn)營(yíng)
搜狗微信文章采集-熱門下的文章為例-數(shù)據(jù)采集從八爪魚開始:
本文介紹使用八爪魚采集搜狗微信文章(以熱門文章為例)的方法
采集網(wǎng)站:http://weixin.sogou.com/
使用功能點(diǎn):
l 分頁列表信息采集
http://www.bazhuayu.com/tutorial/fylb-70.aspx?t=1l Xpath
http://www.bazhuayu.com/search?query=XPathl AJAX點(diǎn)擊和翻頁
http://www.bazhuayu.com/tutorial/ajaxdjfy_7.aspx?t=1步驟1:創(chuàng)建采集任務(wù)
1)進(jìn)入主界面,點(diǎn)擊左側(cè)“
新建”,選擇“
自定義任務(wù)”2)將要采集的網(wǎng)址URL復(fù)制粘貼到網(wǎng)站輸入框中,點(diǎn)擊“
保存設(shè)置”
步驟2:創(chuàng)建翻頁循環(huán)
1)網(wǎng)頁打開后,默認(rèn)顯示
“熱門”文章。下拉頁面,找到并點(diǎn)擊
“加載更多內(nèi)容”按鈕,在操作提示框中,選擇
“循環(huán)點(diǎn)擊單個(gè)鏈接”由于此網(wǎng)頁涉及Ajax技術(shù),我們需要進(jìn)行一些高級(jí)選項(xiàng)的設(shè)置。在操作提示框中,將Ajjax超時(shí)設(shè)置為
“2秒”注:AJAX即延時(shí)加載、異步更新的一種腳本技術(shù),通過在后臺(tái)與服務(wù)器進(jìn)行少量數(shù)據(jù)交換,可以在不重新加載整個(gè)網(wǎng)頁的情況下,對(duì)網(wǎng)頁的某部分進(jìn)行更新。
表現(xiàn)特征:a、點(diǎn)擊網(wǎng)頁中某個(gè)選項(xiàng)時(shí),大部分網(wǎng)站的網(wǎng)址不會(huì)改變;b、網(wǎng)頁不是完全加載,只是局部進(jìn)行了數(shù)據(jù)加載,有所變化。
驗(yàn)證方式:點(diǎn)擊操作后,在瀏覽器中,網(wǎng)址輸入欄不會(huì)出現(xiàn)加載中的狀態(tài)或者轉(zhuǎn)圈狀態(tài)。
觀察網(wǎng)頁,我們發(fā)現(xiàn),通過5次點(diǎn)擊
“加載更多內(nèi)容”,頁面加載到最底部,一共顯示100篇文章。因此,我們?cè)O(shè)置整個(gè)
“循環(huán)翻頁”步驟執(zhí)行5次。選中
“循環(huán)翻頁”步驟,打開
“高級(jí)選項(xiàng)”,打開
“滿足以下條件時(shí)退出循環(huán)”,設(shè)置循環(huán)次數(shù)等于
“5次”,點(diǎn)擊
“確定”步驟3:創(chuàng)建列表循環(huán)并提取數(shù)據(jù)
1)移動(dòng)鼠標(biāo),選中頁面里第一篇文章的區(qū)塊。系統(tǒng)會(huì)識(shí)別此區(qū)塊中的子元素,在操作提示框中,選擇
“選中子元素”2)繼續(xù)選中頁面中第二篇文章的區(qū)塊,系統(tǒng)會(huì)自動(dòng)選中第二篇文章中的子元素,并識(shí)別出頁面中的其他10組同類元素,在操作提示框中,選擇
“選中全部”3)我們可以看到,頁面中文章區(qū)塊里的所有元素均被選中,變?yōu)榫G色。下方出現(xiàn)字段預(yù)覽表,將鼠標(biāo)移到表頭,點(diǎn)擊垃圾桶圖標(biāo),可刪除不需要的字段。字段選擇完成后,選擇
“采集以下數(shù)據(jù)”4)字段選擇完成后,選中相應(yīng)的字段,可以進(jìn)行字段的
自定義命名步驟4:修改Xpath
我們繼續(xù)觀察,通過5次點(diǎn)擊
“加載更多內(nèi)容”后,此網(wǎng)頁加載出全部100篇文章。因而我們配置規(guī)則的思路是,先建立翻頁循環(huán),加載出全部100篇文章,再建立循環(huán)列表,提取數(shù)據(jù)
1)選中整個(gè)
“循環(huán)”步驟,將其拖出
“循環(huán)翻頁”步驟。如果不進(jìn)行此項(xiàng)操作,那么將會(huì)出現(xiàn)很多重復(fù)數(shù)據(jù)
拖動(dòng)后完成后,如下圖所示
2)在
“列表循環(huán)”步驟中,我們建立100篇文章的循環(huán)列表。選中整個(gè)
“循環(huán)步驟”,打開
“高級(jí)選項(xiàng)”,將不固定元素列表中的這條Xpath:
//BODY[@id="loginWrap"]/DIV[4]/DIV[1]/DIV[3]/UL[1]/LI,復(fù)制粘貼到火狐瀏覽器中的相應(yīng)位置
Xpath:是一種路徑查詢語言,簡(jiǎn)單的說就是利用一個(gè)路徑表達(dá)式找到我們需要的數(shù)據(jù)位置。
Xpath是用于XML中沿著路徑查找數(shù)據(jù)用的,但是八爪魚采集器內(nèi)部有一套針對(duì)HTML的Xpath引擎,使得直接用XPATH就能精準(zhǔn)的查找定位網(wǎng)頁里面的數(shù)據(jù)。
3)3)在火狐瀏覽器中,我們發(fā)現(xiàn),通過這條Xpath:
//BODY[@id='loginWrap']/DIV[4]/DIV[1]/DIV[3]/UL[1]/LI ,頁面中被定位的是20篇文章
4)將Xpath修改為: //BODY[@id='loginWrap']/DIV/DIV[1]/DIV[3]/UL/LI,我們發(fā)現(xiàn)頁面中所有要采集的文章都被定位了
5)將改好的Xpath://BODY[@id='loginWrap']/DIV/DIV[1]/DIV[3]/UL/LI,復(fù)制粘貼到圖片中所示的位置,然后點(diǎn)擊
“確定”6)點(diǎn)擊左上角的
“保存并啟動(dòng)”,選擇
“啟動(dòng)本次采集”步驟5:數(shù)據(jù)采集及導(dǎo)出
1)采集完成后,會(huì)跳出提示,選擇
“導(dǎo)出數(shù)據(jù)”,選擇
“合適的導(dǎo)出方式”,將采集好的搜狗微信文章的數(shù)據(jù)導(dǎo)出
2)這里我們選擇excel作為導(dǎo)出為格式,數(shù)據(jù)導(dǎo)出后如下圖
希望這篇文檔的介紹,能讓你掌握搜狗微信公眾號(hào)信息網(wǎng)頁數(shù)據(jù)采集,你可以試著上八爪魚官網(wǎng)http://www.bazhuayu.com下載八爪魚最新版本客戶端,也可以關(guān)注八爪魚官方微信了解到更多教程案例。
八爪魚·三分鐘就上手的網(wǎng)頁數(shù)據(jù)采集軟件·而且是免費(fèi)軟件點(diǎn)擊鏈接進(jìn)入官網(wǎng)八爪魚采集器 - 最好用的網(wǎng)頁數(shù)據(jù)采集器
關(guān)鍵詞:采集,文章,數(shù)據(jù),熱門