設(shè)置OutWit軟件的采集規(guī)則
時間:2022-02-17 12:27:01 | 來源:網(wǎng)絡(luò)推廣
時間:2022-02-17 12:27:01 來源:網(wǎng)絡(luò)推廣
大家都知道百度指令domain:是查詢百度相關(guān)域的,相關(guān)域其實(shí)就是一種外鏈資源,雖然這種外鏈的權(quán)重較低,但發(fā)布的難度較小,容易操作,適合廣大草根網(wǎng)站使用。
言歸正傳,首先我們需要用到OutWit Hub light,這款功能強(qiáng)大、操作簡潔的采集軟件,下載地址:安裝好之后,需要用到左側(cè)樹狀結(jié)構(gòu)中幾個功能(如下圖所示),下面一一介紹:
① page 為默認(rèn)的主體界面,也就是正常訪問的網(wǎng)頁效果。
guess 為軟件自動分析頁面得出來的結(jié)果,在這里不太建議使用,因為機(jī)器得出的結(jié)果還是不太準(zhǔn)確。
③ scraped 為設(shè)定自定義采集規(guī)則之后生成的結(jié)果,也就是scrapers⑤生成出來的結(jié)果。
④ source 為頁面的源代碼,相當(dāng)于平時使用瀏覽器打開網(wǎng)頁時,右鍵查看源代碼的效果。
⑤ scrapers 為設(shè)置自定義采集規(guī)則的項目。
如上圖所示,選到scrapers后,采集規(guī)則有7種屬性,在這里需要用到的只有3項,分別是description、marker before、marker after,用過火車頭的童鞋應(yīng)該一眼就能看明白,不懂的同學(xué)也不用擔(dān)心,按照表格進(jìn)行填寫就可以
marker before的1到3行中依次填入
href=
target=_blank
- a href=
marker after的1到3行中依次填入
target=_blank
/a/h3
target=_blank class=m 百度快照/a
⑥ 這里設(shè)置觸發(fā)該采集規(guī)則的url,按圖所示輸入百度首頁域名即可
⑦ 采集規(guī)則設(shè)定好之后,不要忘記save
⑧ Save時會提示你,給該采集規(guī)則設(shè)定一個名稱
到此,我們的采集規(guī)則就寫好了。
關(guān)鍵詞:采集,規(guī)則,設(shè)置