国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

15158846557 在線咨詢 在線咨詢
15158846557 在線咨詢
所在位置: 首頁 > 營銷資訊 > 網(wǎng)站運營 > 前嗅ForeSpider教程:采集網(wǎng)頁鏈接/源碼/時間/重定向地址等

前嗅ForeSpider教程:采集網(wǎng)頁鏈接/源碼/時間/重定向地址等

時間:2023-06-06 23:12:02 | 來源:網(wǎng)站運營

時間:2023-06-06 23:12:02 來源:網(wǎng)站運營

前嗅ForeSpider教程:采集網(wǎng)頁鏈接/源碼/時間/重定向地址等:今天小編來為大家介紹一個非常實用又簡單的操作,就是如何用前嗅ForeSpider采集網(wǎng)頁鏈接/源碼/時間/重定向地址,同時為了方便大家采集,前嗅ForeSpider已經(jīng)提前把網(wǎng)頁鏈接/源碼/時間/重定向地址等采集中常有的基本項,預先寫好了功能, 具體步驟如下:

第一步:新建任務

①點擊左上角“加號”新建任務,如圖1:

②彈窗里填寫采集地址,任務名稱,如圖2:

③ 點擊下一步,勾選抽取鏈接,選擇網(wǎng)頁內(nèi)所有鏈接,如圖3:

④完成后模板抽取配置列表有一個模板,默認模板。默認模板下自動生成一個鏈接抽取,名稱為網(wǎng)頁全部鏈接,如4:

第二步:創(chuàng)建新的模板,并新建數(shù)據(jù)抽取

①模板配置,點擊“新建模板”按鈕,得到新建模板,如圖5。

②新建數(shù)據(jù)抽取。直接點擊模板二,點擊上面“新建數(shù)據(jù)抽取”按鈕,得到數(shù)據(jù)抽取,如圖6。

③關(guān)聯(lián)模板

在軟件中模板的關(guān)聯(lián)關(guān)系,與網(wǎng)頁中鏈接跳轉(zhuǎn)的關(guān)系相同。

根據(jù)網(wǎng)頁跳轉(zhuǎn)規(guī)律,將“網(wǎng)頁全部鏈接”關(guān)聯(lián)模板“新建模板02”,如圖7:

第三步:創(chuàng)建/選擇表單

①在ForeSpider爬蟲中,表單是可以復用的,所以可以在數(shù)據(jù)表單出直接選擇之前建過的表單,也可以通過表單ID來進行查找并關(guān)聯(lián)數(shù)據(jù)表單。此處使用的方法三,如圖8。

方法一:通過下拉菜單或表單ID選擇已有表單

方法二:點擊創(chuàng)建表單進入快速建表頁面,新建表單

方法三:點擊“采集配置”-“數(shù)據(jù)建表”,點擊采“采集表單”后面的如圖8。

②配置表單

根據(jù)所需內(nèi)容,配置表單字段(即表頭),此處配置了包括網(wǎng)頁主鍵、網(wǎng)頁創(chuàng)建時間、網(wǎng)頁獲取時間、網(wǎng)頁地址、全區(qū)內(nèi)網(wǎng)頁源碼(包含當前標簽)、選取內(nèi)全部文本、選取內(nèi)網(wǎng)頁源碼以及網(wǎng)頁標題八個字段,表單如圖9。

以下字段為軟件自帶字段類型,無需確定選取取值。

網(wǎng)頁主鍵:網(wǎng)頁唯一標識。

網(wǎng)頁創(chuàng)建時間:文檔創(chuàng)建或網(wǎng)頁發(fā)布的時間。

網(wǎng)頁獲取時間:ForeSpider采集該網(wǎng)頁的時間。

網(wǎng)頁地址:自動采集網(wǎng)頁的URL地址。

選區(qū)內(nèi)網(wǎng)頁源碼(包含當前標簽):采集選區(qū)內(nèi)全部源代碼,包含當前節(jié)點標簽等,即整個選區(qū)的源代碼。

選區(qū)內(nèi)全部文本:最常用的類型。點擊Ctrl選擇綠框后,采集選區(qū)里的全部內(nèi)容

選區(qū)內(nèi)網(wǎng)頁源碼:采集選區(qū)內(nèi)全部源代碼,不包含當前節(jié)點標簽等。

網(wǎng)頁標題:采集網(wǎng)頁的標題。即網(wǎng)頁

③ 數(shù)據(jù)抽取鏈接處關(guān)聯(lián)表單,如圖10。

第四步:采集預覽

①點擊擊右上角采集預覽,如圖11。

②雙擊任意一條鏈接,看看是否可以得到和網(wǎng)頁對應的規(guī)整的數(shù)據(jù),如圖12、圖13。



關(guān)鍵詞:地址,教程,采集

74
73
25
news

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關(guān)閉