前嗅ForeSpider教程:采集網(wǎng)頁鏈接/源碼/時間/重定向地址等
時間:2023-06-06 23:12:02 | 來源:網(wǎng)站運營
時間:2023-06-06 23:12:02 來源:網(wǎng)站運營
前嗅ForeSpider教程:采集網(wǎng)頁鏈接/源碼/時間/重定向地址等:今天小編來為大家介紹一個非常實用又簡單的操作,就是如何用前嗅ForeSpider采集網(wǎng)頁鏈接/源碼/時間/重定向地址,同時為了方便大家采集,前嗅ForeSpider已經(jīng)提前把網(wǎng)頁鏈接/源碼/時間/重定向地址等采集中常有的基本項,預先寫好了功能, 具體步驟如下:
第一步:新建任務①點擊左上角“加號”新建任務,如圖1:
②彈窗里填寫采集地址,任務名稱,如圖2:
③ 點擊下一步,勾選抽取鏈接,選擇網(wǎng)頁內(nèi)所有鏈接,如圖3:
④完成后模板抽取配置列表有一個模板,默認模板。默認模板下自動生成一個鏈接抽取,名稱為網(wǎng)頁全部鏈接,如4:
第二步:創(chuàng)建新的模板,并新建數(shù)據(jù)抽取①模板配置,點擊“新建模板”按鈕,得到新建模板,如圖5。
②新建數(shù)據(jù)抽取。直接點擊模板二,點擊上面“新建數(shù)據(jù)抽取”按鈕,得到數(shù)據(jù)抽取,如圖6。
③關(guān)聯(lián)模板
在軟件中模板的關(guān)聯(lián)關(guān)系,與網(wǎng)頁中鏈接跳轉(zhuǎn)的關(guān)系相同。
根據(jù)網(wǎng)頁跳轉(zhuǎn)規(guī)律,將“網(wǎng)頁全部鏈接”關(guān)聯(lián)模板“新建模板02”,如圖7:
第三步:創(chuàng)建/選擇表單①在ForeSpider爬蟲中,表單是可以復用的,所以可以在數(shù)據(jù)表單出直接選擇之前建過的表單,也可以通過表單ID來進行查找并關(guān)聯(lián)數(shù)據(jù)表單。此處使用的方法三,如圖8。
方法一:通過下拉菜單或表單ID選擇已有表單
方法二:點擊創(chuàng)建表單進入快速建表頁面,新建表單
方法三:點擊“采集配置”-“數(shù)據(jù)建表”,點擊采“采集表單”后面的如圖8。
②配置表單
根據(jù)所需內(nèi)容,配置表單字段(即表頭),此處配置了包括網(wǎng)頁主鍵、網(wǎng)頁創(chuàng)建時間、網(wǎng)頁獲取時間、網(wǎng)頁地址、全區(qū)內(nèi)網(wǎng)頁源碼(包含當前標簽)、選取內(nèi)全部文本、選取內(nèi)網(wǎng)頁源碼以及網(wǎng)頁標題八個字段,表單如圖9。
以下字段為軟件自帶字段類型,無需確定選取取值。
網(wǎng)頁主鍵:網(wǎng)頁唯一標識。
網(wǎng)頁創(chuàng)建時間:文檔創(chuàng)建或網(wǎng)頁發(fā)布的時間。
網(wǎng)頁獲取時間:ForeSpider采集該網(wǎng)頁的時間。
網(wǎng)頁地址:自動采集網(wǎng)頁的URL地址。
選區(qū)內(nèi)網(wǎng)頁源碼(包含當前標簽):采集選區(qū)內(nèi)全部源代碼,包含當前節(jié)點標簽等,即整個選區(qū)的源代碼。
選區(qū)內(nèi)全部文本:最常用的類型。點擊Ctrl選擇綠框后,采集選區(qū)里的全部內(nèi)容
選區(qū)內(nèi)網(wǎng)頁源碼:采集選區(qū)內(nèi)全部源代碼,不包含當前節(jié)點標簽等。
網(wǎng)頁標題:采集網(wǎng)頁的標題。即網(wǎng)頁
③ 數(shù)據(jù)抽取鏈接處關(guān)聯(lián)表單,如圖10。
第四步:采集預覽①點擊擊右上角采集預覽,如圖11。
②雙擊任意一條鏈接,看看是否可以得到和網(wǎng)頁對應的規(guī)整的數(shù)據(jù),如圖12、圖13。