圖解Dedecms網(wǎng)站后臺(tái)文章采集功能的使用方法步驟
時(shí)間:2022-05-26 00:39:01 | 來源:網(wǎng)絡(luò)營銷
時(shí)間:2022-05-26 00:39:01 來源:網(wǎng)絡(luò)營銷
本篇文章是為了初次接觸Dedecms采集功能的朋友所寫的,所選取的目標(biāo)站點(diǎn)為文章內(nèi)容頁面不含有分頁的Dedecms官方網(wǎng)站的dreameaver欄目文章,通過圖文并茂的形式,詳細(xì)地介紹了如何創(chuàng)建一個(gè)基本的采集規(guī)則。
本文共分為三節(jié):第一節(jié),主要是介紹如何進(jìn)入采集界面和新增采集節(jié)點(diǎn)中的第一步:設(shè)置基本信息及網(wǎng)址索引頁規(guī)則;第二節(jié),主要是介紹新增采集節(jié)點(diǎn)中的第二步:設(shè)置字段獲取規(guī)則;第三節(jié),主要是介紹如何采集指定節(jié)點(diǎn)和如何導(dǎo)出采集內(nèi)容。
一、設(shè)置基本信息及網(wǎng)址索引頁規(guī)則 下面我們先進(jìn)入第一節(jié),介紹如何進(jìn)入采集界面和新增采集節(jié)點(diǎn)中的第一步:設(shè)置基本信息及網(wǎng)址索引頁規(guī)則。
1、進(jìn)入采集節(jié)點(diǎn)管理界面 如(圖1)所示,在后臺(tái)管理界面的主菜單中單擊“采集”。
圖1-后臺(tái)管理界面
然后單擊“采集節(jié)點(diǎn)管理”,即可進(jìn)入采集節(jié)點(diǎn)管理界面,如(圖2)所示。
圖2-采集節(jié)點(diǎn)管理界面
2、增加新節(jié)點(diǎn) 在采集節(jié)點(diǎn)管理界面中,單擊左下角的“增加新節(jié)點(diǎn)”或者右上角的“添加新節(jié)點(diǎn)”(如圖2),都可進(jìn)入“選擇內(nèi)容模型”界面,如(圖3)所示,
圖3-選擇內(nèi)容模型界面
在“選擇內(nèi)容模型”界面的下拉列表框中,有“普通文章”和“圖片集”可供選擇。根據(jù)被采集頁面的類型,選擇相應(yīng)的內(nèi)容模型。
本文這里選擇“普通文章”,單擊確定后,便可進(jìn)入“新增采集節(jié)點(diǎn):第一步設(shè)置基本信息及網(wǎng)址索引頁規(guī)則”界面,如(圖4)所示,
圖4-新增采集節(jié)點(diǎn):第一步設(shè)置基本信息及網(wǎng)址索引頁規(guī)則
(1)、設(shè)置節(jié)點(diǎn)基本信息 圖5-節(jié)點(diǎn)基本信息
如(圖5)所示,節(jié)點(diǎn)名稱:給新建立的節(jié)點(diǎn)起一個(gè)名字,這里填上“采集測試(一)”
目標(biāo)頁面編碼:設(shè)定被采集目標(biāo)頁的編碼格式,有GB2312、UTF8和BIG5三種??赏ㄟ^在被采集目標(biāo)頁面上,單擊右鍵后選擇“查看源文件”來獲取。
操作步驟:
(a)、打開被采集的目標(biāo)頁:http://www.mahaixiang.cn/CMS/226.html
(b)、單擊右鍵后選擇“查看源文件”,找到“charset”,如(圖6)所示:
圖6-查看源文件
其等號(hào)后面的代碼就是所需的“編碼格式”,這里是“gb2312”。
“區(qū)域匹配模式”:設(shè)定如何匹配所需采集的內(nèi)容部分,可采用字符串或者正則表達(dá)式。系統(tǒng)默認(rèn)的模式是字符串。如果比較了解正則表達(dá)式的朋友,可以在這里選擇正則表達(dá)式的模式。
“內(nèi)容導(dǎo)入順序”:指定文章列表導(dǎo)入時(shí)候的順序,可以選擇“與目標(biāo)站一致”或“與目標(biāo)站相反”。
“防盜鏈模式”:針對(duì)被采集的目標(biāo)站點(diǎn)有無刷新限制。一開始很難判斷出來,需要測試后才能知道。如果有的話,這里需要設(shè)置一下“資源下載超時(shí)時(shí)間”。
“引用網(wǎng)址”:填入任何一個(gè)即將被采集的文章內(nèi)容頁面的網(wǎng)址。
具體操作步驟:
(a)、在已打開的文章列表頁中,單擊第一篇文章的
標(biāo)題“在Dreamweaver中為插入的Flash添加透明”,以打開文章內(nèi)容頁面,如(圖7)所示,
圖7-文章內(nèi)容頁面
(b)、此時(shí)在瀏覽器的URL地址欄中顯示的網(wǎng)址,即為需要填寫在“引用網(wǎng)址”處的網(wǎng)址,如(圖8)所示,
圖8-瀏覽器的URL地址欄
到這里,“節(jié)點(diǎn)基本信息”就設(shè)置完成了。
最后結(jié)果,如(圖9)所示:
圖9-設(shè)置后的節(jié)點(diǎn)基本信息
檢查無誤后,進(jìn)入下一步設(shè)置。
(2)、設(shè)置列表網(wǎng)址獲取規(guī)則 如(圖10)所示:
圖10-列表網(wǎng)址獲取規(guī)則
這里是設(shè)置被采集的文章列表頁的匹配規(guī)則。如果被采集的文章列表頁有一定的規(guī)律,可選擇“批量生成列表網(wǎng)址”;如果被采集的文章列表頁完全沒有規(guī)律可循,那么可選擇“手工指定列表網(wǎng)址”;如果被采集的站點(diǎn)提供了RSS,則可以選擇“從RSS中獲取”。
對(duì)于特殊情況,例如:部分列表頁有規(guī)律,而其余的又沒有規(guī)律,則可在“匹配網(wǎng)址”中填上有規(guī)律的部分,然后把沒有規(guī)律的部分填寫在“手動(dòng)指定網(wǎng)址”。
具體操作步驟:
(a)、首先,回到已打開的文章列表頁,找到瀏覽器的URL地址欄中顯示的網(wǎng)址(圖8)和頁面底部的換頁部分。如(圖11)所示,
圖11-換頁
(b)、單擊“2”,打開文章列表頁的第二頁,此時(shí)瀏覽器的URL地址欄中所顯示的網(wǎng)址和頁面底部的換頁部分,如(圖12)和(圖13)所示,
圖12-第二頁的網(wǎng)址
圖13-第二頁的換頁部分
(c)、在已打開的文章列表頁的第二頁上面,單擊(1),打開文章列表頁的首頁,這時(shí)頁面底部的換頁部分與圖11相同,而瀏覽器的URL地址欄中所顯示的網(wǎng)址與之前圖8并不相同,如(圖14)所示:
圖14-第一頁的網(wǎng)址
(d)、由(b)和(c)推知,此處被采集的文章列表頁的網(wǎng)址所遵循規(guī)律為:http://www.xxxxx.com/knowledge/web-based/dreamweaver/list_47_(*).html。穩(wěn)妥起見,請(qǐng)自行測試更多列表頁。確定規(guī)律后,在“匹配網(wǎng)址”中,填入文章列表頁所遵循的規(guī)律。
(e)、最后,指定需要采集的頁碼或者規(guī)律數(shù)字,并設(shè)定其遞增規(guī)律。
到這里,“列表網(wǎng)址獲取規(guī)則”部分就設(shè)置結(jié)束了。最后結(jié)果,如(圖15)所示:
圖15-設(shè)置后的列表網(wǎng)址獲取規(guī)則
確定正確后,進(jìn)入下一步設(shè)置。
(3)、設(shè)置文章網(wǎng)址匹配規(guī)則 如(圖16)所示:
圖16-文章網(wǎng)址匹配規(guī)則
這里是設(shè)置被采集文章列表頁的匹配規(guī)則。
具體操作步驟:
(a)、對(duì)于“區(qū)域開始的HTML”,可通過在打開的文章列表首頁上,單擊右鍵后選擇“查看源文件”。在源文件中,找到第一篇文章的標(biāo)題“在Dreamweaver中為插入的Flash添加透明”,如(圖17)所示:
圖17-查看源文件中,第一篇文章的標(biāo)題
通過觀察,不難看出“<div class=“arc_list”>”為整個(gè)文章列表的開始部分。因此,在“區(qū)域開始的HTML”中,填入”<div class=“arc_list”>”。
(b)、在源文件中,找到最后一篇文章標(biāo)題“通過Dreamweaver設(shè)計(jì)網(wǎng)頁時(shí)組織CSS的建議”,如(圖18)所示:
圖18-查看源文件中,最后一篇文章的標(biāo)題
結(jié)合文章列表的開始部分并通過觀察可知,第一個(gè)“</div>”為整個(gè)文章列表的結(jié)束部分。因此,在“區(qū)域結(jié)束的HTML”中,應(yīng)填入”</div>”。
“如果鏈接中含有圖片”:設(shè)置對(duì)鏈接中含有圖片的處理方式,有不處理和采集為縮略圖可選。可根據(jù)實(shí)際需要選擇。
“對(duì)區(qū)域網(wǎng)址進(jìn)行再次篩選”:可以使用正則表達(dá)式對(duì)區(qū)域網(wǎng)站進(jìn)行再次篩選,這是針對(duì)一些需要被保留或者需要濾掉的內(nèi)容,尤其是混編的列表頁面,通過使用“必須包含”或者“不能包含”過濾掉所希望獲取或者不希望獲取的文章內(nèi)容頁面的網(wǎng)址。
具體操作步驟:
回到正在打開的文章列表首頁的源文件,通過觀察可知,每一個(gè)文章內(nèi)容頁面地址的擴(kuò)展名均為.html。因此,可在“必須包含”中,填入“.html”。
到這里,“文章網(wǎng)址匹配規(guī)則“就設(shè)置結(jié)束了。最后結(jié)果, 如(圖19)所示,
圖19-設(shè)置后的文章網(wǎng)址匹配規(guī)則
通過1.2.1小節(jié)、1.2.2小節(jié)和1.2.3小節(jié),新增采集節(jié)點(diǎn)的第一步就已經(jīng)設(shè)置完成了。設(shè)置后的結(jié)果,如(圖20)所示:
圖20-設(shè)置后的新增采集節(jié)點(diǎn):第一步設(shè)置基本信息及網(wǎng)址索引頁規(guī)則
全部完成并檢查無誤后,單擊“保存信息并進(jìn)入下一步設(shè)置“。如果之前設(shè)置正確,單擊后,將會(huì)進(jìn)入“新增采集節(jié)點(diǎn):測試基本信息及網(wǎng)址索引頁規(guī)則設(shè)置的網(wǎng)址獲取規(guī)則測試”頁面并看到相應(yīng)的文章列表地址。如(圖21)所示,
圖21-網(wǎng)址獲取規(guī)則測試
確定正確無誤后,單擊“保存信息并進(jìn)入下一步設(shè)置”。
否則,請(qǐng)單擊“返回上一步進(jìn)行修改“。
二、設(shè)置字段獲取規(guī)則 接下來,我將會(huì)對(duì)新增采集節(jié)點(diǎn)中的第二步:“設(shè)置字段獲取規(guī)則”做詳細(xì)的說明。為了與前文保持一致,本文將延續(xù)使用前文的章節(jié)標(biāo)記。
1、新增采集節(jié)點(diǎn):第二步設(shè)置內(nèi)容字段獲取規(guī)則 單擊“保存信息并進(jìn)入下一步設(shè)置”后,便可進(jìn)入“新增采集節(jié)點(diǎn):第二步設(shè)置內(nèi)容字段獲取規(guī)則”頁面,如(圖22)所示,
圖22-設(shè)置內(nèi)容字段獲取規(guī)則
在預(yù)覽網(wǎng)址處,系統(tǒng)將會(huì)自動(dòng)指定一篇將被采集文章內(nèi)容頁面的網(wǎng)址(一般為所采集列表頁面的第一篇文章網(wǎng)址),作為示范頁面。如果文章內(nèi)容頁面含有分頁,則需設(shè)置“內(nèi)容分頁導(dǎo)航所在的區(qū)域匹配規(guī)則”。
對(duì)于“固定采集項(xiàng)目”中的“內(nèi)容摘要、關(guān)鍵字和縮略圖“三個(gè)部分,系統(tǒng)會(huì)用正則進(jìn)行自動(dòng)匹配,這里僅需配置過濾內(nèi)容即可。下面主要介紹如何獲取“文章標(biāo)題、文章作者、文章來源、發(fā)布時(shí)間和文章內(nèi)容”的采集規(guī)則,過濾規(guī)則僅簡單涉及。
2、獲取文章標(biāo)題的采集規(guī)則 首先,打開“預(yù)覽網(wǎng)址“的頁面并單擊右鍵,選擇”查看源代碼“,找到文章標(biāo)題” 在Dreamweaver中為插入的Flash添加透明“,如(圖23)所示,
圖23-在源代碼中的文章標(biāo)題
這里的文章標(biāo)題處在“<h1></h1>”之間,由于在此頁面中多次出現(xiàn)這組標(biāo)簽,因此這里應(yīng)該填寫“<div class=”arcbody”><h1>[內(nèi)容]</h1>”作為文章標(biāo)題的匹配規(guī)則。如果在文章標(biāo)題中含有相關(guān)鏈接等,可使用過濾規(guī)則加以處理,這里無需設(shè)置。填寫后,如圖24所示,
圖24-文章標(biāo)題的采集規(guī)則
3、獲取文章作者的采集規(guī)則 如上圖23所示,在“作者:”二字后面有一組標(biāo)簽“<font color=”red”></font>”,以此猜測,作者名將會(huì)寫在這組標(biāo)簽之間。同樣,為了保持唯一性,這里應(yīng)填寫”作者:<font color=“red”>[內(nèi)容]</font>“作為文章作者的采集規(guī)則。
謹(jǐn)慎起見,請(qǐng)根據(jù)文章列表中其他文章內(nèi)容頁面查證此采集規(guī)則是否正確。這里不需要使用過濾規(guī)則。填寫后,如圖25所示,
圖25-文章作者的采集規(guī)則
4、獲取文章來源的采集規(guī)則 在上圖23中,可發(fā)現(xiàn)“來源:”二字后面有一組標(biāo)簽“<font color=”red”></font>”,以此猜測,來源內(nèi)容將會(huì)寫在這組標(biāo)簽之間。與2.1.2處理方式相同,為了保持唯一性,文章來源的采集規(guī)則應(yīng)為“來源:<font color=“red”>[內(nèi)容]</font>“。同樣,這里也不需要使用過濾規(guī)則。填寫后,如圖26所示,
圖26-文章來源的采集規(guī)則
5、獲取文章發(fā)布時(shí)間的采集規(guī)則 再次回到圖23,找到“發(fā)表于:”及其后的“<font color=”red”>2009-09-29 14:21</font>”,與之前獲取采集規(guī)則方法相同,此處應(yīng)把“發(fā)表于: <font color=”red”>[內(nèi)容]</font>”作為發(fā)布時(shí)間的采集規(guī)則。同樣,這里也不需要使用過濾規(guī)則。填寫后,如圖27所示,
圖27-文章發(fā)布時(shí)間的采集規(guī)則
6、獲取文章內(nèi)容的采集規(guī)則 這個(gè)部分是編寫采集規(guī)則的重點(diǎn),也是難點(diǎn)。需要特別注意。
具體操作步驟:
(a)、回到正在打開的文章內(nèi)容頁面的源代碼,找到文章內(nèi)容的開始部分“Dreamweaver升級(jí)到8.0.2后”,如圖28所示,
圖28-文章內(nèi)容的開始部分
注意:在源代碼中,有兩處都出現(xiàn)了這句話。其中,第一句在“<div class=”intro”>”之后,第二句在“<div class=”content”><p>”之后。通過對(duì)比文章內(nèi)容頁面及其源代碼,不難發(fā)現(xiàn),第一處實(shí)為摘要,第二處才為文章內(nèi)容的開始部分。因此,應(yīng)選取“<div class=”content”>”為匹配規(guī)則的開始部分。
(b)、找到文章內(nèi)容的結(jié)束部分“同樣是添加值為“transparent”的“wmode”參數(shù)。”,如圖29所示,
圖29-文章內(nèi)容的結(jié)束部分
注意:由于結(jié)束部分的最后標(biāo)簽為”</p>”,而此標(biāo)簽在文章內(nèi)容中多次出現(xiàn)。因此,不能作為采集規(guī)則的結(jié)束標(biāo)簽??紤]到應(yīng)與文章內(nèi)容的開始部分相對(duì)應(yīng),經(jīng)對(duì)比和分析后得出,此處應(yīng)選取“</div>”作為文章內(nèi)容的結(jié)束部分,如圖30所示:
圖30-文章內(nèi)容匹配規(guī)則的結(jié)束部分
(c)、綜合(a)和(b)可知,此處文章內(nèi)容的匹配規(guī)則應(yīng)為“<div class=”content”>[內(nèi)容]</div>”,填寫后,如圖31所示,
圖31-文章內(nèi)容的匹配規(guī)則
這里占時(shí)不使用過濾規(guī)則,關(guān)于過濾規(guī)則的介紹和使用,將會(huì)放在單獨(dú)的章節(jié)中。
到這里,“新增采集節(jié)點(diǎn):第二步設(shè)置內(nèi)容字段獲取規(guī)則”,就設(shè)置完成了。填寫后,如(圖32)所示,
圖32-設(shè)置后的新增采集節(jié)點(diǎn):第二步設(shè)置內(nèi)容字段獲取規(guī)則
檢查無誤后,單擊“保存配置并預(yù)覽”。如果之前設(shè)置正確,單擊后,將會(huì)進(jìn)入“新增采集節(jié)點(diǎn):測試內(nèi)容字段設(shè)置”頁面并看到相應(yīng)的文章內(nèi)容。如(圖33)所示,
圖33-新增采集節(jié)點(diǎn):測試內(nèi)容字段設(shè)置
確定正確無誤后,如果單擊“僅保存”,系統(tǒng)將會(huì)提示“成功保存配置“并返回”采集節(jié)點(diǎn)管理“界面;如果單擊“保存并開始采集“,將會(huì)進(jìn)入”采集指定節(jié)點(diǎn)“界面。
否則,請(qǐng)單擊“返回上一步進(jìn)行修改”。
三、如何采集指定節(jié)點(diǎn)和如何導(dǎo)出采集內(nèi)容 在前兩節(jié)的基礎(chǔ)上,將會(huì)對(duì)“如何采集指定節(jié)點(diǎn)”和“如何導(dǎo)出采集內(nèi)容”做詳細(xì)的說明,為了與前文保持一致,將延續(xù)使用前文的章節(jié)標(biāo)記,繼續(xù)來講講如何采集指定節(jié)點(diǎn)和如何導(dǎo)出采集內(nèi)容。
1、采集指定節(jié)點(diǎn) 單擊“保存并開始采集“后,將會(huì)進(jìn)入”采集指定節(jié)點(diǎn)“界面,如(圖34)所示,
圖34-采集指定節(jié)點(diǎn)
每頁采集:設(shè)置每頁所需采集的條數(shù),并可根據(jù)網(wǎng)站是否有防刷新功能,設(shè)置采集間隔時(shí)間。
特殊選項(xiàng):設(shè)置是否檢測重復(fù)圖片,默認(rèn)為“檢測”。
附加選項(xiàng):此選項(xiàng)一共有3種采集模式可供選擇:
第一種為“監(jiān)控采集模式(檢測當(dāng)前或所有節(jié)點(diǎn)是否有新內(nèi)容)”,選取后,系統(tǒng)只會(huì)采集指定節(jié)點(diǎn)中更新的內(nèi)容。
第二種為“重新下載全部內(nèi)容”,選取后,系統(tǒng)會(huì)采集指定節(jié)點(diǎn)中的全部內(nèi)容。
第三種為“下載種子網(wǎng)站的未下載內(nèi)容”,選取后,系統(tǒng)只會(huì)采集指定節(jié)點(diǎn)中未下載過的內(nèi)容,包括以前沒下載的和更新的內(nèi)容。
設(shè)置完成并確定無誤后,可單擊“開始采集網(wǎng)頁”或者“查看種子網(wǎng)址”。此時(shí),如果單擊“查看種子網(wǎng)址”會(huì)看到列表是空的,這是因?yàn)樾陆⒌牟杉?jié)點(diǎn)從未采集過,如(圖35)所示:
圖35-查看節(jié)點(diǎn)的種子網(wǎng)址
單擊“開始采集網(wǎng)頁”后,系統(tǒng)便會(huì)開始采集節(jié)點(diǎn)中設(shè)置的網(wǎng)址,并出現(xiàn)相關(guān)提示,如(圖36)所示:
圖36-采集進(jìn)程中提示信息
采集結(jié)束后,再次單擊“查看種子網(wǎng)址”或者單擊頁面右上角的“查看已下載”,便可看到已采集到的網(wǎng)址信息,如(圖37)所示:
圖37-查看節(jié)點(diǎn)的種子網(wǎng)址
2、導(dǎo)出采集內(nèi)容 成功采集以后,可以根據(jù)實(shí)際需要選擇頁面右上角的單擊“采集節(jié)點(diǎn)管理”或者“導(dǎo)出數(shù)據(jù)”。單擊“導(dǎo)出數(shù)據(jù)“后,便可進(jìn)入” 采集管理> 采集內(nèi)容導(dǎo)出“界面,如(圖38)所示:
圖38-采集內(nèi)容導(dǎo)出
“默認(rèn)導(dǎo)出欄目“:設(shè)置要把采集到的內(nèi)容導(dǎo)入到的欄目
“批量采集選項(xiàng)”:如果在采集規(guī)則中已指定欄目ID,則可使用此功能,若指定的欄目ID為0,系統(tǒng)會(huì)把采集內(nèi)容導(dǎo)入到“默認(rèn)導(dǎo)出欄目”所選擇的欄目中。
“發(fā)布選項(xiàng)“:有發(fā)布成“普通文檔”和“保存為草稿”可供選擇。
“每批導(dǎo)入“:設(shè)置每批導(dǎo)入的條數(shù),此數(shù)不宜過大。
“附帶選項(xiàng)“:此處為多選。如果不希望采集到重復(fù)的文章標(biāo)題,可選中“排除重復(fù)標(biāo)題”;如果希望被采集到的內(nèi)容直接生成HTML的話,可選中“完成后自動(dòng)生成導(dǎo)入內(nèi)容HTML”;如果希望系統(tǒng)在采集列表頁時(shí)自動(dòng)識(shí)別標(biāo)題名,可選中“使用列表索引的標(biāo)題”,一般不建議勾選。
“隨機(jī)推薦”:填入一個(gè)數(shù)字,代表文檔篇數(shù)。在所填入的文檔篇數(shù)內(nèi)隨機(jī)出現(xiàn)一篇推薦文檔,若填入“0”,則表示為不推薦。
設(shè)置完成后,可單擊“確定”,就可以把下載的導(dǎo)入到所選的欄目中了,如(圖39)所示,
圖39-設(shè)置完成后的采集內(nèi)容導(dǎo)出頁面
同時(shí),系統(tǒng)將會(huì)有導(dǎo)出進(jìn)程提示,如(圖40)所示:
圖40-采集內(nèi)容導(dǎo)出中的提示信息
導(dǎo)出采集內(nèi)容提示“完成所有欄目列表更新”后,單擊“瀏覽欄目”,便可進(jìn)入網(wǎng)站的相關(guān)頁面查看到采集到的文章列表及其具體內(nèi)容。也可在后臺(tái)管理界面的主菜單中單擊“核心”,然后單擊“普通文章”,進(jìn)入“文檔列表”頁面,查看所采集到的文章列表,如(圖41)所示:
圖41-文檔列表
到此為止,已成功采集到了目標(biāo)網(wǎng)站的文章內(nèi)容。
總結(jié),采集“不含分頁的普通文章”還是相對(duì)比較簡單的,由于本篇文章是一篇基礎(chǔ)教程,因此并沒有過多的涉及到“過濾規(guī)則”。
附上本文的采集規(guī)則: {dede:listconfig}
{dede:noteinfo notename="采集測試(一)" channelid="1" macthtype="string"
refurl="http://www.dedecms.com/knowledge/web-based/dreamweaver/2009/0929/765.html" sourcelang="gb2312" cosort="asc" isref="no" exptime="10" usemore="0" /}
{dede:listrule sourcetype="batch" rssurl="http://" regxurl="http://www.dedecms.com/knowledge/web-based/dreamweaver/list_47_(*).html"
startid="1" endid="1" addv="1" urlrule="area"
musthas=".html" nothas="" listpic="1" usemore="0"}
{dede:addurls}{/dede:addurls}
{dede:batchrule}{/dede:batchrule}
{dede:regxrule}{/dede:regxrule}
{dede:areastart}<div class="arc_list">{/dede:areastart}
{dede:areaend}</div>{/dede:areaend}
{/dede:listrule}
{/dede:listconfig}
{dede:itemconfig}
{dede:sppage sptype='full' sptype='full' srul='1' erul='5'}{/dede:sppage}
{dede:previewurl}http://www.dedecms.com/knowledge/web-based/dreamweaver/2009/0929/765.html{/dede:previewurl}
{dede:keywordtrim}{/dede:keywordtrim}
{dede:descriptiontrim}{/dede:descriptiontrim}
{dede:item field='title' value='' isunit='' isdown=''}
{dede:match}<div class="arcbody"><h1>[內(nèi)容]</h1>{/dede:match}
{dede:function}{/dede:function}
{/dede:item}
{dede:item field='writer' value='' isunit='' isdown=''}
{dede:match}作者:<font color="red">[內(nèi)容]</font>{/dede:match}
{dede:function}{/dede:function}
{/dede:item}
{dede:item field='source' value='' isunit='' isdown=''}
{dede:match}來源:<font color="red">[內(nèi)容]</font>{/dede:match}
{dede:function}{/dede:function}
{/dede:item}
{dede:item field='pubdate' value='' isunit='' isdown=''}
{dede:match}發(fā)表于:<font color="red">[內(nèi)容]</font>{/dede:match}
{dede:function}@me=GetMkTime(@me);{/dede:function}
{/dede:item}
{dede:item field='body' value='' isunit='1' isdown='1'}
{dede:match}<div class="content">[內(nèi)容]</div>{/dede:match}
{dede:function}{/dede:function}
{/dede:item}
{/dede:itemconfig}
注:以上采集規(guī)則僅供參考,細(xì)節(jié)問題需自己調(diào)整!
億企邦點(diǎn)評(píng): 一個(gè)網(wǎng)站的文章老是采集,確實(shí)對(duì)網(wǎng)站的排名傷害非常的大,這會(huì)嚴(yán)重影響文章的稀缺性,如果資源豐富,最好還是自己原創(chuàng)或者偽原創(chuàng),只是采集的網(wǎng)站很難有大的作為,采集需謹(jǐn)慎,K站很嚴(yán)重!
另外,每個(gè)采集器都有它的獨(dú)特之處,所謂存在即合理,請(qǐng)根據(jù)自己的需求來選擇即可!