国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

15158846557 在線咨詢 在線咨詢
15158846557 在線咨詢
所在位置: 首頁 > 營銷資訊 > 營銷百科 > 網(wǎng)站采集器主要技術(shù)

網(wǎng)站采集器主要技術(shù)

時間:2023-07-16 01:03:01 | 來源:營銷百科

時間:2023-07-16 01:03:01 來源:營銷百科

網(wǎng)站采集器主要技術(shù):網(wǎng)站采集器核心技術(shù)是模式定義和模式匹配。模式屬于人工智能的術(shù)語,意思為前人所積累的經(jīng)驗的抽象和升華。簡單地說,就是從不斷重復出現(xiàn)的事件中發(fā)現(xiàn)和抽象出的規(guī)律,是解決問題的經(jīng)驗的總結(jié)。只要是一再重復出現(xiàn)的事物,就可能存在某種模式。

所以要讓網(wǎng)站采集器能夠運行,目標網(wǎng)站必須具備重復出現(xiàn)的特征。目 前大多網(wǎng)站都是動態(tài)生成的,這樣就會讓同一模板的頁面包含相同的內(nèi)容,網(wǎng)站采集器正是利用這些相同的內(nèi)容來定位采集數(shù)據(jù)的。

網(wǎng)站采集器中的模式大多不是程序自動發(fā)現(xiàn)的,目 前幾乎所有的網(wǎng)站采集器產(chǎn)品都需要通過人工來定義。但模式本身是個很復雜,很抽象的內(nèi)容,所以所有的開發(fā)者精力都花在怎樣讓模式定義更簡單,更準確,這也是網(wǎng)站采集器競爭力的衡量標準。

但我們怎樣來描述模式呢,目 前技術(shù)主要有兩種方式:正則表達式定義和文檔結(jié)構(gòu)定義。

正則表達式定義

正則表達式定義是目 前主流應(yīng)用的技術(shù),主要代表為火車頭采集器。此技術(shù)簡單,靈活性高。但用戶操作復雜。由于此模式作用于網(wǎng)頁的源代碼上,因此匹配的結(jié)果受代碼版面格式影響比較大,并且也不夠直觀,對比較復雜的頁面結(jié)構(gòu)幾乎無能為力。 目 前已經(jīng)有幾款產(chǎn)品使用輔助工具來減低用戶的操作難度。

文檔結(jié)構(gòu)定義

文檔結(jié)構(gòu)定義應(yīng)該說它是目前最先進的技術(shù),已經(jīng)具備一定的模式學習能力。此模式作用于文檔這一層,不同于正則表達式作用于頁面源代碼。所謂文檔這一層,指的是源代碼運行后所生成的實際對象,即用戶在瀏覽器所看到的內(nèi)容。所以操作可視化是此技術(shù)天生就具備的能力。

由于它是對文檔結(jié)構(gòu)進行匹配,所以它不受頁面源代碼的影響,用戶定義比較直觀,并且程序能夠根據(jù)文檔對象獲取更多的邏輯上的特征信息,匹配更準確,通用性更強。

此技術(shù)在學術(shù)研究論文上已經(jīng)呈現(xiàn)過,也在幾家實驗室開發(fā)出此類產(chǎn)品。但真正在商業(yè)上應(yīng)用很少。

目 前能夠面向普通大眾的,只有DM實驗室推出的視采采集器,該產(chǎn)品不僅在技術(shù)起點上比較高,而且在用戶使用這一層上,所獨有的實時用戶操作向?qū)Чδ芤彩亲屓梭@奇的,此技術(shù)讓專業(yè)級操作變?yōu)樯倒鲜讲僮?,真是科學讓一切變?yōu)榭赡埽?br>

關(guān)鍵詞:技術(shù),采集

74
73
25
news

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關(guān)閉