柏拉圖(platon.ai)如何工作?
時間:2023-06-01 22:06:02 | 來源:網(wǎng)站運營
時間:2023-06-01 22:06:02 來源:網(wǎng)站運營
柏拉圖(platon.ai)如何工作?:柏拉圖是一款網(wǎng)絡數(shù)據(jù)處理工具,它能夠 100% 無人干預就能將網(wǎng)頁變成數(shù)據(jù) -- 不需要配規(guī)則,甚至也不需要機器學習訓練,它是無監(jiān)督機器學習驅(qū)動的。目前,我們提供了一個可執(zhí)行的預覽版。
我們將每個網(wǎng)頁在瀏覽器中渲染后,通過 js 計算出每個網(wǎng)頁元素的一系列屬性,主要包括元素的位置和大小。同時,我們構(gòu)造了網(wǎng)頁元素的更多有趣的隱含特征,譬如拓撲和語義相關(guān)的特征。目前,包括位置和大小在內(nèi),我們?yōu)槊總€網(wǎng)頁元素構(gòu)造了 100 多個獨立特征。這樣,一張網(wǎng)頁就變成了由很多個帶屬性的矩形組成的幾何圖形(Geometric graph)。
對網(wǎng)頁進行信息抽取,也就是將一組網(wǎng)頁中意義相同的元素聚到一起,技術(shù)上就是對這組網(wǎng)頁的所有元素進行聚類(無標注)或者分類(有標注)。通過將網(wǎng)頁元素建模為帶屬性的矩形,這使得相關(guān)的機器學習任務變得格外輕松,對一組網(wǎng)頁的給定區(qū)域,機器學習算法通常能夠發(fā)現(xiàn)幾乎全部字段,并對 90% 以上字段都能獲得 99.9% 以上的精度(如圖示),這就完全擺脫了人工配規(guī)則的苦惱。
你可以下載并試用:
java -jar exotic-standalone*.jar harvest https://shopee.sg/Computers-Peripherals-cat.11013247 -diagnose -refresh
更進一步,任意給一個列表頁,我們能夠?qū)︽湷鲰撁孢M行評估,來探測哪一組頁面是由同一套模板生成的,從而其中的字段值能夠被抽取出來。
java -jar exotic-standalone*.jar arrange https://shopee.sg/Computers-Peripherals-cat.11013247
這樣,原本需要手工編寫幾個甚至幾十個正則表達式或者 CSS PATH 的網(wǎng)頁抽取問題,現(xiàn)在只需要告訴系統(tǒng)列表頁鏈接就行了,而滿足這種要求的網(wǎng)頁占據(jù)了互聯(lián)網(wǎng)上絕大多數(shù)網(wǎng)頁。
最后,我們?yōu)榕老x系統(tǒng)和數(shù)據(jù)分析系統(tǒng)配備了 SQL 引擎,這樣,我們可以僅僅使用一條 SQL 語句就實現(xiàn)監(jiān)控一個網(wǎng)站欄目,實時提取關(guān)鍵數(shù)據(jù)。事實上,配備 SQL 引擎后,互聯(lián)網(wǎng)和本地數(shù)據(jù)庫幾乎就可以同等待了(除了互聯(lián)網(wǎng)數(shù)據(jù)響應時間較久外)。
一個典型電商網(wǎng)頁局部僅僅告知列表頁鏈接,100% 零干預完整精確提取網(wǎng)頁數(shù)據(jù)僅使用一條 SQL 語句實現(xiàn)站內(nèi)商品比價并生成圖表