王建平:打造數(shù)據(jù)引擎,構(gòu)建數(shù)據(jù)底座,賦能數(shù)字經(jīng)濟(jì)
時(shí)間:2023-03-20 08:48:01 | 來源:電子商務(wù)
時(shí)間:2023-03-20 08:48:01 來源:電子商務(wù)
文 | 王建平 編輯 | 張齊齊
來源 | 首席數(shù)字官
眾所周知,互聯(lián)網(wǎng)出現(xiàn)后,信息大爆炸、數(shù)據(jù)成海量。即使是文本數(shù)據(jù)的處理,要完全擺脫人工仍然非常困難,依舊是一個(gè)全球性的難題。目前,用現(xiàn)有的爬蟲技術(shù)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語義分析等技術(shù),能夠很好解決這一問題嗎?機(jī)器對簡單文本的語義分析理解還可以,但是對復(fù)雜文本的處理還達(dá)不到實(shí)用程度。
在2022中國國際軟件發(fā)展大會暨第五屆中國軟件產(chǎn)業(yè)年會CIO高峰論壇上,北京航空航天大學(xué)國家科技資源共享服務(wù)工程技術(shù)研究中心副主任、寧波優(yōu)策信息技術(shù)有限公司創(chuàng)始人王建平教授為大家分享,如何利用原創(chuàng)算法實(shí)現(xiàn)海量數(shù)據(jù)的自動清洗和自動標(biāo)注,打通數(shù)據(jù)處理的最后一公里;如何以云模式,為用戶構(gòu)建各類大數(shù)據(jù)平臺,實(shí)時(shí)賦能數(shù)據(jù)、賦能算法和搜索引擎等技術(shù),降低用戶的技術(shù)門檻,降低系統(tǒng)的建設(shè)運(yùn)維成本
本文根據(jù)演講內(nèi)容整理。
一、從現(xiàn)象看本質(zhì)我們先來看看看幾個(gè)案例。
第一個(gè)案例,這是一家國內(nèi)最大的IT、最大的云廠商之一(出于尊重,廠商的名字隱去),承建的一個(gè)產(chǎn)業(yè)公共服務(wù)平臺,這是產(chǎn)業(yè)政策模塊、這是行業(yè)資訊模塊,前臺只分別展示幾十條過時(shí)的產(chǎn)業(yè)政策、行業(yè)資訊的數(shù)據(jù)。實(shí)際上,后臺用了爬蟲抓取了大量的政策數(shù)據(jù),因?yàn)樽詈笠徊叫枰斯ぞS護(hù),項(xiàng)目還沒有驗(yàn)收,已經(jīng)成為僵尸網(wǎng)站、僵尸平臺。
第二個(gè)案例,是另外一個(gè)國家產(chǎn)業(yè)公共服務(wù)平臺(出于尊重,平臺的名稱隱去),這是政策模塊、這是行業(yè)資訊模塊。同樣,后臺爬蟲抓來幾千萬條數(shù)據(jù),因?yàn)樾枰斯で逑?、審核,前臺只有幾百條過時(shí)的數(shù)據(jù)。
第三個(gè)案例,這是我國最大的IT行業(yè)組織的官網(wǎng),同樣有產(chǎn)業(yè)政策、產(chǎn)業(yè)資訊欄目,可以看到,2019年只有幾條數(shù)據(jù),2020年只有1、2條數(shù)據(jù),以后再沒有數(shù)據(jù)更新,也是因?yàn)樾枰斯徍恕⑷斯ぞS護(hù)。
第四個(gè)案例,這是國內(nèi)一家搜索引擎大廠(同樣出于尊重,公司的名稱隱去)的一個(gè)數(shù)據(jù)標(biāo)注基地,有一項(xiàng)工作叫標(biāo)注員,這是打標(biāo)簽的情景。
大家看到,這些平臺、網(wǎng)站使用了爬蟲,但是抓來的數(shù)據(jù)需要人工清洗、人工標(biāo)注、人工審核,所以國內(nèi)互聯(lián)網(wǎng)上,政府、園區(qū)、協(xié)會、公共服務(wù)平臺、企業(yè)的網(wǎng)站、APP、小程序出現(xiàn)了大量的僵尸??梢?,數(shù)據(jù)的最后一公里遠(yuǎn)遠(yuǎn)沒有走通,即使國內(nèi)互聯(lián)網(wǎng)大廠、IT大廠也沒有走通。
二、海量數(shù)據(jù)處理的難題與解決之道數(shù)據(jù)處理要遵循以下原則。第一,數(shù)據(jù)處理的準(zhǔn)確性。清洗、標(biāo)注準(zhǔn)確是實(shí)用的前提;第二,數(shù)據(jù)處理的及時(shí)性。數(shù)據(jù)要能夠?qū)崟r(shí)抓取、自動清洗、自動標(biāo)記;第三,數(shù)據(jù)處理的經(jīng)濟(jì)性。比如海量數(shù)據(jù)處理的人工處理的成本問題,數(shù)千萬網(wǎng)站獨(dú)立維護(hù)的社會成本和規(guī)模經(jīng)濟(jì)問題;第四,數(shù)據(jù)應(yīng)用的先進(jìn)性。采用新的技術(shù)架構(gòu)支持新的應(yīng)用場景;采用算法、智能搜索引擎等技術(shù);第五,數(shù)據(jù)處理的自適應(yīng)性。數(shù)據(jù)標(biāo)注的規(guī)則改變了系統(tǒng)能自適應(yīng),能夠滿足新增規(guī)則的需求,擺脫對大樣本素材的依賴。
數(shù)據(jù)的智能處理、人工智能技術(shù)的實(shí)現(xiàn),要解決三大技術(shù)難題。第一,精確樣本素材來源問題。機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語義技術(shù),標(biāo)注精確的大樣本、大素材哪里來?第二,規(guī)則適應(yīng)問題。數(shù)據(jù)標(biāo)注規(guī)則變了怎么辦,基于新規(guī)則的大樣本素材哪里來?第三,各類非結(jié)構(gòu)化、異構(gòu)數(shù)據(jù)的融合處理問題。
海量文本數(shù)據(jù)處理的現(xiàn)狀十分尷尬。目前,許多人工智能的應(yīng)用場景,實(shí)際上后臺人工處理、前臺智能呈現(xiàn)。但是,借助爬蟲自動采集容易,爬蟲抓來的還是一堆垃圾信息,人工處理,技術(shù)上不可取、經(jīng)濟(jì)上不成本。以文本數(shù)據(jù)處理為例,因?yàn)闆]能解決數(shù)據(jù)處理的最后一公里,數(shù)據(jù)庫處理、網(wǎng)站、APP、小程序的數(shù)據(jù)維護(hù)出現(xiàn)大問題,形成一堆僵尸數(shù)據(jù)、僵尸網(wǎng)站。
那么,海量文本數(shù)據(jù)處理的
解決之道在哪?出路在于要形成一套原創(chuàng)算法,能夠?qū)?shù)據(jù)進(jìn)行100%的自動處理,準(zhǔn)確率達(dá)到實(shí)用程度,比如95%以上,甚至更高。出路在于能夠基于云計(jì)算架構(gòu),為用戶構(gòu)建大數(shù)據(jù)平臺,實(shí)時(shí)賦能數(shù)據(jù),賦能算法、搜素引擎等技術(shù),降低用戶的技術(shù)門檻、維護(hù)成本。
三、“4+3”產(chǎn)品體系,實(shí)現(xiàn)數(shù)據(jù)智能高效處理寧波優(yōu)策信息技術(shù)有限公司、北京國信利斯特有限公司是兩個(gè)小創(chuàng)企業(yè),依托北航的技術(shù)、人才,從事大數(shù)據(jù)、人工智能的算法、架構(gòu)研究。其中,寧波優(yōu)策主要側(cè)重產(chǎn)業(yè)政策、產(chǎn)業(yè)資訊大數(shù)據(jù)平臺開發(fā),國信科技專注于產(chǎn)業(yè)人才大數(shù)據(jù)開發(fā),基于國內(nèi)最先進(jìn)的算法和架構(gòu),解決數(shù)據(jù)處理的最后一公里。
這是我們目前的4+3產(chǎn)品體系,四個(gè)獨(dú)立平臺,產(chǎn)業(yè)政策、產(chǎn)業(yè)資訊、產(chǎn)業(yè)人才以及匯聚服務(wù)機(jī)構(gòu)、服務(wù)產(chǎn)品和服務(wù)需求的專業(yè)服務(wù)大數(shù)據(jù)平臺(這是匯聚專業(yè)服務(wù)機(jī)構(gòu)、專業(yè)服務(wù)產(chǎn)品、專業(yè)服務(wù)需求的產(chǎn)業(yè)公共服務(wù)資源池),四個(gè)產(chǎn)品通過不同的組合,可以形成的產(chǎn)業(yè)公共服務(wù)生態(tài)平臺、產(chǎn)業(yè)大數(shù)據(jù)平臺、全棧建官網(wǎng)三大體系化產(chǎn)品。
4+3產(chǎn)品體系全部可以云模式為用戶搭建各類應(yīng)用,用戶通過簡單的參數(shù)設(shè)置,定制自己的行業(yè)、區(qū)域和主題類等不同平臺。當(dāng)然,目前我們也為工信部、農(nóng)業(yè)部等單位的大數(shù)據(jù)平臺,提供數(shù)據(jù)支持、提供算法支持。
下面,我們著重介紹幾個(gè)大數(shù)據(jù)平臺。
第一、產(chǎn)業(yè)政策大數(shù)據(jù)平臺這是國內(nèi)架構(gòu)、算法最先進(jìn)、數(shù)據(jù)量大的產(chǎn)業(yè)政策大數(shù)據(jù)平臺,監(jiān)控源20000,數(shù)據(jù)總量1450萬。平臺可以實(shí)現(xiàn)垂直搜索、精準(zhǔn)搜索、個(gè)性推送等功能,平臺可以基于算法和規(guī)則;通過算法實(shí)現(xiàn)數(shù)據(jù)源定制,自動形成產(chǎn)業(yè)政策專題。
目前,國內(nèi)所有政策資訊專業(yè)網(wǎng)站數(shù)據(jù)量只有幾萬、幾十萬,其原因是沒有走通政策數(shù)據(jù)處理的最后一公里,即使借助了爬蟲,最后都需要人工審核、維護(hù)。而國內(nèi)部分上市公司基于NLP、深度學(xué)習(xí)等技術(shù)開發(fā)的應(yīng)用平臺,遠(yuǎn)未到實(shí)用的程度。
技術(shù)路線的實(shí)現(xiàn)上,平臺通過爬蟲技術(shù),抓取各個(gè)中央部委、省市區(qū)縣各個(gè)政策部門的政策,采用獨(dú)有的原創(chuàng)算法,100%實(shí)現(xiàn)機(jī)器對政策的自動清洗,剔除非產(chǎn)業(yè)政策類信息(比如民生、社會治理等信息),100%實(shí)現(xiàn)機(jī)器對政策分類(通知、文件、公示、要聞、解讀)、技術(shù)領(lǐng)域、技術(shù)專題、政策部門、政策區(qū)域等產(chǎn)業(yè)政策各類屬性的自動標(biāo)記。數(shù)據(jù)處理的準(zhǔn)確率在95%以上,真正做到讓機(jī)器讀懂政策,打通政策數(shù)據(jù)處理最后一公里。
關(guān)于技術(shù)路線,想特別說明一下,這是一個(gè)零代碼為用戶定制平臺的平臺,政策分類、技術(shù)領(lǐng)域、政策區(qū)域、搜索引擎功能都是松耦合、可解耦的,面向用戶定制應(yīng)用的時(shí)候,模塊、功能可以任意疊加取舍、重新構(gòu)建。例如平臺可以解耦技術(shù)領(lǐng)域,定制用戶可任意定制不同的細(xì)分技術(shù)領(lǐng)域,而這些技術(shù)領(lǐng)域我們大平臺并沒有,上市公司賽迪顧問的官網(wǎng)、APP覆蓋的是全國所有技術(shù)領(lǐng)域,而賽迪顧問為用戶定制了數(shù)字經(jīng)濟(jì)、集成電路、鋰電池等不同技術(shù)領(lǐng)域、技術(shù)行業(yè)的平臺,這些技術(shù)領(lǐng)域是我們?yōu)橘惖项檰柖ㄖ频摹?br>
應(yīng)用模式是平臺一個(gè)重大創(chuàng)新,目前國內(nèi)沒有這樣類似的應(yīng)用場景。在云架構(gòu)支持下,用戶可以通過簡單的參數(shù)設(shè)置,以云模式獨(dú)立定制自己的區(qū)域、行業(yè)、主題類的產(chǎn)業(yè)政策大數(shù)據(jù)平臺,賦能實(shí)時(shí)數(shù)據(jù),賦能原創(chuàng)算法、搜索引擎等核心技術(shù)。用戶網(wǎng)站和平臺的網(wǎng)址、LOGO、名稱、ICP備案都是自己的,但是數(shù)據(jù)、算法、搜索引擎,是我們的數(shù)據(jù)中臺、技術(shù)中臺以云模式提供支持。
第二、產(chǎn)業(yè)資訊大數(shù)據(jù)平臺這是國內(nèi)唯一的產(chǎn)業(yè)資訊垂直搜素引擎,架構(gòu)、算法最先進(jìn),監(jiān)控源500+,數(shù)據(jù)300萬+,與產(chǎn)業(yè)政策大數(shù)據(jù)平臺不同,數(shù)據(jù)源來自綜合門戶網(wǎng)站和行業(yè)類專業(yè)網(wǎng)站。百度、谷歌是綜合搜素引擎,2C和2B混合的,我們是垂直搜索引擎,面向產(chǎn)業(yè)用戶的。這是一個(gè)引擎的引擎、平臺的平臺,基于我們的引擎,可以為用戶定制各類自己的產(chǎn)業(yè)資訊垂直搜素引擎。這樣的架構(gòu)、應(yīng)用,目前的搜素引擎是不支持的。
技術(shù)路線上,也是采用一套原創(chuàng)的核心算法,對數(shù)據(jù)進(jìn)行自動清洗,剔除非產(chǎn)業(yè)資訊類數(shù)據(jù),100%實(shí)現(xiàn)了機(jī)器對產(chǎn)業(yè)資訊各類屬性的自動標(biāo)記,打通數(shù)據(jù)處理的最后一公里。系統(tǒng)功能上,實(shí)現(xiàn)垂直搜索、精準(zhǔn)搜索、個(gè)性推送;并可通過算法實(shí)現(xiàn)數(shù)據(jù)源定制,自動形成產(chǎn)業(yè)資訊專題。
應(yīng)用模式同樣是該平臺一個(gè)重大創(chuàng)新,目前國內(nèi)搜素引擎還沒有這樣類似的應(yīng)用場景。這是一個(gè)定制引擎的引擎,用戶通過簡單的參數(shù)設(shè)置,以云模式獨(dú)立定制自己的行業(yè)、主題類的產(chǎn)業(yè)資訊大數(shù)據(jù)平臺,賦能實(shí)時(shí)數(shù)據(jù),賦能原創(chuàng)算法、搜索引擎等核心技術(shù)。
四、產(chǎn)業(yè)人才大數(shù)據(jù)平臺這是國內(nèi)算法最先進(jìn)、數(shù)據(jù)最全、精度最高的產(chǎn)業(yè)人才大數(shù)據(jù)平臺,利用自主算法,匯聚了全國大專院校、科研院所、高新技術(shù)企業(yè)中1000萬+高新技術(shù)人才;國外2000萬+外國專家,65萬的華人學(xué)者;大約2.5億的論文數(shù)據(jù),國內(nèi)專利庫1800萬專利數(shù)據(jù),還有各類政府的項(xiàng)目數(shù)據(jù)150萬。同時(shí),以人才為核心,構(gòu)建人才鏈、創(chuàng)新鏈、產(chǎn)業(yè)鏈、政策鏈互相融合的產(chǎn)業(yè)全景畫像。
系統(tǒng)架構(gòu)上同樣具有重大創(chuàng)新,該平臺基于云架構(gòu),可以云模式為用戶搭建不同區(qū)域、不同技術(shù)領(lǐng)域的產(chǎn)業(yè)人才大數(shù)據(jù)平臺。
五、典型應(yīng)用案例案例一:中國軟件政策大數(shù)據(jù)平臺和中國軟件資訊大數(shù)據(jù)平臺以云模式,為中國軟件行業(yè)協(xié)會定制了中國軟件政策大數(shù)據(jù)平臺和中國軟件資訊大數(shù)據(jù)平臺,當(dāng)天定制、當(dāng)天部署。平臺能夠?qū)崟r(shí)賦能數(shù)據(jù),賦能搜索引擎;基于軟件的行業(yè)特定,定制了人工智能、工業(yè)軟件、大數(shù)據(jù)、區(qū)塊鏈等各類專題。同時(shí),我們的平臺為協(xié)會官網(wǎng)的主頁,定制了產(chǎn)業(yè)資訊、政策要聞滾動欄。兩大平臺與要聞滾動欄,全部實(shí)現(xiàn)機(jī)器自動維護(hù),免除人工處理。
案例二:國家(寧波)工業(yè)互聯(lián)網(wǎng)公共服務(wù)生態(tài)平臺這是2020年工信部、財(cái)政部工業(yè)互聯(lián)網(wǎng)創(chuàng)新工程項(xiàng)目,作為寧波工業(yè)互聯(lián)網(wǎng)平臺應(yīng)用創(chuàng)新推廣中心的總體設(shè)計(jì)單位,我們在國內(nèi)第一次提出了產(chǎn)業(yè)公共服務(wù)生態(tài)服務(wù)、產(chǎn)業(yè)公共服務(wù)生態(tài)平臺的理念,先進(jìn)的理念、架構(gòu)、平臺和模式,在寧波市工業(yè)互聯(lián)網(wǎng)公共服務(wù)線上線下平臺率先實(shí)踐。
我們?yōu)閷幉üI(yè)互聯(lián)網(wǎng)公共服務(wù)生態(tài)平臺,定制專業(yè)服務(wù)模塊,以云模式定制產(chǎn)業(yè)政策、產(chǎn)業(yè)資訊兩大子系統(tǒng),賦能實(shí)時(shí)數(shù)據(jù),賦能原創(chuàng)算法、搜索引擎等核心技術(shù)。以云模式,為平臺官網(wǎng)主頁定制了產(chǎn)業(yè)政策、產(chǎn)業(yè)資訊的新聞滾動頁。
案例三:寧波市政府為寧波市經(jīng)信局定制推送全國產(chǎn)業(yè)政策大數(shù)據(jù)平臺,第三方廠商簡單定制,一周內(nèi)部署,賦能實(shí)時(shí)數(shù)據(jù),賦能原創(chuàng)算法、搜索引擎等核心技術(shù)。
案例四:中國電子信息產(chǎn)業(yè)發(fā)展研究院以云模式,提供產(chǎn)業(yè)政策大數(shù)據(jù)平臺,構(gòu)建中國電子信息產(chǎn)業(yè)研究院政策大數(shù)據(jù)平臺,嵌入中國電子信息產(chǎn)業(yè)發(fā)展研究院內(nèi)網(wǎng),服務(wù)于全院數(shù)千高端研究人員。
案例五:賽迪顧問股份有限公司官網(wǎng)和APP賽迪顧問股份有限公司(HK02176),以云定制模式,提供企業(yè)官網(wǎng)、企業(yè)APP的產(chǎn)業(yè)政策大數(shù)據(jù)平臺定制服務(wù),賦能1500萬+產(chǎn)業(yè)數(shù)據(jù)、賦能搜素引擎技術(shù)。
案例六:北京軟件和信息服務(wù)業(yè)協(xié)會以云模式,為北京軟件和信息服務(wù)業(yè)協(xié)會官網(wǎng)以及協(xié)會運(yùn)維的國家公共服務(wù)平臺(軟件無限)構(gòu)建北京軟件產(chǎn)業(yè)政策大數(shù)據(jù)平臺。
案例七:中國數(shù)字經(jīng)濟(jì)發(fā)展指數(shù)(德陽指數(shù))平臺以云模式,為賽迪顧問股份有限公司(HK02176打造的中國數(shù)字經(jīng)濟(jì)發(fā)展指數(shù)(德陽指數(shù))平臺,提供數(shù)字經(jīng)濟(jì)領(lǐng)域的產(chǎn)業(yè)政策、行業(yè)資訊模塊信息推送。
案例八:中電光谷聯(lián)合控股有限公司中電光谷聯(lián)合控股有限公司(
http://00798.HK)是中國電子體系企業(yè),香港上市公司,全國有近80個(gè)產(chǎn)業(yè)園區(qū),以開放API模式,提供數(shù)據(jù)中臺、技術(shù)中臺支持。
案例九:溫州瑞安市人才地圖系統(tǒng)與瑞安市合作定制“瑞安市人才地圖系統(tǒng)”,幫助政府分析當(dāng)?shù)禺a(chǎn)業(yè)、人才現(xiàn)狀與布局,助力區(qū)域產(chǎn)業(yè)發(fā)展優(yōu)勢識別與策略制定。
案例十:寧波市產(chǎn)業(yè)人才大腦新材云創(chuàng)為寧波市“產(chǎn)業(yè)人才大腦新材云創(chuàng)”,提供專家人才數(shù)據(jù)和算法服務(wù)。
總結(jié):依托北京航空航天大學(xué)的研究開發(fā)能力和人才資源的支持,寧波優(yōu)策信息技術(shù)有限公司、北京國信利斯特有限公司兩家高新技術(shù)企業(yè),開發(fā)了一套原創(chuàng)算法,解決產(chǎn)業(yè)政策、產(chǎn)業(yè)資訊、產(chǎn)業(yè)人才的數(shù)據(jù)的最后一公里;我們以云模式,為政府、產(chǎn)業(yè)園區(qū)、孵化器、事業(yè)單位、研機(jī)構(gòu)、科技企業(yè)定制區(qū)域、行業(yè)、主題類大數(shù)據(jù)平臺,實(shí)時(shí)賦能數(shù)據(jù),賦能算法和搜索引擎等技術(shù)。
感謝大家聆聽,歡迎批評指正,謝謝。
關(guān)鍵詞:數(shù)據(jù),數(shù)字,經(jīng)濟(jì),建平,打造,引擎