1958年H. P.盧恩(Hans Peter Luhn)提出的“商業(yè)" />
時(shí)間:2022-10-08 14:30:01 | 來源:信息時(shí)代
時(shí)間:2022-10-08 14:30:01 來源:信息時(shí)代
文本過濾 : 依據(jù)一定的標(biāo)準(zhǔn)和運(yùn)用一定的工具從大量的文本數(shù)據(jù)流中選取用戶需要的信息,或剔除用戶不需要的信息的方法,亦稱“信息過濾”。
1958年H. P.盧恩(Hans Peter Luhn)提出的“商業(yè)智能機(jī)器”是文本過濾的最早雛形,其所提出的構(gòu)想涉及信息過濾系統(tǒng)的每一個(gè)方面,為后來的文本過濾做了很好的鋪墊。1987年T. W. 馬龍(Thomas W. Malone)等人提出了認(rèn)知、經(jīng)濟(jì)、社會(huì)的信息選擇模式,其中認(rèn)知模式相當(dāng)于基于內(nèi)容的信息過濾;經(jīng)濟(jì)模式來自于D. 丹寧(Dorothy Denning)的閾值接受思想;社會(huì)模式即協(xié)同過濾。1989年,美國第二屆消息理解會(huì)議(Message Understanding Conferences,MUC)開始將自然語言處理技術(shù)引入到信息研究中來。20世紀(jì)90年代,文本檢索會(huì)議(Text Retrieval Conference,TREC)每年都把文本過濾當(dāng)作一個(gè)重要的研究內(nèi)容,促進(jìn)了文本過濾技術(shù)的發(fā)展。從第四屆文本檢索會(huì)議(TREC-4)開始,增加了文本過濾的項(xiàng)目;從1997年第六屆文本檢索會(huì)議(TREC-6)開始,文本過濾主要任務(wù)確定下來;第七屆文本檢索會(huì)議(TREC-7)又將信息分為自適應(yīng)過濾、批過濾和分流過濾,使得對信息過濾的研究更加深入。中文文本過濾技術(shù)研究起步于21世紀(jì)第一個(gè)十年,隨著信息安全、信息定制等應(yīng)用的興起,中國對于信息過濾尤其是文本過濾技術(shù)的研究也得到人們普遍的重視。中國科學(xué)院計(jì)算機(jī)研究所、復(fù)旦大學(xué)都曾參加了文本檢索會(huì)議評測中的信息過濾任務(wù),哈爾濱工業(yè)大學(xué)、南開大學(xué)等重點(diǎn)科研單位也已經(jīng)開始對信息過濾進(jìn)行了研究。
文本過濾工作基本上可以概括為兩項(xiàng):一是建立用戶需求模型,表達(dá)用戶對信息的具體需求;二是檢索匹配技術(shù),即信息過濾、信息檢索和文本匹配技術(shù)。文本過濾的主要流程是:首先根據(jù)用戶的信息需求,建立用戶需求模型;然后在相應(yīng)的文本流中搜索符合用戶需求的文本,同時(shí)利用反饋改進(jìn)需求模型。隨著信息過濾需求的增長和研究的深入發(fā)展,其他相關(guān)領(lǐng)域的技術(shù)被應(yīng)用到文本過濾中,如信息檢索中的相關(guān)反饋、偽相關(guān)反饋,以及文本檢索中的向量空間模型技術(shù)、文本分類和聚類技術(shù)、機(jī)器學(xué)習(xí)以及語言底層的處理技術(shù),拓展了文本過濾的研究廣度,推動(dòng)了文本過濾理論研究與技術(shù)應(yīng)用的發(fā)展。
客戶&案例
營銷資訊
關(guān)于我們
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。