時間:2022-12-28 18:30:02 | 來源:信息時代
時間:2022-12-28 18:30:02 來源:信息時代
檢索性能評價 : 對信息檢索系統(tǒng)的檢索結(jié)果和用戶檢索請求的匹配程度,檢索結(jié)果的完備性、排序等情況進行的評價。由于信息檢索的需求是不斷變化,無法窮盡的,因此,對檢索系統(tǒng)的有限次的檢索結(jié)果評價只能反映系統(tǒng)暫時的性能,只能得到近似指標。目前常用的評價方案是在公認的測試文檔集上,選擇有代表性的若干檢索請求,在一定的相關(guān)性判定準則基礎(chǔ)上,通過比較各系統(tǒng)返回結(jié)果,得到系統(tǒng)檢索性能的評價結(jié)論,評價結(jié)論常常用一些可度量的評價指標來表示。
檢索系統(tǒng)的性能評價中,檢索結(jié)果和用戶請求的相關(guān)性判定是非常重要的評價基礎(chǔ),它是一個相對來說比較主觀的評價因素,會受多種因素的影響,如: 返回結(jié)果的內(nèi)容是否相關(guān)、是否新穎、可信程度、是否可用、使用代價多大等。不同的應(yīng)用需求會強調(diào)其中的不同因素,這就會造成同一個系統(tǒng)在不同的評價體系下,會得出不同的評價結(jié)果。實際使用的檢索系統(tǒng)中,會提供機制允許用戶選擇不同的相關(guān)性評價因素。相關(guān)性評價有二值評價和多值評價兩種。前者簡單,但不能反映真實的相關(guān)性;后者精確,但要考慮消除主觀因素的影響。二值評價常用來進行檢索系統(tǒng)性能評價,多值評價常用在相關(guān)反饋的處理機制中。相關(guān)性度量也常常被檢索系統(tǒng)用來進行檢索結(jié)果的排序,以便把用戶最需要的內(nèi)容排列在最前面。
檢索性能評價中常用的指標就是查準率(precision,亦譯為精度)和查全率(recall,亦譯為召回率),這兩個指標都采用二值相關(guān)性評價體系。查準率是指檢索結(jié)果中和用戶請求相關(guān)的結(jié)果個數(shù)占總返回數(shù)的比值;查全率是指檢索結(jié)果中和用戶請求相關(guān)的結(jié)果個數(shù)占文檔集中所有相關(guān)文檔總數(shù)的比值。理論上,查準率和查全率指標不存在必然的聯(lián)系,但在實際系統(tǒng)的測試中,查準率和查全率常常呈反比關(guān)系。查準率要求高的時候,查全率就非常低;查全率要求高的時候,查準率一般就比較低。因此,不能僅用一個指標來評價系統(tǒng),必須把兩個指標結(jié)合起來,好的檢索系統(tǒng)能夠獲得比較高的查準率同時還有比較高的查全率。
查準率和查全率的一種直觀表示是查準率/查全率曲線,橫軸是查全率,縱軸是查準率,取值范圍都在[0,1]之間。每一個請求都可以畫出一條查準率/查全率曲線。查準率/查全率曲線常被用來對比兩個系統(tǒng)的檢索性能。為了使查準率/查全率曲線具有可比性,可以選擇在固定的查全率點上計算系統(tǒng)的檢索精度的方法,來統(tǒng)一查準率/查全率曲線的畫法。這些點分別在0到1之間,每隔0.1刻度設(shè)置一個查全率點,共計11個測試點。一個系統(tǒng)對所有檢索請求的平均查準率/查全率曲線反映了這個系統(tǒng)的實際性能。一般來說,檢索性能較好的系統(tǒng)的查準率/查全率測試曲線應(yīng)該在圖上處于相對較高的位置。
根據(jù)具體應(yīng)用需求的不同,檢索性能評價在查準率和查全率指標的基礎(chǔ)上,還派生出許多其他的評價指標。當測試文檔集非常巨大的時候,如基于Web提供檢索服務(wù)時,檢索系統(tǒng)的查全率會非常難以計算。一種替代的方法是計算返回結(jié)果中前n個結(jié)果的精度來評價檢索系統(tǒng)的性能,稱為P@n精度,常用的是P@10。這個指標的現(xiàn)實意義在于人們在對諸如Web這樣海量文檔庫進行檢索,一個請求會返回成千上萬個可能的檢索結(jié)果,無法逐一瀏覽。因此,只有前面返回的少量檢索結(jié)果對用戶來說有意義。
目前,一些國際、國內(nèi)的信息檢索領(lǐng)域會議,提供檢索系統(tǒng)的性能評測比賽以促進檢索技術(shù)的進步和實用化。最著名的信息檢索評測國際會議是文本檢索會議(text retrieval conference,TREC),每年舉行一次。TREC把信息檢索劃分成不同的技術(shù)領(lǐng)域,這也反映了目前信息檢索技術(shù)的發(fā)展方向。
關(guān)鍵詞:數(shù)據(jù),評價
微信公眾號
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。