時間:2022-12-20 02:30:02 | 來源:信息時代
時間:2022-12-20 02:30:02 來源:信息時代
多媒體信息檢索 : 通過分析其特征,按相似匹配度量模式,在文本、圖形、圖像、視頻和音頻等為表現(xiàn)形式的各種媒體數(shù)據(jù)庫中,與用戶查詢進(jìn)行比較,將查找到的相似度高的一組信息反饋給用戶的一種信息檢索。其中,用戶查詢請求可以通過自然語言文本或是關(guān)鍵詞來表達(dá),也可以提交示例查詢。例如,一幅圖像或一段音樂。由于早期計(jì)算機(jī)處理能力的限制,無法實(shí)現(xiàn)快速處理圖像、視頻和音頻等信息,信息檢索的主要對象以純文本文檔為主,傳統(tǒng)的信息檢索也就是指針對無結(jié)構(gòu)的文本的檢索。為了檢索圖像、視頻和音頻等媒體信息,需要對這些信息進(jìn)行文本(關(guān)鍵字)標(biāo)注,采用檢索純文本的檢索技術(shù)實(shí)現(xiàn)對多媒體信息的檢索。隨著通信網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)的迅速發(fā)展,多媒體信息已經(jīng)廣泛應(yīng)用于Internet以及各個領(lǐng)域的信息系統(tǒng)中,采用人工標(biāo)注檢索多媒體信息的方法難以適應(yīng)發(fā)展需要。這不僅由于大量的多媒體標(biāo)注費(fèi)時、費(fèi)力,人工難以勝任,而且圖像、視頻、音頻數(shù)據(jù)本身包含大量的難以用文本表示的信息線索,由此基于內(nèi)容的檢索(consent-based retrieval,CBR)技術(shù)應(yīng)運(yùn)而生。
基于內(nèi)容的檢索是指計(jì)算機(jī)自動對圖像、視頻、音頻等媒體內(nèi)容進(jìn)行分析,提取媒體和媒體對象的內(nèi)容語義特征,根據(jù)這些特征和上下文聯(lián)系進(jìn)行檢索?;趦?nèi)容的檢索特點(diǎn)表現(xiàn)在: 需要采用包括圖像處理、模式識別、計(jì)算機(jī)視覺、語音識別和合成等多媒體綜合集成技術(shù)實(shí)現(xiàn); 需要直接對圖像、視頻、音頻等媒體內(nèi)容進(jìn)行分析,由計(jì)算機(jī)自動從媒體內(nèi)容提取特征,建立索引;需要分析具有多樣性(視頻圖像、音頻和文字等)的特征; 需要有多樣直觀的查詢方式,如文本(關(guān)鍵詞、自然語言)查詢、圖像和視頻的樣例查詢等; 需要采用相似性匹配技術(shù)進(jìn)行檢索,通過相關(guān)反饋技術(shù)與系統(tǒng)交互逐步求精獲取與用戶查詢相關(guān)的文檔; 需要以用戶可以接受的響應(yīng)時間檢索到用戶需求的信息,這是因?yàn)槎嗝襟w數(shù)據(jù)庫具有數(shù)據(jù)量大、種類繁多的特點(diǎn),給檢索系統(tǒng)提出了更高的要求。此外,由計(jì)算機(jī)自動提取的多媒體特征是底層特征,建立底層特征與媒體和媒體對象所具有的高層語義間的關(guān)聯(lián)性技術(shù)更是基于內(nèi)容檢索的顯著特點(diǎn)。
多媒體數(shù)據(jù)的內(nèi)容可以分為從低到高的抽象層次。即,從原始數(shù)據(jù)抽象出視覺、聽覺等具有感知特征的物理層次上描述的底層特征、具體或者抽象的高級概念特征即語義特征;感知特征表達(dá)對象的視覺特性,如顏色、紋理、形狀、輪廓、運(yùn)動,物體對象的邏輯關(guān)系; 聽覺特性,如音高、音色、音質(zhì)等。概念特征表達(dá)對象的語義,包括藍(lán)天、大海這類具體對象的語義描述以及高興、慶祝等抽象意義的語義特征。對于特定領(lǐng)域來說,還應(yīng)該有與應(yīng)用相關(guān)的特征,例如人的面部特征、指紋特征以及各種要用到的領(lǐng)域知識。
媒體內(nèi)容的語義是基于內(nèi)容檢索的基礎(chǔ)。目前,基于內(nèi)容的檢索還只停留在以統(tǒng)計(jì)數(shù)據(jù)為基礎(chǔ)的底層特征的提取上。以圖像為例,僅根據(jù)顏色、紋理等底層特征得到的檢索結(jié)果往往不盡如人意,因?yàn)槿藗儗D像的理解是在語義層次上進(jìn)行的。從底層特征到高級語義特征之間還存在著需要跨越的語義鴻溝(semantic gap),計(jì)算機(jī)難以自動識別圖像的語義。對圖像語義的提取,現(xiàn)已提出的方法有將底層的視覺特征映射到高級語義; 借助相關(guān)反饋技術(shù)通過語義與底層特征相結(jié)合填補(bǔ)語義鴻溝,等等。如何描述多媒體內(nèi)容,使其盡可能與人對多媒體內(nèi)容的理解一致還是一個尚待解決的問題。
為了在大量的應(yīng)用中都能使用多媒體內(nèi)容,實(shí)現(xiàn)多媒體內(nèi)容檢索,很重要的一點(diǎn)是需要制定對多媒體內(nèi)容的描述標(biāo)準(zhǔn)。標(biāo)準(zhǔn)化的內(nèi)容描述是信息交換、共享和檢索的基礎(chǔ)。描述聲像內(nèi)容的格式則是一個關(guān)鍵性步驟,而此格式又與信息的存儲編碼息息相關(guān)。所以,MPEG(motion picture experts group,MPEG)專家組著手研究多媒體內(nèi)容描述接口的編碼方案,也就是多媒體內(nèi)容描述標(biāo)準(zhǔn)MPEG-7。MPEG-7 的正式名稱為多媒體內(nèi)容描述接口(multimedia content description interface),其目標(biāo)是產(chǎn)生一種描述多媒體內(nèi)容數(shù)據(jù)的標(biāo)準(zhǔn),包括制定一組標(biāo)準(zhǔn)的“描述子”及其“描述模式”(定義描述子的結(jié)構(gòu)和相互關(guān)系)。這種描述與多媒體信息的內(nèi)容一起,支持對用戶感興趣的圖像、音頻、視頻等信息以及它們的組合的快速有效查詢,滿足實(shí)時、非實(shí)時以及推(push)-拉(pull)應(yīng)用的需求。
圖1 MPEG-7的范圍
客戶&案例
關(guān)于我們
微信公眾號
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。