時間:2022-12-28 22:30:01 | 來源:信息時代
時間:2022-12-28 22:30:01 來源:信息時代
基于內(nèi)容音頻檢索 : 從大型音頻數(shù)據(jù)庫或一段長錄音中找到感興趣的音頻內(nèi)容的一種多媒體數(shù)據(jù)檢索方法。音頻檢索的研究始于20世紀90年代,主要研究如何應用音頻的物理特征實現(xiàn)基于內(nèi)容的檢索。英國劍橋大學的VMR、卡內(nèi)基·梅隆大學的Informedia都是很出色的音頻處理系統(tǒng)。美國的Muscle fish公司推出的原型系統(tǒng),對音頻的檢索和分類有較高的準確率。哈爾濱工業(yè)大學提出了一種基于分段的快速音頻檢索算法。該算法的速度不隨檢索目標的長度變化,檢索速度可調(diào),且能獲得良好的查全率和查準率。
作為一種信息載體,音頻可以分為三類: ①模擬聲音數(shù)字化后的數(shù)字音頻信號; ②具有字詞、語法等語素的語音; ③具有節(jié)奏、旋律或和聲等要素的音樂。不同的音頻類別具有顯著不同的特征,根據(jù)檢索對象和檢索方法的不同,音頻信息檢索的研究分為一般音頻檢索、語音檢索、音樂檢索。
音頻內(nèi)容分為從低到高的三個級別: 物理樣本(采樣率、格式、編碼、時間戳、樣本)、聲學特征(音調(diào)、旋律、節(jié)奏、能量、時空結(jié)構(gòu)等)和語義級(內(nèi)容、對象的概念級描述)。一些聲學特征是從音頻數(shù)據(jù)中自動抽取的,可以直接用于檢索;一些特征用于語音的識別或檢測,支持更高層的內(nèi)容表示。在語義級上,音頻的內(nèi)容是語音識別、檢測、辨別的結(jié)果,或是音樂旋律和敘事的說明等等。基于內(nèi)容的音頻檢索最關(guān)注的是特征層和語義層。
1.建立音頻特征庫
(1)預處理: 指對音頻數(shù)據(jù)進行解碼、音頻分割、去噪、頻譜分析等各種操作,其中音頻分割只是預處理的子集。如果一段音頻包含多種類型的聲音,首先需要區(qū)分語音、音樂或其他聲音,通過信號的聲學分析并查找聲音的轉(zhuǎn)變點來實現(xiàn)音頻分割。分割后的音頻區(qū)段就可以作為單個聲音處理。在分割的基礎(chǔ)上,對音頻內(nèi)容進行結(jié)構(gòu)化表示,也可以有效地提高查詢、檢索的效率。此外,預處理還包括音樂解碼、頻譜分析、去噪、丟掉不重要信息等。
(2)特征提取、描述和分類: 基于內(nèi)容的音頻檢索要從音頻數(shù)據(jù)中提取聽覺特征信息。音頻特征可以分為聽覺感知特征和聽覺非感知特征(物理特性)。聽覺感知特征包括音量(用聲波信號的均方根近似描述)、音調(diào)(通過一系列較短時間段音頻信號的傅里葉頻譜來計算)、音強(用較短時間段音頻信號的傅里葉頻譜的質(zhì)心表示)等。非感知特征包括對數(shù)倒頻譜系數(shù)、線性預測系數(shù)等,其中線性預測系數(shù)在音頻壓縮編碼領(lǐng)域和音頻信息檢索方面有極其廣泛的應用。音頻特征隨時間而動態(tài)變化,需要計算不同時間段的聲波信號的波形,并將波形的均值、方差和自相關(guān)系數(shù)等記錄在波形數(shù)據(jù)庫中; 對音頻數(shù)據(jù)進行采樣、幀抽取后,運用方差分析等統(tǒng)計方法對音調(diào)、音量、音強等音頻特征進行量化。并在音頻數(shù)據(jù)庫中記錄這些量化值,形成索引樹,在檢索時可以利用這些特征進行示例和指定特征值查詢。這種方法適合檢索聲音效果數(shù)據(jù)和對它們進行分類,如動物聲、機器聲、樂器聲、語音和其他自然聲等。
對音頻還可以遵循MPEG-7進行特征描述,形成特征庫,便于根據(jù)語義特征進行檢索。
不同類型音頻具有不同的預處理和分析方法。
2.檢索
(1)檢索方法: ①用標準的描述語言描述檢索請求; ②基于實例的檢索; ③使用與要查找的聲音性質(zhì)相似的聲音來表達檢索請求; ④請求基于音頻分類目錄或音頻結(jié)構(gòu)進行瀏覽。
(2)檢索過程: 提問; 預處理(依情況決定是否需要); 特征提取;特征描述; 計算提問與庫中音頻的相關(guān)度; 排序輸出。
關(guān)鍵詞:數(shù)據(jù),音頻,內(nèi)容
微信公眾號
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。