時間:2022-12-07 02:30:02 | 來源:信息時代
時間:2022-12-07 02:30:02 來源:信息時代
語音檢索 : 以語音為中心的音頻檢索。實現(xiàn)語音檢索最重要的基礎(chǔ)技術(shù)是語音識別。美國通用電話與電子設(shè)備公司的John Makhoul和Francis Kubala等人開發(fā)的Rough’n’Ready將廣播節(jié)目自動分類,并給出每段節(jié)目內(nèi)容的索引供用戶檢索。在檢索過程中,依次對廣播節(jié)目進行音頻分割、非特定人的連續(xù)語音識別、說話人確認、關(guān)鍵字檢出,以及主體分類等一系列處理。
1. 語音識別
語音識別是機器通過識別和理解把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。
語音識別的研究始于20世紀50年代,主要研究穩(wěn)健語音識別、說話者自適應(yīng)技術(shù)、大詞匯量關(guān)鍵詞識別算法、語音識別的可信度測評算法、基于類的語言模型和自適應(yīng)語言模型。但直到60年代中期才取得了實質(zhì)性進展,其重要標志就是日本學(xué)者Itakura將動態(tài)規(guī)劃算法用于解決語音識別中語速多變的難題,提出了動態(tài)時間收縮算法(dynamic time warping,DTW)。卡內(nèi)基·梅隆大學(xué)1994年開始的Informedia項目研究音頻信息的自動索引、導(dǎo)航、可視化、查找與檢索。該項目利用語音識別技術(shù)將音頻流中的語音轉(zhuǎn)換成文本信息,然后通過基于關(guān)鍵字的搜索來檢索關(guān)鍵字所在的多媒體(音、視頻)片斷。此外,美國科羅拉多大學(xué)與密歇根大學(xué)聯(lián)合開發(fā)的Speechfind系統(tǒng)、MITRE公司的廣播新聞瀏覽器、英國劍橋大學(xué)和謝菲爾德大學(xué)聯(lián)合開發(fā)的THISL等語音相關(guān)系統(tǒng)都采用了連續(xù)語音識別技術(shù)。
典型的語音識別系統(tǒng)由預(yù)處理、特征提取、訓(xùn)練樣本、模式匹配四部分組成。具有代表性的方法如下:
(1)特征參數(shù)匹配法: 一種傳統(tǒng)的模式識別方法: 訓(xùn)練樣本、提取特征參數(shù)生成模型庫; 等待匹配語音提取特征,計算它與模型庫中模型的相關(guān)度,用似然函數(shù)進行判決。特征參數(shù)匹配法在中小詞匯識別方面的運用很成功。
(2) 隱馬爾科夫法(hidden Markov model,HMM):20世紀90年代HMM的出現(xiàn)使得自然語音識別系統(tǒng)取得了實質(zhì)性的突破。HMM已經(jīng)成為語音識別的主流技術(shù),目前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識別系統(tǒng)都是基于HMM模型實現(xiàn)的。
(3) 人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)法: 本質(zhì)上是一個自適應(yīng)非線性動態(tài)系統(tǒng),具有自適應(yīng)性、并行性、魯棒性、容錯性和學(xué)習(xí)特性。目前語音識別神經(jīng)網(wǎng)絡(luò)主要有多層感知器網(wǎng)、Kohonen自組織神經(jīng)網(wǎng)和預(yù)測神經(jīng)網(wǎng)絡(luò)。
語音識別技術(shù)不僅為語音檢索和瀏覽提供了技術(shù)基礎(chǔ),并且有效地幫助含有語音成分的視頻的檢索。目前語音識別存在的問題: 說話者語速不一致;大詞匯表導(dǎo)致計算量大; 同一音素的發(fā)音隨上下文變化; 非特定人語音識別; 語音多變性。最根本的問題是語音特征量的提取。
2. 語音檢索
由于語音和文字之間的互換性,結(jié)合多媒體的文字標注技術(shù),使基于文本的檢索技術(shù)可以用于語音檢索,并且可以用語音命令檢索各種用文本標注的多媒體信息。
(1)基于文本:對語音,通常是利用語音識別技術(shù)把語音轉(zhuǎn)換成文本,組織成適合全文檢索的形式,記錄在音頻中的對應(yīng)位置,再采用文本檢索方法進行語音的檢索。雖然好的連續(xù)語音識別在實際應(yīng)用中識別率不理想,但是ASR(Automated Speech Recognition)識別生成的文本仍然對信息檢索有用,因為檢索任務(wù)只是找出包含在音頻數(shù)據(jù)中的查詢詞句,而不是要求精確的全文。
(2)基于子詞單元:當語音識別系統(tǒng)處理各方面無限制主題的大范圍語音資料時,識別性能會變差,尤其當一些專業(yè)詞匯(如人名、地點)不在系統(tǒng)詞庫中時。一種變通的方法是利用子詞(sub word)單元進行索引,當執(zhí)行查詢時,用戶的查詢首先被分解為子詞單元,然后將這些單元的特征與庫中預(yù)先計算好的特征進行匹配。
(3)基于關(guān)鍵詞識別:在無約束的語音中自動檢測詞或短語通常稱為關(guān)鍵詞的發(fā)現(xiàn)(spotting)。利用該技術(shù),識別或標記出長段錄音中反映用戶感興趣的事件,這些標記就可以用于檢索。如通過捕捉體育比賽解說詞中“進球”的詞語可以標記進球的內(nèi)容。
(4)基于說話人的辨認進行分割:簡單地辨別出說話人話音的差別,而不是識別出說的是什么。它在合適的環(huán)境中可以做到非常準確。利用這種技術(shù),可以根據(jù)說話人的變化分割錄音,并建立錄音索引。利用這種技術(shù)檢測視頻或聲音中說話人的變化,建立索引和確定某種類型的結(jié)構(gòu),以便于檢索??梢杂盟指詈头治鰰h錄音,分割的區(qū)段對應(yīng)于不同的說話人,可以方便地直接瀏覽長篇的會議資料。
(5)基于語音命令:利用自動語音識別技術(shù)把相應(yīng)的語音檢索命令轉(zhuǎn)換成文本,用于檢索用文字標注的各種多媒體信息。
微信公眾號
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。