時(shí)間:2022-12-06 02:30:01 | 來源:信息時(shí)代
時(shí)間:2022-12-06 02:30:01 來源:信息時(shí)代
音樂檢索 : 從大量的音樂數(shù)據(jù)中找到所需音樂的一種音頻檢索方法。數(shù)字音樂有兩種不同類型: 基于樂譜(musical scores)的符號(hào)數(shù)據(jù)和基于聲學(xué)信號(hào)(acoustic signals)的音頻數(shù)據(jù)。前者的代表是MIDI,后者的代表主要是WAVE和MP3。音樂檢索是音頻檢索研究中最活躍、最富有成果的領(lǐng)域。從2000年以來,每年都召開了專門的音樂信息檢索國(guó)際會(huì)議。音樂檢索方法有兩種: 基于音樂信息的外部特征描述和基于內(nèi)容的檢索?;趦?nèi)容的檢索或者基于描述和內(nèi)容的檢索是主要的發(fā)展方向?;趦?nèi)容的檢索又主要是基于音樂的旋律。
基本的旋律輪廓的檢索方法具有如下特點(diǎn): ①使用旋律的絕對(duì)音高序列。其優(yōu)點(diǎn)是可以對(duì)音樂旋律進(jìn)行十分精確的檢索,但對(duì)檢索者要求較高。演奏者、樂器改變,調(diào)號(hào)會(huì)改變,音高序列也將不同,會(huì)導(dǎo)致檢索失誤。②使用相對(duì)音高序列的旋律輪廓,查準(zhǔn)率不高。③綜合使用音高、音長(zhǎng)和音強(qiáng)信息構(gòu)成音樂的旋律輪廓。基于實(shí)例的檢索和“哼唱”檢索均屬這一類。
在音樂檢索中,音樂文件的分析是關(guān)鍵。
1. 音樂文件處理
檢索音樂文件需事先對(duì)音樂文件進(jìn)行各種處理,主要處理技術(shù)有特征提取、聚類分析、近似匹配。
(1)特征提取: 反映音樂旋律的特征主要有音高、音長(zhǎng)和節(jié)拍。音高是根據(jù)相鄰音程計(jì)算的,也叫音高輪廓描述。提取音高的算法主要有:基于時(shí)域的自相關(guān)系數(shù)模型、波形特征計(jì)數(shù)模型和振蕩器模型,及基于頻域的基于規(guī)則、基于統(tǒng)計(jì)的方法。音長(zhǎng)是每個(gè)音持續(xù)的時(shí)間段描述。在音樂分類和分割領(lǐng)域,還有三種最常見的特征: 頻譜質(zhì)心、變遷、滑動(dòng),它們是按一定的時(shí)間單位計(jì)算得出時(shí)間軸上的一系列特征。
(2) 向量表示及聚類/分類: 提取的每個(gè)音樂文件的特征被轉(zhuǎn)化成一組向量,并被用來構(gòu)造分類向量樹或者進(jìn)行聚類。無論哪種方法,原始庫(kù)越大,分類/聚類和檢索的效果就越好。
(3)匹配:提取特征信息并向量化后,就可以進(jìn)行提問音樂和音樂庫(kù)中音樂之間的相關(guān)度計(jì)算,相關(guān)度大于閾值的庫(kù)中音樂按照相關(guān)度排序,并作為檢索結(jié)果輸出。
2.基于樂譜的符號(hào)數(shù)據(jù)的檢索
基于樂譜的符號(hào)數(shù)據(jù)是以一定格式部分或完整地記錄下的樂譜,在需要播放的時(shí)候,通過硬波表或軟波表的方式,合成標(biāo)準(zhǔn)的音頻信號(hào)。一般而言,符號(hào)數(shù)據(jù)音樂由按時(shí)間順序混合排列的事件組成,包括音符、滑音數(shù)據(jù)、擊鍵速度、控制器、音色變化、波形文件、字符串等。
(1)建庫(kù):建庫(kù)過程:原始庫(kù)→特征提取→聚類/分類→特征庫(kù)?;跇纷V的音樂用符號(hào)數(shù)據(jù)表示,不需要預(yù)處理,直接提取音軌、通道、音高、音長(zhǎng)等重要特征形成特征向量。在開始建庫(kù)時(shí),可以取一部分音樂樣本做聚類分析,形成若干類。新加入的音樂經(jīng)過相關(guān)計(jì)算被歸于某類或者新建類。
(2)檢索:檢索過程:檢索輸入→去噪→特征提取→相似匹配→結(jié)果排序輸出。由于輸入的檢索樣本大多有噪音,所以首先要去噪。在相似計(jì)算時(shí),先確定樣本所在類,再在該類中進(jìn)行個(gè)案的相似性匹配。
3.基于聲學(xué)信號(hào)的音頻數(shù)據(jù)的檢索
(1)建庫(kù):建庫(kù)過程:原始庫(kù)→解碼→預(yù)處理→特征提取→聚類/分類→特征庫(kù)?;诼晫W(xué)信號(hào)的音頻數(shù)據(jù)音樂是經(jīng)過聲音的數(shù)字化處理的,通常采用的是脈沖代碼調(diào)制編碼,通過抽樣、量化、編碼三個(gè)步驟將連續(xù)變化的模擬信號(hào)轉(zhuǎn)換為數(shù)字編碼。因此,在建庫(kù)時(shí)需要先解碼,解碼后經(jīng)過一系列的重構(gòu)實(shí)現(xiàn)頻域到時(shí)域的轉(zhuǎn)換,還原音頻信號(hào)。在提取特征前,需要分離不含人聲的純樂曲部分、進(jìn)行子帶劃分、用MDCT(modified discrete cosine transform)提取MDCT系數(shù)。在提取特征時(shí)還需要取出純伴音部分,因?yàn)樗皇且魳返闹餍?保留它會(huì)影響特征提取結(jié)果,從而影響檢索效果。解碼和預(yù)處理的同時(shí)還可能進(jìn)行數(shù)據(jù)壓縮。MP3文件經(jīng)過解碼、重構(gòu)和映射、降低采樣率、通道合并,文件體積比原來小4~5倍,效率提高4~5倍。
(2)檢索:檢索過程:檢索輸入→預(yù)處理→特征提取→相似性匹配→結(jié)果排序輸出。
4.檢索請(qǐng)求
檢索輸入的類型可以是樣本、哼唱、樂句、鍵盤彈奏等,其中的樣本檢索和其他媒體檢索一樣,提供樣例,請(qǐng)求檢索相似音樂。樂句檢索即輸入表示全曲主題的一段樂曲的音高數(shù)字(1234567)。鍵盤彈奏則是利用單頻音鍵盤彈奏檢索提問的片斷作為檢索請(qǐng)求。研究最活躍也最有成效的是哼唱檢索,哼唱一小段音樂旋律作為檢索請(qǐng)求。最早的哼唱檢索系統(tǒng)是1995年由A.Ghias等人發(fā)表的。他們只用了三個(gè)符號(hào)來表示曲調(diào)音高的變化,采用最大相同符號(hào)序列匹配法比較兩段旋律的相似程度。McNab等人實(shí)現(xiàn)了第一個(gè)可以在互聯(lián)網(wǎng)上進(jìn)行哼唱檢索的系統(tǒng)。他們采用Golden-Rabiner方法來提取基頻,然后根據(jù)能量和基頻來分割音符,最后以音符作為最小匹配單元來進(jìn)行搜索。他們的哼唱檢索系統(tǒng)MELDEX中有9400首歌曲。
客戶&案例
營(yíng)銷資訊
關(guān)于我們
客戶&案例
營(yíng)銷資訊
關(guān)于我們
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。