時間:2022-12-06 06:30:01 | 來源:信息時代
時間:2022-12-06 06:30:01 來源:信息時代
音視頻數(shù)據(jù)管理標(biāo)準(zhǔn) : 對這類數(shù)據(jù)實(shí)現(xiàn)規(guī)范化管理與應(yīng)用的標(biāo)準(zhǔn)。音頻數(shù)據(jù)是人類能夠聽得到的聲音頻率范圍的信號媒體; 視頻數(shù)據(jù)也是依據(jù)人眼對一系列靜態(tài)圖像在每秒掃過24幀(frame)以上時的視覺效果所確定的信號媒體。音頻視頻數(shù)據(jù)管理是對上述特定范圍內(nèi)可用計(jì)算機(jī)設(shè)施加以捕捉、記錄、存儲、管理、處理、傳遞與重現(xiàn)的信號媒體數(shù)據(jù)的管理。音頻、視頻數(shù)據(jù)除了具有文本、圖形、圖像、空間等多媒體數(shù)據(jù)的非結(jié)構(gòu)化、數(shù)據(jù)量大、處理復(fù)雜等特點(diǎn)外,其還具有空間特性及時序性,特別是音視頻之間還存在著同步關(guān)系等非常強(qiáng)的時序特性。因此,音視頻數(shù)據(jù)的表示必須反映出它們之間的這種時空關(guān)系,即準(zhǔn)確的時間順序和空間布局,數(shù)據(jù)處理要保證各種信息單元之間在時間上同步和空間上銜接。音視頻數(shù)據(jù)即是以某種編碼方式表示音視頻這種時序、空間特性的數(shù)據(jù)集。
人類獲得信息的方式,70%來自視覺,20%來自聽覺,由此可見音視頻數(shù)據(jù)的應(yīng)用是最為廣泛的,其除了應(yīng)用于人們生活的方方面面外,還涉及軍事的各個領(lǐng)域。所以音視頻數(shù)據(jù)的研究、管理和應(yīng)用,是現(xiàn)在和將來多媒體標(biāo)準(zhǔn)化領(lǐng)域的研究重點(diǎn),受到了各方面的關(guān)注。音視頻數(shù)據(jù)管理標(biāo)準(zhǔn)是多媒體數(shù)據(jù)庫標(biāo)準(zhǔn)中的音頻和視頻數(shù)據(jù)庫標(biāo)準(zhǔn),這也是多媒體數(shù)據(jù)庫中最為復(fù)雜的一類,因此,截止到目前為止還沒有真正的音視頻數(shù)據(jù)管理標(biāo)準(zhǔn)。但同樣是因?yàn)橐粢曨l數(shù)據(jù)的海量性和復(fù)雜性,決定了音視頻數(shù)據(jù)庫技術(shù)的研究以及標(biāo)準(zhǔn)的制定,必須依托于音視頻數(shù)據(jù)的壓縮編碼技術(shù)和標(biāo)準(zhǔn)的成熟,以及音視頻等多媒體數(shù)據(jù)元等描述方法的成熟和標(biāo)準(zhǔn)化。ISO/IEC JTC1 SC29 WG11制定的MPEG系列標(biāo)準(zhǔn)即是這類音視頻媒體數(shù)據(jù)管理標(biāo)準(zhǔn)的基礎(chǔ)標(biāo)準(zhǔn)。
國際標(biāo)準(zhǔn)化組織ISO/IEC JTC1 SC29 WG11制定的基于對象的音視頻編碼國際標(biāo)準(zhǔn)ISO/IEC14496(MPEG-4)是和音視頻數(shù)據(jù)庫相關(guān)的最為重要的國際標(biāo)準(zhǔn)之一。MPEG-4國際標(biāo)準(zhǔn)的目標(biāo)是: 支持多種媒體的應(yīng)用,特別是多媒體信息基于內(nèi)容的檢索和訪問,可根據(jù)不同的應(yīng)用需求,現(xiàn)場配置解碼器。MPEG-4國際標(biāo)準(zhǔn)對音視頻的編碼是基于對象的,這樣便于操作和控制對象,這樣可以使用戶將不同對象進(jìn)行拼接而得到用戶自己想要的合成圖像。而對于音視頻數(shù)據(jù)庫來說,這種基于對象的壓縮編碼方法,也符合音視頻等基于對象的多媒體數(shù)據(jù)庫的建立和查詢等操作。另外,MPEG-4在擴(kuò)展性上具有很好的靈活性,其可根據(jù)現(xiàn)場帶寬和誤碼率的客觀條件,在時域或空域進(jìn)行擴(kuò)展,時域擴(kuò)展是在帶寬允許時在基本層之上的增強(qiáng)層中增加幀率,在帶寬不足時可以在基本層中減少幀率,以達(dá)到充分利用帶寬,使圖像質(zhì)量更好; 空域擴(kuò)展是指對基本層中的圖像進(jìn)行插值,增加或減少空間分辨率。MPEG-4的這種擴(kuò)展性應(yīng)用到音視頻數(shù)據(jù)庫中,將為音視頻數(shù)據(jù)庫的存儲和檢索帶來極大的便利。
國際標(biāo)準(zhǔn)化組織ISO/IEC JTC1/SC29 WG11制定的基于內(nèi)容檢索的音視頻多媒體內(nèi)容描述接口國際標(biāo)準(zhǔn)ISO/IEC 15938(MPEG-7)也是和音視頻數(shù)據(jù)庫相關(guān)的最為重要的國際標(biāo)準(zhǔn)。MPEG-7國際標(biāo)準(zhǔn)的目標(biāo)是: 為各種類型的多媒體信息規(guī)定一種標(biāo)準(zhǔn)化的描述,這種描述和多媒體信息的內(nèi)容本身一起,支持用戶對其感興趣的各種“資源”的快速、有效的檢索。各種“資源”包括: 靜止圖像、圖形、音頻、視頻,以及如何將這些元素組合到一起的合成信息。MPEG-7用來為不同類型的多媒體信息描述定義一個新標(biāo)準(zhǔn)。雖然計(jì)算機(jī)能很容易查找文字,但查找音頻和視頻內(nèi)容則很困難。MPEG-7描述能通過數(shù)據(jù)如靜止圖畫、圖形、三維模型、音頻、演講、視頻來定位,或遠(yuǎn)程地用該數(shù)據(jù)描述的雙向指針來定位。MPEG-7國際標(biāo)準(zhǔn)中這些標(biāo)準(zhǔn)化描述可以加到任何類型的多媒體資料上,不管多媒體資料的表示格式如何,或以什么壓縮形式,加上了這種標(biāo)準(zhǔn)化描述的多媒體數(shù)據(jù)就可以被索引和檢索。
對音視頻數(shù)據(jù)的描述大致可分為兩類,一類是對圖像、音頻、視頻等多媒體數(shù)據(jù)內(nèi)容的文字描述,另一類是運(yùn)用各種數(shù)字信號處理技術(shù)從圖像、音頻、視頻數(shù)據(jù)中提取出來的特征信息。前者雖然簡單,但需要較多的人工介入,而且得到的描述結(jié)果通常不能夠準(zhǔn)確地反映數(shù)據(jù)所包含的信息,這就導(dǎo)致了查詢結(jié)果往往帶有很強(qiáng)的不確定性。后者自動化程度高,但查詢機(jī)制的性能要受到所提取的特征信息的類型、合理程度等諸多因素的影響,而且特征提取過程所需的運(yùn)算量也比較大。描述數(shù)據(jù)是音視頻等多媒體數(shù)據(jù)庫管理系統(tǒng)為了支持較為高級的查詢而引入的,是與特定多媒體數(shù)據(jù)庫相應(yīng)的附加的冗余信息。當(dāng)前的信息提取技術(shù)水平能夠允許多媒體數(shù)據(jù)庫管理系統(tǒng)較為有效地支持用戶對文本數(shù)據(jù)的檢索,但在提取及查詢圖像、音頻或視頻數(shù)據(jù)的方面,還沒有令人滿意的方法。
對于音視頻數(shù)據(jù)庫中音頻或視頻內(nèi)容的檢索,其常用檢索內(nèi)容主要包括:
(1)視頻:視頻建立在圖像的基礎(chǔ)上,先有圖像的內(nèi)容才可以得到視頻的內(nèi)容,其檢索主要有: ①鏡頭: 鏡頭是視頻的基本單位,包括切換、漸變等的劃分; ②攝像動作: 對各種攝像動作的提取,如搖、推、拉、追蹤等; ③運(yùn)動對象: 查找視頻序列中的某一運(yùn)動對象; ④場景: 尋找和組合相同的鏡頭等。
(2)音頻: 音頻的內(nèi)容檢索包括特定模式的查找,特定詞、短語、音樂旋律和特定聲音的查找等。早期的研究更多的是致力于語音內(nèi)容的識別,但對數(shù)據(jù)庫來說查找非語音信號可能會更有效,例如,講話人的性別、聲音的間隔、特殊的背景聲與前景聲的組合等。由于聲音常常伴隨其他媒體存在,所以,尋找這些特征有利于對其他媒體的檢索。例如,在足球比賽時,一陣大聲的喧嘩可能意味著進(jìn)了球,只要能夠檢索出這段聲音,也就可以基本確定對視頻的索引。
MPEG-4和MPEG-7國際標(biāo)準(zhǔn)的制定和應(yīng)用的逐步成熟(MPEG-4標(biāo)準(zhǔn)的應(yīng)用已逐漸成熟,但MPEG-7的應(yīng)用還正在起步當(dāng)中),已經(jīng)為未來多媒體數(shù)據(jù)庫中音視頻數(shù)據(jù)庫的構(gòu)建模式打下了核心技術(shù)基礎(chǔ),未來音視頻數(shù)據(jù)庫的建立和音視頻數(shù)據(jù)管理標(biāo)準(zhǔn)的制定必將構(gòu)建于MPEG-4和MPEG-7國際標(biāo)準(zhǔn)之上,其應(yīng)用還需由MPEG-21標(biāo)準(zhǔn)的框架支持。
客戶&案例
關(guān)于我們
微信公眾號
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。