視頻檢索方法包括基于外部特征的查詢、基于文字描述/注釋的查詢和基于內(nèi)容的檢索。目前比較成功的系統(tǒng)" />
時間:2022-11-13 12:30:02 | 來源:信息時代
時間:2022-11-13 12:30:02 來源:信息時代
視頻檢索 : 從大量的視頻數(shù)據(jù)中找到所需要的視頻片斷的一種多媒體數(shù)據(jù)檢索方法。
視頻檢索方法包括基于外部特征的查詢、基于文字描述/注釋的查詢和基于內(nèi)容的檢索。目前比較成功的系統(tǒng)有卡內(nèi)基·梅隆大學的數(shù)字視頻圖書館系統(tǒng)informedia,它結合語音識別、視頻分析和文本檢索技術,實現(xiàn)基于知識的查詢和檢索; IBM的QBIC(query by image content)系統(tǒng)通過范例、用戶描繪的草圖、選擇的顏色和紋理圖案、攝像機移動、組成物體運動情況等方式進行檢索。此外,還有Columbia大學的VisualSEEK系統(tǒng)、斯坦福大學的數(shù)字圖書館、MIT的view station projects?;趦?nèi)容的視頻檢索(CBVR)是目前CBR研究的熱點,它根據(jù)視頻的內(nèi)容和上下文關系,通過對非結構化的視頻數(shù)據(jù)進行結構化分析和處理,采用視頻分割技術,將連續(xù)的視頻流劃分為具有特定語義的視頻片段(shot/clip),作為檢索的基本單元,在此基礎上進行關鍵幀(代表幀)(representative frame)的提取和動態(tài)特征的提取,建立特征索引; 依據(jù)視頻片斷組織特征索引,采用視頻聚類等方法把內(nèi)容相近的片斷組合起來,逐步縮小檢索范圍,直至查詢到所需的視頻數(shù)據(jù)。視頻檢索中可以利用的信息還有攝像機運動、視頻流中的目標運動等。以下是視頻檢索的幾項關鍵技術。
1.視頻分割——視頻片斷邊界檢測
將視頻自動地分割為片斷的過程就稱為視頻片斷邊界檢測,也叫場景切換檢測(scene change detection),是實現(xiàn)基于內(nèi)容的視頻檢索的第一步。片斷邊界檢測算法的研究是視頻分析與檢索中最活躍的研究領域之一,目前已發(fā)表的算法可分為模板匹配法、直方圖法、基于邊緣的方法和基于模型的方法等。模板匹配法的缺點是對噪聲和片斷或物體運動非常敏感,可能導致錯誤的場景切換檢測。直方圖法不考慮像素的位置信息,因而抗噪聲能力比模板匹配法要強,但有時會漏掉場景切換?;谶吘壏椒ㄔ诎l(fā)生片斷切換時,新出現(xiàn)的邊緣應遠離舊邊緣的位置,同樣,舊邊緣消失的位置應遠離新邊緣的位置。上述三檢測方法都是通過計算幀間差自下而上來進行片斷邊界檢測的,對于突變檢測可以取得較好的效果,但對于漸變檢測則有一定的困難,因為它在很大程度上忽略了漸變切換中幀之間結構上的相關性?;谀P偷姆椒ㄊ抢脤σ曨l片斷編輯的先驗知識,對各種片斷切換建立一定的數(shù)據(jù)模型,自上向下地進行片斷切換的檢測。因此,這種方法對片斷漸變的檢測往往能取得較好的效果。
2. 關鍵幀抽取
(1)基于片斷的關鍵幀提取方法:簡單的方法就是把每個片斷的第一幀作為關鍵幀。如果片斷內(nèi)容變化較大,則應該提取多幀關鍵幀。目前大多以低層視覺特性為衡量標準來抽取多幀關鍵幀。主要方法有基于顏色和基于運動的方法。前者的缺點是幀的選取依賴于閾值的選擇,且顏色特征不能很好地表達視頻的語義信息。后者指適合于時序上有動態(tài)變化幀的運動光流法: 分析光流場運動強度函數(shù),把具有極小運動強度的幀作為關鍵幀。存在的問題是,如果是長視頻,將提取數(shù)以百計的關鍵幀。
(2)基于場景的關鍵幀提取方法:這里的場景比視頻層次結構中的場景更廣泛、更豐富,可以是一幕、一個事件,甚至是整個視頻序列。比較有名的提取法是FX Palo Alto實驗室的漫畫書表示法。
3.視頻片斷內(nèi)容表示
視頻片斷是由多幅圖像組成的一個二維圖像序列,表示方法主要有三類:
(1)基于關鍵幀的表示法:關鍵幀反映一個片斷的主要內(nèi)容,它的選取取決于: ①必須反映片斷中的主要事件,因而描述應盡可能地準確全面; ②要便于管理,數(shù)據(jù)量應盡量的小,且計算不宜太復雜。常用的方法有: 幀平均值法和直方圖平均法。
(2)基于圖像拼接技術的背景表示法:選擇關鍵幀從時間和空間上壓縮了數(shù)據(jù),但是關鍵幀本身也不可避免地會出現(xiàn)數(shù)據(jù)冗余,同時,若關鍵幀選擇不當,還有可能漏掉某些重要的內(nèi)容。如果融合多幅圖像的背景信息,通過圖像拼接生成一幅全景圖,則是一種緊湊且完全的片斷背景內(nèi)容表示方法。全景圖生成一般分為兩步: 首先使用運動模型(平移模型、旋轉模型、仿射模型、平面透視模型等)對連續(xù)幀的運動進行變換;然后,根據(jù)估算的攝像機的運動參數(shù)來對圖像進行變形處理,拼接成一幅全景圖。這樣,每個片斷都可以用一幅全景圖和用運動目標提取技術提取的重要運動目標來共同表示。這種方法所需數(shù)據(jù)量小,包含的信息多。此外,這種方法還可以獲得攝像機運動參數(shù)及目標運動軌跡等信息,有助于視頻內(nèi)容的理解。不足在于不適合包含有復雜攝像機運動和頻繁背景前景交替的視頻。
(3)利用音頻輔助和校正視頻內(nèi)容:場景的轉換往往伴隨著背景音樂曲調(diào)和節(jié)奏的變化,視頻段中可能出現(xiàn)人的聲音。視頻處理不確切的部分可以通過對上述聲音的分析加以糾正,從而簡化視頻處理的復雜度,提高準確性。
4.視頻結構重構——片斷聚類
相關一組片斷往往是一個情節(jié)。故事情節(jié)是一種比片斷具有更高抽象層次的結構,情節(jié)更符合人們在觀看視頻時對內(nèi)容的理解方式。片斷聚類后,有助于減少視頻的瀏覽范圍,同時可以進行層次化的檢索。
Minerva M. Yeung等提出的分層場景轉移圖就是一種層次化處理方式。
5.視頻摘要(video abstraction)
視頻摘要是可以附帶音頻的靜止或運動圖像的序列,它比原始視頻短很多,并且保留了原始視頻的基本內(nèi)容,便于對原始視頻的快速瀏覽和檢索。視頻摘要分為靜態(tài)的視頻概要(video summary)和動態(tài)的縮略視頻(video skimming)兩大類。視頻摘要分為標題(簡短文字描述)、海報(關鍵幀)和故事板三類。故事板是從原始視頻中提取的,按一定順序和形式排列的多圖像序列??s略視頻分為精彩剪輯視頻、專題縮略視頻和一般縮略視頻。在很多情況下,以動態(tài)縮略視頻作為摘要更合適。
微信公眾號
版權所有? 億企邦 1997-2022 保留一切法律許可權利。