国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 網(wǎng)絡(luò)營銷 > 搜索引擎對相似圖片搜索識別的原理

搜索引擎對相似圖片搜索識別的原理

時間:2022-05-28 22:36:02 | 來源:網(wǎng)絡(luò)營銷

時間:2022-05-28 22:36:02 來源:網(wǎng)絡(luò)營銷

最近一個朋友在跟我聊網(wǎng)站流量的時候,說他的前段時間剛做了一個圖片網(wǎng)站,通過3個月的奮斗,流量已經(jīng)超過800ip了,這讓人有點不可思議,不過細細想來也有可能是因為百度的2013年星火計劃的原因。在前段時間百度剛剛發(fā)布的《2013年中國網(wǎng)站運營發(fā)展趨勢報告》中對2013年網(wǎng)站運營趨勢分析曾明確表明對圖片資源發(fā)展的重要性。在列出的四條中也正式聲明:

用戶對圖片的各種需求大幅增長,圖片資源也大幅增長,百度會加大對圖片資源的應(yīng)用與合作

“2012年用戶對圖片類的需求在高速增長,且互聯(lián)網(wǎng)中的圖片資源也在大幅增長,為了更好的滿足用戶體驗,且將優(yōu)質(zhì)的圖片資源更好的展現(xiàn)給用戶,在2013年百度會加大對圖片資源的應(yīng)用與合作。”具體詳情查看《2012年中國網(wǎng)站發(fā)展情況及2013年網(wǎng)站運營發(fā)展趨勢匯總》。

那么對于我們這些非專業(yè)美工的seo人員來說,可以不去學習如何ps圖片,但是一定要知道搜索引擎是如何辨別圖片的。記得我以前曾發(fā)布一篇《Google圖片搜索辨別技術(shù)的原理》的文章,給大家介紹了圖片辨別技術(shù)的原理,今天同樣也借助億企邦的平臺給大家介紹兩種最簡單的相似圖片搜索原理。

一、顏色分布法

每張圖片都可以生成顏色分布的直方圖(color histogram)。如果兩張圖片的直方圖很接近,就可以認為它們很相似。

任何一種顏色都是由紅綠藍三原色(RGB)構(gòu)成的,所以上圖共有4張直方圖(三原色直方圖 + 最后合成的直方圖)。

如果每種原色都可以取256個值,那么整個顏色空間共有1600萬種顏色(256的三次方)。針對這1600萬種顏色比較直方圖,計算量實在太大了,因此需要采用簡化方法??梢詫?~255分成四個區(qū):0~63為第0區(qū),64~127為第1區(qū),128~191為第2區(qū),192~255為第3區(qū)。這意味著紅綠藍分別有4個區(qū),總共可以構(gòu)成64種組合(4的3次方)。

任何一種顏色必然屬于這64種組合中的一種,這樣就可以統(tǒng)計每一種組合包含的像素數(shù)量。

上圖是某張圖片的顏色分布表,將表中最后一欄提取出來,組成一個64維向量(7414, 230, 0, 0, 8, ..., 109, 0, 0, 3415, 53929)。這個向量就是這張圖片的特征值或者叫"指紋"。

于是,尋找相似圖片就變成了找出與其最相似的向量。這可以用皮爾遜相關(guān)系數(shù)或者余弦相似度算出。

二、內(nèi)容特征法

除了顏色構(gòu)成,還可以從比較圖片內(nèi)容的相似性入手。

首先,將原圖轉(zhuǎn)成一張較小的灰度圖片,假定為50x50像素。然后,確定一個闕值,將灰度圖片轉(zhuǎn)成黑白圖片。

如果兩張圖片很相似,它們的黑白輪廓應(yīng)該是相近的。于是,問題就變成了,第一步如何確定一個合理的闕值,正確呈現(xiàn)照片中的輪廓?

顯然,前景色與背景色反差越大,輪廓就越明顯。這意味著,如果我們找到一個值,可以使得前景色和背景色各自的“類內(nèi)差異最小” (minimizing the intra-class variance),或者“類間差異最大”(maximizing the inter-class variance),那么這個值就是理想的闕值。

1979年,日本學者大津展之證明了,“類內(nèi)差異最小”與“類間差異最大”是同一件事,即對應(yīng)同一個闕值。他提出一種簡單的算法,可以求出這個闕值,這被稱為“大津法”(Otsu's method)。下面就是他的計算方法。

假定一張圖片共有n個像素,其中灰度值小于闕值的像素為 n1 個,大于等于闕值的像素為 n2 個( n1 + n2 = n )。w1 和 w2 表示這兩種像素各自的比重。

w1 = n1 / n

w2 = n2 / n

再假定,所有灰度值小于闕值的像素的平均值和方差分別為 μ1 和 σ1,所有灰度值大于等于闕值的像素的平均值和方差分別為 μ2 和 σ2。于是,可以得到

類內(nèi)差異 = w1(σ1的平方) + w2(σ2的平方)

類間差異 = w1w2(μ1-μ2)^2

可以證明,這兩個式子是等價的:得到“類內(nèi)差異”的最小值,等同于得到“類間差異”的最大值。不過,從計算難度看,后者的計算要容易一些。

下一步用“窮舉法”,將闕值從灰度的最低值到最高值,依次取一遍,分別代入上面的算式。使得“類內(nèi)差異最小”或“類間差異最大”的那個值,就是最終的闕值。

有了50x50像素的黑白縮略圖,就等于有了一個50x50的0-1矩陣。矩陣的每個值對應(yīng)原圖的一個像素,0表示黑色,1表示白色。這個矩陣就是一張圖片的特征矩陣。

兩個特征矩陣的不同之處越少,就代表兩張圖片越相似。這可以用“異或運算”實現(xiàn)(即兩個值之中只有一個為1,則運算結(jié)果為1,否則運算結(jié)果為0)。對不同圖片的特征矩陣進行“異或運算”,結(jié)果中的1越少,就是越相似的圖片。

關(guān)鍵詞:識別,原理,圖片

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關(guān)閉