新聞中心

EEPW首頁 > 嵌入式系統 > 設計應用 > 計算機是怎么知道兩張圖片相似的呢？

計算機是怎么知道兩張圖片相似的呢？

作者：時間：2017-10-27 來源：網絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　很多搜索引擎可以用一張圖片，搜索互聯網上所有與它相似的圖片。你輸入網片的網址，或者直接上傳圖片，Google就會找出與其相似的圖片。下面這張圖片是美國女演員Alyson Hannigan。

本文引用地址：http://www.104case.com/article/201710/368741.htm

　　上傳后，Google返回如下結果：

　　類似的”相似圖片搜索引擎”還有不少，TInEye甚至可以找出照片的拍攝背景。

　　===================================================

　　這種技術的原理是什么？計算機怎么知道兩張圖片相似呢？

　　根據Neal Krawetz博士的解釋，原理非常簡單易懂。我們可以用一個快速算法，就達到基本的效果。

　　這里的關鍵技術叫做”感知哈希算法”（Perceptual hash algorithm），它的作用是對每張圖片生成一個”指紋”（fingerprint）字符串，然后比較不同圖片的指紋。結果越接近，就說明圖片越相似。

　　下面是一個最簡單的實現：

　　第一步，縮小尺寸。

　　將圖片縮小到8&TImes;8的尺寸，總共64個像素。這一步的作用是去除圖片的細節，只保留結構、明暗等基本信息，摒棄不同尺寸、比例帶來的圖片差異。

　　第二步，簡化色彩。

　　將縮小后的圖片，轉為64級灰度。也就是說，所有像素點總共只有64種顏色。

　　第三步，計算平均值。

　　計算所有64個像素的灰度平均值。

　　第四步，比較像素的灰度。

　　將每個像素的灰度，與平均值進行比較。大于或等于平均值，記為1；小于平均值，記為0。

　　第五步，計算哈希值。

　　將上一步的比較結果，組合在一起，就構成了一個64位的整數，這就是這張圖片的指紋。組合的次序并不重要，只要保證所有圖片都采用同樣次序就行了。

　　得到指紋以后，就可以對比不同的圖片，看看64位中有多少位是不一樣的。在理論上，這等同于計算“漢明距離”（Hamming distance）。如果不相同的數據位不超過5，就說明兩張圖片很相似；如果大于10，就說明這是兩張不同的圖片。

　　具體的代碼實現，可以參見Wote用python語言寫的imgHash.py。代碼很短，只有53行。使用的時候，第一個參數是基準圖片，第二個參數是用來比較的其他圖片所在的目錄，返回結果是兩張圖片之間不相同的數據位數量（漢明距離）。

　　這種算法的優點是簡單快速，不受圖片大小縮放的影響，缺點是圖片的內容不能變更。如果在圖片上加幾個文字，它就認不出來了。所以，它的最佳用途是根據縮略圖，找出原圖。

　　實際應用中，往往采用更強大的pHash算法和SIFT算法，它們能夠識別圖片的變形。只要變形程度不超過25%，它們就能匹配原圖。這些算法雖然更復雜，但是原理與上面的簡便算法是一樣的，就是先將圖片轉化成Hash字符串，然后再進行比較。

　　昨天，我在isnowfy的網站看到，還有其他兩種方法也很簡單，這里做一些筆記。

　　一、顏色分布法

　　每張圖片都可以生成顏色分布的直方圖（color histogram）。如果兩張圖片的直方圖很接近，就可以認為它們很相似。

　　任何一種顏色都是由紅綠藍三原色（RGB）構成的，所以上圖共有4張直方圖（三原色直方圖 + 最后合成的直方圖）。

　　如果每種原色都可以取256個值，那么整個顏色空間共有1600萬種顏色（256的三次方）。針對這1600萬種顏色比較直方圖，計算量實在太大了，因此需要采用簡化方法。可以將0～255分成四個區：0～63為第0區，64～127為第1區，128～191為第2區，192～255為第3區。這意味著紅綠藍分別有4個區，總共可以構成64種組合（4的3次方）。

　　任何一種顏色必然屬于這64種組合中的一種，這樣就可以統計每一種組合包含的像素數量。

　　上圖是某張圖片的顏色分布表，將表中最后一欄提取出來，組成一個64維向量（7414， 230， 0， 0， 8， …， 109， 0， 0， 3415， 53929）。這個向量就是這張圖片的特征值或者叫”指紋”。

　　于是，尋找相似圖片就變成了找出與其最相似的向量。這可以用皮爾遜相關系數或者余弦相似度算出。

　　二、內容特征法

　　除了顏色構成，還可以從比較圖片內容的相似性入手。

　　首先，將原圖轉成一張較小的灰度圖片，假定為50&TImes;50像素。然后，確定一個閾值，將灰度圖片轉成黑白圖片。

　　如果兩張圖片很相似，它們的黑白輪廓應該是相近的。于是，問題就變成了，第一步如何確定一個合理的閾值，正確呈現照片中的輪廓？

　　顯然，前景色與背景色反差越大，輪廓就越明顯。這意味著，如果我們找到一個值，可以使得前景色和背景色各自的”類內差異最小”（minimizing the intra-class variance），或者”類間差異最大”（maximizing the inter-class variance），那么這個值就是理想的閾值。

　　1979年，日本學者大津展之證明了，”類內差異最小”與”類間差異最大”是同一件事，即對應同一個閾值。他提出一種簡單的算法，可以求出這個閾值，這被稱為“大津法”（Otsu’s method）。下面就是他的計算方法。

　　假定一張圖片共有n個像素，其中灰度值小于閾值的像素為 n1 個，大于等于閾值的像素為 n2 個（ n1 + n2 = n ）。w1 和 w2 表示這兩種像素各自的比重。

　　w1 = n1 / n

　　w2 = n2 / n

　　再假定，所有灰度值小于閾值的像素的平均值和方差分別為 μ1 和 σ1，所有灰度值大于等于閾值的像素的平均值和方差分別為 μ2 和 σ2。于是，可以得到

　　類內差異 = w1（σ1的平方） + w2（σ2的平方）

　　類間差異 = w1w2（μ1-μ2）^2

　　可以證明，這兩個式子是等價的：得到”類內差異”的最小值，等同于得到”類間差異”的最大值。不過，從計算難度看，后者的計算要容易一些。

　　下一步用”窮舉法”，將閾值從灰度的最低值到最高值，依次取一遍，分別代入上面的算式。使得”類內差異最小”或”類間差異最大”的那個值，就是最終的閾值。具體的實例和Java算法，請看這里。

　　?

　　有了50&TImes;50像素的黑白縮略圖，就等于有了一個50×50的0-1矩陣。矩陣的每個值對應原圖的一個像素，0表示黑色，1表示白色。這個矩陣就是一張圖片的特征矩陣。

　　兩個特征矩陣的不同之處越少，就代表兩張圖片越相似。這可以用”異或運算”實現（即兩個值之中只有一個為1，則運算結果為1，否則運算結果為0）。對不同圖片的特征矩陣進行”異或運算”，結果中的1越少，就是越相似的圖片。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： 計算機

焦點

更多>>

技術專區

關閉

新聞中心

計算機是怎么知道兩張圖片相似的呢？

評論

相關推薦

技術專區