圖書書背影象匹配，怎麼定義影象的相似度？怎麼以此在影象庫中搜尋對應的書背影象？

1樓：

百萬數量級的影象檢索是比較難的，影象檢索基於hash編碼再匹配的策略比較多，編碼方式和距離量度是兩個關鍵問題，accuracy和speed非常難調和。建議用Cascade思想，先用簡單編碼方式和簡單距離量度如漢明距離，再用複雜編碼和複雜距離量度如ncc，逐層濾除虛警，雖然如此，考慮到多尺度什麼的，時間肯定不會短。整體看圖書側邊相似度挺高的，影象檢索不一定能實現如此細粒度的分類。

另乙個思路，考慮到與一般影象檢索不同，你的資料都是圖書，側邊絕大多數應該都是書名，文字識別後再做文字搜尋，可能效率會高點。

2樓：楊喬

本人沒有上手過這麼大資料量的專案，只能根據一些直覺來提一些小建議。

感覺上，百萬級別的分類,而且一本書對應的樣本不多，如果直接套用網路，應該非常難以訓練。

可以試試構建決策樹,快速解決粗分類,縮小搜尋範圍.

然後使用一些精細分類的方法,如多注意力機制等.

也可以在這一步結合CRNN,和一些語義模型來進行細分類.

突然發現，每乙個圖書在書的底部都是有條碼號的，昨天觀察不仔細，沒發現這個最好用的特徵。

對於條碼號清晰的書籍，直接把條碼號區域切割出來，然後使用文字行識別一步搞定。

由於題主的搜尋範圍比較大,而且要精確匹配到某一本書,對演算法的速度也有一定程度的要求.

我建議先使用一些簡單的特徵進行聚類成樹.

以顏色來舉例,

第一層將書分為紅、橙、黃、綠、青、藍、紫

第二層分為紅橙，紅黃，紅綠青紫，藍紫.

這種方法快速初步篩選之後，就精確匹配書名了。

使用CTPN來進行文字行定位

eragonruan/text-detection-ctpn

然後判斷最有可能是書名，作者的區域，使用CRNN進行文字行識別。

bgshih/crnn

3樓：摸不著頭腦

有沒有可能從文字識別的角度來做做看，如果是傳統方法的話，先對影象做一下預處理，諸如分割，直方圖拉伸之類的，盡可能把影象中的文字提取出來，然後利用一些現成的ocr庫進行識別，把書脊上的文字提取成乙個個短語，然後利用這些短語與已知模板裡的內容相對照找出最接近的乙個。如果是深度學習的話，一方面可以用深度學習網路識別文字，正確率應該也不低。另一方面，直接用深度學習網路判斷兩者是否為同乙個也是可以的，既然你有數百萬的書脊資料，通過資料增強的方式，新增一些雜訊，干擾，或者影象截斷，再用這些資料訓練網路，也是可行的

4樓：piao lin

可是試試用深度學習比如vgg模型提取每幅圖的特徵向量，然後用特徵向量比較相似度，應該挺準的，不過vgg的模型的影象寬度和高度是相等的，這種狹長強制拉公升會不會效果不佳

或者也可以試試OCR，把每本書的內容先通過OCR識別出來，直接通過書名判斷相似

圖書書背影象匹配，怎麼定義影象的相似度？怎麼以此在影象庫中搜尋對應的書背影象？

含有分式的函式影象怎麼畫？

怎麼用latex畫y 2x的影象？

GPU是怎麼生成影象的，具體過程是啥？

其他用戶還看了：