圖書書背影象匹配,怎麼定義影象的相似度?怎麼以此在影象庫中搜尋對應的書背影象?

時間 2021-05-30 20:18:09

1樓:

百萬數量級的影象檢索是比較難的,影象檢索基於hash編碼再匹配的策略比較多,編碼方式和距離量度是兩個關鍵問題,accuracy和speed非常難調和。建議用Cascade思想,先用簡單編碼方式和簡單距離量度如漢明距離,再用複雜編碼和複雜距離量度如ncc,逐層濾除虛警,雖然如此,考慮到多尺度什麼的,時間肯定不會短。整體看圖書側邊相似度挺高的,影象檢索不一定能實現如此細粒度的分類。

另乙個思路,考慮到與一般影象檢索不同,你的資料都是圖書,側邊絕大多數應該都是書名,文字識別後再做文字搜尋,可能效率會高點。

2樓:楊喬

本人沒有上手過這麼大資料量的專案,只能根據一些直覺來提一些小建議。

感覺上,百萬級別的分類,而且一本書對應的樣本不多,如果直接套用網路,應該非常難以訓練。

可以試試構建決策樹,快速解決粗分類,縮小搜尋範圍.

然後使用一些精細分類的方法,如多注意力機制等.

也可以在這一步結合CRNN,和一些語義模型來進行細分類.

突然發現,每乙個圖書在書的底部都是有條碼號的,昨天觀察不仔細,沒發現這個最好用的特徵。

對於條碼號清晰的書籍,直接把條碼號區域切割出來,然後使用文字行識別一步搞定。

由於題主的搜尋範圍比較大,而且要精確匹配到某一本書,對演算法的速度也有一定程度的要求.

我建議先使用一些簡單的特徵進行聚類成樹.

以顏色來舉例,

第一層將書分為紅、橙、黃、綠、青、藍、紫

第二層分為紅橙, 紅黃,紅綠青紫,藍紫.

這種方法快速初步篩選之後,就精確匹配書名了。

使用CTPN來進行文字行定位

eragonruan/text-detection-ctpn

然後判斷最有可能是書名,作者的區域,使用CRNN進行文字行識別。

bgshih/crnn

3樓:摸不著頭腦

有沒有可能從文字識別的角度來做做看,如果是傳統方法的話,先對影象做一下預處理,諸如分割,直方圖拉伸之類的,盡可能把影象中的文字提取出來,然後利用一些現成的ocr庫進行識別,把書脊上的文字提取成乙個個短語,然後利用這些短語與已知模板裡的內容相對照找出最接近的乙個。如果是深度學習的話,一方面可以用深度學習網路識別文字,正確率應該也不低。另一方面,直接用深度學習網路判斷兩者是否為同乙個也是可以的,既然你有數百萬的書脊資料,通過資料增強的方式,新增一些雜訊,干擾,或者影象截斷,再用這些資料訓練網路,也是可行的

4樓:piao lin

可是試試用深度學習比如vgg模型提取每幅圖的特徵向量,然後用特徵向量比較相似度,應該挺準的,不過vgg的模型的影象寬度和高度是相等的,這種狹長強制拉公升會不會效果不佳

或者也可以試試OCR,把每本書的內容先通過OCR識別出來,直接通過書名判斷相似

含有分式的函式影象怎麼畫?

liser 1。一次 可以分離常數使得分子上無x,這樣得到的結構相當於反比例函式平移過來,作草圖只需要兩個 對稱中心 d c,a c 函式區域是左上和右下還是左下和右上 2。對勾函式類 這時候有兩類 第一類為ab同號,且稱之為對勾函式,圖示紫色為ab均大於0情況,若小於0只需倒過來 影象關於原點對稱...

怎麼用latex畫y 2x的影象?

Caption Hasterd 有回答提到了用TikZ的,那我就說下用PGFPLOTS的吧。雖然用TikZ也能直接畫,不過PGFPLOTS才是專門用來畫這樣的影象的巨集包。documentclass usepackage pgfplotsset begin begin begin title xla...

GPU是怎麼生成影象的,具體過程是啥?

crazyIter 簡單點說,遊戲中的所有物體基本都是三角形組成的,這些三角形通過乙個矩陣變換 透視變換,讓產生近大遠小的效果 對映到螢幕的二維座標,這些二維化的三角形通過光柵化 相當於填充三角形內部的畫素 獲得三角形的每個畫素,每個畫素再通過紋理貼圖 三角形有了顏色效果 就最終生成了你看到的螢幕上...