為什麼目標檢測的網路,regression target要做encode而不是直接相減?

時間 2021-05-05 18:56:51

1樓:

因為GT Box有的大有的小,邊長100個畫素的GT Box偏離10個畫素,和邊長20個畫素的GT Box偏離10個畫素,偏離程度是不一樣,明顯後者偏離得更多

2樓:yuancoder

沒那麼多道理,效果好才是王道。單純回歸任務,根本不需要encode,甚至都不要歸一化,暴力smoothL1就夠了。目標檢測任務設計到多工,loss之間的平衡很重要,所以合適的編碼會讓你調參輕鬆些。

3樓:王劍鋒

從2023年的視角來看,這僅僅是歷史沿革而已。

FCOS、ATSS等方法都已經明確證明了,這種encode方式並不是critical的。直接以DenseBox的方式回歸anchor中心點到bbox的左上右下相對距離,是完全可行且效能基本一致的。

實操中可能需要輸出端乘以FPN對應層的stride以保證head可以share weights,以及用relu等保證輸出非負。這些做法在以上方法的code中都有體現。

在實際的業務部署中也建議這樣做,因為log/exp操作在絕大多數晶元上的latency都要大於加減乘,這樣做對量化等操作的友好程度也更高。

目標檢測中的mAP是什麼含義?

tveek 目標檢測這個評價方式好複雜.為什麼不可以用 準確率 檢測成功的個數 真實框的個數 誤識別框的個數 檢測成功 iou 大於某個閥值且類別相同,檢測成功.誤識別 不在ground truth中,但被檢測出來的那部分 這裡首先介紹幾個常見的模型評價術語,現在假設我們的分類目標只有兩類,計為正例...

目標檢測演算法中特徵提取網路通常需要先在影象分類資料集上預訓練,然後再來訓練目標檢測網路,具體是怎麼做?

禪與電單車維修技術 預訓練好的模型刪掉最後的全聯接層 DenseLayer,用於輸出各類別的置信概率 可以做目標檢測網路的backbone,用於從網路中提取特徵。如果再多刪掉幾層卷積層,則backbone的輸出解析度會更高,對應整個網路的感受野會更小,更容易識別小物體。 lonely fish 看你...

目標檢測分類為什麼用置信度,而不是概率?

隨手一答。我個人的看法是,目標檢測裡回歸的那個置信度,是roi內是否有目標的置信度,這個置信度和分類概率本質上是一回事 相當於沒有做歸一化的概率值 之所以可以用回歸做,可能是兩個原因 1.由於是二分類,不會引入 序 的問題,比如用回歸來做多分類時,類2和類0的距離大於類2和類1的距離,會存在這個問題...