如何評價何愷明等 arxiv 新作 Rethinking ImageNet Pre training？

1樓：Littlemite

看了這篇文章後興致勃勃地想在SQuAD上從頭訓個BERT，結果完全訓不動...

CV的trick放到NLP還是不好用啊...

2樓：

這文其實是個廣告, 主要結論, 四個:

我們可以 train from scratch, 效果不比 fine-tune 差。

fine-tune 對於目標位置敏感的任務, 效果不行

fine-tune 收斂快, 但 fine-tune 沒辦法減少過擬合

資料為王, 資料量不夠怎麼訓也沒去收集資料有效

這我得逐一吐槽下:

廢話, 我有錢當然從頭訓, 我沒錢才要別人的預訓練模型啊

常識, 分類任務模糊了位置資訊, 仨池化下去還有啥位置可言

常識, 預訓練可以等價成乙個 fancy 的初始化

常識, 越多人工越多智慧型

然後我突然意識到.....第乙個這個不是廢話, 這是在說檢測任務不是分類任務.....

以前, 我們其實並不能 train from scratch, 有錢也得 pre-train

去年也是這個時候 DSOD 一把眼一把淚的不用預訓練嘗試了下這個問題.....

真的很難啊, 那現在為什麼可以了呢. 因為我們有了 GN 和 SyncBN 啊

複雜任務梯度不穩定, 必須要有 Normalization

以前視訊記憶體裡一次壓根塞不下幾個, BN 有就和沒有一樣, 動不動炸爐......

然後這次呢, 設計了詳實的實驗對比證明了我們確實可以扔了預訓練了

綜上所述, 這其實是個 GN 的廣告, 我們就是可以不要 ImageNet 預訓練...

>>滑稽

我個人倒是也覺得ImageNetPre-training 差不多過時了, 但我的想法有點區別, Pre-training 可從來沒過時, 也不會過時.

說實話自從 ILSVRC 停辦, Classification 已經徹底涼了, 寥寥無幾的組裡還要去掉不燒咖啡燒電的 AutoML 那堆人...

NAS 開始路還歪了, 這不就是在花樣過擬合驗證集嗎, 我都沒見你們談談泛化效能, 換個資料集就幾乎重跑一遍啊, 有錢為所欲為啊...

Classification 就是乙個特徵提取器加個線性分類器, 然後我們認為這個特徵提取器提取到了真正的特徵, 可以用於其他任務而已.

但我們把視野擴大點, 如果看成編碼器加分類器的模式呢, 我們能不能得到更好的編碼器?

可以的話, 那我們會從哪得到更好的編碼器?

顯然, 第乙個想到的就是 Object Detection, 至少我們能補充相對位置的資訊, 還略帶 Attention 機制和一定的高層 Semantic 資訊.

CV現在也需要BERT這樣級別的模型, 能夠碾壓級的提公升所有下游任務的 SOTA.

這個模型曾經是ResNet, 但現在得成為過去時了, 分類預訓練模型已經無法適應現在複雜的任務需求了.

昔日的王者已經不適合這個版本了, 我們需要新的英雄.

但....道理我都懂, 可是怎麼搞出 Dominating 的模型呢, 這就得拋骰子鑑定一下運氣智商和財力了....

3樓：呵呵哈

看完了文章，來說兩句，之前做檢測，也是用imagenet預訓練骨幹網路，再疊加檢測部分繼續訓練，至於效果覺得也是很好的，但是一直沒有進行過直接endtoend。

何開明這篇文章具有指導意義，什麼情況下用預訓練，什麼情況下，自己訓練，在資料集少的情況下，也不要對預訓練模型抱有太多幻想。

4樓：

預訓練作為大規模的初始優化方式可能更穩定，而這種穩定帶來了一些弊端，即預訓練的影響足夠深刻，尤其對於高階語義特徵。

預訓練和從頭開始訓練優化過程不一致，但能達到相當的效果，對於整個過程的認知不一樣。前者相當於學到一定程度，拐個彎學習另外的目標特徵，基於以往學習到的表示，限制它進行更好的優化。後者從頭訓練，目標明確。

5樓：

0. 收集資料是要成本的。

如果預訓練模型別人已經完全公開了，你自己資料少，用！

如果預訓練模型別人已經完全公開了，你資料也挺夠，不用白不用，至少能節省不少訓練時間。再不濟也比從頭訓練的隨機初始化要強不少。

如果沒有公開的預訓練模型（這個假設不存在吧，至少還有imagenet，回到假設1或2），也不要怕，努力收集到適量多（不用特別特別多）的資料，花點時間，從頭訓練也可能得到與預訓練相當的performance.

如果人力和算力都足夠的話，請隨意，但是還是有些細節上的問題要調整，比如BN的設計。

故，預訓練雖非必要，但還是用預訓練比較省心呀。

6樓：cstghitpku

如果你一沒有資料，二沒有強大的計算能力，別想太多，乖乖的使用Pre-training模型吧，自己訓練費力不討好；如果你比較土豪，高質量資料和標註非常多，計算能力非常強，那麼當然可以自己訓練模型，而且不比fine-tune效果差，因為一發面自己訓練更有針對性，另一方面fine-tune沒有辦法減少過擬合而是加快收斂。 ImageNet可能起到的作用更多是加快收斂而不是提公升效果。另外，自己訓練時優化方法、學習率、epoch等可能都很重要，這個也需要一定的經驗吧。

果然還是經濟基礎決定上層建築啊。。。

7樓：

前腳GB爸爸發的文章剛說Pre-train Model在CIFAR-10上得到了最新的SOTA，後腳FAIR媽媽就直指Pre-train沒卵用。

各位吃瓜群眾，請搬好小板凳，讓我們拭目以待。

PS：黃老闆給了你們多少錢？

PPS：區塊鏈究竟涼了沒有？如果沒涼，還要多久？

PPPS：請問TPU變成磚之後如何才能發揮更高大上用途？

PPPPS：體系結構難道真的只能在馮諾伊曼的大樹下嗎？

PPPPPS：量子計算到底靠不靠譜，如果不靠譜，有生之年看來沒法見到第四次工業革命了嗎？

算了，睡了。

8樓：wondervictor

有個疑問，為啥imagenet-pretrained 的model不能再達到更好的效能？random和pretrained歸根結底只是初始化不同，pretrained達到的local optima就無法再打破找到更好的local optima了嗎？

9樓：

就像驗證了回家不需要坐車騎車也是可以的這麼個道理...

在資料集不足的時候還不是要初始化，就像我家在海對面不坐船不坐飛機光游泳還是不行一樣

道理很簡單，其實早就發現這個問題了，但人家實驗充分啊……大佬就是大佬，我們可沒有資源來跑那麼多實驗，咱沒錢啊……不過我們也沒有想那麼仔細，畢竟也沒想著從這點上發文

10樓：春夏秋冬

聽聞大作實驗設計為標桿之作，特地瞅瞅，不過一直就認為用imagenet就是為了加速收斂呀。。。難道大家之前都把這個作為改進效能的必須品。emmmm

11樓：

對於這個問題還是有個小疑問

為什麼BN對於檢測這個任務來說beta和gamma在pretrain時需要fix？

為什麼BN不適合從零開始的檢測任務？光從輸入資料的解析度而言我覺得還不能信服

總覺得BN在finetune時有問題，得從數學角度對比分析下。

12樓：Wendell

有個疑問，ImageNet明明是提供了bbox的，為什麼沒人試試從Localization的Pretrained模型遷移到Detection呢，這樣不就可以滿足位置敏感了麼，有可能比分類模型Pretrained更好一些吧

13樓：管岱

文章的作者欄很強大，motivation很直觀，實驗很簡單也很充分。簡單來說就是，在coco上，在不改變任何網路結構的情況下，之前依據imagenet pretrain設計的檢測模型依然可以達到和之前一樣的performance。

在這篇文章之前，不需要pretrain的檢測器大多都是單階段的，兩階段的貌似不太好訓收斂（DSOD有實驗）。現在證明在coco這種較大型的資料集上，兩階段也可以比較好的收斂了。

（這麼多年過去了，終於看到突破faster-rcnn主體架構的希望了？）

這篇文章更多的是指導意義吧，讓後面的研究者嘗試脫離「pretrain+finetune」，去重新思考CV的未來方向吧~

14樓：

不用 pretraining 的關鍵是可以直接搜網路結構了啊！

不用侷限於被設計用來做分類的模型了啊！

哪家有足夠多的卡趕緊做啊！

（匿了匿了

15樓：

我用imagenet預訓練的模型，去finetune過乙個更大的資料集（類似openimages，比imagenet大十倍），得到的結果很有趣。首先整體效能上來說，pretrain只比from scratch提高了1個點。第二個更有趣的是pretrain了出現兩極分化的現象，效能很好的類別和效能很差的類別數量都增加了。

16樓：

判斷乙個cv的研究領域是否走入正軌的重要標誌就是要不要用pretrained model。如果還需要預訓練模型，那說明現有資料尚不足以支撐起cnn模型，那麼乙個方法帶來的提公升就可能不是對網路表達的提公升，而可能只是抵抗了一定的overfit效應，抵抗overfit而提公升的方法會隨著資料量的增大而逐漸失去作用。此時這個研究領域的首要目標應當是提公升資料量，而不是瞎試各種方法。

恭喜目標檢測這個topic的研究步入了正軌，好戲才剛剛開始。

17樓：柯小波

檢測任務扔掉 pre-trained model 也算是一大熱點了，之前就有 DSOD 一系列工作，Kaiming 這次從 two-stage detector 入手總結了很好的經驗。近期也有像 ScratchDet 這樣的工作，比較深入地分析了怎麼從 0 訓練 one-stage detector，即使在 VOC 上也能達到吊炸天的效能，可以和 Kaiming 的工作互補著看。

這一類工作的意義並不在於讓大家立刻扔掉 pre-trained model，而是更好地了解網路訓練這個過程。畢竟現在除了用 ImageNet 預訓練之外，還有另外一種訓練正規化，網路訓練也不是華山一條路了。了解訓練過程又會進一步總結出各種 task-specific 的基礎網路，而不是侷限於 ResNet 這一系列基礎而實用的通用網路結構。

有更多這種工作，對訓練網路的認識才會更深，深度學習才會慢慢看起來不像是黑箱子。

如何評價何愷明等 arxiv 新作 Rethinking ImageNet Pre training？

如何評價韓劇《迷霧》裡的何明宇？

如何評價郭敬明給何昶希s卡

如何評價仲愷農業工程學院？

其他用戶還看了：