ViT在小規模的資料集上的準確率是否低於CNN？

1樓：

對，從目前個人經驗來說，Transformer在資料量小的時候效能都比其他方法差一些。

感性上的認識，個人感覺TR很可能是依賴MLP「背下」了（這個程度比CNN強烈，雖然已經有文章嘗試說明MLP的意義了，不過我沒做過實驗和研究，因此僅侷限於感性認識）很多東西從而實現的高效能和遷移性，如果你選擇的TR模型引數很多，就一定要訓練足夠多的資料；而如果是小的TR模型，小心模型的泛化情況。

2樓：233

那是肯定的，其實我覺得這模型沒啥錘用，無非是造概念而已，transformer 進軍 CV領域，拋棄之前的卷積操作，云云。

但拋棄卷積操作這個是沒道理的，切patch和卷積實際上是等價的，只是卷積核大一點，步長大一點。

至於attention。先上卷積神經網路，然後再接乙個transformer 的encoder ，其實是個常規操作。許多image caption的模型就是這麼做的。

我甚至覺得這樣做，其實更直觀，保留了卷積的偏置歸納，又通過attention 補齊了cnn 不擅長學習遠距離相互作用的問題。

只是給resnet 後面加幾層transformer 的encoder，漲點容易，講故事發文章難。

3樓：文刀九丶

在中小型資料集上，ViT的效果遠不如CNN，之前畢業設計做過實驗，幾萬張影象的分類任務(總影象幾萬張)，ViT最終的測試集準確率低5%~10%，而且收斂速度緩慢。下圖是訓練、Accurary和Loos對比折線圖。

4樓：

很簡單，你了解一下attention機制的原理就會發現CNN其實是一種特殊的attention，也就是說transformer更複雜，函式空間也是遠大於CNN的，所以如果訓練資料集規模太小很快就會過擬合。