ViT在小規模的資料集上的準確率是否低於CNN?

時間 2022-01-03 09:16:07

1樓:

對,從目前個人經驗來說,Transformer在資料量小的時候效能都比其他方法差一些。

感性上的認識,個人感覺TR很可能是依賴MLP「背下」了(這個程度比CNN強烈,雖然已經有文章嘗試說明MLP的意義了,不過我沒做過實驗和研究,因此僅侷限於感性認識)很多東西從而實現的高效能和遷移性,如果你選擇的TR模型引數很多,就一定要訓練足夠多的資料;而如果是小的TR模型,小心模型的泛化情況。

2樓:233

那是肯定的,其實我覺得這模型沒啥錘用,無非是造概念而已,transformer 進軍 CV領域,拋棄之前的卷積操作,云云。

但拋棄卷積操作這個是沒道理的,切patch和卷積實際上是等價的,只是卷積核大一點,步長大一點。

至於attention。先上卷積神經網路,然後再接乙個transformer 的encoder ,其實是個常規操作。許多image caption的模型就是這麼做的。

我甚至覺得這樣做,其實更直觀,保留了卷積的偏置歸納,又通過attention 補齊了cnn 不擅長學習遠距離相互作用的問題。

只是給resnet 後面加幾層transformer 的encoder,漲點容易,講故事發文章難。

3樓:文刀九丶

在中小型資料集上,ViT的效果遠不如CNN,之前畢業設計做過實驗,幾萬張影象的分類任務(總影象幾萬張),ViT最終的測試集準確率低5%~10%,而且收斂速度緩慢。下圖是訓練、Accurary和Loos對比折線圖。

4樓:

很簡單,你了解一下attention機制的原理就會發現CNN其實是一種特殊的attention,也就是說transformer更複雜,函式空間也是遠大於CNN的,所以如果訓練資料集規模太小很快就會過擬合。

訓練MNIST這樣規模的資料需要上theano gpu嗎?

根據Convolutional Neural Networks LeNet 對乙個雙卷積池化層 隱層 SM層的網路來說 在 Core i7 2600K CPU 3.40GHz 上,使用標誌 floatX float32 Optimization complete.Best validation sc...

自己的idea只在某乙個資料集上效果較好,其他的baseline上不怎麼樣,應該怎麼辦?

Leolsj 最近我也遇到了相同的問題,還是比較惱火的,磕鹽加油分析原因 資料集的分布不同,複雜程度不同,對於不同的資料集同乙個網路結構並不能實現很好的效果。分析資料集的分布 分析超引數的分布 如果你是分類任務或者是識別任務,可以把錯誤類別單拎出來看一下遍歷的引數還不夠多,畢竟很多引數沒有規定的取值...

大規模養殖栽培的食材在口味上跟」古代「」天然「的有多大差距?

默識先生 食材的風味 前面也提到白羽雞,這是現代育種的趨勢。否則肉價會更貴。我曾經請教過專家,食材的風味物質 不止谷氨酸和呈味核苷酸,這個好加,主要是一些經嗅覺檢測的小分子不易彌補 主要是由基因 養殖方法決定的。科學是知道怎麼才能積累風味物質的,並且也能育出這樣的品種的 除了已經滅絕的 只是這目前不...