相同的神經網路模型，採用相同資料集訓練，得到的權重引數是否相同？

1樓：WillAlex

不同的初始化權重，不同的優化器，最後學習得到的權重是不一樣的。但會有一些相似性，比如矩陣的秩，范叔，行列的相關係數等可能相似。

2樓：錢錢

取決於你的結構或者representation是否穩定。如果穩定，近似，參看Deep Ensemble這篇文章，大概核心含義是用不同的隨機數種子分別訓，最後合一下對prediction做uncertainty的判斷；如果不穩定，差別會很大。

3樓：2WaveTech

除了上面已有的回答外，我補充幾點。

1/ 超引數不同，訓練出來的權重幾乎肯定不同。

2/ 模型訓練時可能加入的其它隨機因素，比如Dropout，Ghost Batch Norm，miniBatch的選擇方式，當然還有上面提到過的權重隨機初始化(雖然這個是可以用相同的seed來重現實驗結果的)，等等，它們對模型收斂至何處都有影響，導致訓練結果的不同。

反之，如果答案是"相同"，那ensemble之類的方法都沒必要了，AutoML也多餘存在了，這顯然違背現實。

4樓：採石工

即使資料集和網路模型相同, 最終訓練得到的模型權重極大概率是不同的, 這是因為:

1) 資料方面

資料的預處理方式可能不一樣.

資料增強方式可能不一樣, 且資料增強具有一定的隨機性.

資料的訓練順序, 取樣方式可能不一樣.

2) 模型方面

模型引數的初始化方式和初始值可能不一樣.

模型中一些操作具有一定的隨機性 (如 dropout 等).

3) 訓練方面

訓練採用的優化器 (optimizer) 可能不一樣.

與訓練相關的一些超參或設定 (如 batch size, learning rate scheduler 等) 可能不一樣.

如果採用不同的訓練框架方式訓練, 框架在實現上的差異也會導致結果存在差異.

如果問相同的神經網路模型, 採用相同資料集訓練, 得到的權重引數是否具有相似性, 我猜是有的.