機器學習中模型選擇為什麼要用交叉驗證集？

1樓：David 9

吳恩達的新書也提到怎麼選驗證集，可以看下這篇文章：

吳恩達新書《Machine Learning Yearning》讀後感，驗證(測試)集怎麼選？如何高效分析效能？降低可避免偏差和方差？實操經驗總結

2樓：呂律

您問錯人了，我也不知道為什麼讓我解答的人工智慧的問題這麼多。我是個德語老師，文科生，比較喜歡經濟歷史，天文地理，自然科學，等各方面的知識。但是就知道一些膚淺的知識。

更多的還有待我學習。人工智慧我也就是知道一些膚淺的知識，更多的我就說不上來了。我就是感興趣而已。

3樓：周曉歡

模型在訓練過程中自動地去擬合訓練集的分布；驗證集可以看做我們在訓練好的眾多模型中人工選擇乙個在驗證集上擬合最好的模型；而使用測試集的時候，模型的選擇和學習的引數已經定下來了，測試集只是做最後的乙個判斷，看模型的泛化能力。

4樓：scott Lee

蟹腰。如果你不用交叉驗證集，實際是把測試集先用作了驗證集後用作了測試集，那麼這個測試是沒有泛化意義的，有點自娛自樂。

通俗一點講，在沒有確定模型的好壞時候，交叉驗證集是作為評判模型優劣的標準，而測試集好比是模型確定後，實際使用的預演。相當於是摸底。

對於實際的使用，也沒有嚴格規定資料集一定要分成三個部分，但是對於模型的結構比較不確定，尤其像NN這種模型，你不用交叉驗證集，你是沒法確定到底該選擇什麼樣的結構（層數，權值初始化方式，損失函式選取）來進行泛化試驗的。

對於資料集一致性越好，比如訊雜比很大的資料集，你用兩部分也可以，泛化也會有較好效果，但這個沒有普適意義，越是複雜的資料集（內在的模式或特徵越多，耦合雜訊越多），你只用兩個部分去訓練，會發現得到的模型差之千里。