機器學習中模型選擇為什麼要用交叉驗證集?

時間 2021-05-06 17:14:24

1樓:David 9

吳恩達的新書也提到怎麼選驗證集,可以看下這篇文章:

吳恩達新書《Machine Learning Yearning》讀後感,驗證(測試)集怎麼選?如何高效分析效能?降低可避免偏差和方差?實操經驗總結

2樓:呂律

您問錯人了,我也不知道為什麼讓我解答的人工智慧的問題這麼多。我是個德語老師,文科生,比較喜歡經濟歷史,天文地理,自然科學,等各方面的知識。但是就知道一些膚淺的知識。

更多的還有待我學習。人工智慧我也就是知道一些膚淺的知識,更多的我就說不上來了。我就是感興趣而已。

3樓:周曉歡

模型在訓練過程中自動地去擬合訓練集的分布;驗證集可以看做我們在訓練好的眾多模型中人工選擇乙個在驗證集上擬合最好的模型;而使用測試集的時候,模型的選擇和學習的引數已經定下來了,測試集只是做最後的乙個判斷,看模型的泛化能力。

4樓:scott Lee

蟹腰。如果你不用交叉驗證集,實際是把測試集先用作了驗證集後用作了測試集,那麼這個測試是沒有泛化意義的,有點自娛自樂。

通俗一點講,在沒有確定模型的好壞時候,交叉驗證集是作為評判模型優劣的標準,而測試集好比是模型確定後,實際使用的預演。相當於是摸底。

對於實際的使用,也沒有嚴格規定資料集一定要分成三個部分,但是對於模型的結構比較不確定,尤其像NN這種模型,你不用交叉驗證集,你是沒法確定到底該選擇什麼樣的結構(層數,權值初始化方式,損失函式選取)來進行泛化試驗的。

對於資料集一致性越好,比如訊雜比很大的資料集,你用兩部分也可以,泛化也會有較好效果,但這個沒有普適意義,越是複雜的資料集(內在的模式或特徵越多,耦合雜訊越多),你只用兩個部分去訓練,會發現得到的模型差之千里。

怎樣從機器學習模型中獲取知識?

吳烜聖 很多機器學習模型我覺得並不算是黑箱。最常見的線性回歸 決策樹,他們的引數空間都是可解釋的。對於深度學習模型而言,雖然我們不能知道每乙個引數的意義,但我們可以知道某一層所有引數捕捉了什麼抽象概念的。 外行強答 這應該算是控制論的問題,或者說是資訊理論的問題,取決於 知識 的本質,其實可以說,從...

現在量化交易必須要用機器學習,多因子模型嗎?

BigQuant 因為私募量化巨頭的賺錢效應,因此機器學習量化成為效仿的思路。機器學習目的是找到收益率與因子之間的非線性關係,其背景是因為金融市場的高度複雜非線性事實。通常會根據策略的回撤比率設定乙個失效判定標準,同時進行多策略組合。當然,對於有的模型而言確實在一定時間範圍內幾乎不用隨市場發生改變,...

如何理解機器學習模型中的假設條件?

假設是否合理是根據具體應用環境而定的,在深度學習興起之前,機器學習領域大家的乙個普遍的共識是 一定要對自己的模型做合理的假設,加合理的先驗資訊進去。使用這些模型的時候,再根據自己的問題是否適用來決定。舉個栗子,比如你有一堆資料,用PCA做降維,其中有乙個維度是年齡,內在的概率分布可能是乙個高斯分布,...