資料預處理的歸一化手段應該如何應用到訓練集，測試集和驗證集中？

1樓：

針對第乙個問題，我覺得只能先對訓練集進行處理，然後將相應的指標用於測試集，原因在於實際問題中我們待測試的資料集的大小可能是未知的（例如流資料）。

2樓：CowRy

對第乙個問題，血的教訓，讓我熬到了四點才找到我的模型的問題。

還不是很理解，難道是因為是用訓練集訓練的模型，所以測試集也要做和訓練集同樣處理再去測試嗎？不能對自己本身歸一化嗎，那就不是嚴格意義上的歸一化了吧，只是為了對其做和訓練集同樣的處理。

3樓：程式碼律動

第乙個問題，你的演算法不應該知道關於任何測試集的資訊，所以測試集的方差與均值都應該來自訓練集的先驗資料。當然，這也需要你的資料集劃分足夠合理，使你在訓練集上訓練出來的模型有足夠的泛化能力（當然模型的設計更關鍵）。再引申一句，你提到了驗證集，驗證集的歸一化也要和訓練集一樣，在調整引數的時候，我們面對的是驗證集的結果。

在驗證集上得到最佳的引數設定，最終在測試集上進行實驗。

第二個問題，這是要根據你的具體實驗來調整，大致選擇方法和思路是這樣的：

Zero-mean normalization

公式：這就是均值方差歸一化，這樣處理後的資料將符合標準正太分布，常用在一些通過距離得出相似度的聚類演算法中，比如 K-means。

Min-max normalization

公式：min-max 歸一化的手段是一種線性的歸一化方法，它的特點是不會對資料分布產生影響。不過如果你的資料的最大最小值不是穩定的話，你的結果可能因此變得不穩定。min-max 歸一化在影象處理上非常常用，因為大部分的畫素值範圍是 [0, 255]。

Non-linear normaliztions

非線性的歸一化函式包含 log，exp，arctan, sigmoid等等。用非線性歸一化的函式取決於你的輸入資料範圍以及你期望的輸出範圍。比如 log() 函式在 [0, 1] 區間上有很強的區分度，arctan() 可以接收任意實數病轉化到區間，sigmoid 接收任意實數並對映到 (0, 1)。

Length-one normalization

公式：將特徵轉為單位向量的形式，可以剔除特徵的強度的影響。這種處理用在不考慮向量大小而需要考慮向量方向的問題中，比如在一些文字情感的分類中，我們可能並不需要知道情感表達的強弱，而只要知道情感的型別，比如開心，生氣等等。

資料預處理的歸一化手段應該如何應用到訓練集，測試集和驗證集中？

機器學習資料歸一化的的方法有哪些？適合於什麼樣的資料？

如何看待松鼠ai最近更新的歸一化產品？

GCN中的拉普拉斯矩陣如何歸一化？

其他用戶還看了：