資料預處理的歸一化手段應該如何應用到訓練集,測試集和驗證集中?

時間 2021-05-06 23:26:26

1樓:

針對第乙個問題,我覺得只能先對訓練集進行處理,然後將相應的指標用於測試集,原因在於實際問題中我們待測試的資料集的大小可能是未知的(例如流資料)。

2樓:CowRy

對第乙個問題,血的教訓,讓我熬到了四點才找到我的模型的問題。

還不是很理解,難道是因為是用訓練集訓練的模型,所以測試集也要做和訓練集同樣處理再去測試嗎?不能對自己本身歸一化嗎,那就不是嚴格意義上的歸一化了吧,只是為了對其做和訓練集同樣的處理。

3樓:程式碼律動

第乙個問題,你的演算法不應該知道關於任何測試集的資訊,所以測試集的方差與均值都應該來自訓練集的先驗資料。當然,這也需要你的資料集劃分足夠合理,使你在訓練集上訓練出來的模型有足夠的泛化能力(當然模型的設計更關鍵)。再引申一句,你提到了驗證集,驗證集的歸一化也要和訓練集一樣,在調整引數的時候,我們面對的是驗證集的結果。

在驗證集上得到最佳的引數設定,最終在測試集上進行實驗。

第二個問題,這是要根據你的具體實驗來調整,大致選擇方法和思路是這樣的:

Zero-mean normalization

公式:這就是均值方差歸一化,這樣處理後的資料將符合標準正太分布,常用在一些通過距離得出相似度的聚類演算法中,比如 K-means。

Min-max normalization

公式:min-max 歸一化的手段是一種線性的歸一化方法,它的特點是不會對資料分布產生影響。不過如果你的資料的最大最小值不是穩定的話,你的結果可能因此變得不穩定。min-max 歸一化在影象處理上非常常用,因為大部分的畫素值範圍是 [0, 255]。

Non-linear normaliztions

非線性的歸一化函式包含 log,exp,arctan, sigmoid等等。用非線性歸一化的函式取決於你的輸入資料範圍以及你期望的輸出範圍。比如 log() 函式在 [0, 1] 區間上有很強的區分度,arctan() 可以接收任意實數病轉化到 區間,sigmoid 接收任意實數並對映到 (0, 1)。

Length-one normalization

公式:將特徵轉為單位向量的形式,可以剔除特徵的強度的影響。這種處理用在不考慮向量大小而需要考慮向量方向的問題中,比如在一些文字情感的分類中,我們可能並不需要知道情感表達的強弱,而只要知道情感的型別,比如開心,生氣等等。

機器學習資料歸一化的的方法有哪些?適合於什麼樣的資料?

Datawhale 歸一化後加快了梯度下降求最優解的速度 歸一化有可能提高精度 如上圖所示,藍色圓圈代表兩個特徵的的等高線。左圖中兩個特徵區別相差特別大。其中乙個特徵X1的區間是 0,2000 乙個特徵X2 1,5 所形成的等高線比較尖銳。當時用梯度下降法時,很可能要垂直等高線走,需要很多次迭代才能...

如何看待松鼠ai最近更新的歸一化產品?

武漢古田校區張凱 市面上的課程大多是按照年級來安排的,歸一化課程回歸到了知識點本身,從知識點之間的關聯性出發,橫向延伸,幫助學生構建學科知識框架,同時也能夠更精準地尋找知識漏洞,繼而針對性解決問題! 我又來了!歸一化的 水軍 產品做得真不怎麼樣。一群連是啥都不知道的人,就開始說 哦,雖然不知道是什麼...

GCN中的拉普拉斯矩陣如何歸一化?

如果我們僅僅關注,可以理解其作用 對節點的一階鄰居資訊的加權彙總聚合,權重與節點的度成反比 鄰接矩陣 鄰接矩陣,表示節點和節點之間是相互連線,如果鄰接矩陣中加入自環,即,矩陣形式表示為,單位矩陣 度矩陣 度矩陣為對角矩陣,在矩陣的對角線上取值為,其他區域取值為0,同理,在鄰接矩陣包含自環的情況下,對...