機器學習中,對特徵做 行的norm,或者列的norm,這兩種norm的方式有啥區別和作用?

時間 2021-06-03 07:24:17

1樓:bear lin

剛好這兩種方法都做過,那我就簡單說下我的理解。特徵norm一般是為了特徵的歸一化。比如有些特徵數量級是萬的,有些特徵數量級是小數的,這種數量級的不對等對於神經網路,svm,相關性分析這些演算法都有影響,特徵相互之間的倍數實際會成為特徵權重,所以需要將特徵全部拉到01之間。

但是如果實際上的這種數量級不對等是反映了實際特徵間的重要度,那麼就不需歸一化了。之前做到協同過濾推薦的時候也需要對item列進行歸一化,但是這裡主要是為了使得缺失值剛好是0均值,從而可以用稀疏矩陣進行處理,有興趣可以了解下。但是是否歸一化對於邏輯回歸,線性回歸,樹的結果沒有影響,因此可不做歸一化。

在回歸過程中特徵norm的意義在於得到的最終引數權重能夠反應特徵對因變數的作用。

樣本norm在於把樣本放到同一長度中。實際上很多情況下樣本是不等長的,這裡長度是指l2長度。這種情況會使得樣本長度成為影響最終分類結果的乙個變數,這不是我們想要的,因此要對樣本長度做等長處理,消除樣本對長度影響

補充:邏輯回歸不做norm的話會很影響計算速度。所有變數都在同乙個量級,求解空間是乙個類球體,但是不在同乙個量級的話,求解空間是乙個扁的橢圓體,這時候找到最優解需要經過很多步的迭代。

2樓:姜文浩

對feature做歸一化是為了使每個feature的貢獻度都一樣。nlp裡面一般用sample的歸一化吧?其中的乙個目的是為了用cos相似度。

機器學習中特徵提取技術已經被神經網路中的特徵提取淘汰了嗎?

傳統影象處理還有前景嗎?膽大路野的回答 知乎 https www.zhihu.com question 342035031 answer 1771888184能啟發思路用於dl?摘抄2.在深度學習神經網路中需要特徵工程嗎?理論上是不需要的,基於端到端的特點深度學習神經網路中會在訓練中自行的學習特徵。...

機器學習下的各種norm到底是個什麼東西?

Palo Alto 機器學習裡面很多問題其實是乙個優化 optimization 的問題。既然是優化的問題,那麼就要有優化的物件 objective function 最簡單地機器學習模型就是linear regression。解決linear regression最常見的演算法是least squ...

大廠做機器學習的一說特徵維度就是上億,這個數量級的特徵都是怎麼得來的?

天造人設 廣義的機器學習來講,低緯度資料的交叉組合很容易就能達到1億的高維度特徵,然後在上面做點規則判決等。但對於需要訓練的機器學習譬如神經網路來說,就值得回答一下 如果題主說的 特徵維度 指的是模型引數數量,1億太容易了,輸入維度1萬隱層節點1萬的普通單層全連線網路就達成了,或者幾十層的1024多...