如何理解機器學習中雜訊影響模型複雜度問題?

時間 2021-06-03 16:27:18

1樓:

噪音使得特徵失準,一般而言的雜訊相比常見的簡單模型要複雜,從而你如果不去除雜訊,至少需要同等複雜的模型才有可能得到觀感上較好的效果,而這往往是提高了複雜度的。

2樓:陶輕鬆

舉個例子,分類為:,給出「隨機均勻」樣本資料集(即:人的特徵集),樣本特徵可分為:,樣本列表如下:

D=,,,,

,,}根據資訊增益的定義,首先資料集D的經驗熵為:

然後咱們再看一下,每個條件熵:

H(D|A1) =

其中D1=D,D2=空集,其中D1為【有手】,D2為【無手】同理可以求出,H(D|A2),H(D|A3)有:H(D|A1) > H(D|A2) > H(D|A3)根據咱們的熵的理解其實猜都可以猜出來,很顯然吧,A3特徵能將資料分離的特別對等,對等的時候的累計和最大,從熵的角度出發,說明資料越活躍,不確定性越強吧。這個很容易理解的,比如上面,在確定特徵A1為【有手】的時候,我們壓根就沒法去確定是男是女,所以熵的值越大,我們了解一件事情所需要的資訊就更多,說明這個資料越活躍吧。

相反,當特徵A3確定的時候【有喉結】,完全可以確定是男的,這個時候H(D|有喉結)、H(D|無喉結)都是最小值等於0,熵的值最小,說明資料是完全確定的,我們不需要更多或者說很多的資訊去了解一件事情。這就是上面《數學之美》中給熵定位的含義。

Ok,扯遠了,咱們再去看【資訊增益】:g(D,A) = H(D) - H(D|A),【資訊增益】的別名是【相對熵】。因為H(D|A)指代的是A確定的情況下,分類D的熵,即D資料分類的不確定性;所以在g(D,A)指代的是,A確定的情況下,D資料分類的確定性(相對於不確定性而言的)。

所以g(D,A)即資訊增益越大,代表A確定的情況下,資料分類的確定性更強,用《數學之美》的話理解就是:我們不需要更多的資訊就可以相對確定判斷出資料的分類。所以這才是ID3演算法中用資訊增益最大去衡量根節點擊擇的由來。

既然有了資訊增益,什麼資訊增益比也就是用比值去衡量的而已,主要是為了讓資料不至於相差太大,比值可以縮小為0~1,其實沒什麼卵用,實質意義不變,用資訊增益比的ID3演算法叫做C4.5演算法。

如何理解機器學習模型中的假設條件?

假設是否合理是根據具體應用環境而定的,在深度學習興起之前,機器學習領域大家的乙個普遍的共識是 一定要對自己的模型做合理的假設,加合理的先驗資訊進去。使用這些模型的時候,再根據自己的問題是否適用來決定。舉個栗子,比如你有一堆資料,用PCA做降維,其中有乙個維度是年齡,內在的概率分布可能是乙個高斯分布,...

如何理解機器學習中的 regularization (正則化)?

zhao 先占個坑寫個快捷簡短的。intuitional角度 L2norm懲罰太大的weight W,讓很多W處於很弱的狀態,這相當於降低了模型複雜度。統計角度,不少前面的答案提到了Gaussian先驗分布,是這麼個事兒。統計目的是找到合適的W,使得posterior概率最大化,用人話說就是 給定資...

怎樣從機器學習模型中獲取知識?

吳烜聖 很多機器學習模型我覺得並不算是黑箱。最常見的線性回歸 決策樹,他們的引數空間都是可解釋的。對於深度學習模型而言,雖然我們不能知道每乙個引數的意義,但我們可以知道某一層所有引數捕捉了什麼抽象概念的。 外行強答 這應該算是控制論的問題,或者說是資訊理論的問題,取決於 知識 的本質,其實可以說,從...