條件熵是交叉熵嗎？

1樓：周小小

哪條wiki上寫的，首先讓你產生疑問的地方在於問題中，相對熵=資訊熵-交叉熵是錯的。應該是相對熵=交叉熵-資訊熵。

而且，如果是可以這樣想的話，那根據勘誤後的題中資訊：相對熵=交叉熵-資訊熵，而資訊增益（相對熵）=資訊熵-條件熵。那我兩式相加，則2倍相對熵=交叉熵-條件熵。

那有什麼意涵？意思是當交叉熵最小時，兩個分布一致，則相對熵=0，則此時有交叉熵=條件熵？看見沒，改變了條件，依然出現了交叉熵=條件熵的疑問。

2樓：Chuang

我的理解是：

條件熵表示在給定條件X下，Y的條件概率分布的熵對X的數學期望。本身這個X就是不確定的，所以需要在X的在每乙個小類裡面，都計算乙個小熵，然後每乙個小熵乘以各個類別的概率，然後求和。

而交叉熵是指用分布 q 來表示本來表示分布 p 的平均編碼長度，衡量在給定的真實分布下，使用非真實分布所指定的策略消除系統的不確定性所需要付出的努力的大小，本質上還是用來衡量兩者之間的差異的。

更多的，待我學習歸來填坑

為什麼交叉熵（cross entropy）可以用於計算代價？

Satie 尋找乙個有意義的代價函式的其最小值有意義可以等價於尋找乙個有意義的其他函式其最大值有意義訴求的距離問題可以轉化為概率問題。求乙個代價函式 Loss 的最小值距離最短可以等價於求乙個描述函式的最大值概率最大在用神經網路的求解分類問題中，這個轉化可以用輸出的最後一層 ...

為什麼pytorch中的交叉熵損失用的是ylogp而不是ylogp 1 y log 1 p ？

Honda 交叉熵反映的是兩個概率分布的近似程度，其中式子裡面的y是實際分布，如果是二分類的話，它的取值只有0和1，所以當y 1的時候，後面那項就消掉了，當y 0的時候，前面那項消掉了，後面那項變成ylogp.因此可以直接這樣寫. Shawvin ylogp需要y是獨熱編碼，比如分成三類就是 0,0...

用交叉熵損失函式能解決梯度消失問題嗎？

缺心眼只解決最後一層。因為鏈式求導過程中每一層都會對啟用函式求導。在前面幾層中可以利用ReLU等函式代替sigmoid函式以解決隱層的梯度消失問題，但在例如二分類問題中，輸出層一般還是會選擇使用sigmoid函式，此時就需要搭配交叉熵損失函式解決一下輸出層的梯度消失問題了。梯度消失的意思是當反向...

條件熵是交叉熵嗎？

為什麼交叉熵（cross entropy）可以用於計算代價？

為什麼pytorch中的交叉熵損失用的是ylogp而不是ylogp 1 y log 1 p ？

用交叉熵損失函式能解決梯度消失問題嗎？

其他用戶還看了：