1 hot 或 softmax 表示法，如果標籤數量龐大怎辦？

1樓：成外年級主任

可以採用hash trick 的方法，具體做法是對標籤直接取雜湊值作為新的標籤，這種做法本來是針對feature的，但是label上應用也是可行的。

還有改進的signed hash trick可以部分解決碰撞問題

可能會造成有的類之間相對接近以及部分類被強行合併，有時候並不會太大影響結果，有的必有失嘛

2樓：GorgeousShar

單純看問題方向和描述，首先為什麼一定要概率形式？encode應該是最簡單的方法。其次概率分布這個問題，如何確定資料集的分布就是正態？這樣的樣本比例根本不能這麼理想化吧？

解決方法無非就是降維，增加多餘的引數變數來描述過程。要不然發明乙個類似ASCII編碼的8位表示？

3樓：

也許可以用基函式的引數來表示吧，記得POMDP裡belief state的分布似乎就是這麼做的，不過它是形式比較特殊正好可以表示成線性函式的組合。

4樓：Maple小七

現實世界中的標籤當然不是無限多的，如果真要從數學上考慮標籤或者特徵無限的情況，我曾經倒是想過可不可以把特徵向量擴充套件成無限維，比如無限維的詞向量，這樣相當於每個token對應著乙個連續有界函式，整個特徵空間是乙個希爾伯特空間，後來發現神經正切核(NTK)幹的差不多就是這件事，在無限寬的神經網路下神經網路可以近似為高斯過程。可惜和大部分深度學習理論一樣，NTK形式優美，實際效果卻差強人意。

再說標籤差異的問題，標籤與標籤之間確實有相似與不相似的區分，比如「人」和「狗」這兩個標籤的embedding應該比「人」和「花」的距離要小一些，因為前者都是動物，但如果我們不將這些細粒度的差異資訊標註出來，模型是很難自己識別出這些差異的，當然我們可以用一些方法讓模型從特徵本身去度量不同標籤的差異，讓「人」和「狗」這兩個類別離得近一點，度量學習大概也是在搞這麼一件事。

1 hot 或 softmax 表示法，如果標籤數量龐大怎辦？

正交矩陣的特徵值一定是1或 1嗎？

ak n 1 k tan n 有上界或下界嗎？

n階矩陣A的各行各列只有乙個元素是1或 1,其餘元素均為0 是否存在正整數k,使得A k I

其他用戶還看了：

1 hot 或 softmax 表示法，如果標籤數量龐大 怎辦？

正交矩陣的特徵值一定是1或 1嗎？

ak n 1 k tan n 有上界或下界嗎？

n階矩陣A的各行各列只有乙個元素是1或 1,其餘元素均為0 是否存在正整數k,使得A k I

其他用戶還看了：

1 hot 或 softmax 表示法，如果標籤數量龐大怎辦？