Word2vec的詞聚類結果與LDA的主題詞聚類結果,有什麼不同?

時間 2021-05-30 12:16:30

1樓:微塵-黃含馳

首先,LDA是利用文件中單詞的共現關係來對單詞按主題聚類,也可以理解為對「文件-單詞」矩陣進行分解,得到「文件-主題」和「主題-單詞」兩個概率分布

Word2Vec其實是對「上下文-單詞」矩陣進行學習,其中上下文由周圍的幾個單詞組成,由此得到的詞向量表示更多地融入了上下文共現的特徵。也就是說,如果兩個單詞所對應的Word2ec向量相似度較高,那麼它們很可能經常在同樣的上下文中出現

需要說明的是,上述分析的是LDA與Word2Vec的不同,不應該作為主題模型和詞嵌入兩類方法的主要差異。主題模型通過一定的結構調整可以基於「上下文-單詞」矩陣進行主題推理。同樣地,詞嵌入方法也可以根據「文件-單詞」矩陣學習出詞的隱含向量表示。

主題模型和詞嵌入兩類方法最大的不同其實在於模型本身,主題模型是一種基於概率圖模型的生成式模型,其似然函式可以寫成若干條件概率連乘的形式,其中包括需要推測的隱含變數(即主題);而詞嵌入模型一般表達為神經網路的形式,似然函式定義在網路的輸出之上,需要通過學習網路的權重以得到單詞的稠密向量表示。

2樓:

word2vec屬於distributed representation範疇,LDA屬於topic model範疇。二者的區別主要在於模型所使用的背景資訊不同,word2vec將相鄰詞(例如N-gram)作為乙個詞的背景資訊,LDA將一整篇文件作為乙個詞的背景資訊。

使用背景資訊的不同使得word2vec和LDA學到不同性質的語義性質。基於文件背景資訊的LDA學到的是語義相關性,比如boat和water;基於相鄰詞背景資訊的word2vec學到的是語義相似性,比如boat和ship。

3樓:歐陽文俊

LDA某種程度和word2vec做的事情是一樣的,LDA得到單詞在每個主題上的分布(權值,重要性),例如賈伯斯和蘋果在某幾個主題上權值都比較高。而對於word2vec也可以做到,sparse word embedding只要在訓練的時候加入單詞向量稀疏非負的約束得到稀疏可解釋性的表示,同樣的,這樣的向量表示也可以得到單詞在某個主題(維度)上的權值,而且類似於賈伯斯和蘋果這樣的單詞在某幾個相同維度(可以看出LDA的主題)值比較大。

不同的地方可能是LDA直接知道某一維度是指哪種主題,而且一般word2vec的維度比LDA主題數目大得多。

4樓:月光寶盒娛樂頻道

詞袋模型 vs sequence (或context) 模型可以算作乙個區別。但LDA的思想未必不能用於 sequence 或 context 模型。

更本質更深刻的區別是LDA 是local representation, 而word2vec 是distributed representation。兩種思想孰優孰劣應該還是機器學習的重要研究問題。比如,參見文章

5樓:小小程式猿

LDA和Word2Vec 都是Word Embedding的方法

LDA訓練出來的 矩陣,即每乙個詞在各個主題上的分布和Word2Vec的詞向量是乙個意思,LDA訓練時一開始輸入的topic K等同於Word2Vec一開始設定的詞向量的大小。兩個方法得出的詞向量都是模型訓練的副產物!

LDA與Word2Vec 最大的不同應該是LDA是詞袋模型訓練出的產物,而Word2Vec是N-gram模型訓練的產物

由於LDA使用的是詞袋模型,所以模型考慮的是文章級別的詞和詞的共現。而Word2Vec採用N-gram,考慮的是乙個很小的視窗內詞的共現關係,所以這就決定了LDA得出來詞向量不如Word2Vec的詞向量精細,這裡所說的精細就是指詞項之間的相似度。所以「蘋果」和「賈伯斯」的相似度,用LDA得出的結果應該就會比Word2Vec小得多。

以上兩點我覺得就是LDA與Word2Vec的本質關係。

6樓:Xiaoran

簡單的說,詞向量所體現的是語義(semantic)和語法(syntactic)這些 low-level的資訊。而LDA的主題詞表現的是更 high-level的文章主題(topic)這一層的資訊。

所以Word2vec的一些比較精細的應用,LDA是做不了的。比如:

1)計算詞的相似度。同樣在電子產品這個主題下,「蘋果」是更接近於「三星」還是「小公尺」?

2)詞的模擬關係:vector(小公尺)- vector(蘋果)+ vector(賈伯斯)近似於 vector(雷軍)。

3)計算文章的相似度。這個LDA也能做但是效果不好。而用詞向量,即使在文章topic接近的情況下,計算出的相似度也能體現相同、相似、相關的區別。

反過來說,想用詞向量的聚類去得到topic這一級別的資訊也是很難的。很有可能,「蘋果」和「小公尺」被聚到了一類,而「賈伯斯」和「雷軍」則聚到另一類。

這種差別,本質上說是因為Word2vec利用的是詞與上下文的共現,而LDA利用的是詞與文章之間的共現。

PS. 說起來,拿LDA和doc2vec比較才比較合理啊~~

word2vec有什麼應用?

Edward word2vec的應用極為廣泛。首先,只要是nlp的相關應用就可以使用word2vec進行詞向量的初始化,通過初始化進一步的fine tuning能夠進一步的提公升模型效果。其次針對表示學習也有很多應用比如類似deepwalk之類的,感覺也都是受word2vec啟發。另外值得說的一點是...

Word2Vec如何解決多義詞的問題?

金坤 word2vec算出來的詞向量存在解釋一詞多義的侷限。要解決一詞多義問題,可以通過人為對詞進行語義標註,通過word semantic進行訓練,得出word semantic的向量。另外就是尋找一種方法,讓機器自己總結出一詞多義的詞。 word2vec其實只是利用distributional ...

GloVe以及Word2vec能稱為deep learning麼?這倆模型的層次其實很淺的

乙個是歷史原因,word2vec的方法原型,是Bengio在03年提出的神經語言模型,這個網路的確是非常淺的網路,只有1個hidden層,但是建模方法算是神經網路 現代的說法是深度學習 Good Fellow的花書裡面也把word2vec方法歸在了神經語言模型的章節。另外乙個原因,word2vec曾...