文件主題模型的幾個問題?

時間 2021-06-03 07:25:19

1樓:

以下回答基本基於LDA。

主題一般都是自動生成的,你可以認為是詞項聚類,不過這個聚類是軟聚類,你得到的是乙個分布。原則上你可以通過先驗來指導生成的主題,但是收斂結果是否符合你的預期那就是另一回事了。

多項式模型建模?你說的是Multinomial?因為詞是有限的,於是很自然地採用乙個離散的Multinomial分布。

Multinomial和Dirichlet分布共軛,簡化了很多計算。

對於文字來說,不適合用來聚類,除非你把無關主題先篩掉(因為結果可能會包含類似介詞主題這種無意義主題,有些主題可能只有地名。可以說主題效果很好。但是我相信就聚類這個事情來說,一般像LDA是很難符合你的預期的)。

適合做詞項聚類。

LDA本身就是混合模型(詞項和主題,主題和文件的mixture),關鍵看怎麼建模。LDA結果持有的資訊比聚類要多太多了,因為你最後持有分布,而不是簡單的乙個分類(聚類)結果。至於這個結果(分布)為什麼不適合直接作為聚類依據,只是因為各個主題可能和你的聚類預期不同。

對於詞項來說,有太多不同的分類方式了。如果你期望LDA的主題維度像你預想的那樣(比如用作聚類),那麼你必須想辦法把相關的資訊輸入進去,實際上也並不是不能做這件事(比如一些有監督的LDA變體)。

以上為鄙人的一些淺見:)

有關有限尺度相變(Ising 模型)的幾個問題?

Boltzmann 很好,你問到統計物理的核心問題了,就是 什麼是相變 按照正則系綜給出的Boltzmann分布,有限系統的配分函式是有限項解析函式的求和 e指數求和 e指數本身就是解析函式,任意階導數都連續,那麼配分函式也必然任意階連續,因此不可能存在相變。相變只能出現在尺寸無限大的系統中。又稱作...

關於Lazada幾個問題?

萬里匯 WorldFirst 對東南亞市場來說,LAZADA絕對算不上冷門平台,而是東南亞首屈一指的電商平台。就全球市場而言,東南亞市場也是目前最具潛力,增長飛快的乙個地區。Lazada成立於2012年,是東南亞領先的電子商務平台,致力於通過商業和科技促進印尼 馬來西亞 菲律賓 新加坡 泰國和越南六...

補牙後的幾個問題?

小新 1.補牙不影響刷牙,而且補過的地方比其他地方更要好好刷,適當使用牙線和沖牙器 2.剛補完牙食過涼過熱食物偶有一過性敏感屬正常現象,盡量避免或使用脫敏牙膏 3.補牙現在基本靠粘接技術,過硬過黏的食物盡量避免,以防充填物脫落4.如出現自發痛 自己呆著時候就疼 夜間痛則需及時就診5.補完之後出現咬物...