有哪些比較好的新詞發現方案？

1樓：江永青

乙個簡單而又有效的新詞發現方案可以採用互資訊和左右資訊熵的計算方法，計算二元的資訊熵的分數由三個對應部分組成：

1）點間互資訊：點間互資訊越高，內部聚合程度越高

2）兩個單詞片段資訊熵 h_r_l 和 h_l_r 的最小值：這個數值越大，則意味著兩個單詞一起出現的可能性越小

3）單詞左右資訊熵的最小值：這個數值越大就表示著候選詞出現的語境越多，越有可能成詞

因此，分數越高表示成詞的可能性越大。

計算完二元的資訊熵後，可以依次計算三元、四元的資訊熵，三元的新詞發現是將二元替換原有的兩個單字做為乙個單字繼續進行新詞發現，候選集可以取左資訊熵或者右資訊熵為0的候選集，四元、五元以此類推。

2樓：

matrix67的這篇文章非常好：Matrix67: The Aha Moments

github上的乙個完全實現：sing1ee/dict_build 簡單有效，語料越多，效果越好。

3樓：王芊

我做過的，用的是HDP來替代有監督裡的回退語言模型，，再用blocked gibbs samppling求解，可實現無監督分詞。大段文字比較準，不過就是速度有點慢，而且難以多執行緒。

4樓：

以我的理解，新詞發現包含兩個基本任務：（1）確定詞彙邊界；（2）確定新詞語義。

關於詞彙邊界的確定，建議閱讀Stanford NLP Group的專著Foundations of Statistical Natural Language Processing第5章關於collocations的相關介紹，目前大部分確定詞彙邊界的主流做法，基本上沒有跳出這章介紹的思想。

關於新詞語義的判定，方法就有很多了，典型任務包括相關詞發現、領域詞擴充套件，等等。我覺得像latent topic models、word representation、explicit semantic analysis等模型都可以用於解決這個問題。

5樓：何足道

matrix67的一篇文章，網際網路時代的社會語言學：基於SNS的文字資料探勘

以及github上的開源實現：GeorgeBourne/grid · GitHub

6樓：苑明理

我提供乙個笨但卻在實際中可以生效的思路。其實很簡單，就是把文件集合裡的文件兩兩比較，找出來共同的字串，這樣很快就可以建立乙個詞彙備選集合。再對該集合作適當的處理，如去除停用詞，等等。

這個備選集合可以成為下一步工作的起點，後面應該有很多方法可以採納。