有哪些比較好的新詞發現方案?

時間 2021-05-08 17:43:28

1樓:江永青

乙個簡單而又有效的新詞發現方案可以採用互資訊和左右資訊熵的計算方法,計算二元的資訊熵的分數由三個對應部分組成:

1)點間互資訊:點間互資訊越高,內部聚合程度越高

2)兩個單詞片段資訊熵 h_r_l 和 h_l_r 的最小值:這個數值越大,則意味著兩個單詞一起出現的可能性越小

3)單詞左右資訊熵的最小值:這個數值越大就表示著候選詞出現的語境越多,越有可能成詞

因此,分數越高表示成詞的可能性越大。

計算完二元的資訊熵後,可以依次計算三元、四元的資訊熵,三元的新詞發現是將二元替換原有的兩個單字做為乙個單字繼續進行新詞發現,候選集可以取左資訊熵或者右資訊熵為0的候選集,四元、五元以此類推。

2樓:

matrix67的這篇文章非常好:Matrix67: The Aha Moments

github上的乙個完全實現:sing1ee/dict_build 簡單有效,語料越多,效果越好。

3樓:王芊

我做過的 ,用的是HDP來替代有監督裡的回退語言模型,,再用blocked gibbs samppling求解,可實現無監督分詞。大段文字比較準,不過就是速度有點慢,而且難以多執行緒。

4樓:

以我的理解,新詞發現包含兩個基本任務:(1)確定詞彙邊界;(2)確定新詞語義。

關於詞彙邊界的確定,建議閱讀Stanford NLP Group的專著Foundations of Statistical Natural Language Processing第5章關於collocations的相關介紹,目前大部分確定詞彙邊界的主流做法,基本上沒有跳出這章介紹的思想。

關於新詞語義的判定,方法就有很多了,典型任務包括相關詞發現、領域詞擴充套件,等等。我覺得像latent topic models、word representation、explicit semantic analysis等模型都可以用於解決這個問題。

5樓:何足道

matrix67的一篇文章,網際網路時代的社會語言學:基於SNS的文字資料探勘

以及github上的開源實現:GeorgeBourne/grid · GitHub

6樓:苑明理

我提供乙個笨但卻在實際中可以生效的思路。其實很簡單,就是把文件集合裡的文件兩兩比較,找出來共同的字串,這樣很快就可以建立乙個詞彙備選集合。再對該集合作適當的處理,如去除停用詞,等等。

這個備選集合可以成為下一步工作的起點,後面應該有很多方法可以採納。

哪種個人建站方案比較好?

fujun huang Hostinger 全球頂級的免費空間現已來到中國!空間免費 二級網域名稱免費 貌似有不錯的模板?支援PHP 提供MySQL資料庫免費建站助手無廣告 推薦用這個,空間免費,伺服器在HK,穩定。優勢 免費,有模板,自由。 好好學習 1網域名稱解析使用dnspod 2你部落格日I...

a6000有什麼比較好的長焦方案?

長焦嘛,還2500以內,那選擇是比較有限的。第一種方案是轉接老鏡頭,好用不貴,素質還不錯,一般來說焦距在200 300mm居多,大概不到1k就能搞個荷花神器。第二種方案是折返鏡頭啦,這種焦距一般都500mm起步,缺點是光圈不夠大而且不可調,有一些素質還可以,而且焦外是甜甜圈焦外,比較有趣,一般600...

有哪些比較好的副業?

青峰六分鐘 你這種問題問的很籠統 可以這樣回答 你選擇的副業必須要滿足一下幾個條件 1 這樣的副業能夠長期做。2 這樣的副業能夠有積累,可以積累人脈,可以積累客戶,可以積累技術。3 最好是自己喜歡,感興趣。4 跟主業不衝突。5 以賺錢為目的,剛開始可以不賺錢,一段話時間以後必須賺錢。現在,可以搜尋一...