基於 Python 的中文分詞方案那種比較好?

時間 2021-05-05 17:33:25

1樓:Dwzb

不久前github新開源了乙個python中文分詞庫fool,可以試一試

官網上提到的特點如下

可能不是最快的開源中文分詞,但很可能是最準的開源中文分詞基於BiLSTM模型訓練而成

包含分詞,詞性標註,實體識別, 都有比較高的準確率使用者自定義詞典

可訓練自己的模型

批量處理

2樓:hity

閒來無事,寫了兩個分詞程式,乙個是基於mmseg的另乙個是基於CRF的,目前已經上傳pypi.

pip install scseg

pip install genius

3樓:Fooying

python呼叫c庫,可以使用中科院的分詞,感覺還行,就是匯入使用者自定義的詞庫存在失敗率,然後還無法除錯出原因

今天剛給四款python中文分詞的做了簡單測試http://

4樓:

其實我沒有用過python或其他任何語言的分詞庫,不過恰好在OSChina上看到了幾個python的中文分詞庫,有幾個也是前面一些知友提到的,我把鏈結轉過來吧:http://www.

oschina.net/project/tag

/264/segment?sort=view&lang=25&os=0

5樓:牟小峰

我沒用過python語言寫的分詞程式。

分詞這種功能屬於計算密集型功能,需要大量計算,python不適合這種場合,可以考慮python呼叫c庫。

6樓:孫君意

"結巴"中文分詞:做最好的Python中文分詞元件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.

Python的結巴分詞處理大檔案如何優化可提高速度?

48G記憶體,可以直接使用jieba並行分詞加速,由於python多執行緒只能單核執行的原因,結巴採用的是並行分詞,就是多程序分詞,並且不支援windows,我windows系統,16g記憶體,i7 cpu,20g的語料,linux系統16g記憶體直接啟動結巴自帶並行分詞會爆記憶體,我手動啟動8個j...

有哪些比較好的中文分詞用詞庫?

吳健 分詞器 詞庫的好壞,很大程度上取決於你對它的要求,也就是你把它應用到什麼領域。市面上的分詞器大多屬於通用型的 我聽過的 用過的基本如此 既然是通用的,勢必有所取捨。舉個我自己的例子。接觸的分詞器有限,工作的領域有限,僅供參考 我目前在電商 招聘這兩個領域做了五年的搜尋引擎開發,不怕你們見笑,用...

有沒有活躍的 Python 中文 IRC channel 或者類似的社群?

Crossin 也許是我的開啟方式不對,總之郵件列表我是一直沒能用習慣。題主講明了要 中文 的,那我謹慎推測你也用不慣。還是找個人氣高的論壇吧。上面有人推薦過了,我再 1 V2EX Python 我的論壇 Crossin的程式設計教室,只適合新手小白提點問題,看到了我都會回答。高手勿噴。平常我自己的...