有哪些比較好的中文分詞用詞庫?

時間 2021-05-30 00:00:22

1樓:吳健

分詞器、詞庫的好壞,很大程度上取決於你對它的要求,也就是你把它應用到什麼領域。

市面上的分詞器大多屬於通用型的(我聽過的、用過的基本如此)。既然是通用的,勢必有所取捨。

舉個我自己的例子。(接觸的分詞器有限,工作的領域有限,僅供參考)

我目前在電商、招聘這兩個領域做了五年的搜尋引擎開發,不怕你們見笑,用的分詞器就只有乙個:林良益老師的IK分詞器。

不過,在兩個領域的具體開發過程中都對其進行了一定功能擴充套件。

在搞電商的時候,剛接觸這個分詞器,也不是很熟悉,僅僅做了很有限的擴充套件:單雙向的同義詞擴充套件(從資料庫載入)、簡單的外部詞庫定時載入。

搞招聘搜尋的時候,接觸這個分詞器有一段時間了,按照需求,對這個分詞器進行了進一步的擴充套件:包含特殊字元(C,C++,C#等)的成詞判斷、數字英文(O2O之類的)成詞判斷。

經過一定的功能擴充套件,基本能夠滿足現在的需求,而且通過對分詞器的深入研究和擴充套件,能夠對自己在這方面的能力有很大的提高。

目前我們對詞庫的成長性沒有很高的要求,因此就做了很簡單的處理。

我說了這麼點,表達乙個意思:分詞器沒有好壞,詞庫沒有好壞,只要我們選擇的分詞器和詞庫能夠滿足我們特定領域的需求即可!脫離實際需求和具體領域,談工具的好壞,實際意義不大!

最好的還是自己在工作中直接踩坑、填坑!

說了一大堆廢話,也沒啥能幫到題主。

2樓:長襪子皮皮

基於 Python 的中文分詞方案那種比較好?

Dwzb 不久前github新開源了乙個python中文分詞庫fool,可以試一試 官網上提到的特點如下 可能不是最快的開源中文分詞,但很可能是最準的開源中文分詞基於BiLSTM模型訓練而成 包含分詞,詞性標註,實體識別,都有比較高的準確率使用者自定義詞典 可訓練自己的模型 批量處理 hity 閒來...

有哪些比較好的副業?

青峰六分鐘 你這種問題問的很籠統 可以這樣回答 你選擇的副業必須要滿足一下幾個條件 1 這樣的副業能夠長期做。2 這樣的副業能夠有積累,可以積累人脈,可以積累客戶,可以積累技術。3 最好是自己喜歡,感興趣。4 跟主業不衝突。5 以賺錢為目的,剛開始可以不賺錢,一段話時間以後必須賺錢。現在,可以搜尋一...

有什麼比較好的支援中文ocr開源庫?

小企鵝 中英文都支援 服務端 移動端都可以部署 可以這麼說,目前滿足題主一二兩點的開源庫,就沒有 甚至連免費API都很難找。之前我還在上課的時候,恰好有這麼一位國內的業內大牛 做手寫OCR的應該沒有不知道他的 講座過後跟他交流過這個問題,聊到這一塊的開源庫,他也很尷尬的說。簡要來講就是這一塊太容易變...