如何更好的利用軟體發現文字檔案中的時間 人名 地名 機構名等資訊?

時間 2021-05-05 19:38:05

1樓:Gavin Lear

命名實體識別技術,可以試試Stanford Name Entity Recognition 工具,有中文的,需要事先分好詞。

2樓:閔可銳

這是個典型的的命名實體識別(NER)問題。國內目前不少對於命名實體識別有乙個誤區,就是把這個問題等價於分詞,將一些特定的人名,地名加入詞庫來達到效果。這種實現最大的問題是不具備可擴充套件性,因為詞典的更新總是晚於新詞的出現。

近年來命名實體都是採用上下文資訊+構詞法的融合進行識別。譬如「他名叫徐嫳趧」,如果純粹採用詞典很難將這樣的生僻名字納入。另外像「文章」(文章與馬伊琍 v.

s 一篇文章)這樣具有高度歧義的詞語也不適合加入詞典。BosonNLP的NER已經較好解決了該問題,這裡是可互動的demo:單文字演示 - BosonNLP

3樓:陳剛

時間可以通過結構分析出來,人名、地名、機構可以通過主體識別來發現絕大多數。我們做行業應用,則是通過行業資料庫收錄的人名、地名、機構形成詞庫的簡單方式來識別。因為我們的應用場景是,他需要識別的就是他已經採集的,對於未採集的,他也不需要識別。

學習資源多的不知如何更好利用?

微淡藍光 首先是要先靜下心來想想哪些是你真正需要的學習資源,資源太多的話就從裡面選擇一些對你來說比較適合的東西,如果有其他人使用過的話不妨參考一下他們的使用意見,根據這些意見來更好地考慮哪些是你需要的。另外,貪多嚼不爛,學習資源太多有時並不是一件好事,太多反而會讓你焦慮,可能會想把每乙個都學好,最後...

如何評價文字轉語音軟體上的情感合成功能?

塗石 廣告貼攪黃者。帶感情的語音合成歷來就有,除了曾經三巨頭BAT的智慧型語音api很強大,科大訊飛的介面也不容小覷。其他的?不好意思,都是弟弟。 紗江 看了語音合成技術在情感合成的公升級,我覺得語音合成終於找到方向了。說實話,之前的語音合成軟體,好像進去了一種誤區,覺得實力是通過有多少音庫儲備來體...

如何用深度學習更好的的解乙個短文本相似度計算問題?

Theodore 計算兩道題目的相似度 千萬級別的資料量,題主說的怕不是kaggle上懸賞25000刀的那個競賽 Quora Question Pairs Kaggle 最近正好在乙個人玩這個 弱雞找不到人帶 目前效果比較好的模型基本都是數字特徵 TFIDF word2vec,然後用NN和stack...