在自然語言處理中有哪些可以利用先驗知識的演算法?

時間 2021-05-31 00:55:35

1樓:Milo Sun

上面也有人說了,廣義來看,自然語言演算法或多或少都有些先驗知識,確切的說,AI絕大部分演算法都有先驗知識,所謂的人工智慧,人工是真的,智慧型是假的,知識都是研究人員直接或者間接加入的。比如我要做句法分析,句法的模型就是一種先驗知識,這個語言句子往哪邊分支,詞類有什麼特點。針對某一種語言,什麼樣的模型更加合適。

由於自然語言特徵提取十分困難,經常會手動寫入特徵,這也是需要大量先驗知識。比如做named entity recognition,大寫開頭的詞很有可能是人名地名,所以可以把開頭字母大寫作為特徵寫入演算法。無向圖模型很適合寫入特徵。

至於使用大量先驗知識的演算法,最著名的要數一些詞彙層面的演算法,Jurafsky和Martin的自然語言處理和計算語言學教材裡有涉及。比如自動找出詞彙之間的關係,歧義消解(word sense disambiguation)。先驗知識主要以詞彙關係庫或詞典的形式出現,叫基於詞典的方法(dictionary-based / thesaurus-based methods) 。

比如搜尋近義詞可以通過計算在語義網/樹中的距離。歧義消解,可以看詞典中某個詞幾個詞義的定義,觀察使用語境與詞典描述重合度有多高。

2樓:張大帥

什麼演算法都可以利用先驗知識,比如中文做word2vec,切詞結果就算一種先驗,你加專有名詞進去,就先驗了。加個停用詞表,也是先驗。

所以關鍵要結合具體實際,到底加什麼先驗,再研究形式。

自然語言處理在開放搜尋中的應用

年輕人考進來了基本上除了財務科,把你哄進來之後都是做牛做馬去帶班的和做管教,你以為你考的是這個崗位,進來之後組幹科會和你說先到基層學習一下,學著學著你就扎根基層了知道啵 你會把皮鞋走壞,會把腿走粗,會在監區開會的時候被領導罵 天天看你們管教走來走去,都不知道忙什麼,一點成績都做不出來 搞文藝什麼的不...

自然語言處理為什麼要分詞?

廖傑 分詞的目的主要是為了盡量消除一詞多意,單個字的含義過多不便於機器識別,或者說不容易用單個向量表示其含義。和前後的字構成固定片語後,歧義量被縮減了 不確定程度降低了 更便於計算機的表達和處理。另外還有減少索引空間的作用。這個很明顯,一句話50個字,按單字建立索引需要50條索引,但分詞後,按詞建索...

搞自然語言處理是否需要懂Hadoop,Spark和Hive

易顯維 他和自然語言處理解決的不是同一維度的問題 NLP是做自然語言的理解和解析等,簡單來說是將非結構化的自然語言資料結構化 hadoop等是解決資料量大的計算和增刪改查問題一般情況是不需要懂的 但是要看業務場景和公司人員配置,一般是有大資料工程師來負責做該方面工作 懂了又如何。說個題外的,我那個學...