BERT中進行NER為什麼沒有使用CRF,我們使用DL進行序列標註問題的時候CRF是必備麼?

時間 2021-05-06 23:03:53

1樓:

不用這麼糾結哈,都試試就行了。

我主要說一下我對這個問題的理解:BERT+CRF的搭配中,有必要單獨給CRF轉移矩陣引數設定乙個較大的學習率嗎?

之所以BERT+CRF,CRF需要較大的學習率是因為BERT是預訓練模型,而CRF的轉移矩陣是隨機初始化的,這是預訓練模型和非預訓練模型的不match導致的。要想不分開學習率訓練,可以嘗試使用bigram的方法在訓練集上統計所有標籤序列的轉移概率作為CRF的初始化,應該會有幫助。雖然我也沒實驗過哈

2樓:三七

不是必備。深度學習中一切玄學問題都能從數學和資料中得到解釋。個人水平有限,確實未能給出滿意的數學證明,感謝大佬們指正。

Q1: 為什麼LSTM加上CRF後,序列標註效果會有穩定提公升?

Q2: BERT後面到底要不要接上CRF?甚至要不要接上BiLSTM?

Q3: BERT+CRF的搭配中,有必要單獨給CRF設定乙個較大的學習率嗎?

序列標註中CRF存在的意義究竟是什麼?其實從模型的損失函式可以很直接的看出新增CRF前後的差異。

單純使用神經網路做序列標註時,使用的損失函式通常為對每乙個時間步的交叉熵損失取平均, 此時模型對應的學習目標為

而加入CRF後,模型的學習目標變成了

其中, 和 分別為訓練集的輸入文字序列和標籤序列, 表示LSTM的模型結構和引數,也就是模型擬合能力的體現。 是從訓練集所有標籤序列統計得到的轉移概率(儘管是訓練過程中通過梯度下降學習到的轉移矩陣,但這個矩陣本質上就是訓練集的標籤轉移概率乘以乙個特徵權重,具體原理參考log linear model)。從上面兩個公式,我們就能輕易的理解,為什麼LSTM後面加上CRF,模型效果就能好很多。

先說答案:1). BERT後面要不要加CRF,完全取決於資料集。

2) CRF大概率能帶來提公升,但也完全有可能帶來負面影響。3) BERT後面不要加LSTM!CRF能提供額外的標籤轉移特徵,而LSTM除了拖後腿什麼也幹不了。

為什麼把Q1兩個公式中的 換成 之後,效果就能大大提公升?一方面是BERT的預訓練學習到了大量的文字表示,加上BERT自身優異的模型結構,使得在NER的資料集上能有非常好的泛化性。在這樣的條件下,標籤轉移概率這個特徵,比起輸入文字中的語義特徵就很微不足道了,即使不用標籤之間的轉移概率也能輕易的識別出正確的實體。

畢竟BERT在特定任務下的語義理解能力已經十分接近人類水平了。

那麼什麼樣的資料適合加CRF,什麼樣的不適合呢?先明確一點,由於CRF多了乙個特徵,而且兩個特徵會通過梯度下降自動學習各自權重,因此加上CRF一定能實現對訓練集更好的擬合。但訓練集擬合得好未必測試集有提公升,有可能是過擬合。

這取決於輸入文字的語義特徵、訓練集標籤序列分布、測試集標籤序列分布,這就只能通過實驗來確定了。訓練集和測試集的標籤序列分布一致性越高,那麼CRF的幫助就越大。反之也完全有可能造成負面影響。

在我和同學實驗中也多次遇到BERT加上CRF後效果變差的經歷。

這仍然是乙個關於資料特徵分布的問題。由於幾乎不存在完美標註的資料集,因此幾乎所有資料集都多多少少會有雜訊或偏差。就看輸入 帶來的影響和 帶來的影響誰打得過誰了。

如果自然狀態下訓練得到的模型中CRF的引數很小或者不理想,只能說明標籤轉移特徵對訓練集的擬合本身就沒有什麼幫助。

給CRF轉移矩陣設定單獨的學習率,本質上就是手動調節這兩個特徵的權重,限制模型的學習能力,是一種正則化手段。一般來說,由於 的資料遠比 簡單,雜訊出現的概率也會更小,訓練集和測試集分布的一致性會更高,所以使用CRF並設定乙個較大的學習率也大概率會有用,但這畢竟是乙個無法量化的超引數,不同資料集上不具有普適性。

3樓:Jelly

BERT做序列標註一般都沒必要接CRF。雖然對於乙個狀態轉移矩陣學習的很好的CRF,必然會對序列標註任務有提公升,但是問題是在BERT那種快速收斂且低學習率下(e-5級別)狀態轉移矩陣是否能學到東西。

4樓:華磊

可能跟你的學習率有關,蘇劍林有個部落格說了這個問題。

你的CRF層的學習率可能不夠大 - 科學空間|Scientific Spaces

5樓:Liyuan Liu

當然是必須的,主要的優勢不是可以考慮sequence 內label的依賴,而是確保輸出的label一定是合法的

想想看如果不用CRF,模型輸出個B-LOC —> O—> E-LOC 你怎麼處理呢?

PS: CoNLL03 Eng Ner STOA 應該是93~94 的樣子

6樓:WhatIsSpin

CRF不是必備,viterbi才是必備。只要解碼的時候禁止B->O, S->I之類的非法transition即可。

但對POS tagging之類沒有硬性forbidden transition的約束,也不需要viterbi。

7樓:

bert是一種無監督學習方法並且是乙個網路模型,其目前沒有再巢狀乙個有監督的模型。

CRF解決狀態之間的轉換問題,完全可以作為bert生成的句向量、詞向量的下一步使用。

在進行序列標註時CRF不是必要的,但通常來說它可以加深模型對狀態之間關係的學習能力,但增加了過擬合的風險。

Bert為什麼要Mask?

月來客棧 BERT需要Mask完全是因為用了Transformer模組的原因,因此想要知道BERT為什麼需要mask其實就是在問Transformer為什麼需要mask。但是兩者有個不同的地方在於,由於BERT只是使用了Transformer中的Encoder部分,沒有Decoder部分,因此相較於...

c 中進行型別轉換時,為什麼子類可以隱式轉換到父類?

面對物件原則之,黎克特制替換原則。Liskov於1987年提出了乙個關於繼承的原則 Inheritance should ensure that any property proved about supertype objects also holds for subtype objects.繼承...

為什麼日本人喜歡在影視劇和動漫中進行 振聾發聵 的說教?

大萌子 因為最有時間和精力看動漫的永遠是少年,兒童,青少年,成年人喜歡動漫的也有很多,但也會有其他渠道來認識世界,很多動漫伴隨著各種各樣的道理,對小孩子的三觀塑造有益直接 乙隻大西瓜 無論哪個國家的編劇,都或多或少的會在他的作品中向我們灌輸他的一些思想吧。在日常生活中,越是平時比較內斂低調的人越是有...