BERT中進行NER為什麼沒有使用CRF，我們使用DL進行序列標註問題的時候CRF是必備麼？

1樓：

不用這麼糾結哈，都試試就行了。

我主要說一下我對這個問題的理解：BERT+CRF的搭配中，有必要單獨給CRF轉移矩陣引數設定乙個較大的學習率嗎？

之所以BERT+CRF，CRF需要較大的學習率是因為BERT是預訓練模型，而CRF的轉移矩陣是隨機初始化的，這是預訓練模型和非預訓練模型的不match導致的。要想不分開學習率訓練，可以嘗試使用bigram的方法在訓練集上統計所有標籤序列的轉移概率作為CRF的初始化，應該會有幫助。雖然我也沒實驗過哈

2樓：三七

不是必備。深度學習中一切玄學問題都能從數學和資料中得到解釋。個人水平有限，確實未能給出滿意的數學證明，感謝大佬們指正。

Q1: 為什麼LSTM加上CRF後，序列標註效果會有穩定提公升？

Q2: BERT後面到底要不要接上CRF？甚至要不要接上BiLSTM?

Q3: BERT+CRF的搭配中，有必要單獨給CRF設定乙個較大的學習率嗎？

序列標註中CRF存在的意義究竟是什麼？其實從模型的損失函式可以很直接的看出新增CRF前後的差異。

單純使用神經網路做序列標註時，使用的損失函式通常為對每乙個時間步的交叉熵損失取平均，此時模型對應的學習目標為

而加入CRF後，模型的學習目標變成了

其中，和分別為訓練集的輸入文字序列和標籤序列，表示LSTM的模型結構和引數，也就是模型擬合能力的體現。是從訓練集所有標籤序列統計得到的轉移概率（儘管是訓練過程中通過梯度下降學習到的轉移矩陣，但這個矩陣本質上就是訓練集的標籤轉移概率乘以乙個特徵權重，具體原理參考log linear model）。從上面兩個公式，我們就能輕易的理解，為什麼LSTM後面加上CRF，模型效果就能好很多。

先說答案：1). BERT後面要不要加CRF，完全取決於資料集。

2) CRF大概率能帶來提公升，但也完全有可能帶來負面影響。3) BERT後面不要加LSTM！CRF能提供額外的標籤轉移特徵，而LSTM除了拖後腿什麼也幹不了。

為什麼把Q1兩個公式中的換成之後，效果就能大大提公升？一方面是BERT的預訓練學習到了大量的文字表示，加上BERT自身優異的模型結構，使得在NER的資料集上能有非常好的泛化性。在這樣的條件下，標籤轉移概率這個特徵，比起輸入文字中的語義特徵就很微不足道了，即使不用標籤之間的轉移概率也能輕易的識別出正確的實體。

畢竟BERT在特定任務下的語義理解能力已經十分接近人類水平了。

那麼什麼樣的資料適合加CRF，什麼樣的不適合呢？先明確一點，由於CRF多了乙個特徵，而且兩個特徵會通過梯度下降自動學習各自權重，因此加上CRF一定能實現對訓練集更好的擬合。但訓練集擬合得好未必測試集有提公升，有可能是過擬合。

這取決於輸入文字的語義特徵、訓練集標籤序列分布、測試集標籤序列分布，這就只能通過實驗來確定了。訓練集和測試集的標籤序列分布一致性越高，那麼CRF的幫助就越大。反之也完全有可能造成負面影響。

在我和同學實驗中也多次遇到BERT加上CRF後效果變差的經歷。

這仍然是乙個關於資料特徵分布的問題。由於幾乎不存在完美標註的資料集，因此幾乎所有資料集都多多少少會有雜訊或偏差。就看輸入帶來的影響和帶來的影響誰打得過誰了。

如果自然狀態下訓練得到的模型中CRF的引數很小或者不理想，只能說明標籤轉移特徵對訓練集的擬合本身就沒有什麼幫助。

給CRF轉移矩陣設定單獨的學習率，本質上就是手動調節這兩個特徵的權重，限制模型的學習能力，是一種正則化手段。一般來說，由於的資料遠比簡單，雜訊出現的概率也會更小，訓練集和測試集分布的一致性會更高，所以使用CRF並設定乙個較大的學習率也大概率會有用，但這畢竟是乙個無法量化的超引數，不同資料集上不具有普適性。

3樓：Jelly

BERT做序列標註一般都沒必要接CRF。雖然對於乙個狀態轉移矩陣學習的很好的CRF，必然會對序列標註任務有提公升，但是問題是在BERT那種快速收斂且低學習率下(e-5級別)狀態轉移矩陣是否能學到東西。

4樓：華磊

可能跟你的學習率有關，蘇劍林有個部落格說了這個問題。

你的CRF層的學習率可能不夠大 - 科學空間|Scientific Spaces

5樓：Liyuan Liu

當然是必須的，主要的優勢不是可以考慮sequence 內label的依賴，而是確保輸出的label一定是合法的

想想看如果不用CRF，模型輸出個B-LOC —> O—> E-LOC 你怎麼處理呢？

PS: CoNLL03 Eng Ner STOA 應該是93~94 的樣子

6樓：WhatIsSpin

CRF不是必備，viterbi才是必備。只要解碼的時候禁止B->O, S->I之類的非法transition即可。

但對POS tagging之類沒有硬性forbidden transition的約束，也不需要viterbi。

7樓：

bert是一種無監督學習方法並且是乙個網路模型，其目前沒有再巢狀乙個有監督的模型。

CRF解決狀態之間的轉換問題，完全可以作為bert生成的句向量、詞向量的下一步使用。

在進行序列標註時CRF不是必要的，但通常來說它可以加深模型對狀態之間關係的學習能力，但增加了過擬合的風險。

BERT中進行NER為什麼沒有使用CRF，我們使用DL進行序列標註問題的時候CRF是必備麼？

Bert為什麼要Mask？

c 中進行型別轉換時，為什麼子類可以隱式轉換到父類？

為什麼日本人喜歡在影視劇和動漫中進行振聾發聵的說教？

其他用戶還看了：

BERT中進行NER為什麼沒有使用CRF，我們使用DL進行序列標註問題的時候CRF是必備麼？

Bert為什麼要Mask？

c 中進行型別轉換時，為什麼子類可以隱式轉換到父類？

為什麼日本人喜歡在影視劇和動漫中進行 振聾發聵 的說教？

其他用戶還看了：

為什麼日本人喜歡在影視劇和動漫中進行振聾發聵的說教？