相比於長文字,BERT是否更適用於短文本?

時間 2021-09-18 04:39:02

1樓:Nozhihu

你這個並不夠極端,10個token基本都是句子級別了,而500個算是篇章級別了。如果你的短文本是句子級別那肯定的,bert再pretrain階段就是兩個句子喂進去的,從pretrain階段語料來說,兩個句子分布也會在50到100個token較多。但是如果你短文本的定義是2-4個,你會發現bert的表現能力就和500個token的效果差不多了。。。

2樓:

長的那個任務,AB兩邊更不平衡,模型更難建模兩邊的語義關聯。並且長文字帶來的詞彙、句法、篇章結構上的差異會更大,導致模型效能更差。這個應該不止是BERT做不好,你換LSTM之類的模型也一樣做不好。

外加,「約500個詞」,我就當平均500詞左右看了。BERT的position embedding只訓到5012,還要拼接兩段文字。想用的BERT話,要麼截斷輸入,要麼隨機初始化部分超長的位置編碼,這兩者都會對模型表現產生影響。

3樓:

不同的資料集無法進行這種比較,如果B資料集更dirty,更難學習呢?你應該比較,bert相比於其他的語言模型,在長文字中的表現是更好還是更差。

如果你要問是不是短文本更適合,這個不是哪個模型更適合,哪怕是人類,你想想是不是文字更短,所理解的資訊更少,也更清楚,對於模型來說也是乙個道理呀。

Bert 如何解決長文字問題?

鐵蛋 transformer分句的思路,借鑑微軟19年的Doc2EDAG的思路 Doc2EDAG An End to End Document level Framework for Chinese Financial Event Extraction Recurrence的思路 transform...

Bert等出來後,文字分類是否還要嘗試fasttext,textcnn等模型?

Python 當對響應速度有要求時,bert太慢就不太合適了,fasttext和textcnn更快,而且通常也能達到不錯的效果,取決於資料質量。還有就是應對超長文字時,這並不是bert的強項,有一些其他的模型專門做長文字的。一般,簡單模型已經能取得不錯的效果了,當然就可以使用簡單模型。效果不行時,可...

搖滾樂相比於古典樂是否比較淺和俗?

雨嬰 這純粹是乙個引戰問題啊,我搞不懂為什麼會有這麼多人上套,根本沒有回答的價值,底下的人吵了半天,到最後都是各執己見,根本沒有意見上的交換和交流,有意義嗎? 藝術是用來欣賞的,是用來給人來帶來愉悅感的。一旦被標上雅俗深淺的標籤就難免成為裝逼撕逼的戰場。而其中的戰士們早就忘記了藝術的初衷。雅俗深淺這...