相比於長文字，BERT是否更適用於短文本？

1樓：Nozhihu

你這個並不夠極端，10個token基本都是句子級別了，而500個算是篇章級別了。如果你的短文本是句子級別那肯定的，bert再pretrain階段就是兩個句子喂進去的，從pretrain階段語料來說，兩個句子分布也會在50到100個token較多。但是如果你短文本的定義是2-4個，你會發現bert的表現能力就和500個token的效果差不多了。。。

2樓：

長的那個任務，AB兩邊更不平衡，模型更難建模兩邊的語義關聯。並且長文字帶來的詞彙、句法、篇章結構上的差異會更大，導致模型效能更差。這個應該不止是BERT做不好，你換LSTM之類的模型也一樣做不好。

外加，「約500個詞」，我就當平均500詞左右看了。BERT的position embedding只訓到5012，還要拼接兩段文字。想用的BERT話，要麼截斷輸入，要麼隨機初始化部分超長的位置編碼，這兩者都會對模型表現產生影響。

3樓：

不同的資料集無法進行這種比較，如果B資料集更dirty，更難學習呢？你應該比較，bert相比於其他的語言模型，在長文字中的表現是更好還是更差。

如果你要問是不是短文本更適合，這個不是哪個模型更適合，哪怕是人類，你想想是不是文字更短，所理解的資訊更少，也更清楚，對於模型來說也是乙個道理呀。

相比於長文字，BERT是否更適用於短文本？

Bert 如何解決長文字問題？

Bert等出來後，文字分類是否還要嘗試fasttext，textcnn等模型？

搖滾樂相比於古典樂是否比較淺和俗？

其他用戶還看了：