bert的Token Embeddings怎麼理解？

1樓：Honda

你這麼問說明你還沒有完全理解bert的訓練過程

1、如果你是自己訓練bert語言模型，那你可以隨機初始化乙個768D的向量矩陣，然後按照bert的預訓練方式訓練，當然你也可以採用glove的初始化進行訓練，但個人感覺沒有必要，提公升不會很大，可能在訓練一開始的時候精度比較高，但是當模型趨於穩定的時候，模型的精度會差不多，所以沒有必要在初始化的時候使用別的詞向量，隨機初始化就可以。

2、如果你是直接用的預訓練語言模型，那直接load就可以了，不要隨機初始化。

2樓：

兩種方法都可以。但現在一般都用已經預訓練好的向量。之所以用現成的，一方面是因為該空間基本穩定，無論誰用什麼方法訓練，其結果都一樣，本質上並沒有承載有價值的附加資訊，用人家已經訓練好的沒有任何問題；

另一方面是因為預訓練好的DNN是與詞向量空間繫結的，如果想用人家預訓練好的模型引數，就必須同時使用和人家一樣是詞向量空間；

第三方面，客戶提供的訓練資料才是我們真正關心的認知物件，我們的任務是從這些特定資料中提取認知（而非從公共資料中提取認知），因此沒必要從0開始訓練模型。

BERT這麼厲害，如何利用BERT做語義相似度匹配任務呢，或者說，如何利用BERT得到句子語義向量呢？

吳家丫頭1990 以last hidden state輸出動態字向量的mean值作為句子語義向量 import torch from transformers import AutoModel,AutoTokenizer,AutoConfig torch.set grad enabled False...

如何評價 BERT 模型？

李小濤想提個問題，除了 cls 學習了句子的語義這種解釋之外，還可以怎樣理解 bert 即可以做文字分類也可以做句子的語義相似度？或者說怎麼可以更加深入的理解這個問題羅若天是真的菜最近看到這個用bert做生成的乙個technical report。本質上說bert其實是個MRF，他的maske...

Bert模型如何創新

粉嘟嘟的豬小屁 1 輕量化，引數量級減少，同時盡可能保證效果，albert的思路，albert在xxlarge上效果穩定優於bert，其他時候優勢不明顯 2 GPT2.0從資料量和資料質量方面入手，依然採用單向特徵提取，效果很好呀，說明bert也可以從這個方面入手 4 bert在生成類任務上表現不佳...

bert的Token Embeddings怎麼理解？

BERT這麼厲害，如何利用BERT做語義相似度匹配任務呢，或者說，如何利用BERT得到句子語義向量呢？

如何評價 BERT 模型？

Bert模型如何創新

其他用戶還看了：