bert的Token Embeddings怎麼理解?

時間 2021-06-03 16:53:14

1樓:Honda

你這麼問說明你還沒有完全理解bert的訓練過程

1、如果你是自己訓練bert語言模型,那你可以隨機初始化乙個768D的向量矩陣,然後按照bert的預訓練方式訓練,當然你也可以採用glove的初始化進行訓練,但個人感覺沒有必要,提公升不會很大,可能在訓練一開始的時候精度比較高,但是當模型趨於穩定的時候,模型的精度會差不多,所以沒有必要在初始化的時候使用別的詞向量,隨機初始化就可以。

2、如果你是直接用的預訓練語言模型,那直接load就可以了,不要隨機初始化。

2樓:

兩種方法都可以。但現在一般都用已經預訓練好的向量。之所以用現成的,一方面是因為該空間基本穩定,無論誰用什麼方法訓練,其結果都一樣,本質上並沒有承載有價值的附加資訊,用人家已經訓練好的沒有任何問題;

另一方面是因為預訓練好的DNN是與詞向量空間繫結的,如果想用人家預訓練好的模型引數,就必須同時使用和人家一樣是詞向量空間;

第三方面,客戶提供的訓練資料才是我們真正關心的認知物件,我們的任務是從這些特定資料中提取認知(而非從公共資料中提取認知),因此沒必要從0開始訓練模型。

BERT這麼厲害,如何利用BERT做語義相似度匹配任務呢,或者說,如何利用BERT得到句子語義向量呢?

吳家丫頭1990 以last hidden state輸出動態字向量的mean值作為句子語義向量 import torch from transformers import AutoModel,AutoTokenizer,AutoConfig torch.set grad enabled False...

如何評價 BERT 模型?

李小濤 想提個問題,除了 cls 學習了句子的語義這種解釋之外,還可以怎樣理解 bert 即可以做文字分類也可以做句子的語義相似度?或者說怎麼可以更加深入的理解這個問題 羅若天是真的菜 最近看到這個用bert做生成的乙個technical report。本質上說bert其實是個MRF,他的maske...

Bert模型如何創新

粉嘟嘟的豬小屁 1 輕量化,引數量級減少,同時盡可能保證效果,albert的思路,albert在xxlarge上效果穩定優於bert,其他時候優勢不明顯 2 GPT2.0從資料量和資料質量方面入手,依然採用單向特徵提取,效果很好呀,說明bert也可以從這個方面入手 4 bert在生成類任務上表現不佳...