如何評價 BERT 模型?

時間 2021-05-06 06:57:07

1樓:李小濤

想提個問題,除了[cls]學習了句子的語義這種解釋之外,還可以怎樣理解 bert 即可以做文字分類也可以做句子的語義相似度? 或者說怎麼可以更加深入的理解這個問題

2樓:羅若天是真的菜

最近看到這個用bert做生成的乙個technical report。本質上說bert其實是個MRF,他的masked out是一種parallel的pseudo-likelihood的訓練方法。

雖然效果據說沒有特別好,但是這個生成是不需要從左到右生成的(從左到右會更爛哈哈哈),也可以指定生成句子的長度。

生成方法是,指定句子長度L,輸入L個mask,然後每次隨機uniformly挑乙個位置,生成乙個單詞,然後重複T次,乙個句子就生成好了~

3樓:張俊林

Bert最近很火,應該是最近最火爆的AI進展,網上的評價很高,那麼Bert值得這麼高的評價嗎?我個人判斷是值得。那為什麼會有這麼高的評價呢?

是因為它有重大的理論或者模型創新嗎?其實並沒有,從模型創新角度看一般,創新不算大。但是架不住效果太好了,基本重新整理了很多NLP的任務的最好效能,有些任務還被刷爆了,這個才是關鍵。

另外一點是Bert具備廣泛的通用性,就是說絕大部分NLP任務都可以採用類似的兩階段模式直接去提公升效果,這個第二關鍵。客觀的說,把Bert當做最近兩年NLP重大進展的集大成者更符合事實。

寫了篇專欄文章:從Word Embedding到Bert模型—自然語言處理中的預訓練技術發展史來講講NLP中的預訓練技術是一步一步如何發展到Bert模型的,從中可以很自然地看到Bert的思路是如何逐漸形成的,Bert的歷史沿革是什麼,繼承了什麼,創新了什麼,為什麼效果那麼好,主要原因是什麼,以及為何說模型創新不算太大,為何說Bert是近年來NLP重大進展的集大成者。我們一步一步來講,而串起來這個故事的脈絡就是自然語言的預訓練過程,但是落腳點還是在Bert身上。

文章太長,不拷過來了,感興趣的可以點開看。

4樓:王琰

在有足夠的資料和足夠的計算資源的情況下,肯定是複雜度越高的模型效果越好,這是亙古不變的真理。所以這個模型很適合這個任務(有幾乎無窮的無監督語料)和這家公司(最強的計算力。

5樓:Nineteen

to ensure the bert decision. be calm的中文翻譯

to ensure the bert decision. be calm

確保伯特的決定。保持冷靜

6樓:邱震宇

最近重新看了bert的模型,感覺它已經有點接近我們人類的某種記憶方式。

想必很多人小時候都有被迫背誦唐詩三百首的經歷,當時還沒有能力去理解詩詞的內在涵義,只能靠死記硬背,同時老師上課或者考試會抽查,比如給出上句:春蠶到死絲方盡,然後讓背下句。或者某句詩中間扣掉乙個詞,看能不能填上。

看看,這不就是bert的訓練任務嘛。雖然背了那麼多唐詩宋詞,我們也沒有個個會作詩,但是我們在日常生活中總能用上那麼兩句,有時候還能即興改編一下,這說明了我們通過對大量詩詞死記硬背的方式(當然後來年紀大點後老師還是教古文後,是帶入了理解的成分)還是可以學習到相當多的東西的,這不就是bert,以及當前效果爆棚的預訓練LM做的事嘛。

7樓:

看上去 Google 要解鎖新的 business model 了。比如可以提一些巨貴鉅耗資源大家都沒有training data而且也train不起的model. 然後在Cloud AI 把這些model 的 inference 作為service 賣給大家 lol

8樓:

看完之後就覺得作者

基於encoder-decoder做了更多的微觀完善,基於雙向的transformer一定程度上奠定了他在nlp的地位

但是模型太多繁雜,明顯就是為了應對大型專案。

然後我只想說真有錢真有錢真有錢,看到引數設定我就覺得打擾了,我需要個富婆

9樓:babyquant

自然語言處理是個挺有前景的方向,特別是現在突破多多,很多應用也挺有趣,比如電腦作詩,搞中文的nlp還可以避開跟歐美激烈的競爭。現在很多量化交易公司也在招這方面的人,特別是新聞資料,two sigma在kaggle搞的競賽就是這方面的。

10樓:宮一塵

如果說這是里程碑式的工作的話,那我在Google實習期間真的是見證了歷史。

每週和Jacob一起開會,他復現openAI的帶預訓練語言模型的GPT只花費了一周,同時發現效果不如預期。拿到大資料,重新訓練定位出問題只花了兩天。再下次開會他的新想法已經超過openAI模型了。

再下週開會就有了現在Single Model在幾個任務上的成績。

請你認真地感受一下這個速度。OpenAI做他們的工作的時候預訓練他們的語言模型花了乙個月,而Jacob用TPU只花了一天。OpenAI訓練語言模型基本是按照原來Transformer的配置,調整了一些引數,而Jacob可以隨心所欲地嘗試自己新的想法。

這是超強算力和超強工程能力碰撞而迸發的能量!未來真的是算力的時代。

@林洲漢 作為共同見證者,你也來膜一下?

11樓:Liyuan Liu

朋友看到後告訴我可以洗洗睡了hh

同時刷了兩個榜 (SQuAD和GLUE, https://gluebenchmark.com/leaderboard

)和ELMo 一樣是Game changing 的工作了,驗證了預訓練在NLP 上同樣具有非常大的潛力 (個人認為language modeling 這種不需要標註的task 是更適合NLP 上的預訓練)

計算資源,資料資源,工程能力三者對deep learning model 的成功真的缺一不可

12樓:運動碼農

印證了kaiming he的話:深度學習就是表示學習。

想想,CNN RNN MLP以及GNN GCN其實都是在學習向量表示。附上他在ECCV的ppt最後一頁

Bert模型如何創新

粉嘟嘟的豬小屁 1 輕量化,引數量級減少,同時盡可能保證效果,albert的思路,albert在xxlarge上效果穩定優於bert,其他時候優勢不明顯 2 GPT2.0從資料量和資料質量方面入手,依然採用單向特徵提取,效果很好呀,說明bert也可以從這個方面入手 4 bert在生成類任務上表現不佳...

BERT這麼厲害,如何利用BERT做語義相似度匹配任務呢,或者說,如何利用BERT得到句子語義向量呢?

吳家丫頭1990 以last hidden state輸出動態字向量的mean值作為句子語義向量 import torch from transformers import AutoModel,AutoTokenizer,AutoConfig torch.set grad enabled False...

BERT模型可以使用無監督的方法做文字相似度任務嗎?

當然是可以的,但不一定會達到想要的的效果。現在大多PTM模型為了避免災難性遺忘問題,盡可能使預訓練盡可能與下游接近。像BERT的預訓練只是為了獲取字的上下文資訊,以及判斷兩個句子是否存在順序關係,這兩個任務與文字相似還是挺有差距的,自然效果就不一定好的了 汪潤川 最好還是要有監督資料做 finetu...