如何評價 BERT 模型？

1樓：李小濤

想提個問題，除了[cls]學習了句子的語義這種解釋之外，還可以怎樣理解 bert 即可以做文字分類也可以做句子的語義相似度？或者說怎麼可以更加深入的理解這個問題

2樓：羅若天是真的菜

最近看到這個用bert做生成的乙個technical report。本質上說bert其實是個MRF，他的masked out是一種parallel的pseudo-likelihood的訓練方法。

雖然效果據說沒有特別好，但是這個生成是不需要從左到右生成的（從左到右會更爛哈哈哈），也可以指定生成句子的長度。

生成方法是，指定句子長度L，輸入L個mask，然後每次隨機uniformly挑乙個位置，生成乙個單詞，然後重複T次，乙個句子就生成好了～

3樓：張俊林

Bert最近很火，應該是最近最火爆的AI進展，網上的評價很高，那麼Bert值得這麼高的評價嗎？我個人判斷是值得。那為什麼會有這麼高的評價呢？

是因為它有重大的理論或者模型創新嗎？其實並沒有，從模型創新角度看一般，創新不算大。但是架不住效果太好了，基本重新整理了很多NLP的任務的最好效能，有些任務還被刷爆了，這個才是關鍵。

另外一點是Bert具備廣泛的通用性，就是說絕大部分NLP任務都可以採用類似的兩階段模式直接去提公升效果，這個第二關鍵。客觀的說，把Bert當做最近兩年NLP重大進展的集大成者更符合事實。

寫了篇專欄文章：從Word Embedding到Bert模型—自然語言處理中的預訓練技術發展史來講講NLP中的預訓練技術是一步一步如何發展到Bert模型的，從中可以很自然地看到Bert的思路是如何逐漸形成的，Bert的歷史沿革是什麼，繼承了什麼，創新了什麼，為什麼效果那麼好，主要原因是什麼，以及為何說模型創新不算太大，為何說Bert是近年來NLP重大進展的集大成者。我們一步一步來講，而串起來這個故事的脈絡就是自然語言的預訓練過程，但是落腳點還是在Bert身上。

文章太長，不拷過來了，感興趣的可以點開看。

4樓：王琰

在有足夠的資料和足夠的計算資源的情況下，肯定是複雜度越高的模型效果越好，這是亙古不變的真理。所以這個模型很適合這個任務(有幾乎無窮的無監督語料)和這家公司(最強的計算力。

5樓：Nineteen

to ensure the bert decision. be calm的中文翻譯

to ensure the bert decision. be calm

確保伯特的決定。保持冷靜

6樓：邱震宇

最近重新看了bert的模型，感覺它已經有點接近我們人類的某種記憶方式。

想必很多人小時候都有被迫背誦唐詩三百首的經歷，當時還沒有能力去理解詩詞的內在涵義，只能靠死記硬背，同時老師上課或者考試會抽查，比如給出上句：春蠶到死絲方盡，然後讓背下句。或者某句詩中間扣掉乙個詞，看能不能填上。

看看，這不就是bert的訓練任務嘛。雖然背了那麼多唐詩宋詞，我們也沒有個個會作詩，但是我們在日常生活中總能用上那麼兩句，有時候還能即興改編一下，這說明了我們通過對大量詩詞死記硬背的方式（當然後來年紀大點後老師還是教古文後，是帶入了理解的成分）還是可以學習到相當多的東西的，這不就是bert，以及當前效果爆棚的預訓練LM做的事嘛。

7樓：

看上去 Google 要解鎖新的 business model 了。比如可以提一些巨貴鉅耗資源大家都沒有training data而且也train不起的model. 然後在Cloud AI 把這些model 的 inference 作為service 賣給大家 lol

8樓：

看完之後就覺得作者

基於encoder-decoder做了更多的微觀完善，基於雙向的transformer一定程度上奠定了他在nlp的地位

但是模型太多繁雜，明顯就是為了應對大型專案。

然後我只想說真有錢真有錢真有錢，看到引數設定我就覺得打擾了，我需要個富婆

9樓：babyquant

自然語言處理是個挺有前景的方向，特別是現在突破多多，很多應用也挺有趣，比如電腦作詩，搞中文的nlp還可以避開跟歐美激烈的競爭。現在很多量化交易公司也在招這方面的人，特別是新聞資料，two sigma在kaggle搞的競賽就是這方面的。

10樓：宮一塵

如果說這是里程碑式的工作的話，那我在Google實習期間真的是見證了歷史。

每週和Jacob一起開會，他復現openAI的帶預訓練語言模型的GPT只花費了一周，同時發現效果不如預期。拿到大資料，重新訓練定位出問題只花了兩天。再下次開會他的新想法已經超過openAI模型了。

再下週開會就有了現在Single Model在幾個任務上的成績。

請你認真地感受一下這個速度。OpenAI做他們的工作的時候預訓練他們的語言模型花了乙個月，而Jacob用TPU只花了一天。OpenAI訓練語言模型基本是按照原來Transformer的配置，調整了一些引數，而Jacob可以隨心所欲地嘗試自己新的想法。

這是超強算力和超強工程能力碰撞而迸發的能量！未來真的是算力的時代。

@林洲漢作為共同見證者，你也來膜一下？

11樓：Liyuan Liu

朋友看到後告訴我可以洗洗睡了hh

同時刷了兩個榜 (SQuAD和GLUE, https://gluebenchmark.com/leaderboard

)和ELMo 一樣是Game changing 的工作了，驗證了預訓練在NLP 上同樣具有非常大的潛力 (個人認為language modeling 這種不需要標註的task 是更適合NLP 上的預訓練)

計算資源，資料資源，工程能力三者對deep learning model 的成功真的缺一不可

12樓：運動碼農

印證了kaiming he的話：深度學習就是表示學習。

想想，CNN RNN MLP以及GNN GCN其實都是在學習向量表示。附上他在ECCV的ppt最後一頁

如何評價 BERT 模型？

Bert模型如何創新

BERT這麼厲害，如何利用BERT做語義相似度匹配任務呢，或者說，如何利用BERT得到句子語義向量呢？

BERT模型可以使用無監督的方法做文字相似度任務嗎？

其他用戶還看了：