如何評價 XLNet 模型

時間 2021-05-06 18:20:57

1樓:hhlw1000

效果非常好。裡面有一事不明白。XLNet中的雙流Attention中,Query Stream利用g來作為Query,h作為Key和Value,是為了避免g中加入當前位置的x的資訊,可是感覺這只是多個multi-head中的第一層可以避免,在後面的層中是不是還是融入了當前位置的x的資訊,因為後面的層中的h已經加入了當前位置的x的資訊。

2樓:邵浩博士

作者自己給出的優勢在於:

(1) enables learning bidirectional contexts by maximizing the expected likelihood over all permutations of the factorization order and (2) overcomes the limitations of BERT thanks to its autoregressive formulation.

翻譯過來就是:

(1)通過最大化所有的因式分解順序的似然函式,可以學習雙向的語境資訊;(2)由於其自回歸的特點,克服了BERT自身的侷限性。

同時也融合了目前為止最好的自回歸模型Transformer-XL的思路。

由於autoregressive (AR) language modeling(自回歸語言模型) 和 autoencoding (AE) (自編碼)是目前在無監督表徵學習中最成功的兩個預訓練目標,作者提出的演算法融合了兩者的優勢。

如何評價 BERT 模型?

李小濤 想提個問題,除了 cls 學習了句子的語義這種解釋之外,還可以怎樣理解 bert 即可以做文字分類也可以做句子的語義相似度?或者說怎麼可以更加深入的理解這個問題 羅若天是真的菜 最近看到這個用bert做生成的乙個technical report。本質上說bert其實是個MRF,他的maske...

如何評價IndRNN模型?

深度學習雜談 batchnormalization把要變成零的梯度又給拉回來了,因為sigmoid 或者其它啟用函式 的導數乘太多次以後 很多timestep後 會逼近0,作者把cnn裡常用的normalize方法拿來,想法很讚! 周欣宇 有IndRNN就一定會有KernelRNN 每個神經元只和前...

如何評價目標檢測模型AlignDet?

袁袁 非常棒的工作。這種的應該叫1.5 stages.最近有非常多的工作感覺都是1.5 stages.特點就是有RPN,會回歸兩次,但又不摳特徵。第一階段,RPN出來更好的anchor.既然咱要強行one stage,肯定不能摳,既然不能直接摳,又想feature能根據RPN refined後的an...