1樓:hhlw1000
效果非常好。裡面有一事不明白。XLNet中的雙流Attention中,Query Stream利用g來作為Query,h作為Key和Value,是為了避免g中加入當前位置的x的資訊,可是感覺這只是多個multi-head中的第一層可以避免,在後面的層中是不是還是融入了當前位置的x的資訊,因為後面的層中的h已經加入了當前位置的x的資訊。
2樓:邵浩博士
作者自己給出的優勢在於:
(1) enables learning bidirectional contexts by maximizing the expected likelihood over all permutations of the factorization order and (2) overcomes the limitations of BERT thanks to its autoregressive formulation.
翻譯過來就是:
(1)通過最大化所有的因式分解順序的似然函式,可以學習雙向的語境資訊;(2)由於其自回歸的特點,克服了BERT自身的侷限性。
同時也融合了目前為止最好的自回歸模型Transformer-XL的思路。
由於autoregressive (AR) language modeling(自回歸語言模型) 和 autoencoding (AE) (自編碼)是目前在無監督表徵學習中最成功的兩個預訓練目標,作者提出的演算法融合了兩者的優勢。
如何評價 BERT 模型?
李小濤 想提個問題,除了 cls 學習了句子的語義這種解釋之外,還可以怎樣理解 bert 即可以做文字分類也可以做句子的語義相似度?或者說怎麼可以更加深入的理解這個問題 羅若天是真的菜 最近看到這個用bert做生成的乙個technical report。本質上說bert其實是個MRF,他的maske...
如何評價IndRNN模型?
深度學習雜談 batchnormalization把要變成零的梯度又給拉回來了,因為sigmoid 或者其它啟用函式 的導數乘太多次以後 很多timestep後 會逼近0,作者把cnn裡常用的normalize方法拿來,想法很讚! 周欣宇 有IndRNN就一定會有KernelRNN 每個神經元只和前...
如何評價目標檢測模型AlignDet?
袁袁 非常棒的工作。這種的應該叫1.5 stages.最近有非常多的工作感覺都是1.5 stages.特點就是有RPN,會回歸兩次,但又不摳特徵。第一階段,RPN出來更好的anchor.既然咱要強行one stage,肯定不能摳,既然不能直接摳,又想feature能根據RPN refined後的an...