如何評價 XLNet 模型

1樓：hhlw1000

效果非常好。裡面有一事不明白。XLNet中的雙流Attention中，Query Stream利用g來作為Query，h作為Key和Value，是為了避免g中加入當前位置的x的資訊，可是感覺這只是多個multi-head中的第一層可以避免，在後面的層中是不是還是融入了當前位置的x的資訊，因為後面的層中的h已經加入了當前位置的x的資訊。

2樓：邵浩博士

作者自己給出的優勢在於：

(1) enables learning bidirectional contexts by maximizing the expected likelihood over all permutations of the factorization order and (2) overcomes the limitations of BERT thanks to its autoregressive formulation.

翻譯過來就是：

（1）通過最大化所有的因式分解順序的似然函式，可以學習雙向的語境資訊；（2）由於其自回歸的特點，克服了BERT自身的侷限性。

同時也融合了目前為止最好的自回歸模型Transformer-XL的思路。

由於autoregressive (AR) language modeling（自回歸語言模型）和 autoencoding (AE) （自編碼）是目前在無監督表徵學習中最成功的兩個預訓練目標，作者提出的演算法融合了兩者的優勢。

如何評價 XLNet 模型

如何評價 BERT 模型？

如何評價IndRNN模型？

如何評價目標檢測模型AlignDet？

其他用戶還看了：