transformer中的Q,K,V到底是什麼?

時間 2021-05-30 15:23:23

1樓:MathewShen

"Attention,這是什麼?"

"這個就說來話長了,你看我有hard attention,soft attention,self attention..."

"等下,這些看著都好相似,不就是乙個加權平均?"

"是...是的,也可以這麼說,但是你看......這樣就有了Transformer"

"哦,還是加權平均對吧"

"是...是的"

"The Illustrated Transformer"

2樓:

就是查字典

假想你有乙個map/dict或者其他名字,乙個key對應乙個value,在檢索的時候,給定query,如果query in map,就是query等於其中乙個key,就返回對應的value。這個方法太hard了,有就是有,沒有就是沒有。對於qkv都是向量的情況,這種方法不可行,只能讓它變soft,那就是算一算query和key的關係,按照比例對value加和,這和max變成softmax有異曲同工之妙

3樓:

作為實現注意力機制的乙個例項,當然要從注意力機制本身去理解。所謂注意力,本質不過是要進行乙個訊息傳遞,或者說通過構造不同組分之間的勢能函式去對彼此施加乙個作用力,從而達到不同特徵之間的相互影響。

從這個角度看,QKV不過是構造這個勢能函式的一種實現方式,QK通過構造乙個恰當的內積來對訊息V進行加權。略微看一下物理的影象,那麼V就是個作用力的向量,其強度被QK所調製,如果你熟悉規範場的這套說法,那麼我們也很容易找到QKV對應的就是向量,聯絡以及平移後的向量。這個機制就產生了作用力,網路不同組分之間通過這個作用力發生相互影響,僅此而已。

當然,QK還可以看作構造了乙個metric,用來對不同子系統的狀態的距離進行度量,計算它們之間的距離。

4樓:趙明明

Q:查詢向量

K:表示被查詢資訊與其他資訊的相關性的向量V:表示被查詢資訊的向量

輸入向量為:x, 1xm向量

Q = x * Wq

K = x * Wk

V = x * Wv

x對應資訊V的注意力權重與 Q*K.tranpose 成正比等於說:x的注意力權重,由x自己來決定,所以叫自注意力。

Wq,Wk,Wv會根據任務目標更新變化,保證了自注意力機制的效果。

以下是點乘自注意力機制的公式

Transformer中的Attention機制,注意力分布概率是如何求得的?

寶珠道人 題主的問題其實是沒有弄明白transformer中的Attention機制,以及attention機制的作用點而導致的。那接下來我們介紹一下transformer中的注意力機制,題主自然就明白了。transformer採用的是多頭注意力機制。每個輸入被分割成了多個頭,允許網路注意每個輸入的...

深度學習中「Transformer」怎麼翻譯為中文?

沈卓然 我覺得暫時最好的方案就是直接用英文Transformer。Transformer基本上相當於乙個專有名詞,不是所有專有名詞都需要翻譯的。比如Windows Office iPhone,甚至WiFi,這些都沒有翻譯,大家用到的時候也是直接用英文詞彙的。我是乙個比較注重語言純潔性的人,但是有些詞...

transformer中為什麼使用不同的K 和 Q, 為什麼不能使用同乙個值?

233 這個問題如果是從圖模型的角度來看其實很容易理解。transformer中,encoder中的詞,之間會有互動 資訊傳遞 decoder中的詞,之間也有互動 資訊傳遞 其實到這裡理論上完全是可以只用乙個K或者Q的。因為這是乙個同構圖,圖中的邊都是一樣的,用同乙個變數就可了。但transform...