transformer中的Q,K,V到底是什麼？

1樓：MathewShen

"Attention，這是什麼？"

"這個就說來話長了，你看我有hard attention，soft attention，self attention..."

"等下，這些看著都好相似，不就是乙個加權平均？"

"是...是的，也可以這麼說，但是你看......這樣就有了Transformer"

"哦，還是加權平均對吧"

"是...是的"

"The Illustrated Transformer"

2樓：

就是查字典

假想你有乙個map/dict或者其他名字，乙個key對應乙個value，在檢索的時候，給定query，如果query in map，就是query等於其中乙個key，就返回對應的value。這個方法太hard了，有就是有，沒有就是沒有。對於qkv都是向量的情況，這種方法不可行，只能讓它變soft，那就是算一算query和key的關係，按照比例對value加和，這和max變成softmax有異曲同工之妙

3樓：

作為實現注意力機制的乙個例項，當然要從注意力機制本身去理解。所謂注意力，本質不過是要進行乙個訊息傳遞，或者說通過構造不同組分之間的勢能函式去對彼此施加乙個作用力，從而達到不同特徵之間的相互影響。

從這個角度看，QKV不過是構造這個勢能函式的一種實現方式，QK通過構造乙個恰當的內積來對訊息V進行加權。略微看一下物理的影象，那麼V就是個作用力的向量，其強度被QK所調製，如果你熟悉規範場的這套說法，那麼我們也很容易找到QKV對應的就是向量，聯絡以及平移後的向量。這個機制就產生了作用力，網路不同組分之間通過這個作用力發生相互影響，僅此而已。

當然，QK還可以看作構造了乙個metric，用來對不同子系統的狀態的距離進行度量，計算它們之間的距離。

4樓：趙明明

Q:查詢向量

K:表示被查詢資訊與其他資訊的相關性的向量V:表示被查詢資訊的向量

輸入向量為：x， 1xm向量

Q = x * Wq

K = x * Wk

V = x * Wv

x對應資訊V的注意力權重與 Q*K.tranpose 成正比等於說：x的注意力權重，由x自己來決定，所以叫自注意力。

Wq,Wk,Wv會根據任務目標更新變化，保證了自注意力機制的效果。

以下是點乘自注意力機制的公式

transformer中的Q,K,V到底是什麼？

Transformer中的Attention機制，注意力分布概率是如何求得的？

深度學習中「Transformer」怎麼翻譯為中文？

transformer中為什麼使用不同的K 和 Q，為什麼不能使用同乙個值？

其他用戶還看了：

transformer中的Q,K,V到底是什麼？

Transformer中的Attention機制，注意力分布概率是如何求得的？

深度學習中「Transformer」怎麼翻譯為中文？

transformer中為什麼使用不同的K 和 Q， 為什麼不能使用同乙個值？

其他用戶還看了：

transformer中為什麼使用不同的K 和 Q，為什麼不能使用同乙個值？