Cross-Attention in Transformer Architecture?
最近,CrossViT讓我所有思考,這種能過夠跨膜態(tài)的模型構(gòu)建?淺學(xué)一下吧!
目錄
1.Cross attention概念
2.Cross-attention vs Self-attention?
3.Cross-attention算法?
4.Cross-Attention 案例-感知器IO
1.Cross attention概念
- Transformer架構(gòu)中混合兩種不同嵌入序列的注意機(jī)制
- 兩個(gè)序列必須具有相同的維度
- 兩個(gè)序列可以是不同的模式形態(tài)(如:文本、聲音、圖像)
- 一個(gè)序列作為輸入的Q,定義了輸出的序列長(zhǎng)度,另一個(gè)序列提供輸入的K&V
- ps:不知道QKV的先去普及一下Attention的基礎(chǔ)、更專業(yè)的學(xué)習(xí)資源here吧!
2.Cross-attention vs Self-attention?
Cross-attention的輸入來自不同的序列,Self-attention的輸入來自同序列,也就是所謂的輸入不同,但是除此之外,基本一致。
具體而言,
self-attention輸入則是一個(gè)單一的嵌入序列。
Cross-attention將兩個(gè)相同維度的嵌入序列不對(duì)稱地組合在一起,而其中一個(gè)序列用作查詢Q輸入,而另一個(gè)序列用作鍵K和值V輸入。當(dāng)然也存在個(gè)別情況,在SelfDoc的cross-attention,使用一個(gè)序列的查詢和值,另一個(gè)序列的鍵??偠灾?span style="color:#be191c;">QKV是由兩序列拼湊的,不單一。
3.Cross-attention算法?
- 擁有兩個(gè)序列S1、S2
- 計(jì)算S1的K、V
- 計(jì)算S2的Q
- 根據(jù)K和Q計(jì)算注意力矩陣
- 將V應(yīng)用于注意力矩陣
- 輸出的序列長(zhǎng)度與S2一致
4.Cross-Attention 案例-感知器IO
?感知器IO是一個(gè)通用的跨域架構(gòu),可以處理各種輸入和輸出,廣泛使用交叉注意:文章來源:http://www.zghlxwxcb.cn/news/detail-443659.html
- 將非常長(zhǎng)的輸入序列(如圖像、音頻)合并到低維潛在嵌入序列中
- 合并“輸出查詢”或“命令”來解碼輸出值,例如我們可以讓模型詢問一個(gè)掩碼詞
這樣做的好處是,通??梢蕴幚砗荛L(zhǎng)的序列。層次感知器能夠處理更長(zhǎng)的序列,將它們分解成子序列,然后合并它們。層次感知器也學(xué)習(xí)位置編碼與一個(gè)單獨(dú)的訓(xùn)練步驟,重建的損失。文章來源地址http://www.zghlxwxcb.cn/news/detail-443659.html
到了這里,關(guān)于【科研】淺學(xué)Cross-attention?的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!