国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

深入理解深度學(xué)習(xí)——注意力機(jī)制(Attention Mechanism):帶掩碼的多頭注意力(Masked Multi-head Attention)

這篇具有很好參考價(jià)值的文章主要介紹了深入理解深度學(xué)習(xí)——注意力機(jī)制(Attention Mechanism):帶掩碼的多頭注意力(Masked Multi-head Attention)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

分類目錄:《深入理解深度學(xué)習(xí)》總目錄

相關(guān)文章:
·注意力機(jī)制(AttentionMechanism):基礎(chǔ)知識
·注意力機(jī)制(AttentionMechanism):注意力匯聚與Nadaraya-Watson核回歸
·注意力機(jī)制(AttentionMechanism):注意力評分函數(shù)(AttentionScoringFunction)
·注意力機(jī)制(AttentionMechanism):Bahdanau注意力
·注意力機(jī)制(AttentionMechanism):自注意力(Self-attention)
·注意力機(jī)制(AttentionMechanism):多頭注意力(MultiheadAttention)
·注意力機(jī)制(AttentionMechanism):位置編碼(PositionalEncoding)


在《深入理解深度學(xué)習(xí)——注意力機(jī)制(Attention Mechanism):自注意力(Self-attention)》中,我們?yōu)榱诉\(yùn)行自注意力機(jī)制,我們需要創(chuàng)建三個(gè)新矩陣,即查詢矩陣 Q Q Q、鍵矩陣 K K K和值矩陣 V V V。由于使用了《深入理解深度學(xué)習(xí)——注意力機(jī)制(Attention Mechanism):多頭注意力(Multi-head Attention)》中的多頭注意力層,因此我們創(chuàng)建了 h h h個(gè)查詢矩陣、鍵矩陣和值矩陣。對于注意力頭 i i i的查詢矩陣 Q i Q_i Qi?、鍵矩陣 K i K_i Ki?和值矩陣 V i V_i Vi?,可以通過將 X X X分別乘以權(quán)重矩陣 W i q W^q_i Wiq?、 W i k W^k_i Wik?、 W i v W^v_i Wiv?而得。

下面,讓我們看看帶掩碼的多頭注意力層是如何工作的。假設(shè)傳給解碼器的輸入句是<sos>Je vais bien。我們知道,自注意力機(jī)制將一個(gè)單詞與句子中的所有單詞聯(lián)系起來,從而提取每個(gè)詞的更多信息。但這里有一個(gè)小問題。在測試期間,解碼器只將上一步生成的詞作為輸入。比如,在測試期間,當(dāng) t = 2 t=2 t=2時(shí),解碼器的輸入中只有[<sos>,Je],并沒有任何其他詞。因此,我們也需要以同樣的方式來訓(xùn)練模型。模型的注意力機(jī)制應(yīng)該只與該詞之前的單詞有關(guān),而不是其后的單詞。要做到這一點(diǎn),我們可以掩蓋后邊所有還沒有被模型預(yù)測的詞。比如,我們想預(yù)測與<sos>相鄰的單詞。在這種情況下,模型應(yīng)該只看到<sos>,所以我們應(yīng)該掩蓋<sos>后邊的所有詞。再比如,我們想預(yù)測Je后邊的詞。在這種情況下,模型應(yīng)該只看到Je之前的詞,所以我們應(yīng)該掩蓋Je后邊的所有詞。其他行同理,如下圖所示。
深入理解深度學(xué)習(xí)——注意力機(jī)制(Attention Mechanism):帶掩碼的多頭注意力(Masked Multi-head Attention)
像這樣的掩碼有助于自注意力機(jī)制只注意模型在測試期間可以使用的詞。對于一個(gè)注意力頭 i i i的注意力矩陣 Z i Z_i Zi?的計(jì)算方法:
Z i = Softmax ( Q i K i T d k ) V i Z_i=\text{Softmax}(\frac{Q_iK^T_i}{\sqrt{d_k}})V_i Zi?=Softmax(dk? ?Qi?KiT??)Vi?

需要計(jì)算帶掩碼的多頭注意力,主要有以下幾步:

  1. 計(jì)算查詢矩陣與鍵矩陣的點(diǎn)積。下圖顯示了點(diǎn)積結(jié)果。需要注意的是,這里使用的數(shù)值是隨機(jī)的,只是為了方便理解。深入理解深度學(xué)習(xí)——注意力機(jī)制(Attention Mechanism):帶掩碼的多頭注意力(Masked Multi-head Attention)
  2. Q i K i T Q_iK^T_i Qi?KiT?矩陣除以鍵向量維度的平方根 d k \sqrt{d_k} dk? ?,假設(shè)下圖是 Q i K i T d k \frac{Q_iK^T_i}{\sqrt{d_k}} dk? ?Qi?KiT??的結(jié)果:深入理解深度學(xué)習(xí)——注意力機(jī)制(Attention Mechanism):帶掩碼的多頭注意力(Masked Multi-head Attention)
  3. 我們對上圖所得的矩陣應(yīng)用Softmax函數(shù),并將分值歸一化。但在應(yīng)用Softmax函數(shù)之前,我們需要對數(shù)值進(jìn)行掩碼轉(zhuǎn)換。以矩陣的第1行為例,為了預(yù)測<sos>后邊的詞,模型不應(yīng)該知道<sos>右邊的所有詞(因?yàn)樵跍y試時(shí)不會有這些詞)。因此,如下圖所示,對于第1行我們可以用 ? ∞ -\infty ?掩蓋<sos>右邊的所有詞,第2行用 ? ∞ -\infty ?掩蓋Je右邊的所有詞,以此類推。深入理解深度學(xué)習(xí)——注意力機(jī)制(Attention Mechanism):帶掩碼的多頭注意力(Masked Multi-head Attention)

現(xiàn)在,我們可以將Softmax函數(shù)應(yīng)用于前面的矩陣,并將結(jié)果與值矩陣 V i V_i Vi?相乘,得到最終的注意力矩陣 Z i Z_i Zi?。同樣,我們可以計(jì)算 h h h個(gè)注意力矩陣,將它們串聯(lián)起來,并將結(jié)果乘以新的權(quán)重矩陣 W 0 W_0 W0?,即可得到最終的注意力矩陣 M M M
M = Concatenate ( Z 1 . Z 2 , ? ? . Z h ) W 0 M=\text{Concatenate}(Z_1. Z_2, \cdots. Z_h)W_0 M=Concatenate(Z1?.Z2?,?.Zh?)W0?

參考文獻(xiàn):
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.
[3] 車萬翔, 崔一鳴, 郭江. 自然語言處理:基于預(yù)訓(xùn)練模型的方法[M]. 電子工業(yè)出版社, 2021.
[4] 邵浩, 劉一烽. 預(yù)訓(xùn)練語言模型[M]. 電子工業(yè)出版社, 2021.
[5] 何晗. 自然語言處理入門[M]. 人民郵電出版社, 2019
[6] Sudharsan Ravichandiran. BERT基礎(chǔ)教程:Transformer大模型實(shí)戰(zhàn)[M]. 人民郵電出版社, 2023
[7] 吳茂貴, 王紅星. 深入淺出Embedding:原理解析與應(yīng)用實(shí)戰(zhàn)[M]. 機(jī)械工業(yè)出版社, 2021.文章來源地址http://www.zghlxwxcb.cn/news/detail-487366.html

到了這里,關(guān)于深入理解深度學(xué)習(xí)——注意力機(jī)制(Attention Mechanism):帶掩碼的多頭注意力(Masked Multi-head Attention)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 深入理解Transformer,兼談MHSA(多頭自注意力)、Cross-Attention(交叉注意力)、LayerNorm、FFN、位置編碼

    深入理解Transformer,兼談MHSA(多頭自注意力)、Cross-Attention(交叉注意力)、LayerNorm、FFN、位置編碼

    Transformer其實(shí)不是完全的Self-Attention(SA,自注意力)結(jié)構(gòu),還帶有Cross-Attention(CA,交叉注意力)、殘差連接、LayerNorm、類似1維卷積的Position-wise Feed-Forward Networks(FFN)、MLP和Positional Encoding(位置編碼)等 本文涵蓋Transformer所采用的MHSA(多頭自注意力)、LayerNorm、FFN、位置編

    2024年04月12日
    瀏覽(51)
  • 深入理解深度學(xué)習(xí)——Transformer:解碼器(Decoder)的多頭注意力層(Multi-headAttention)

    深入理解深度學(xué)習(xí)——Transformer:解碼器(Decoder)的多頭注意力層(Multi-headAttention)

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 相關(guān)文章: ·注意力機(jī)制(Attention Mechanism):基礎(chǔ)知識 ·注意力機(jī)制(Attention Mechanism):注意力匯聚與Nadaraya-Watson核回歸 ·注意力機(jī)制(Attention Mechanism):注意力評分函數(shù)(Attention Scoring Function) ·注意力機(jī)制(Attention Mechanism):

    2024年02月09日
    瀏覽(21)
  • NLP 學(xué)習(xí)筆記十-simple RNN+attention(注意力機(jī)制)

    NLP 學(xué)習(xí)筆記十-simple RNN+attention(注意力機(jī)制)

    感興趣的伙伴,看這個(gè)筆記,最好從頭開始看哈,而且我的筆記,其實(shí)不面向零基礎(chǔ),最好有過一些實(shí)踐經(jīng)歷的來看最好。 緊接上一回,我們談到seq2seq模型解決用于機(jī)器翻譯的問題。其中seq其實(shí)是采用lstm作為自己的基礎(chǔ)記憶網(wǎng)絡(luò)實(shí)現(xiàn)的,當(dāng)然也可以用RNN實(shí)現(xiàn)實(shí)現(xiàn)seq2seq模型。

    2024年02月09日
    瀏覽(25)
  • 【深度學(xué)習(xí)注意力機(jī)制系列】—— SKNet注意力機(jī)制(附pytorch實(shí)現(xiàn))

    【深度學(xué)習(xí)注意力機(jī)制系列】—— SKNet注意力機(jī)制(附pytorch實(shí)現(xiàn))

    SKNet(Selective Kernel Network) 是一種用于圖像分類和目標(biāo)檢測任務(wù)的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),其核心創(chuàng)新是 引入了選擇性的多尺度卷積核(Selective Kernel)以及一種新穎的注意力機(jī)制 ,從而在不增加網(wǎng)絡(luò)復(fù)雜性的情況下提升了特征提取的能力。SKNet的設(shè)計(jì)旨在 解決多尺度信息融合的

    2024年02月13日
    瀏覽(43)
  • 【深度學(xué)習(xí)注意力機(jī)制系列】—— SENet注意力機(jī)制(附pytorch實(shí)現(xiàn))

    【深度學(xué)習(xí)注意力機(jī)制系列】—— SENet注意力機(jī)制(附pytorch實(shí)現(xiàn))

    深度學(xué)習(xí)中的注意力機(jī)制(Attention Mechanism)是一種模仿人類視覺和認(rèn)知系統(tǒng)的方法,它允許神經(jīng)網(wǎng)絡(luò)在處理輸入數(shù)據(jù)時(shí)集中注意力于相關(guān)的部分。通過引入注意力機(jī)制,神經(jīng)網(wǎng)絡(luò)能夠自動地學(xué)習(xí)并選擇性地關(guān)注輸入中的重要信息,提高模型的性能和泛化能力。 卷積神經(jīng)網(wǎng)絡(luò)

    2024年02月14日
    瀏覽(26)
  • 【深度學(xué)習(xí)注意力機(jī)制系列】—— ECANet注意力機(jī)制(附pytorch實(shí)現(xiàn))

    【深度學(xué)習(xí)注意力機(jī)制系列】—— ECANet注意力機(jī)制(附pytorch實(shí)現(xiàn))

    ECANet(Efficient Channel Attention Network) 是一種 用于圖像處理任務(wù)的神經(jīng)網(wǎng)絡(luò)架構(gòu),它在保持高效性的同時(shí),有效地捕捉圖像中的通道間關(guān)系,從而提升了特征表示的能力 。ECANet通過引入通道注意力機(jī)制,以及在卷積層中嵌入該機(jī)制,取得了優(yōu)越的性能。本文將對ECANet的核心思

    2024年02月13日
    瀏覽(20)
  • 【深度學(xué)習(xí)注意力機(jī)制系列】—— SCSE注意力機(jī)制(附pytorch實(shí)現(xiàn))

    【深度學(xué)習(xí)注意力機(jī)制系列】—— SCSE注意力機(jī)制(附pytorch實(shí)現(xiàn))

    SCSE注意力模塊 (來自論文[1803.02579] Concurrent Spatial and Channel Squeeze Excitation in Fully Convolutional Networks (arxiv.org))。其對SE注意力模塊進(jìn)行了改進(jìn),提出了 cSE、sSE、scSE 三個(gè)模塊變體,這些模塊可以 增強(qiáng)有意義的特征,抑制無用特征 。今天我們就分別講解一下這三個(gè)注意力模塊。

    2024年02月13日
    瀏覽(20)
  • 【深度學(xué)習(xí)注意力機(jī)制系列】—— CBAM注意力機(jī)制(附pytorch實(shí)現(xiàn))

    【深度學(xué)習(xí)注意力機(jī)制系列】—— CBAM注意力機(jī)制(附pytorch實(shí)現(xiàn))

    CBAM(Convolutional Block Attention Module) 是一種用于增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)(CNN)性能的注意力機(jī)制模塊。它由Sanghyun Woo等人在2018年的論文[1807.06521] CBAM: Convolutional Block Attention Module (arxiv.org)中提出。CBAM的主要目標(biāo)是 通過在CNN中引入通道注意力和空間注意力 來提高模型的感知能力,從

    2024年02月13日
    瀏覽(22)
  • 【深度學(xué)習(xí)】注意力機(jī)制

    注意力機(jī)制(Attention Mechanism)是一種在計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)中常用的技術(shù),可以使模型在處理序列數(shù)據(jù)時(shí)更加準(zhǔn)確和有效。在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中,每個(gè)神經(jīng)元的輸出只依賴于前一層的所有神經(jīng)元的輸出,而在注意力機(jī)制中,每個(gè)神經(jīng)元的輸出不僅僅取決于前一層的所有神經(jīng)

    2024年02月02日
    瀏覽(39)
  • 注意力機(jī)制-CA注意力-Coordinate attention

    注意力機(jī)制-CA注意力-Coordinate attention

    CA(Coordinate attention for efficient mobile network design)發(fā)表在CVPR2021,幫助輕量級網(wǎng)絡(luò)漲點(diǎn)、即插即用。 CA注意力機(jī)制的優(yōu)勢: 1、不僅考慮了通道信息,還考慮了方向相關(guān)的位置信息。 2、足夠的靈活和輕量,能夠簡單的插入到輕量級網(wǎng)絡(luò)的核心模塊中。 提出不足 1、SE注意力中只

    2024年02月02日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包