国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

深入理解深度學(xué)習(xí)——Transformer:編碼器(Encoder)部分

這篇具有很好參考價(jià)值的文章主要介紹了深入理解深度學(xué)習(xí)——Transformer:編碼器(Encoder)部分。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

分類目錄:《深入理解深度學(xué)習(xí)》總目錄

相關(guān)文章:
·注意力機(jī)制(AttentionMechanism):基礎(chǔ)知識(shí)
·注意力機(jī)制(AttentionMechanism):注意力匯聚與Nadaraya-Watson核回歸
·注意力機(jī)制(AttentionMechanism):注意力評(píng)分函數(shù)(AttentionScoringFunction)
·注意力機(jī)制(AttentionMechanism):Bahdanau注意力
·注意力機(jī)制(AttentionMechanism):多頭注意力(MultiheadAttention)
·注意力機(jī)制(AttentionMechanism):自注意力(Self-attention)
·注意力機(jī)制(AttentionMechanism):位置編碼(PositionalEncoding)


Transformer中的編碼器不止一個(gè),而是由一組 N N N個(gè)編碼器串聯(lián)而成。一個(gè)編碼器的輸出作為下一個(gè)編碼器的輸入。在下圖中有 N N N個(gè)編碼器,每一個(gè)編碼器都從下方接收數(shù)據(jù),再輸出給上方。以此類推,原句中的特征會(huì)由最后一個(gè)編碼器輸出。編碼器模塊的主要功能就是提取原始序列(圖中為“I am good.”句子)中的特征。
深入理解深度學(xué)習(xí)——Transformer:編碼器(Encoder)部分

需要注意的是,在Transformer原論文《Attention Is All You Need》中,作者使用了 N = 6 N=6 N=6,也就是說,一共有6個(gè)編碼器疊加在一起。當(dāng)然,我們可以嘗試使用不同的 N N N值。這里為了方便理解,我們使用 N = 2 N=2 N=2。要進(jìn)一步理解編碼器的工作原理,我們可以將編碼器再次分解。下圖展示了編碼器的組成部分。由下圖可知,每一個(gè)編碼器的構(gòu)造都是相同的,并且包含兩個(gè)部分:

  • 多頭注意力層
  • 前饋網(wǎng)絡(luò)層
    深入理解深度學(xué)習(xí)——Transformer:編碼器(Encoder)部分

其中多頭注意力層即是我們?cè)凇渡钊肜斫馍疃葘W(xué)習(xí)——注意力機(jī)制(Attention Mechanism):多頭注意力(Multi-head Attention)》中介紹的多頭注意力。前饋網(wǎng)絡(luò)由兩個(gè)有ReLU激活函數(shù)的全連接層組成。前饋網(wǎng)絡(luò)的參數(shù)在句子的不同位置上是相同的,但在不同的編碼器模塊上是不同的。除此之外,在編碼器中還有一個(gè)重要的組成部分,即疊加和歸一組件。它同時(shí)連接一個(gè)子層的輸入和輸出,如下圖所示(虛線部分),它同時(shí)連接多頭注意力層的輸入和輸出,也同時(shí)連接前饋網(wǎng)絡(luò)層的輸入和輸出。
深入理解深度學(xué)習(xí)——Transformer:編碼器(Encoder)部分

疊加和歸一組件實(shí)際上包含一個(gè)殘差連接與層的歸一化。層的歸一化可以防止每層的值劇烈變化,從而提高了模型的訓(xùn)練速度。

綜上所述,我們將編碼器1展開可以得到如下圖所示結(jié)構(gòu):
深入理解深度學(xué)習(xí)——Transformer:編碼器(Encoder)部分
從上圖中我們可以總結(jié)出以下幾點(diǎn):

  • 將輸入轉(zhuǎn)換為嵌入矩陣(輸入矩陣),并將位置編碼加入其中,再將結(jié)果作為輸入傳入底層的編碼器(編碼器1)。
  • 編碼器1接受輸入并將其送入多頭注意力層,該子層運(yùn)算后輸出注意力矩陣。
  • 將注意力矩陣輸入到下一個(gè)子層,即前饋網(wǎng)絡(luò)層。前饋網(wǎng)絡(luò)層將注意力矩陣作為輸入,并計(jì)算出特征值作為輸出。
  • 把從編碼器1中得到的輸出作為輸入,傳入下一個(gè)編碼器(編碼器2)。
  • 編碼器2進(jìn)行同樣的處理,再將給定輸入句子的特征值作為輸出。

這樣可以將 N N N個(gè)編碼器一個(gè)接一個(gè)地疊加起來。從最后一個(gè)編碼器(頂層的編碼器)得到的輸出將是給定輸入句子的特征值。讓我們把從最后一個(gè)編碼器(在本例中是編碼器2)得到的特征值表示為 R R R。我們把 R R R作為輸入傳給解碼器。解碼器將基于這個(gè)輸入生成目標(biāo)句,這也是Transformer的編碼器部分。

參考文獻(xiàn):
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.
[3] Sudharsan Ravichandiran. BERT基礎(chǔ)教程:Transformer大模型實(shí)戰(zhàn)[M]. 人民郵電出版社, 2023文章來源地址http://www.zghlxwxcb.cn/news/detail-480930.html

到了這里,關(guān)于深入理解深度學(xué)習(xí)——Transformer:編碼器(Encoder)部分的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 深度學(xué)習(xí)——自編碼器AutoEncoder

    深度學(xué)習(xí)——自編碼器AutoEncoder

    自編碼器(Autoencoder)是一種無監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,用于學(xué)習(xí)數(shù)據(jù)的低維表示。它由編碼器(Encoder)和解碼器(Decoder)兩部分組成,通過將輸入數(shù)據(jù)壓縮到低維編碼空間,再?gòu)木幋a空間中重構(gòu)輸入數(shù)據(jù)。 自編碼器的基本結(jié)構(gòu)如下: 1.編碼器(Encoder):接收輸入數(shù)據(jù),

    2024年02月17日
    瀏覽(26)
  • 深度學(xué)習(xí)筆記之稀疏自編碼器

    深度學(xué)習(xí)筆記之稀疏自編碼器

    本節(jié)以一道 算法八股題 為引,介紹 稀疏自編碼器 。 下列方法中,可以用于特征 降維 的方法包括( 多選 ) ( ) (quad) ( ) A mathcal A quad A 主成分分析 PCA text{PCA} PCA B mathcal B quad B 線性判別分析 LDA text{LDA} LDA C mathcal C quad C 深度學(xué)習(xí) SparseAutoEncoder text{SparseAutoEncoder} SparseAutoE

    2024年02月01日
    瀏覽(24)
  • 【深度學(xué)習(xí)】采用自動(dòng)編碼器生成新圖像

    【深度學(xué)習(xí)】采用自動(dòng)編碼器生成新圖像

    ????????你知道什么會(huì)很酷嗎?如果我們不需要所有這些標(biāo)記的數(shù)據(jù)來訓(xùn)練 我們的模型。我的意思是標(biāo)記和分類數(shù)據(jù)需要太多的工作。 不幸的是,大多數(shù)現(xiàn)有模型從支持向量機(jī)到卷積神經(jīng)網(wǎng),沒有它們,卷積神經(jīng)網(wǎng)絡(luò)就無法訓(xùn)練。無監(jiān)督學(xué)習(xí)不需要標(biāo)注。無監(jiān)督學(xué)習(xí)從未

    2024年02月13日
    瀏覽(21)
  • 【深度學(xué)習(xí)】在 MNIST實(shí)現(xiàn)自動(dòng)編碼器實(shí)踐教程

    ????????自動(dòng)編碼器是一種無監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,主要用于降維或特征提取。常見的自動(dòng)編碼器包括基本的單層自動(dòng)編碼器、深度自動(dòng)編碼器、卷積自動(dòng)編碼器和變分自動(dòng)編碼器等。 ????????其中,基本的單層自動(dòng)編碼器由一個(gè)編碼器和一個(gè)解碼器組成,編碼器

    2024年02月14日
    瀏覽(26)
  • 深入理解深度學(xué)習(xí)——Transformer:解碼器(Decoder)的多頭注意力層(Multi-headAttention)

    深入理解深度學(xué)習(xí)——Transformer:解碼器(Decoder)的多頭注意力層(Multi-headAttention)

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 相關(guān)文章: ·注意力機(jī)制(Attention Mechanism):基礎(chǔ)知識(shí) ·注意力機(jī)制(Attention Mechanism):注意力匯聚與Nadaraya-Watson核回歸 ·注意力機(jī)制(Attention Mechanism):注意力評(píng)分函數(shù)(Attention Scoring Function) ·注意力機(jī)制(Attention Mechanism):

    2024年02月09日
    瀏覽(21)
  • 【計(jì)算機(jī)視覺 | 目標(biāo)檢測(cè)】術(shù)語(yǔ)理解9:AIGC的理解,對(duì)比學(xué)習(xí),解碼器,Mask解碼器,耦合蒸餾,半耦合,圖像編碼器和組合解碼器的耦合優(yōu)化

    【計(jì)算機(jī)視覺 | 目標(biāo)檢測(cè)】術(shù)語(yǔ)理解9:AIGC的理解,對(duì)比學(xué)習(xí),解碼器,Mask解碼器,耦合蒸餾,半耦合,圖像編碼器和組合解碼器的耦合優(yōu)化

    AIGC指的是使用人工智能技術(shù)自動(dòng)生成的各類數(shù)字內(nèi)容,包括文本、圖像、音頻、視頻等。它利用機(jī)器學(xué)習(xí)模型進(jìn)行智能化內(nèi)容生成。 主要的技術(shù)手段包括: 自然語(yǔ)言生成(NLG):使用RNN、GPT等語(yǔ)言模型生成文本。 生成對(duì)抗網(wǎng)絡(luò)(GAN):使用GAN生成高質(zhì)量圖片。 自動(dòng)語(yǔ)音合成(TTS):使用

    2024年02月04日
    瀏覽(21)
  • 機(jī)器學(xué)習(xí)&&深度學(xué)習(xí)——從編碼器-解碼器架構(gòu)到seq2seq(機(jī)器翻譯)

    機(jī)器學(xué)習(xí)&&深度學(xué)習(xí)——從編碼器-解碼器架構(gòu)到seq2seq(機(jī)器翻譯)

    ?????作者簡(jiǎn)介:一位即將上大四,正專攻機(jī)器學(xué)習(xí)的保研er ??上期文章:機(jī)器學(xué)習(xí)深度學(xué)習(xí)——注意力提示、注意力池化(核回歸) ??訂閱專欄:機(jī)器學(xué)習(xí)深度學(xué)習(xí) 希望文章對(duì)你們有所幫助 接下來就要慢慢開始實(shí)戰(zhàn)了,把這邊過了,我們接下來就要進(jìn)行機(jī)器翻譯的實(shí)戰(zhàn)

    2024年02月13日
    瀏覽(34)
  • 【Transformer系列(1)】encoder(編碼器)和decoder(解碼器)

    【Transformer系列(1)】encoder(編碼器)和decoder(解碼器)

    前言 這個(gè)專欄我們開始學(xué)習(xí)transformer,自推出以來transformer在深度學(xué)習(xí)中占有重要地位,不僅在NLP領(lǐng)域,在CV領(lǐng)域中也被廣泛應(yīng)用,尤其是2021年,transformer在CV領(lǐng)域可謂大殺四方。 在論文的學(xué)習(xí)之前,我們先來介紹一些專業(yè)術(shù)語(yǔ)。本篇就讓我們先來認(rèn)識(shí)一下encoder和decoder吧!

    2024年03月25日
    瀏覽(23)
  • Transformer 的雙向編碼器表示 (BERT)

    Transformer 的雙向編碼器表示 (BERT)

    本文介紹語(yǔ)言句法中,最可能的單詞填空在self-attention的表現(xiàn)形式,以及內(nèi)部原理的介紹。 ????????在我之前的博客中,我們研究了關(guān)于生成式預(yù)訓(xùn)練 Transformer ? 的完整概述,關(guān)于生成式預(yù)訓(xùn)練 Transformer (GPT) 的博客- 預(yù)訓(xùn)練、微調(diào)和不同用例應(yīng)用程序。以及有關(guān)所有僅解

    2024年02月03日
    瀏覽(21)
  • LeViT-UNet:transformer 編碼器和CNN解碼器的有效整合

    LeViT-UNet:transformer 編碼器和CNN解碼器的有效整合

    levi - unet[2]是一種新的醫(yī)學(xué)圖像分割架構(gòu),它使用transformer 作為編碼器,這使得它能夠更有效地學(xué)習(xí)遠(yuǎn)程依賴關(guān)系。levi - unet[2]比傳統(tǒng)的U-Nets更快,同時(shí)仍然實(shí)現(xiàn)了最先進(jìn)的分割性能。 levi - unet[2]在幾個(gè)具有挑戰(zhàn)性的醫(yī)學(xué)圖像分割基準(zhǔn)上取得了比其他法更好的性能,包括Synap

    2024年02月12日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包