国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

注意力機(jī)制和Transformer

這篇具有很好參考價(jià)值的文章主要介紹了注意力機(jī)制和Transformer。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

注意力機(jī)制和Transformer

機(jī)器翻譯是NLP領(lǐng)域中最重要的問(wèn)題之一,也是Google翻譯等工具的基礎(chǔ)。傳統(tǒng)的RNN方法使用兩個(gè)循環(huán)網(wǎng)絡(luò)實(shí)現(xiàn)序列到序列的轉(zhuǎn)換,其中一個(gè)網(wǎng)絡(luò)(編碼器)將輸入序列轉(zhuǎn)換為隱藏狀態(tài),而另一個(gè)網(wǎng)絡(luò)(解碼器)則將該隱藏狀態(tài)解碼為翻譯結(jié)果。但是,這種方法存在兩個(gè)問(wèn)題:

  1. 編碼器網(wǎng)絡(luò)的最終狀態(tài)難以記住句子開(kāi)頭,導(dǎo)致對(duì)于長(zhǎng)句子的模型質(zhì)量較差。
  2. 序列中的所有單詞對(duì)結(jié)果的影響是相同的,但實(shí)際上,輸入序列中特定的單詞往往對(duì)順序輸出的影響大于其他單詞。

注意機(jī)制

注意機(jī)制提供了一種權(quán)衡每個(gè)輸入向量對(duì)RNN每個(gè)輸出預(yù)測(cè)的上下文影響的方法。具體實(shí)現(xiàn)是在輸入RNN和輸出RNN之間創(chuàng)建快捷方式。這樣,在生成輸出符號(hào)yt時(shí),我們將考慮所有輸入隱藏狀態(tài)hi,具有不同的權(quán)重系數(shù)αt,i。

注意力機(jī)制和Transformer

注意力機(jī)制和Transformer

注意機(jī)制對(duì)于NLP的許多當(dāng)今或即將達(dá)到的最新技術(shù)水平負(fù)有責(zé)任。添加注意機(jī)制增加了模型參數(shù)的數(shù)量,這導(dǎo)致了RNN的擴(kuò)展問(wèn)題。擴(kuò)展RNN的關(guān)鍵限制是,模型的循環(huán)性質(zhì)使批處理和并行化訓(xùn)練變得具有挑戰(zhàn)性。在RNN中,序列的每個(gè)元素都需要按順序處理,這意味著它不能輕松并行化。

注意力機(jī)制和Transformer

帶注意機(jī)制的編碼器解碼器模型

引入注意機(jī)制后,結(jié)合這個(gè)約束,導(dǎo)致了現(xiàn)在我們所知道和使用的Transformer模型的創(chuàng)建,例如BERT到Open-GPT3。

Transformer模型

Transformer的主要思想之一是避免RNN的順序性并創(chuàng)建一個(gè)可在訓(xùn)練期間并行化的模型。這是通過(guò)實(shí)現(xiàn)兩個(gè)思想來(lái)實(shí)現(xiàn)的:位置編碼和使用自注意力機(jī)制來(lái)捕獲模式,而不是使用RNN(或CNN)。這就是為什么介紹transformers的論文被稱(chēng)為“Attention is all you need”。

位置編碼/嵌入

位置編碼的思想是,當(dāng)使用RNN時(shí),標(biāo)記的相對(duì)位置由步數(shù)表示,因此不需要明確表示。但是,一旦我們切換到注意機(jī)制,我們需要知道序列中標(biāo)記的相對(duì)位置。為了獲得位置編碼,我們將標(biāo)記的序列與序列中的標(biāo)記位置一起增強(qiáng)(即一系列數(shù)字0,1,…)。然后,我們將標(biāo)記位置與標(biāo)記嵌入向量混合。為將位置(整數(shù))轉(zhuǎn)換為向量,我們可以使用不同的方法:

  1. 可訓(xùn)練嵌入,類(lèi)似于標(biāo)記嵌入。這是我們?cè)诖丝紤]的方法。我們?cè)跇?biāo)記和它們的位置之上應(yīng)用嵌入層,得到相同尺寸的嵌入向量,然后將它們相加。
  2. 固定的位置編碼函數(shù),如原始論文中所提出的注意力機(jī)制和Transformer

多頭自注意力

接下來(lái),我們需要捕獲序列中的一些模式。為了做到這一點(diǎn),transformers使用自注意力機(jī)制,它本質(zhì)上是應(yīng)用于相同的輸入和輸出序列的注意力機(jī)制。應(yīng)用自注意力使我們能夠考慮句子中的上下文,并查看哪些單詞是相互關(guān)聯(lián)的。例如,它使我們能夠查看哪些單詞被指代,以及考慮上下文:

注意力機(jī)制和Transformer

在transformers中,我們使用多頭自注意力來(lái)使網(wǎng)絡(luò)能夠捕獲多種不同類(lèi)型的依賴(lài)關(guān)系,例如長(zhǎng)期與短期的單詞關(guān)系,共指與其他關(guān)系等。

編碼器解碼器注意力

在transformers中,注意力應(yīng)用于兩個(gè)位置:

  1. 使用自注意力來(lái)捕獲輸入文本中的模式。
  2. 執(zhí)行序列翻譯時(shí),它是位于編碼器和解碼器之間的注意力層。

編碼器解碼器注意力與RNN中描述的注意力機(jī)制非常相似。下面的動(dòng)畫(huà)圖解釋了編碼器解碼器注意力的作用。

注意力機(jī)制和Transformer

由于每個(gè)輸入位置都被獨(dú)立地映射到每個(gè)輸出位置,因此transformers可以比RNN更好地并行化,這使得更大、更具表現(xiàn)力的語(yǔ)言模型成為可能。每個(gè)注意力頭可以用于學(xué)習(xí)不同的單詞關(guān)系,從而提高下游的自然語(yǔ)言處理任務(wù)的效果。

BERT

BERT(雙向編碼器表示來(lái)自transformers)是一個(gè)非常大的多層變壓器網(wǎng)絡(luò),BERT-base有12層,BERT-large有24層。該模型首先使用無(wú)監(jiān)督的訓(xùn)練(預(yù)測(cè)句子中的掩碼單詞)在大量文本數(shù)據(jù)(維基百科+圖書(shū))上進(jìn)行預(yù)訓(xùn)練。在預(yù)訓(xùn)練期間,模型吸收了大量的語(yǔ)言理解,這可以通過(guò)微調(diào)其他數(shù)據(jù)集來(lái)利用。這個(gè)過(guò)程被稱(chēng)為遷移學(xué)習(xí)。

注意力機(jī)制和Transformer文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-487207.html

到了這里,關(guān)于注意力機(jī)制和Transformer的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 大模型基礎(chǔ)之注意力機(jī)制和Transformer

    大模型基礎(chǔ)之注意力機(jī)制和Transformer

    核心思想:在decoder的每一步,把encoder端所有的向量提供給decoder,這樣decoder根據(jù)當(dāng)前自身狀態(tài),來(lái)自動(dòng)選擇需要使用的向量和信息. decoder在每次生成時(shí)可以關(guān)注到encoder端所有位置的信息。 通過(guò)注意力地圖可以發(fā)現(xiàn)decoder所關(guān)注的點(diǎn)。 注意力使網(wǎng)絡(luò)可以對(duì)齊語(yǔ)義相關(guān)的詞匯。

    2024年02月11日
    瀏覽(17)
  • 注意力機(jī)制——Spatial Transformer Networks(STN)

    Spatial Transformer Networks(STN)是一種空間注意力模型,可以通過(guò)學(xué)習(xí)對(duì)輸入數(shù)據(jù)進(jìn)行空間變換,從而增強(qiáng)網(wǎng)絡(luò)的對(duì)圖像變形、旋轉(zhuǎn)等幾何變換的魯棒性。STN 可以在端到端的訓(xùn)練過(guò)程中自適應(yīng)地學(xué)習(xí)變換參數(shù),無(wú)需人為設(shè)置變換方式和參數(shù)。 STN 的基本結(jié)構(gòu)包括三個(gè)部分:定位網(wǎng)

    2024年02月07日
    瀏覽(20)
  • 【】理解ChatGPT之注意力機(jī)制和Transformer入門(mén)

    【】理解ChatGPT之注意力機(jī)制和Transformer入門(mén)

    作者:黑夜路人 時(shí)間:2023年4月27日 想要連貫學(xué)習(xí)本內(nèi)容請(qǐng)閱讀之前文章: 【原創(chuàng)】理解ChatGPT之GPT工作原理 【原創(chuàng)】理解ChatGPT之機(jī)器學(xué)習(xí)入門(mén) 【原創(chuàng)】AIGC之 ChatGPT 高級(jí)使用技巧 GPT是什么意思 GPT 的全稱(chēng)是 Generative Pre-trained Transformer(生成型預(yù)訓(xùn)練變換模型),它是基于大

    2024年02月16日
    瀏覽(22)
  • 【計(jì)算機(jī)視覺(jué) | 注意力機(jī)制】13種即插即用漲點(diǎn)模塊分享!含注意力機(jī)制、卷積變體、Transformer變體等

    【計(jì)算機(jī)視覺(jué) | 注意力機(jī)制】13種即插即用漲點(diǎn)模塊分享!含注意力機(jī)制、卷積變體、Transformer變體等

    用即插即用的模塊“縫合”,加入自己的想法快速搭積木煉丹。 這種方法可以簡(jiǎn)化模型設(shè)計(jì),減少冗余工作,幫助我們快速搭建模型結(jié)構(gòu),不需要從零開(kāi)始實(shí)現(xiàn)所有組件。除此以外,這些即插即用的模塊都具有標(biāo)準(zhǔn)接口,意味著我們可以很方便地替換不同的模塊進(jìn)行比較,加

    2024年02月04日
    瀏覽(32)
  • 【Transformer】自注意力機(jī)制Self-Attention

    【Transformer】自注意力機(jī)制Self-Attention

    \\\"Transformer\\\"是一種深度學(xué)習(xí)模型,首次在\\\"Attention is All You Need\\\"這篇論文中被提出,已經(jīng)成為自然語(yǔ)言處理(NLP)領(lǐng)域的重要基石。這是因?yàn)門(mén)ransformer模型有幾個(gè)顯著的優(yōu)點(diǎn): 自注意力機(jī)制(Self-Attention) :這是Transformer最核心的概念,也是其最大的特點(diǎn)。 通過(guò)自注意力機(jī)制,模

    2024年02月13日
    瀏覽(18)
  • Transformer(一)簡(jiǎn)述(注意力機(jī)制,NLP,CV通用模型)

    Transformer(一)簡(jiǎn)述(注意力機(jī)制,NLP,CV通用模型)

    目錄 1.Encoder 1.1簡(jiǎn)單理解Attention 1.2.什么是self-attention 1.3.怎么計(jì)算self-attention 1.4.multi-headed(q,k,v不區(qū)分大小寫(xiě)) 1.5.位置信息表達(dá) ?2.Decoder(待補(bǔ)充) ?3.BERT 參考文獻(xiàn) 比方說(shuō),下圖中的熱度圖中我們希望專(zhuān)注于小鳥(niǎo),而不關(guān)注背景信息。那么如何關(guān)注文本和圖像中的重點(diǎn)呢

    2024年02月13日
    瀏覽(24)
  • 解碼Transformer:自注意力機(jī)制與編解碼器機(jī)制詳述與代碼實(shí)現(xiàn)

    解碼Transformer:自注意力機(jī)制與編解碼器機(jī)制詳述與代碼實(shí)現(xiàn)

    本文全面探討了Transformer及其衍生模型,深入分析了自注意力機(jī)制、編碼器和解碼器結(jié)構(gòu),并列舉了其編碼實(shí)現(xiàn)加深理解,最后列出基于Transformer的各類(lèi)模型如BERT、GPT等。文章旨在深入解釋Transformer的工作原理,并展示其在人工智能領(lǐng)域的廣泛影響。 作者 TechLead,擁有10+年互

    2024年02月13日
    瀏覽(24)
  • 圖解Vit 2:Vision Transformer——視覺(jué)問(wèn)題中的注意力機(jī)制

    圖解Vit 2:Vision Transformer——視覺(jué)問(wèn)題中的注意力機(jī)制

    上節(jié)回顧 在Transformer之前的RNN,其實(shí)已經(jīng)用到了注意力機(jī)制。Seq2Seq。 對(duì)于Original RNN,每個(gè)RNN的輸入,都是對(duì)應(yīng)一個(gè)輸出。對(duì)于original RNN,他的輸入和輸出必須是一樣的。 在處理不是一對(duì)一的問(wèn)題時(shí),提出了RNN Seq2Seq。也就是在前面先輸入整體,然后再依次把對(duì)應(yīng)的輸出出來(lái)

    2024年02月17日
    瀏覽(28)
  • 14篇最新Transformer熱門(mén)論文!涵蓋注意力機(jī)制、架構(gòu)改進(jìn)、適用性擴(kuò)展等

    14篇最新Transformer熱門(mén)論文!涵蓋注意力機(jī)制、架構(gòu)改進(jìn)、適用性擴(kuò)展等

    在深度學(xué)習(xí)技術(shù)的飛速發(fā)展中,Transformer模型無(wú)疑成為了當(dāng)今研究的熱點(diǎn),它憑借其獨(dú)特的架構(gòu)和強(qiáng)大的表達(dá)能力,在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別等領(lǐng)域取得了令人矚目的成果。 今天,特意為大家整理了14篇Transformer熱門(mén)論文,這些論文涵蓋了注意力機(jī)制、架構(gòu)改進(jìn)

    2024年03月16日
    瀏覽(22)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包