国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【Transformer開山之作】Attention is all you need原文解讀

這篇具有很好參考價(jià)值的文章主要介紹了【Transformer開山之作】Attention is all you need原文解讀。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

Attention Is All You Need

Transformer原文解讀與細(xì)節(jié)復(fù)現(xiàn)

導(dǎo)讀

在Transformer出現(xiàn)以前,深度學(xué)習(xí)的基礎(chǔ)主流模型可分為卷積神經(jīng)網(wǎng)絡(luò)CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN、圖對(duì)抗神經(jīng)網(wǎng)絡(luò)GAN。而Transformer的橫空出世,吸引了越來越多的研究者的關(guān)注:Transformer不僅在NLP領(lǐng)域取得了耀眼的成績(jī),近年來甚至一度屠榜CV領(lǐng)域的各大比賽,熱度超前。所以,基于之前對(duì)Transformer的研究與理解,更基于對(duì)新技術(shù)的好奇與渴求,接下來的幾篇文章我會(huì)從最經(jīng)典的Transformer結(jié)構(gòu)出發(fā),沿著NLP和CV兩大主線,為大家講解幾篇影響力巨大的paper。

前言

Transformer是google的研究團(tuán)隊(duì)在2017年發(fā)表的Attention Is All You Need中使用的模型,經(jīng)過這些年的大量的工業(yè)使用和論文驗(yàn)證,在深度學(xué)習(xí)領(lǐng)域已經(jīng)占據(jù)重要地位。接下來我會(huì)順著論文中的邏輯,來介紹、解釋Transformer的輸入輸出和網(wǎng)絡(luò)結(jié)構(gòu)。

原文鏈接:Attention Is All You Need

Abstract

現(xiàn)在主流的序列轉(zhuǎn)錄模型主要基于是復(fù)雜的循環(huán)結(jié)構(gòu)的RNN和CNN架構(gòu),通過其中的編碼器Encoder解碼器Decoder來實(shí)現(xiàn)。而本文提出的Transformer完全摒棄了之前的循環(huán)和卷積操作,完全基于注意力機(jī)制,擁有更強(qiáng)的并行能力,訓(xùn)練效率也得到較高提升。

Intro

之前提到過,在Transformer提出以前,主流的NLP模型包括RNN、LSTM、GRU等,這些模型是有以下缺點(diǎn):

  • 難以并行
  • 時(shí)序中過早的信息容易被丟棄
  • 內(nèi)存開銷大

主要原因如下:由于這些網(wǎng)絡(luò)都是由前往后一步步計(jì)算的,當(dāng)前的狀態(tài)不僅依賴當(dāng)前的輸入,也依賴于前一個(gè)狀態(tài)的輸出。即對(duì)于網(wǎng)絡(luò)中的第個(gè)t狀態(tài),與前t-1個(gè)狀態(tài)都有關(guān),使得網(wǎng)絡(luò)必須一步一步計(jì)算;當(dāng)較為重要的信息在較早的時(shí)序中進(jìn)入網(wǎng)絡(luò)時(shí),多次傳播過程中可能保留很少甚至被丟棄;從另一角度來考慮,即使重要的信息沒有被丟棄,而是隨著網(wǎng)絡(luò)繼續(xù)傳遞,那么勢(shì)必會(huì)造成內(nèi)存的冗余,導(dǎo)致開銷過大。 其網(wǎng)絡(luò)流程圖如下圖所示。

【Transformer開山之作】Attention is all you need原文解讀

所以,作者團(tuán)隊(duì)因勢(shì)利導(dǎo),引出了本文純attention、高并行、高效率的Transformer網(wǎng)絡(luò)結(jié)構(gòu)。原文中是這樣說的:

In this work we propose the Transformer, a model architecture eschewing recurrence and instead relying entirely on an attention mechanism to draw global dependencies between input and output.

Related Work

multi-head

在CNN中,我們會(huì)使用多個(gè)channel來表達(dá)不同的特征模式,Transformer的多頭注意力與多通道有相類似的地方,就是通過不同的head抽取數(shù)據(jù)的不同特征模式。

self-attention

自注意,或者說內(nèi)部注意,是一種將單個(gè)序列的不同位置聯(lián)系起來以計(jì)算序列的表示形式的注意機(jī)制。自注意力機(jī)制在閱讀理解、抽象摘要、文本蘊(yùn)涵和學(xué)習(xí)任務(wù)獨(dú)立的句子表征等任務(wù)中都得到了成功的應(yīng)用,具體的內(nèi)部細(xì)節(jié)在后續(xù)章節(jié)中介紹。

Model

Transformer的模型分為encoder和decoder兩部分,即編碼器和解碼器兩部分。對(duì)于原始輸入(x1,x2,…,xn),編碼器將其轉(zhuǎn)化為機(jī)器可理解的向量(z1,z2,…,zn),解碼器將編碼器的輸出作為輸入,進(jìn)而生成最終的解碼結(jié)果(y1,y2,…,yn)。其模型結(jié)構(gòu)如下圖所示:
【Transformer開山之作】Attention is all you need原文解讀

輸入

【Transformer開山之作】Attention is all you need原文解讀
首先,我們來看看編碼器與解碼器的輸入部分。
Transformer 中單詞的輸入表示 x由單詞 Embedding位置 Embedding (Positional Encoding) 相加得到。其中,單詞的 Embedding 有很多種方式可以獲取,例如可以采用 Word2Vec、Glove 等算法預(yù)訓(xùn)練得到,也可以在 Transformer 中訓(xùn)練得到;位置 Embedding 表示單詞出現(xiàn)在句子中的位置,因?yàn)?Transformer 不采用 RNN 的結(jié)構(gòu),而是使用全局信息,不能利用單詞的順序信息,而這部分信息對(duì)于 NLP 來說非常重要。所以 Transformer 中使用位置 Embedding 保存單詞在序列中的相對(duì)或絕對(duì)位置。位置 Embedding 用 PE表示,PE 的維度與單詞 Embedding 是一樣的。PE 可以通過訓(xùn)練得到,也可以使用某種公式計(jì)算得到。在 Transformer 中采用了后者,計(jì)算公式如下:
【Transformer開山之作】Attention is all you need原文解讀
其中,pos 表示單詞在句子中的位置,d 表示 PE的維度 (與詞 Embedding 一樣),2i 表示偶數(shù)的維度,2i+1 表示奇數(shù)維度 (即 2i≤d, 2i+1≤d)。使用這種公式計(jì)算 PE 有以下的好處:

  • 使 PE 能夠適應(yīng)比訓(xùn)練集里面所有句子更長(zhǎng)的句子,假設(shè)訓(xùn)練集里面最長(zhǎng)的句子是有 20 個(gè)單詞,突然來了一個(gè)長(zhǎng)度為 21 的句子,則使用公式計(jì)算的方法可以計(jì)算出第 21 位的 Embedding。
  • 可以讓模型容易地計(jì)算出相對(duì)位置,對(duì)于固定長(zhǎng)度的間距 k,PE(pos+k) 可以用 PE(pos) 計(jì)算得到。因?yàn)?Sin(A+B) = Sin(A)Cos(B) + Cos(A)Sin(B), Cos(A+B) = Cos(A)Cos(B) - Sin(A)Sin(B)。

Multi-attention(self attention)

結(jié)構(gòu)

【Transformer開山之作】Attention is all you need原文解讀
上圖是 Self-Attention 的結(jié)構(gòu),在計(jì)算的時(shí)候需要用到矩陣Q(查詢),K(鍵值),V(值)。在實(shí)際中,Self-Attention 接收的是輸入(單詞的表示向量x組成的矩陣X) 或者上一個(gè) Encoder block 的輸出。而Q,K,V正是通過 Self-Attention 的輸入進(jìn)行線性變換得到的。

Q, K, V 的計(jì)算

Self-Attention 的輸入用矩陣X進(jìn)行表示,則可以使用線性變陣矩陣WQ,WK,WV計(jì)算得到Q,K,V。計(jì)算如下圖所示,注意 X, Q, K, V 的每一行都表示一個(gè)單詞。
【Transformer開山之作】Attention is all you need原文解讀

Self-Attention 的輸出

得到矩陣 Q, K, V之后就可以計(jì)算出 Self-Attention 的輸出了,計(jì)算的公式如下:
【Transformer開山之作】Attention is all you need原文解讀
公式中計(jì)算矩陣Q和K每一行向量的內(nèi)積,為了防止內(nèi)積過大,因此除以 dk的平方根。Q乘以K的轉(zhuǎn)置后,得到的矩陣行列數(shù)都為 n,n 為句子單詞數(shù),這個(gè)矩陣可以表示單詞之間的 attention 強(qiáng)度。下圖為Q乘以 KT ,1234 表示的是句子中的單詞。
【Transformer開山之作】Attention is all you need原文解讀
得到[公式] 之后,使用 Softmax 計(jì)算每一個(gè)單詞對(duì)于其他單詞的 attention 系數(shù),公式中的 Softmax 是對(duì)矩陣的每一行進(jìn)行 Softmax,即每一行的和都變?yōu)?1.
【Transformer開山之作】Attention is all you need原文解讀
得到 Softmax 矩陣之后可以和V相乘,得到最終的輸出Z。
【Transformer開山之作】Attention is all you need原文解讀

Multi-Head Attention

在上一步,我們已經(jīng)知道怎么通過 Self-Attention 計(jì)算得到輸出矩陣 Z,而 Multi-Head Attention 是由多個(gè) Self-Attention 組合形成的,下圖是論文中 Multi-Head Attention 的結(jié)構(gòu)圖。
【Transformer開山之作】Attention is all you need原文解讀
從上圖可以看到 Multi-Head Attention 包含多個(gè) Self-Attention 層,首先將輸入X分別傳遞到 h 個(gè)不同的 Self-Attention 中,計(jì)算得到 h 個(gè)輸出矩陣Z。下圖是 h=8 時(shí)候的情況,此時(shí)會(huì)得到 8 個(gè)輸出矩陣Z。

【Transformer開山之作】Attention is all you need原文解讀文章來源地址http://www.zghlxwxcb.cn/news/detail-401242.html

到了這里,關(guān)于【Transformer開山之作】Attention is all you need原文解讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 翻譯: 詳細(xì)圖解Transformer多頭自注意力機(jī)制 Attention Is All You Need

    翻譯: 詳細(xì)圖解Transformer多頭自注意力機(jī)制 Attention Is All You Need

    The Transformer——一個(gè)使用注意力來提高這些模型的訓(xùn)練速度的模型。Transformer 在特定任務(wù)中的表現(xiàn)優(yōu)于谷歌神經(jīng)機(jī)器翻譯模型。然而,最大的好處來自于 The Transformer 如何使自己適合并行化。事實(shí)上,Google Cloud 建議使用 The Transformer 作為參考模型來使用他們的Cloud TPU產(chǎn)品。所

    2023年04月08日
    瀏覽(25)
  • 小周帶你讀論文-2之“草履蟲都能看懂的Transformer老活兒新整“Attention is all you need(2)

    小周帶你讀論文-2之“草履蟲都能看懂的Transformer老活兒新整“Attention is all you need(2)

    書接前文:小周帶你讀論文-2之\\\"草履蟲都能看懂的Transformer老活兒新整\\\"Attention is all you need(1) (qq.com) ? ? ??上文書說到為什么我們要用casual-decoder架構(gòu),把Transformer的左邊給省略了,于是得到下圖這樣的架構(gòu) ? ? ? 上圖是GPT-1的模型結(jié)構(gòu),那么casual-decoder和原始Transformer除了沒

    2024年01月21日
    瀏覽(23)
  • Attention Is All You Need

    Attention Is All You Need

    人生如茶,靜心以對(duì)。時(shí)光如水,沉淀方澈。? 論文: Attention Is All You Need Github: GitHub - tensorflow/tensor2tensor: Library of deep learning models and datasets designed to make deep learning more accessible and accelerate ML research. 打破傳統(tǒng)基于cnn,lstm等的序列翻譯模型,論文提出了一個(gè)新的網(wǎng)絡(luò)結(jié)構(gòu)Transf

    2023年04月09日
    瀏覽(22)
  • 論文閱讀:Attention is all you need

    論文閱讀:Attention is all you need

    【最近課堂上Transformer之前的DL基礎(chǔ)知識(shí)儲(chǔ)備差不多了,但學(xué)校里一般講到Transformer課程也接近了尾聲;之前參與的一些科研打雜訓(xùn)練了我閱讀論文的能力和閱讀源碼的能力,也讓我有能力有興趣對(duì)最最源頭的論文一探究竟;我最近也想按照論文梳理一下LLM是如何一路發(fā)展而來

    2024年01月18日
    瀏覽(23)
  • 【論文閱讀筆記】Attention Is All You Need

    【論文閱讀筆記】Attention Is All You Need

    ??這是17年的老論文了,Transformer的出處,剛發(fā)布時(shí)的應(yīng)用場(chǎng)景是文字翻譯。BLUE是機(jī)器翻譯任務(wù)中常用的一個(gè)衡量標(biāo)準(zhǔn)。 ??在此論文之前,序列翻譯的主導(dǎo)模型是RNN或者使用編解碼器結(jié)構(gòu)的CNN。本文提出的Transformer結(jié)構(gòu)不需要使用循環(huán)和卷積結(jié)構(gòu),是完全基于注意力機(jī)制

    2024年04月13日
    瀏覽(30)
  • 論文閱讀 Attention is all u need - transformer

    論文閱讀 Attention is all u need - transformer

    提出一個(gè)僅需要self attention + linear組合成encoder+decoder的模型架構(gòu) 2.2.1 對(duì)比seq2seq,RNN Self Attention 輸入token轉(zhuǎn)為特征輸入 shape [n(序列長(zhǎng)度), D(特征維度)] 輸入 進(jìn)入attention模塊 輸出 shape [n(序列長(zhǎng)度), D1(特征維度)] 此時(shí)每個(gè)D1被N個(gè)D做了基于attention weight的加權(quán)求和 進(jìn)入MLP 輸出 sha

    2024年02月01日
    瀏覽(31)
  • LLM架構(gòu)自注意力機(jī)制Transformers architecture Attention is all you need

    LLM架構(gòu)自注意力機(jī)制Transformers architecture Attention is all you need

    使用Transformers架構(gòu)構(gòu)建大型語(yǔ)言模型顯著提高了自然語(yǔ)言任務(wù)的性能,超過了之前的RNNs,并導(dǎo)致了再生能力的爆炸。 Transformers架構(gòu)的力量在于其學(xué)習(xí)句子中所有單詞的相關(guān)性和上下文的能力。不僅僅是您在這里看到的,與它的鄰居每個(gè)詞相鄰,而是與句子中的每個(gè)其他詞。

    2024年02月12日
    瀏覽(24)
  • Attention Is All Your Need論文筆記

    提出了一個(gè)新的簡(jiǎn)單網(wǎng)絡(luò)架構(gòu)——transformer,僅僅是基于注意力機(jī)制,完全免去遞推和卷積,使得神經(jīng)網(wǎng)絡(luò)訓(xùn)練地速度極大地提高。 We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. 用多頭注意力取代推導(dǎo)層

    2024年02月19日
    瀏覽(18)
  • Vector Search with OpenAI Embeddings: Lucene Is All You Need

    本文是LLM系列文章,針對(duì)《Vector Search with OpenAI Embeddings: Lucene Is All You Need》的翻譯。 我們?cè)诹餍械腗S MARCO文章排名測(cè)試集上使用Lucene提供了一個(gè)可復(fù)制的、端到端的OpenAI嵌入向量搜索演示。我們工作的主要目標(biāo)是挑戰(zhàn)主流的說法,即專用向量存儲(chǔ)是利用深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于搜

    2024年02月10日
    瀏覽(23)
  • 【深度學(xué)習(xí)】語(yǔ)義分割:論文閱讀(NeurIPS 2021)MaskFormer: per-pixel classification is not all you need

    【深度學(xué)習(xí)】語(yǔ)義分割:論文閱讀(NeurIPS 2021)MaskFormer: per-pixel classification is not all you need

    論文:Per-Pixel Classification is Not All You Need for Semantic Segmentation / MaskFormer 代碼:代碼 官方-代碼 筆記: 作者筆記說明 【論文筆記】MaskFormer: Per-Pixel Classification is Not All You Need for Semantic Segmentation 總結(jié)思路清晰-簡(jiǎn)潔 【MaskFormer】Per-Pixel Classification is Not All You Needfor Semantic Segmenta

    2024年02月04日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包