国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<rp id="kiwco"><u id="kiwco"><option id="kiwco"></option></u></rp>

【Transformer開山之作】Attention is all you need原文解讀

2年前作者：Marlowee分類：Toy博客閱讀(36)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【Transformer開山之作】Attention is all you need原文解讀。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

Attention Is All You Need

Transformer原文解讀與細(xì)節(jié)復(fù)現(xiàn)

導(dǎo)讀

在Transformer出現(xiàn)以前，深度學(xué)習(xí)的基礎(chǔ)主流模型可分為卷積神經(jīng)網(wǎng)絡(luò)CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN、圖對(duì)抗神經(jīng)網(wǎng)絡(luò)GAN。而Transformer的橫空出世，吸引了越來越多的研究者的關(guān)注：Transformer不僅在NLP領(lǐng)域取得了耀眼的成績(jī)，近年來甚至一度屠榜CV領(lǐng)域的各大比賽，熱度超前。所以，基于之前對(duì)Transformer的研究與理解，更基于對(duì)新技術(shù)的好奇與渴求，接下來的幾篇文章我會(huì)從最經(jīng)典的Transformer結(jié)構(gòu)出發(fā)，沿著NLP和CV兩大主線，為大家講解幾篇影響力巨大的paper。

前言

Transformer是google的研究團(tuán)隊(duì)在2017年發(fā)表的Attention Is All You Need中使用的模型，經(jīng)過這些年的大量的工業(yè)使用和論文驗(yàn)證，在深度學(xué)習(xí)領(lǐng)域已經(jīng)占據(jù)重要地位。接下來我會(huì)順著論文中的邏輯，來介紹、解釋Transformer的輸入輸出和網(wǎng)絡(luò)結(jié)構(gòu)。

原文鏈接：Attention Is All You Need

Abstract

現(xiàn)在主流的序列轉(zhuǎn)錄模型主要基于是復(fù)雜的循環(huán)結(jié)構(gòu)的RNN和CNN架構(gòu)，通過其中的編碼器Encoder和解碼器Decoder來實(shí)現(xiàn)。而本文提出的Transformer完全摒棄了之前的循環(huán)和卷積操作，完全基于注意力機(jī)制，擁有更強(qiáng)的并行能力，訓(xùn)練效率也得到較高提升。

Intro

之前提到過，在Transformer提出以前，主流的NLP模型包括RNN、LSTM、GRU等，這些模型是有以下缺點(diǎn)：

難以并行
時(shí)序中過早的信息容易被丟棄
內(nèi)存開銷大

主要原因如下：由于這些網(wǎng)絡(luò)都是由前往后一步步計(jì)算的，當(dāng)前的狀態(tài)不僅依賴當(dāng)前的輸入，也依賴于前一個(gè)狀態(tài)的輸出。即對(duì)于網(wǎng)絡(luò)中的第個(gè)t狀態(tài)，與前t-1個(gè)狀態(tài)都有關(guān)，使得網(wǎng)絡(luò)必須一步一步計(jì)算；當(dāng)較為重要的信息在較早的時(shí)序中進(jìn)入網(wǎng)絡(luò)時(shí)，多次傳播過程中可能保留很少甚至被丟棄；從另一角度來考慮，即使重要的信息沒有被丟棄，而是隨著網(wǎng)絡(luò)繼續(xù)傳遞，那么勢(shì)必會(huì)造成內(nèi)存的冗余，導(dǎo)致開銷過大。其網(wǎng)絡(luò)流程圖如下圖所示。

【Transformer開山之作】Attention is all you need原文解讀

所以，作者團(tuán)隊(duì)因勢(shì)利導(dǎo)，引出了本文純attention、高并行、高效率的Transformer網(wǎng)絡(luò)結(jié)構(gòu)。原文中是這樣說的：

In this work we propose the Transformer, a model architecture eschewing recurrence and instead relying entirely on an attention mechanism to draw global dependencies between input and output.

Related Work

multi-head

在CNN中，我們會(huì)使用多個(gè)channel來表達(dá)不同的特征模式，Transformer的多頭注意力與多通道有相類似的地方，就是通過不同的head抽取數(shù)據(jù)的不同特征模式。

self-attention

自注意，或者說內(nèi)部注意，是一種將單個(gè)序列的不同位置聯(lián)系起來以計(jì)算序列的表示形式的注意機(jī)制。自注意力機(jī)制在閱讀理解、抽象摘要、文本蘊(yùn)涵和學(xué)習(xí)任務(wù)獨(dú)立的句子表征等任務(wù)中都得到了成功的應(yīng)用，具體的內(nèi)部細(xì)節(jié)在后續(xù)章節(jié)中介紹。

Model

Transformer的模型分為encoder和decoder兩部分，即編碼器和解碼器兩部分。對(duì)于原始輸入(x1,x2,…,xn)，編碼器將其轉(zhuǎn)化為機(jī)器可理解的向量(z1,z2,…,zn)，解碼器將編碼器的輸出作為輸入，進(jìn)而生成最終的解碼結(jié)果(y1,y2,…,yn)。其模型結(jié)構(gòu)如下圖所示：
【Transformer開山之作】Attention is all you need原文解讀

輸入

【Transformer開山之作】Attention is all you need原文解讀
首先，我們來看看編碼器與解碼器的輸入部分。
Transformer 中單詞的輸入表示 x由單詞 Embedding 和位置 Embedding （Positional Encoding）相加得到。其中，單詞的 Embedding 有很多種方式可以獲取，例如可以采用 Word2Vec、Glove 等算法預(yù)訓(xùn)練得到，也可以在 Transformer 中訓(xùn)練得到；位置 Embedding 表示單詞出現(xiàn)在句子中的位置，因?yàn)?Transformer 不采用 RNN 的結(jié)構(gòu)，而是使用全局信息，不能利用單詞的順序信息，而這部分信息對(duì)于 NLP 來說非常重要。所以 Transformer 中使用位置 Embedding 保存單詞在序列中的相對(duì)或絕對(duì)位置。位置 Embedding 用 PE表示，PE 的維度與單詞 Embedding 是一樣的。PE 可以通過訓(xùn)練得到，也可以使用某種公式計(jì)算得到。在 Transformer 中采用了后者，計(jì)算公式如下：
【Transformer開山之作】Attention is all you need原文解讀
其中，pos 表示單詞在句子中的位置，d 表示 PE的維度 (與詞 Embedding 一樣)，2i 表示偶數(shù)的維度，2i+1 表示奇數(shù)維度 (即 2i≤d, 2i+1≤d)。使用這種公式計(jì)算 PE 有以下的好處：

使 PE 能夠適應(yīng)比訓(xùn)練集里面所有句子更長(zhǎng)的句子，假設(shè)訓(xùn)練集里面最長(zhǎng)的句子是有 20 個(gè)單詞，突然來了一個(gè)長(zhǎng)度為 21 的句子，則使用公式計(jì)算的方法可以計(jì)算出第 21 位的 Embedding。
可以讓模型容易地計(jì)算出相對(duì)位置，對(duì)于固定長(zhǎng)度的間距 k，PE(pos+k) 可以用 PE(pos) 計(jì)算得到。因?yàn)?Sin(A+B) = Sin(A)Cos(B) + Cos(A)Sin(B), Cos(A+B) = Cos(A)Cos(B) - Sin(A)Sin(B)。

Multi-attention（self attention）

結(jié)構(gòu)

【Transformer開山之作】Attention is all you need原文解讀
上圖是 Self-Attention 的結(jié)構(gòu)，在計(jì)算的時(shí)候需要用到矩陣Q(查詢),K(鍵值),V(值)。在實(shí)際中，Self-Attention 接收的是輸入(單詞的表示向量x組成的矩陣X) 或者上一個(gè) Encoder block 的輸出。而Q,K,V正是通過 Self-Attention 的輸入進(jìn)行線性變換得到的。

Q, K, V 的計(jì)算

Self-Attention 的輸入用矩陣X進(jìn)行表示，則可以使用線性變陣矩陣WQ,WK,WV計(jì)算得到Q,K,V。計(jì)算如下圖所示，注意 X, Q, K, V 的每一行都表示一個(gè)單詞。
【Transformer開山之作】Attention is all you need原文解讀

Self-Attention 的輸出

得到矩陣 Q, K, V之后就可以計(jì)算出 Self-Attention 的輸出了，計(jì)算的公式如下：
【Transformer開山之作】Attention is all you need原文解讀
公式中計(jì)算矩陣Q和K每一行向量的內(nèi)積，為了防止內(nèi)積過大，因此除以 dk的平方根。Q乘以K的轉(zhuǎn)置后，得到的矩陣行列數(shù)都為 n，n 為句子單詞數(shù)，這個(gè)矩陣可以表示單詞之間的 attention 強(qiáng)度。下圖為Q乘以 KT ，1234 表示的是句子中的單詞。
【Transformer開山之作】Attention is all you need原文解讀
得到[公式] 之后，使用 Softmax 計(jì)算每一個(gè)單詞對(duì)于其他單詞的 attention 系數(shù)，公式中的 Softmax 是對(duì)矩陣的每一行進(jìn)行 Softmax，即每一行的和都變?yōu)?1.
【Transformer開山之作】Attention is all you need原文解讀
得到 Softmax 矩陣之后可以和V相乘，得到最終的輸出Z。

Multi-Head Attention

在上一步，我們已經(jīng)知道怎么通過 Self-Attention 計(jì)算得到輸出矩陣 Z，而 Multi-Head Attention 是由多個(gè) Self-Attention 組合形成的，下圖是論文中 Multi-Head Attention 的結(jié)構(gòu)圖。
【Transformer開山之作】Attention is all you need原文解讀
從上圖可以看到 Multi-Head Attention 包含多個(gè) Self-Attention 層，首先將輸入X分別傳遞到 h 個(gè)不同的 Self-Attention 中，計(jì)算得到 h 個(gè)輸出矩陣Z。下圖是 h=8 時(shí)候的情況，此時(shí)會(huì)得到 8 個(gè)輸出矩陣Z。

【Transformer開山之作】Attention is all you need原文解讀文章來源地址http://www.zghlxwxcb.cn/news/detail-401242.html

到了這里，關(guān)于【Transformer開山之作】Attention is all you need原文解讀的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

翻譯: 詳細(xì)圖解Transformer多頭自注意力機(jī)制 Attention Is All You Need
The Transformer——一個(gè)使用注意力來提高這些模型的訓(xùn)練速度的模型。Transformer 在特定任務(wù)中的表現(xiàn)優(yōu)于谷歌神經(jīng)機(jī)器翻譯模型。然而，最大的好處來自于 The Transformer 如何使自己適合并行化。事實(shí)上，Google Cloud 建議使用 The Transformer 作為參考模型來使用他們的Cloud TPU產(chǎn)品。所
2023年04月08日
瀏覽(25)
小周帶你讀論文-2之“草履蟲都能看懂的Transformer老活兒新整“Attention is all you need(2)
書接前文：小周帶你讀論文-2之\\\"草履蟲都能看懂的Transformer老活兒新整\\\"Attention is all you need(1) (qq.com) ? ? ??上文書說到為什么我們要用casual-decoder架構(gòu)，把Transformer的左邊給省略了，于是得到下圖這樣的架構(gòu) ? ? ? 上圖是GPT-1的模型結(jié)構(gòu)，那么casual-decoder和原始Transformer除了沒
2024年01月21日
瀏覽(23)
Attention Is All You Need
人生如茶，靜心以對(duì)。時(shí)光如水，沉淀方澈。? 論文: Attention Is All You Need Github: GitHub - tensorflow/tensor2tensor: Library of deep learning models and datasets designed to make deep learning more accessible and accelerate ML research. 打破傳統(tǒng)基于cnn，lstm等的序列翻譯模型，論文提出了一個(gè)新的網(wǎng)絡(luò)結(jié)構(gòu)Transf
2023年04月09日
瀏覽(22)
論文閱讀：Attention is all you need
【最近課堂上Transformer之前的DL基礎(chǔ)知識(shí)儲(chǔ)備差不多了，但學(xué)校里一般講到Transformer課程也接近了尾聲；之前參與的一些科研打雜訓(xùn)練了我閱讀論文的能力和閱讀源碼的能力，也讓我有能力有興趣對(duì)最最源頭的論文一探究竟；我最近也想按照論文梳理一下LLM是如何一路發(fā)展而來
2024年01月18日
瀏覽(23)
【論文閱讀筆記】Attention Is All You Need
??這是17年的老論文了，Transformer的出處，剛發(fā)布時(shí)的應(yīng)用場(chǎng)景是文字翻譯。BLUE是機(jī)器翻譯任務(wù)中常用的一個(gè)衡量標(biāo)準(zhǔn)。 ??在此論文之前，序列翻譯的主導(dǎo)模型是RNN或者使用編解碼器結(jié)構(gòu)的CNN。本文提出的Transformer結(jié)構(gòu)不需要使用循環(huán)和卷積結(jié)構(gòu)，是完全基于注意力機(jī)制
2024年04月13日
瀏覽(30)
論文閱讀 Attention is all u need - transformer
提出一個(gè)僅需要self attention + linear組合成encoder+decoder的模型架構(gòu) 2.2.1 對(duì)比seq2seq，RNN Self Attention 輸入token轉(zhuǎn)為特征輸入 shape [n(序列長(zhǎng)度), D(特征維度)] 輸入進(jìn)入attention模塊輸出 shape [n(序列長(zhǎng)度), D1(特征維度)] 此時(shí)每個(gè)D1被N個(gè)D做了基于attention weight的加權(quán)求和進(jìn)入MLP 輸出 sha
2024年02月01日
瀏覽(31)
LLM架構(gòu)自注意力機(jī)制Transformers architecture Attention is all you need
使用Transformers架構(gòu)構(gòu)建大型語(yǔ)言模型顯著提高了自然語(yǔ)言任務(wù)的性能，超過了之前的RNNs，并導(dǎo)致了再生能力的爆炸。 Transformers架構(gòu)的力量在于其學(xué)習(xí)句子中所有單詞的相關(guān)性和上下文的能力。不僅僅是您在這里看到的，與它的鄰居每個(gè)詞相鄰，而是與句子中的每個(gè)其他詞。
2024年02月12日
瀏覽(24)
Attention Is All Your Need論文筆記
提出了一個(gè)新的簡(jiǎn)單網(wǎng)絡(luò)架構(gòu)——transformer，僅僅是基于注意力機(jī)制，完全免去遞推和卷積，使得神經(jīng)網(wǎng)絡(luò)訓(xùn)練地速度極大地提高。 We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. 用多頭注意力取代推導(dǎo)層
2024年02月19日
瀏覽(18)
Vector Search with OpenAI Embeddings: Lucene Is All You Need
本文是LLM系列文章，針對(duì)《Vector Search with OpenAI Embeddings: Lucene Is All You Need》的翻譯。我們?cè)诹餍械腗S MARCO文章排名測(cè)試集上使用Lucene提供了一個(gè)可復(fù)制的、端到端的OpenAI嵌入向量搜索演示。我們工作的主要目標(biāo)是挑戰(zhàn)主流的說法，即專用向量存儲(chǔ)是利用深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于搜
2024年02月10日
瀏覽(23)
【深度學(xué)習(xí)】語(yǔ)義分割：論文閱讀（NeurIPS 2021）MaskFormer: per-pixel classification is not all you need
論文：Per-Pixel Classification is Not All You Need for Semantic Segmentation / MaskFormer 代碼：代碼官方-代碼筆記：作者筆記說明【論文筆記】MaskFormer: Per-Pixel Classification is Not All You Need for Semantic Segmentation 總結(jié)思路清晰-簡(jiǎn)潔【MaskFormer】Per-Pixel Classification is Not All You Needfor Semantic Segmenta
2024年02月04日
瀏覽(27)

<center id="oudsy"><ul id="oudsy"></ul></center>

<span id="oudsy"><ul id="oudsy"></ul></span>

<span id="oudsy"><meter id="oudsy"></meter></span><tfoot id="oudsy"><xmp id="oudsy">

<span id="oudsy"><ul id="oudsy"></ul></span>

<span id="oudsy"></span><tfoot id="oudsy"><tr id="oudsy"></tr></tfoot>

<tfoot id="oudsy"></tfoot>

<span id="oudsy"></span>