国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文閱讀 Attention is all u need - transformer

這篇具有很好參考價(jià)值的文章主要介紹了論文閱讀 Attention is all u need - transformer。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

1 摘要

1.1 核心

提出一個(gè)僅需要self attention + linear組合成encoder+decoder的模型架構(gòu)

2 模型架構(gòu)

2.1 概覽

論文閱讀 Attention is all u need - transformer,論文閱讀,transformer,深度學(xué)習(xí)
論文閱讀 Attention is all u need - transformer,論文閱讀,transformer,深度學(xué)習(xí)

2.2 理解encoder-decoder架構(gòu)

2.2.1 對(duì)比seq2seq,RNN

Self Attention

  1. 輸入token轉(zhuǎn)為特征輸入
  2. shape [n(序列長(zhǎng)度), D(特征維度)] 輸入
  3. 進(jìn)入attention模塊
  4. 輸出 shape [n(序列長(zhǎng)度), D1(特征維度)] 此時(shí)每個(gè)D1被N個(gè)D做了基于attention weight的加權(quán)求和
  5. 進(jìn)入MLP
  6. 輸出 shape [n(序列長(zhǎng)度), D2(輸出維度)] 此時(shí)每個(gè)D2被D2和MLP weight矩陣相乘
  7. 每個(gè)D2轉(zhuǎn)換為輸出token

RNN

  1. 34步去除,并將每次MLP的輸入修改為前一個(gè)Kt-1組合Kt輸入

論文閱讀 Attention is all u need - transformer,論文閱讀,transformer,深度學(xué)習(xí)

2.2.2 我的理解

把卷積核的滑動(dòng)窗口修改成了不用滑動(dòng)的全局大小窗口,但同時(shí)能高效的進(jìn)行(1次矩陣乘法)特征提取。
CNN可以多通道拓展(增加)特征表征方式(修改卷積核個(gè)數(shù)),自注意力需要增加多頭機(jī)制。

3. Sublayer

3.1 多頭注意力 multi-head self-attention

3.1.1 縮放點(diǎn)乘注意力 Scaled Dot-Product Attention

得到query和字典KV里的softmax相似度矩陣
論文閱讀 Attention is all u need - transformer,論文閱讀,transformer,深度學(xué)習(xí)

3.1.2 QKV

Q: 描述特征
K: 特征編號(hào)
V: 特征值
Attention(Q,K): 表示Query和Key的匹配程度(系統(tǒng)中商品(Key)很多,其中符合我的描述(Query)的商品的匹配程度會(huì)高一點(diǎn))
鍵是唯一標(biāo)識(shí) 值是該positional input的隱式特征 query是一個(gè)新的positional input 找到和query比較相似的值 解放局部特征提取 實(shí)現(xiàn)全局特征提取 輸出最后的query的最后一層特征向量 加上需要的head 構(gòu)建模型
Q,K點(diǎn)積之后會(huì)得到相似度矩陣 再和V點(diǎn)積后會(huì)得到加權(quán)的V
理解自注意力和QKV

3.1.3 multi-head

原因
1.attention可學(xué)習(xí)參數(shù)太少,增加線性層學(xué)習(xí)參數(shù)
2.類比CNN擴(kuò)展通道數(shù)
使得輸出的相似度矩陣是考慮了多種特征形式的。
論文閱讀 Attention is all u need - transformer,論文閱讀,transformer,深度學(xué)習(xí)

3.1.4 masked

論文閱讀 Attention is all u need - transformer,論文閱讀,transformer,深度學(xué)習(xí)

3.2 線性層 MLP

3.3 embedding and softmax

Label Smoothing

0 - 1 標(biāo)簽,softmax很難趨近為1。很soft,輸出值很大,才會(huì)激活為1。

正確的詞,softmax的輸出為 0.1 即可,剩下的值是 0.9 / 字典大小

損失 perplexity,模型的困惑度(不確信度)、log(loss)做指數(shù)。因?yàn)檎_的標(biāo)簽只需要給到 10 %。

模型不那么精確,可以提高 accuracy and BLEU score

3.4 positional encoding

輸入的token在經(jīng)過(guò)特征編碼后,會(huì)和位置編碼相加,我的理解是位置編碼就是一種特征,是一種和特征編碼等價(jià)的東西,所以直接做加法。
具體的加上了cos/sin函數(shù),將值縮到0-1(?)之間,和特征編碼的最大最小值相同,然后相加。
這個(gè)是對(duì)2D的位置編碼,其中考慮的行列分別進(jìn)行編碼為2/d組合成d。
論文閱讀 Attention is all u need - transformer,論文閱讀,transformer,深度學(xué)習(xí)

3.5 dropout

線性層用了大量dropout(0.1-0.3)

總結(jié)

從語(yǔ)言模型來(lái)說(shuō),通過(guò)全局注意力機(jī)制,優(yōu)化掉RNN的短記憶缺點(diǎn)。
從模型架構(gòu)來(lái)說(shuō),通過(guò)全局注意力機(jī)制,得到一個(gè)每個(gè)權(quán)重都考慮到所有輸入特征的模型架構(gòu)/特征提取機(jī)制/backbone。

李沐b站 對(duì)該論文理解的一些題目和答案

歸一化,標(biāo)準(zhǔn)化,正則化

歸一化(Normalization):
使用方法: 歸一化通常指對(duì)輸入數(shù)據(jù)進(jìn)行縮放,使其值在特定的范圍內(nèi),例如將輸入歸一到0,1范圍或?1,1范圍。
意義: 歸一化有助于提高模型訓(xùn)練的穩(wěn)定性,避免梯度爆炸或梯度消失問(wèn)題。常見(jiàn)的歸一化方式包括最小-最大歸一化和Z分?jǐn)?shù)歸一化。

標(biāo)準(zhǔn)化(Standardization):
使用方法: 標(biāo)準(zhǔn)化是指對(duì)輸入數(shù)據(jù)進(jìn)行平移和縮放,使其均值為0,標(biāo)準(zhǔn)差為1。
意義: 標(biāo)準(zhǔn)化有助于使輸入數(shù)據(jù)更易于訓(xùn)練,使得模型更容易收斂。在某些情況下,標(biāo)準(zhǔn)化也有助于降低不同特征的權(quán)重對(duì)模型訓(xùn)練的影響。

正則化(Regularization):
使用方法: 正則化是通過(guò)在模型的損失函數(shù)中引入附加項(xiàng)來(lái)減小模型的復(fù)雜度。L1正則化和L2正則化是兩種常見(jiàn)的正則化方法。
意義: 正則化有助于防止過(guò)擬合,通過(guò)對(duì)模型參數(shù)的大小進(jìn)行懲罰,避免模型過(guò)度依賴訓(xùn)練數(shù)據(jù)中的噪聲或特定模式。L1正則化傾向于產(chǎn)生稀疏權(quán)重,而L2正則化傾向于產(chǎn)生較小且平滑的權(quán)重。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-789148.html

到了這里,關(guān)于論文閱讀 Attention is all u need - transformer的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Attention is all you need ---Transformer

    Attention is all you need ---Transformer

    大語(yǔ)言模型已經(jīng)在很多領(lǐng)域大顯身手,其應(yīng)用包括只能寫作、音樂(lè)創(chuàng)作、知識(shí)問(wèn)答、聊天、客服、廣告文案、論文、新聞、小說(shuō)創(chuàng)作、潤(rùn)色、會(huì)議/文章摘要等等領(lǐng)域。在商業(yè)上模型即產(chǎn)品、服務(wù)即產(chǎn)品、插件即產(chǎn)品,任何形態(tài)的用戶可觸及的都可以是產(chǎn)品,商業(yè)付費(fèi)一般都是

    2024年02月13日
    瀏覽(20)
  • 小周帶你讀論文-2之“草履蟲(chóng)都能看懂的Transformer老活兒新整“Attention is all you need(2)

    小周帶你讀論文-2之“草履蟲(chóng)都能看懂的Transformer老活兒新整“Attention is all you need(2)

    書接前文:小周帶你讀論文-2之\\\"草履蟲(chóng)都能看懂的Transformer老活兒新整\\\"Attention is all you need(1) (qq.com) ? ? ??上文書說(shuō)到為什么我們要用casual-decoder架構(gòu),把Transformer的左邊給省略了,于是得到下圖這樣的架構(gòu) ? ? ? 上圖是GPT-1的模型結(jié)構(gòu),那么casual-decoder和原始Transformer除了沒(méi)

    2024年01月21日
    瀏覽(23)
  • 詳細(xì)了解Transformer:Attention Is All You Need

    詳細(xì)了解Transformer:Attention Is All You Need

    在機(jī)器翻譯任務(wù)下,RNN、LSTM、GRU等序列模型在NLP中取得了巨大的成功,但是這些模型的訓(xùn)練是通常沿著輸入和輸出序列的符號(hào)位置進(jìn)行計(jì)算的順序計(jì)算,無(wú)法并行。 文中提出了名為Transformer的模型架構(gòu),完全依賴注意力機(jī)制(Attention Mechanisms),構(gòu)建輸入與輸出間的依賴關(guān)系

    2024年02月08日
    瀏覽(17)
  • 大語(yǔ)言模型之一 Attention is all you need ---Transformer

    大語(yǔ)言模型之一 Attention is all you need ---Transformer

    大語(yǔ)言模型已經(jīng)在很多領(lǐng)域大顯身手,其應(yīng)用包括只能寫作、音樂(lè)創(chuàng)作、知識(shí)問(wèn)答、聊天、客服、廣告文案、論文、新聞、小說(shuō)創(chuàng)作、潤(rùn)色、會(huì)議/文章摘要等等領(lǐng)域。在商業(yè)上模型即產(chǎn)品、服務(wù)即產(chǎn)品、插件即產(chǎn)品,任何形態(tài)的用戶可觸及的都可以是產(chǎn)品,商業(yè)付費(fèi)一般都是

    2024年02月12日
    瀏覽(22)
  • 【Transformer開(kāi)山之作】Attention is all you need原文解讀

    【Transformer開(kāi)山之作】Attention is all you need原文解讀

    Attention Is All You Need Transformer原文解讀與細(xì)節(jié)復(fù)現(xiàn) 在Transformer出現(xiàn)以前,深度學(xué)習(xí)的基礎(chǔ)主流模型可分為卷積神經(jīng)網(wǎng)絡(luò)CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN、圖對(duì)抗神經(jīng)網(wǎng)絡(luò)GAN。而Transformer的橫空出世,吸引了越來(lái)越多的研究者的關(guān)注:Transformer不僅在NLP領(lǐng)域取得了耀眼的成績(jī),近年來(lái)甚至一

    2023年04月08日
    瀏覽(36)
  • Attention Is All Your Need論文筆記

    提出了一個(gè)新的簡(jiǎn)單網(wǎng)絡(luò)架構(gòu)——transformer,僅僅是基于注意力機(jī)制,完全免去遞推和卷積,使得神經(jīng)網(wǎng)絡(luò)訓(xùn)練地速度極大地提高。 We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. 用多頭注意力取代推導(dǎo)層

    2024年02月19日
    瀏覽(18)
  • 翻譯: 詳細(xì)圖解Transformer多頭自注意力機(jī)制 Attention Is All You Need

    翻譯: 詳細(xì)圖解Transformer多頭自注意力機(jī)制 Attention Is All You Need

    The Transformer——一個(gè)使用注意力來(lái)提高這些模型的訓(xùn)練速度的模型。Transformer 在特定任務(wù)中的表現(xiàn)優(yōu)于谷歌神經(jīng)機(jī)器翻譯模型。然而,最大的好處來(lái)自于 The Transformer 如何使自己適合并行化。事實(shí)上,Google Cloud 建議使用 The Transformer 作為參考模型來(lái)使用他們的Cloud TPU產(chǎn)品。所

    2023年04月08日
    瀏覽(25)
  • LLM架構(gòu)自注意力機(jī)制Transformers architecture Attention is all you need

    LLM架構(gòu)自注意力機(jī)制Transformers architecture Attention is all you need

    使用Transformers架構(gòu)構(gòu)建大型語(yǔ)言模型顯著提高了自然語(yǔ)言任務(wù)的性能,超過(guò)了之前的RNNs,并導(dǎo)致了再生能力的爆炸。 Transformers架構(gòu)的力量在于其學(xué)習(xí)句子中所有單詞的相關(guān)性和上下文的能力。不僅僅是您在這里看到的,與它的鄰居每個(gè)詞相鄰,而是與句子中的每個(gè)其他詞。

    2024年02月12日
    瀏覽(24)
  • 論文閱讀 - Natural Language is All a Graph Needs

    論文閱讀 - Natural Language is All a Graph Needs

    目錄 摘要 Introduction Related Work 3 InstructGLM 3.1 Preliminary 3.2 Instruction Prompt Design 3.3 節(jié)點(diǎn)分類的生成指令調(diào)整 3.4 輔助自監(jiān)督鏈路預(yù)測(cè) 4 Experiments 4.1 Experimental Setup 4.2 Main Results 4.2.1 ogbn-arxiv ?4.2.2 Cora PubMed 4.3 Ablation Study 4.4 Instruction Tuning at Low Label Ratio ?5 Future Work 論文鏈接:https:/

    2024年01月18日
    瀏覽(23)
  • Attention Is All You Need

    Attention Is All You Need

    人生如茶,靜心以對(duì)。時(shí)光如水,沉淀方澈。? 論文: Attention Is All You Need Github: GitHub - tensorflow/tensor2tensor: Library of deep learning models and datasets designed to make deep learning more accessible and accelerate ML research. 打破傳統(tǒng)基于cnn,lstm等的序列翻譯模型,論文提出了一個(gè)新的網(wǎng)絡(luò)結(jié)構(gòu)Transf

    2023年04月09日
    瀏覽(22)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包