国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文閱讀筆記AI篇 —— Transformer模型理論+實戰(zhàn) (三)

這篇具有很好參考價值的文章主要介紹了論文閱讀筆記AI篇 —— Transformer模型理論+實戰(zhàn) (三)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

第三遍閱讀(精讀)

精讀的過程要把每個細(xì)節(jié)都鉆研透,不留有死角。各種維度參數(shù)已經(jīng)在“理論+實戰(zhàn)(二)”中說清楚了,若之后還有疑問我再補(bǔ)上。

三、參考文章或視頻鏈接
[1] 【超強(qiáng)動畫,一步一步深入淺出解釋Transformer原理!】

3.1 Attention和Self-Attention的區(qū)別?

3.1 參考文章或視頻鏈接
[1] What’s the difference between Attention vs Self-Attention? What problems does each other solve that the other can’t?
[2] What’s the Difference Between Self-Attention and Attention in Transformer Architecture?

3.2 Transformer是如何進(jìn)行堆疊的?

原文提到了Encoder與Decoder是可以進(jìn)行 N × N\times N× 堆疊的,那么堆疊之后的結(jié)構(gòu)是什么?可以看到這就是堆疊之后的結(jié)構(gòu),這里的features是中間編碼,6層decoder,每一層都需要拿features作為輸入的一部分,這種設(shè)計思想也類似于ResNet。

論文閱讀筆記AI篇 —— Transformer模型理論+實戰(zhàn) (三),ML&DL技術(shù)棧,Papers,人工智能,論文閱讀,筆記

圖1 —— 來自參考文章[1]

再看到原始的Transformer結(jié)構(gòu)圖中,對Outputs提到了一個(shifted right),這是什么意思?參考文章[4]中的動圖詮釋了這一點,shifted right是說不停的拿最新的預(yù)測詞作為Outputs的輸入,其實仔細(xì)想想,你寫文章也絕對不可能是寫下一個詞語而不依賴上一句,一定是有前文的信息作為輸入,才能讓你流暢的寫出下一個詞語的,聊天在一定程度上就是拽著話頭,話趕話。

論文閱讀筆記AI篇 —— Transformer模型理論+實戰(zhàn) (三),ML&DL技術(shù)棧,Papers,人工智能,論文閱讀,筆記

圖2 —— 來自參考文章[4]

3.5 參考文章或視頻鏈接
[1] Transformer’s Encoder-Decoder Let’s Understand The Model Architecture
[2] What is purpose of stacking N=6 blocks of encoder and decoder in transformer?
[3] Stacked encoder and decoder blocks used in Transformers
[4] The Transformer Model - A Step by Step Breakdown of the Transformer’s Encoder-Decoder Architecture

3.3 如何理解Positional Encoding?

“需要使用Positional Encoding的原因也很簡單,因為 Transformer 擯棄了 RNN 的結(jié)構(gòu),因此需要一個東西來標(biāo)記各個字之間的時序,換言之,也即位置關(guān)系,而這個東西,就是位置嵌入”[2],文章[2]又說,理想情況下,位置嵌入的設(shè)計應(yīng)該滿足以下條件:

  • 它應(yīng)該為每個字輸出唯一的編碼
  • 不同長度的句子之間,任何兩個字之間的差值應(yīng)該保持一致
  • 它的值應(yīng)該是有界的

先來看到文章中的Positional Encoding公式:
P E ( p o s , 2 i ) = s i n ( p o s 1000 0 2 i d m o d e l ) PE(pos, 2i)=sin(\frac{pos}{10000^\frac{2i}{d_{model}}}) PE(pos,2i)=sin(10000dmodel?2i?pos?)
P E ( p o s , 2 i + 1 ) = c o s ( p o s 1000 0 2 i d m o d e l ) PE(pos, 2i+1)=cos(\frac{pos}{10000^\frac{2i}{d_{model}}}) PE(pos,2i+1)=cos(10000dmodel?2i?pos?)

  • d m o d e l = 512 d_{model}=512 dmodel?=512是作者規(guī)定好的,代表編碼長度。應(yīng)該也可以修改的更長以提升性能?我不清楚,這里取何值較為合適呢?肯定有一個最優(yōu)值。
  • i i i 是指維度的下標(biāo),結(jié)合式子 2 i d m o d e l \frac{2i}{d_{model}} dmodel?2i?中的分母 d m o d e l d_{model} dmodel?理解,應(yīng)該有 i ∈ [ 0 , d m o d e l ? 1 2 ] i \in [0, \frac{d_{model}-1}{2}] i[0,2dmodel??1?],這是因為Word Embedding的維度大小是 d m o d e l d_{model} dmodel?,所以為了Positional Embedding能與Word Embedding相加,肯定要能夠一一對應(yīng)。
    p o s pos pos 為某句話中,這個Word所處的位置。

But using binary values would be a waste of space in the world of floats. 看英文原文有這么一句,

Positional Embedding 與 Word Embedding可以分開做concat拼接,但concat不一定有優(yōu)勢,初看這個東西我一定覺得作者在裝神弄鬼,看完我理解了Positional Embedding的作用。

但是對于Word Embedding與Positional Embedding二者相加后,這個位置信息是如何體現(xiàn)出來的,則不甚明了,因為這就像兩種顏色的墨水進(jìn)行混合,Word Embedding是黑墨水,Positional Embedding是紅墨水,兩種數(shù)據(jù)直接相加就像把兩種顏色的墨水混合到一起,那么要如何在相加之后的混合結(jié)果中體現(xiàn)Positional信息,則是我感到疑惑的。

Why do we mix two different concepts into the same multi-dimensional space? How can a model distinguish between word embeddings and positional encodings? [3] 兩件毫不相干的事情怎么能相加到一個空間中,model要如何區(qū)分他們呢?
The model can learn to use the positional information without confusing the embedding (semantic) information. It’s hard to imagine what’s happening inside the network, yet it works. model可以在不混淆word embedding的情況下學(xué)到位置信息,你很難想象網(wǎng)絡(luò)中究竟發(fā)生了,什么然而它就是工作了。然而,這是個什么解釋? 所謂ai的黑箱模型,恐怕說的就是這一點,神經(jīng)網(wǎng)絡(luò)的擬合能力太過強(qiáng)大了,以至于我們都不知道內(nèi)部究竟發(fā)生了什么。文章來源地址http://www.zghlxwxcb.cn/news/detail-819223.html

3.6 參考文章或視頻鏈接
[1] Positional Encoding
重點閱讀:[2]
中文版:《Transformer 中的 Positional Encoding》
英文版:Transformer Architecture: The Positional Encoding
[3] Transformer’s Positional Encoding

3.x 文章涉及的其它知識盲區(qū)

問題 總結(jié) 參考文章
什么是BLEU(Bilingual Evaluation Understudy,雙語評估替換分?jǐn)?shù))? 一種機(jī)器翻譯任務(wù)的評價指標(biāo) [1] 《BLEU詳解》- 知乎

到了這里,關(guān)于論文閱讀筆記AI篇 —— Transformer模型理論+實戰(zhàn) (三)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 【論文閱讀筆記】Pre-trained Universal Medical Image Transformer

    【論文閱讀筆記】Pre-trained Universal Medical Image Transformer

    Luo L, Chen X, Tang B, et al. Pre-trained Universal Medical Image Transformer[J]. arXiv preprint arXiv:2312.07630, 2023.【代碼開源】 【論文概述】 本文介紹了一種名為“預(yù)訓(xùn)練通用醫(yī)學(xué)圖像變換器(Pre-trained Universal Medical Image Transformer,簡稱PUMIT)”的新型算法,該算法旨在解決標(biāo)記醫(yī)學(xué)圖像數(shù)據(jù)稀缺

    2024年02月04日
    瀏覽(29)
  • 有可能代替Transformer嗎?Image as Set of Points 論文閱讀筆記

    有可能代替Transformer嗎?Image as Set of Points 論文閱讀筆記

    寫在前面 ??新的一周又開始了,沖沖沖~ ??這一篇文章提出了新的范式,不知道未來會不會成為主流的能并行 ResNet、Transformer 的網(wǎng)絡(luò)。本文源于 B 站大佬的一個視頻分享,遂找來這篇文章精讀下。 論文地址:Image as Set of Points 代碼地址:https://github.com/ma-xu/Context-Cluster 收

    2023年04月08日
    瀏覽(25)
  • AI股票崩盤預(yù)測模型(企業(yè)建模_論文科研)ML model for stock crash prediction

    AI股票崩盤預(yù)測模型(企業(yè)建模_論文科研)ML model for stock crash prediction

    對齊顆粒度,打通股票崩盤底層邏輯,形成一套組合拳,形成信用評級機(jī)制良性生態(tài)圈,重振股市信心!--中國股市新展望!By Toby!2024.1.3 綜合介紹 股票崩盤,是指證券市場上由于某種原因,出現(xiàn)了證券大量拋出,導(dǎo)致證券市場價格無限度下跌,不知到什么程度才可以停止。

    2024年02月02日
    瀏覽(25)
  • 【AI理論學(xué)習(xí)】語言模型Performer:一種基于Transformer架構(gòu)的通用注意力框架

    Performer是一種用于高效處理自注意力機(jī)制(Self-Attention)的神經(jīng)網(wǎng)絡(luò)架構(gòu) 。自注意力機(jī)制在許多自然語言處理和計算機(jī)視覺任務(wù)中

    2024年02月09日
    瀏覽(34)
  • VL系列 Exchanging-based Multimodal Fusion with Transformer 論文閱讀筆記

    VL系列 Exchanging-based Multimodal Fusion with Transformer 論文閱讀筆記

    寫在前面 ??又是一個周末 教師節(jié),祝老師們節(jié)日快樂呀。依慣例,論文讀起來~ ??這是一篇多模態(tài)融合的文章,也算是這些年新出的一種方式了,具體還不知道啥情況,代碼已開源,一試便知。 論文地址:Exchanging-based Multimodal Fusion with Transformer 代碼地址:https://github.

    2024年02月05日
    瀏覽(24)
  • Cross-Drone Transformer Network for Robust Single Object Tracking論文閱讀筆記

    Cross-Drone Transformer Network for Robust Single Object Tracking論文閱讀筆記

    無人機(jī)在各種應(yīng)用中得到了廣泛使用,例如航拍和軍事安全,這得益于它們與固定攝像機(jī)相比的高機(jī)動性和廣闊視野。多 無人機(jī)追蹤系統(tǒng)可以通過從不同視角收集互補(bǔ)的視頻片段 ,為目標(biāo)提供豐富的信息,特別是當(dāng)目標(biāo)在某些視角中被遮擋或消失時。然而,在多無人機(jī)視覺

    2024年01月25日
    瀏覽(23)
  • Low-Light Image Enhancement via Stage-Transformer-Guided Network 論文閱讀筆記

    Low-Light Image Enhancement via Stage-Transformer-Guided Network 論文閱讀筆記

    這是TCSVT 2023年的一篇暗圖增強(qiáng)的論文 文章的核心思想是,暗圖有多種降質(zhì)因素,單一stage的model難以實現(xiàn)多降質(zhì)因素的去除,因此需要一個multi-stage的model,文章中設(shè)置了4個stage。同時提出了用預(yù)設(shè)query向量來代表不同的降質(zhì)因素,對原圖提取的key 和value進(jìn)行注意力的方法。

    2024年02月16日
    瀏覽(29)
  • 【論文閱讀筆記】Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

    【論文閱讀筆記】Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

    Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation Swin-Unet:用于醫(yī)學(xué)圖像分割的類Unet純Transformer 2022年發(fā)表在 Computer Vision – ECCV 2022 Workshops Paper Code 在過去的幾年里,卷積神經(jīng)網(wǎng)絡(luò)(CNN)在醫(yī)學(xué)圖像分析方面取得了里程碑式的成就。特別是基于U型結(jié)構(gòu)和跳躍連接的深度神經(jīng)

    2024年01月23日
    瀏覽(32)
  • 【模型壓縮】 LPPN論文閱讀筆記

    【模型壓縮】 LPPN論文閱讀筆記

    LPPN: A Lightweight Network for Fast Phase Picking ?深度學(xué)習(xí)模型的問題在于計算復(fù)雜度較高,在實際數(shù)據(jù)處理中需要面臨較高的處理代價,且需要專用的加速處理設(shè)備,如GPU。隨著數(shù)據(jù)累積,迫切需要設(shè)計一種能夠保證精度的輕量化高速震相拾取模型,以提高處理海量數(shù)據(jù)的效率,這

    2024年02月16日
    瀏覽(58)
  • 【論文閱讀筆記】Mamba模型代碼理解

    【論文閱讀筆記】Mamba模型代碼理解

    官方實現(xiàn):state-spaces/mamba (github.com) 最簡化實現(xiàn):johnma2006/mamba-minimal: Simple, minimal implementation of the Mamba SSM in one file of PyTorch. (github.com) 直接實現(xiàn):alxndrTL/mamba.py: A simple and efficient Mamba implementation in PyTorch and MLX. (github.com) 官方代碼做了大量優(yōu)化,目錄層級較多,對于理解模型含

    2024年04月13日
    瀏覽(34)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包