国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文閱讀筆記AI篇 —— Transformer模型理論+實(shí)戰(zhàn) (一)

這篇具有很好參考價(jià)值的文章主要介紹了論文閱讀筆記AI篇 —— Transformer模型理論+實(shí)戰(zhàn) (一)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

資源地址
Attention is all you need.pdf(0積分) - CSDN

第一遍閱讀(Abstract + Introduction + Conclusion)

Abstract中強(qiáng)調(diào)Transformer摒棄了循環(huán)和卷積網(wǎng)絡(luò)結(jié)構(gòu),在English-to-German翻譯任務(wù)中,BLEU得分為28.4, 在English-to-French的翻譯任務(wù)中的BLEU得分為41.0,用8張GPU訓(xùn)練了3.5天,與各文獻(xiàn)中的best models相比,這是非常小的訓(xùn)練成本。

Introduction中對(duì)RNN的一些工作做了總結(jié),它說RNN結(jié)構(gòu)本身,在序列長度變長時(shí)會(huì)產(chǎn)生限制,雖然有些工作通過factorization tricks因式分解和conditional computation對(duì)其進(jìn)行運(yùn)算效率上的提高,并且后者可以提高模型性能,但是,對(duì)于序列處理的最基本的局限性還是存在的。Attention機(jī)制已經(jīng)在許多任務(wù)的序列建模和翻譯任務(wù)中成為了重要的一部分,并且在大多數(shù)情況下,Attention機(jī)制都會(huì)與recurrent network一起使用。
然后作者說,他們提出了一種拋棄recurrent結(jié)構(gòu),完全使用Attention機(jī)制去描述input與output之間的全局關(guān)系。Transformer允許更大的并行度,并且在8張P100的GPU上訓(xùn)練了25h后,就在翻譯質(zhì)量上達(dá)到了SOTA。

Conclusion說,Transformer將Encoder-Decoder中最常用的recurrent layers替換成了multi-headed self-attention多頭自注意力模塊。并且作者他們希望將Transformer推廣到只要包括input與output特點(diǎn)的問題上去,而不是僅僅局限于text文本(所以將Transformer應(yīng)用在圖片、音視頻中是他們展望的應(yīng)有之意,而不是說Transformer在無意中完成了CV和NLP的跨界大一統(tǒng),是作者他們?cè)揪拖脒@么做),并且他們還想探索local, restricted attention mechanisms局部的、受限制的注意力機(jī)制,讓Generation更少一點(diǎn)sequential序列化也是他們的研究目標(biāo)(我理解這里應(yīng)該是說讓Transformer不是一個(gè)詞一個(gè)詞的串行預(yù)測,而是可以多個(gè)詞一起預(yù)測出來?或者說不是語句化的串行生成,而是跳躍式的段落篇章式生成?文章來源地址http://www.zghlxwxcb.cn/news/detail-802559.html

參考文章或視頻資料
【【計(jì)算機(jī)博物志】自然語言處理的“古往”和“今來”】 - bilibili

到了這里,關(guān)于論文閱讀筆記AI篇 —— Transformer模型理論+實(shí)戰(zhàn) (一)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【論文閱讀筆記】Pre-trained Universal Medical Image Transformer

    【論文閱讀筆記】Pre-trained Universal Medical Image Transformer

    Luo L, Chen X, Tang B, et al. Pre-trained Universal Medical Image Transformer[J]. arXiv preprint arXiv:2312.07630, 2023.【代碼開源】 【論文概述】 本文介紹了一種名為“預(yù)訓(xùn)練通用醫(yī)學(xué)圖像變換器(Pre-trained Universal Medical Image Transformer,簡稱PUMIT)”的新型算法,該算法旨在解決標(biāo)記醫(yī)學(xué)圖像數(shù)據(jù)稀缺

    2024年02月04日
    瀏覽(29)
  • 有可能代替Transformer嗎?Image as Set of Points 論文閱讀筆記

    有可能代替Transformer嗎?Image as Set of Points 論文閱讀筆記

    寫在前面 ??新的一周又開始了,沖沖沖~ ??這一篇文章提出了新的范式,不知道未來會(huì)不會(huì)成為主流的能并行 ResNet、Transformer 的網(wǎng)絡(luò)。本文源于 B 站大佬的一個(gè)視頻分享,遂找來這篇文章精讀下。 論文地址:Image as Set of Points 代碼地址:https://github.com/ma-xu/Context-Cluster 收

    2023年04月08日
    瀏覽(25)
  • AI股票崩盤預(yù)測模型(企業(yè)建模_論文科研)ML model for stock crash prediction

    AI股票崩盤預(yù)測模型(企業(yè)建模_論文科研)ML model for stock crash prediction

    對(duì)齊顆粒度,打通股票崩盤底層邏輯,形成一套組合拳,形成信用評(píng)級(jí)機(jī)制良性生態(tài)圈,重振股市信心!--中國股市新展望!By Toby!2024.1.3 綜合介紹 股票崩盤,是指證券市場上由于某種原因,出現(xiàn)了證券大量拋出,導(dǎo)致證券市場價(jià)格無限度下跌,不知到什么程度才可以停止。

    2024年02月02日
    瀏覽(25)
  • 【AI理論學(xué)習(xí)】語言模型Performer:一種基于Transformer架構(gòu)的通用注意力框架

    Performer是一種用于高效處理自注意力機(jī)制(Self-Attention)的神經(jīng)網(wǎng)絡(luò)架構(gòu) 。自注意力機(jī)制在許多自然語言處理和計(jì)算機(jī)視覺任務(wù)中

    2024年02月09日
    瀏覽(34)
  • VL系列 Exchanging-based Multimodal Fusion with Transformer 論文閱讀筆記

    VL系列 Exchanging-based Multimodal Fusion with Transformer 論文閱讀筆記

    寫在前面 ??又是一個(gè)周末 教師節(jié),祝老師們節(jié)日快樂呀。依慣例,論文讀起來~ ??這是一篇多模態(tài)融合的文章,也算是這些年新出的一種方式了,具體還不知道啥情況,代碼已開源,一試便知。 論文地址:Exchanging-based Multimodal Fusion with Transformer 代碼地址:https://github.

    2024年02月05日
    瀏覽(24)
  • Cross-Drone Transformer Network for Robust Single Object Tracking論文閱讀筆記

    Cross-Drone Transformer Network for Robust Single Object Tracking論文閱讀筆記

    無人機(jī)在各種應(yīng)用中得到了廣泛使用,例如航拍和軍事安全,這得益于它們與固定攝像機(jī)相比的高機(jī)動(dòng)性和廣闊視野。多 無人機(jī)追蹤系統(tǒng)可以通過從不同視角收集互補(bǔ)的視頻片段 ,為目標(biāo)提供豐富的信息,特別是當(dāng)目標(biāo)在某些視角中被遮擋或消失時(shí)。然而,在多無人機(jī)視覺

    2024年01月25日
    瀏覽(23)
  • Low-Light Image Enhancement via Stage-Transformer-Guided Network 論文閱讀筆記

    Low-Light Image Enhancement via Stage-Transformer-Guided Network 論文閱讀筆記

    這是TCSVT 2023年的一篇暗圖增強(qiáng)的論文 文章的核心思想是,暗圖有多種降質(zhì)因素,單一stage的model難以實(shí)現(xiàn)多降質(zhì)因素的去除,因此需要一個(gè)multi-stage的model,文章中設(shè)置了4個(gè)stage。同時(shí)提出了用預(yù)設(shè)query向量來代表不同的降質(zhì)因素,對(duì)原圖提取的key 和value進(jìn)行注意力的方法。

    2024年02月16日
    瀏覽(29)
  • 【論文閱讀筆記】Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

    【論文閱讀筆記】Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

    Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation Swin-Unet:用于醫(yī)學(xué)圖像分割的類Unet純Transformer 2022年發(fā)表在 Computer Vision – ECCV 2022 Workshops Paper Code 在過去的幾年里,卷積神經(jīng)網(wǎng)絡(luò)(CNN)在醫(yī)學(xué)圖像分析方面取得了里程碑式的成就。特別是基于U型結(jié)構(gòu)和跳躍連接的深度神經(jīng)

    2024年01月23日
    瀏覽(32)
  • 【模型壓縮】 LPPN論文閱讀筆記

    【模型壓縮】 LPPN論文閱讀筆記

    LPPN: A Lightweight Network for Fast Phase Picking ?深度學(xué)習(xí)模型的問題在于計(jì)算復(fù)雜度較高,在實(shí)際數(shù)據(jù)處理中需要面臨較高的處理代價(jià),且需要專用的加速處理設(shè)備,如GPU。隨著數(shù)據(jù)累積,迫切需要設(shè)計(jì)一種能夠保證精度的輕量化高速震相拾取模型,以提高處理海量數(shù)據(jù)的效率,這

    2024年02月16日
    瀏覽(58)
  • 【論文閱讀筆記】Mamba模型代碼理解

    【論文閱讀筆記】Mamba模型代碼理解

    官方實(shí)現(xiàn):state-spaces/mamba (github.com) 最簡化實(shí)現(xiàn):johnma2006/mamba-minimal: Simple, minimal implementation of the Mamba SSM in one file of PyTorch. (github.com) 直接實(shí)現(xiàn):alxndrTL/mamba.py: A simple and efficient Mamba implementation in PyTorch and MLX. (github.com) 官方代碼做了大量優(yōu)化,目錄層級(jí)較多,對(duì)于理解模型含

    2024年04月13日
    瀏覽(34)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包