国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<rp id="levcf"></rp>

<tbody id="levcf"></tbody>

論文閱讀筆記AI篇 —— Transformer模型理論+實戰(zhàn) (三)

2年前作者：鍵盤國治理專家分類：Toy博客閱讀(32)違法舉報

這篇具有很好參考價值的文章主要介紹了論文閱讀筆記AI篇 —— Transformer模型理論+實戰(zhàn) (三)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

第三遍閱讀（精讀）

精讀的過程要把每個細(xì)節(jié)都鉆研透，不留有死角。各種維度參數(shù)已經(jīng)在“理論+實戰(zhàn)（二）”中說清楚了，若之后還有疑問我再補(bǔ)上。

三、參考文章或視頻鏈接
[1] 【超強(qiáng)動畫，一步一步深入淺出解釋Transformer原理！】

3.1 Attention和Self-Attention的區(qū)別？

3.1 參考文章或視頻鏈接
[1] What’s the difference between Attention vs Self-Attention? What problems does each other solve that the other can’t?
[2] What’s the Difference Between Self-Attention and Attention in Transformer Architecture?

3.2 Transformer是如何進(jìn)行堆疊的？

原文提到了Encoder與Decoder是可以進(jìn)行 $N\times$ 堆疊的，那么堆疊之后的結(jié)構(gòu)是什么？可以看到這就是堆疊之后的結(jié)構(gòu)，這里的features是中間編碼，6層decoder，每一層都需要拿features作為輸入的一部分，這種設(shè)計思想也類似于ResNet。

論文閱讀筆記AI篇 —— Transformer模型理論+實戰(zhàn) (三),ML&DL技術(shù)棧,Papers,人工智能,論文閱讀,筆記

圖1 —— 來自參考文章[1]

再看到原始的Transformer結(jié)構(gòu)圖中，對Outputs提到了一個(shifted right)，這是什么意思？參考文章[4]中的動圖詮釋了這一點，shifted right是說不停的拿最新的預(yù)測詞作為Outputs的輸入，其實仔細(xì)想想，你寫文章也絕對不可能是寫下一個詞語而不依賴上一句，一定是有前文的信息作為輸入，才能讓你流暢的寫出下一個詞語的，聊天在一定程度上就是拽著話頭，話趕話。

論文閱讀筆記AI篇 —— Transformer模型理論+實戰(zhàn) (三),ML&DL技術(shù)棧,Papers,人工智能,論文閱讀,筆記

圖2 —— 來自參考文章[4]

3.5 參考文章或視頻鏈接
[1] Transformer’s Encoder-Decoder Let’s Understand The Model Architecture
[2] What is purpose of stacking N=6 blocks of encoder and decoder in transformer?
[3] Stacked encoder and decoder blocks used in Transformers
[4] The Transformer Model - A Step by Step Breakdown of the Transformer’s Encoder-Decoder Architecture

3.3 如何理解Positional Encoding？

“需要使用Positional Encoding的原因也很簡單，因為 Transformer 擯棄了 RNN 的結(jié)構(gòu)，因此需要一個東西來標(biāo)記各個字之間的時序，換言之，也即位置關(guān)系，而這個東西，就是位置嵌入”^[2]，文章[2]又說，理想情況下，位置嵌入的設(shè)計應(yīng)該滿足以下條件：

它應(yīng)該為每個字輸出唯一的編碼

不同長度的句子之間，任何兩個字之間的差值應(yīng)該保持一致

它的值應(yīng)該是有界的

先來看到文章中的Positional Encoding公式：
$2i)=sin(\frac{pos}{10000^\frac{2i}{d_{model}}})$
$2i+1)=cos(\frac{pos}{10000^\frac{2i}{d_{model}}})$

$d_{model}=512$ 是作者規(guī)定好的，代表編碼長度。應(yīng)該也可以修改的更長以提升性能？我不清楚，這里取何值較為合適呢？肯定有一個最優(yōu)值。

$i$ 是指維度的下標(biāo)，結(jié)合式子 $\frac{2i}{d_{model}}$ 中的分母 $d_{model}$ 理解，應(yīng)該有 $\in [0, \frac{d_{model}-1}{2}]$ ，這是因為Word Embedding的維度大小是 $d_{model}$ ，所以為了Positional Embedding能與Word Embedding相加，肯定要能夠一一對應(yīng)。
$p os$ 為某句話中，這個Word所處的位置。

But using binary values would be a waste of space in the world of floats. 看英文原文有這么一句，

Positional Embedding 與 Word Embedding可以分開做concat拼接，但concat不一定有優(yōu)勢，初看這個東西我一定覺得作者在裝神弄鬼，看完我理解了Positional Embedding的作用。

但是對于Word Embedding與Positional Embedding二者相加后，這個位置信息是如何體現(xiàn)出來的，則不甚明了，因為這就像兩種顏色的墨水進(jìn)行混合，Word Embedding是黑墨水，Positional Embedding是紅墨水，兩種數(shù)據(jù)直接相加就像把兩種顏色的墨水混合到一起，那么要如何在相加之后的混合結(jié)果中體現(xiàn)Positional信息，則是我感到疑惑的。

Why do we mix two different concepts into the same multi-dimensional space? How can a model distinguish between word embeddings and positional encodings? ^[3] 兩件毫不相干的事情怎么能相加到一個空間中，model要如何區(qū)分他們呢？
The model can learn to use the positional information without confusing the embedding (semantic) information. It’s hard to imagine what’s happening inside the network, yet it works. model可以在不混淆word embedding的情況下學(xué)到位置信息，你很難想象網(wǎng)絡(luò)中究竟發(fā)生了，什么然而它就是工作了。然而，這是個什么解釋？所謂ai的黑箱模型，恐怕說的就是這一點，神經(jīng)網(wǎng)絡(luò)的擬合能力太過強(qiáng)大了，以至于我們都不知道內(nèi)部究竟發(fā)生了什么。文章來源地址http://www.zghlxwxcb.cn/news/detail-819223.html

3.6 參考文章或視頻鏈接
[1] Positional Encoding
重點閱讀：[2] 中文版：《Transformer 中的 Positional Encoding》英文版：Transformer Architecture: The Positional Encoding
[3] Transformer’s Positional Encoding

3.x 文章涉及的其它知識盲區(qū)

問題	總結(jié)	參考文章
什么是BLEU(Bilingual Evaluation Understudy，雙語評估替換分?jǐn)?shù))？	一種機(jī)器翻譯任務(wù)的評價指標(biāo)	[1] 《BLEU詳解》- 知乎

到了這里，關(guān)于論文閱讀筆記AI篇 —— Transformer模型理論+實戰(zhàn) (三)的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

【論文閱讀筆記】Pre-trained Universal Medical Image Transformer
Luo L, Chen X, Tang B, et al. Pre-trained Universal Medical Image Transformer[J]. arXiv preprint arXiv:2312.07630, 2023.【代碼開源】【論文概述】本文介紹了一種名為“預(yù)訓(xùn)練通用醫(yī)學(xué)圖像變換器（Pre-trained Universal Medical Image Transformer，簡稱PUMIT）”的新型算法，該算法旨在解決標(biāo)記醫(yī)學(xué)圖像數(shù)據(jù)稀缺
2024年02月04日
瀏覽(29)
有可能代替Transformer嗎？Image as Set of Points 論文閱讀筆記
寫在前面 ??新的一周又開始了，沖沖沖~ ??這一篇文章提出了新的范式，不知道未來會不會成為主流的能并行 ResNet、Transformer 的網(wǎng)絡(luò)。本文源于 B 站大佬的一個視頻分享，遂找來這篇文章精讀下。論文地址：Image as Set of Points 代碼地址：https://github.com/ma-xu/Context-Cluster 收
2023年04月08日
瀏覽(25)
AI股票崩盤預(yù)測模型(企業(yè)建模_論文科研)ML model for stock crash prediction
對齊顆粒度，打通股票崩盤底層邏輯，形成一套組合拳，形成信用評級機(jī)制良性生態(tài)圈，重振股市信心！--中國股市新展望！By Toby！2024.1.3 綜合介紹股票崩盤，是指證券市場上由于某種原因，出現(xiàn)了證券大量拋出，導(dǎo)致證券市場價格無限度下跌，不知到什么程度才可以停止。
2024年02月02日
瀏覽(25)
【AI理論學(xué)習(xí)】語言模型Performer：一種基于Transformer架構(gòu)的通用注意力框架
Performer是一種用于高效處理自注意力機(jī)制（Self-Attention）的神經(jīng)網(wǎng)絡(luò)架構(gòu) 。自注意力機(jī)制在許多自然語言處理和計算機(jī)視覺任務(wù)中
2024年02月09日
瀏覽(34)
VL系列 Exchanging-based Multimodal Fusion with Transformer 論文閱讀筆記
寫在前面 ??又是一個周末教師節(jié)，祝老師們節(jié)日快樂呀。依慣例，論文讀起來~ ??這是一篇多模態(tài)融合的文章，也算是這些年新出的一種方式了，具體還不知道啥情況，代碼已開源，一試便知。論文地址：Exchanging-based Multimodal Fusion with Transformer 代碼地址：https://github.
2024年02月05日
瀏覽(24)
Cross-Drone Transformer Network for Robust Single Object Tracking論文閱讀筆記
無人機(jī)在各種應(yīng)用中得到了廣泛使用，例如航拍和軍事安全，這得益于它們與固定攝像機(jī)相比的高機(jī)動性和廣闊視野。多無人機(jī)追蹤系統(tǒng)可以通過從不同視角收集互補(bǔ)的視頻片段，為目標(biāo)提供豐富的信息，特別是當(dāng)目標(biāo)在某些視角中被遮擋或消失時。然而，在多無人機(jī)視覺
2024年01月25日
瀏覽(23)
Low-Light Image Enhancement via Stage-Transformer-Guided Network 論文閱讀筆記
這是TCSVT 2023年的一篇暗圖增強(qiáng)的論文文章的核心思想是，暗圖有多種降質(zhì)因素，單一stage的model難以實現(xiàn)多降質(zhì)因素的去除，因此需要一個multi-stage的model，文章中設(shè)置了4個stage。同時提出了用預(yù)設(shè)query向量來代表不同的降質(zhì)因素，對原圖提取的key 和value進(jìn)行注意力的方法。
2024年02月16日
瀏覽(29)
【論文閱讀筆記】Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation
Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation Swin-Unet：用于醫(yī)學(xué)圖像分割的類Unet純Transformer 2022年發(fā)表在 Computer Vision – ECCV 2022 Workshops Paper Code 在過去的幾年里，卷積神經(jīng)網(wǎng)絡(luò)（CNN）在醫(yī)學(xué)圖像分析方面取得了里程碑式的成就。特別是基于U型結(jié)構(gòu)和跳躍連接的深度神經(jīng)
2024年01月23日
瀏覽(32)
【模型壓縮】 LPPN論文閱讀筆記
LPPN: A Lightweight Network for Fast Phase Picking ?深度學(xué)習(xí)模型的問題在于計算復(fù)雜度較高，在實際數(shù)據(jù)處理中需要面臨較高的處理代價，且需要專用的加速處理設(shè)備，如GPU。隨著數(shù)據(jù)累積，迫切需要設(shè)計一種能夠保證精度的輕量化高速震相拾取模型，以提高處理海量數(shù)據(jù)的效率，這
2024年02月16日
瀏覽(58)
【論文閱讀筆記】Mamba模型代碼理解
官方實現(xiàn)：state-spaces/mamba (github.com) 最簡化實現(xiàn)：johnma2006/mamba-minimal: Simple, minimal implementation of the Mamba SSM in one file of PyTorch. (github.com) 直接實現(xiàn)：alxndrTL/mamba.py: A simple and efficient Mamba implementation in PyTorch and MLX. (github.com) 官方代碼做了大量優(yōu)化，目錄層級較多，對于理解模型含
2024年04月13日
瀏覽(34)

<center id="rlado"></center>

<menuitem id="rlado"><optgroup id="rlado"></optgroup></menuitem><sup id="rlado"></sup>