国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

VIT 論文精讀 | transformer架構(gòu)引入CV的開(kāi)創(chuàng)性工作

這篇具有很好參考價(jià)值的文章主要介紹了VIT 論文精讀 | transformer架構(gòu)引入CV的開(kāi)創(chuàng)性工作。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

目錄

目錄

1. 背景

2. 方法

2.1 怎么把2D圖像變成1D序列輸入到transformer中

像素?

先提取特征圖?

打成多個(gè)patch

2.2 transformer和卷積網(wǎng)絡(luò)比較

2.3 結(jié)構(gòu)

2.4 cls Vs 全局平均池化

2.5 位置編碼

3 實(shí)驗(yàn)


1. 背景

VIT是基于transformer的在圖像分類(lèi)大放異彩的變體,transformer是VIT的親爹,可以和resnet相媲美

VIT指出混合卷積網(wǎng)絡(luò)是不必要的,純transformer的結(jié)構(gòu)也可以在圖像分類(lèi)里面取得特別好的結(jié)果

開(kāi)啟了一個(gè)新的天地

2. 方法

2.1 怎么把2D圖像變成1D序列輸入到transformer中

但想要在視覺(jué)領(lǐng)域遷移應(yīng)用transformer,一個(gè)最重要的問(wèn)題是怎么去把2D圖像變成1D序列輸入到transformer中

回憶一下transformer,他本質(zhì)是對(duì)輸入的序列元素之間做互動(dòng),得到注意力圖,然后利用自注意力圖去做加權(quán)平均輸出

因?yàn)閮蓛啥家龌?dòng),所以這個(gè)計(jì)算復(fù)雜度是很大的,

而硬件能計(jì)算的序列長(zhǎng)度大概是幾百幾千。比如在經(jīng)典自然語(yǔ)言的transformer Bert中是512長(zhǎng)度。

像素?

所以如果我們直接把圖像里的每一個(gè)像素點(diǎn)當(dāng)作一個(gè)序列元素的話,會(huì)導(dǎo)致序列特別長(zhǎng),比如一張224*224=50176的序列長(zhǎng)度,是Bert的500倍。

先提取特征圖?

之前也有一些在CV領(lǐng)域的transformer工作,但他們?yōu)榱私档瓦@種復(fù)雜度,是引入了卷積等操作提取特征圖,再把特征圖拉長(zhǎng)為序列輸入,或者只在圖片的一小片區(qū)域做自注意力。

但是作者覺(jué)得NLP在自然領(lǐng)域的可擴(kuò)展性很強(qiáng),他們也想在CV領(lǐng)域做同樣的事情,想盡可能少的改動(dòng)網(wǎng)絡(luò)結(jié)構(gòu),但是老問(wèn)題回來(lái)了,序列太長(zhǎng)怎么辦?

打成多個(gè)patch

把一個(gè)圖片打成很多個(gè)patch

比如對(duì)于一張圖片224*224 打成16 * 16大小的patch,每一個(gè)patch展成序列的長(zhǎng)度就是196 ,把他當(dāng)作一個(gè)單詞,作為序列的元素輸入transformer

2.2 transformer和卷積網(wǎng)絡(luò)比較

transformer和卷積網(wǎng)絡(luò)相比,缺少一定的歸納偏置,一種先驗(yàn)知識(shí)

(1)locality 假設(shè)相鄰區(qū)域會(huì)有相鄰特征,靠的越近的東西相關(guān)性越強(qiáng)

(2)平移不變性。無(wú)論是先做平移還是先做卷積都是一樣的。

所以有了這兩個(gè)假設(shè),我們可以把卷積核看作一個(gè)模板,不管一個(gè)物體移到哪里,遇到同樣的卷積核都會(huì)有相同的輸出。

有了先驗(yàn)信息,卷積網(wǎng)絡(luò)就需要較少的數(shù)據(jù)去學(xué)習(xí)。但是transformer沒(méi)有這樣的先驗(yàn)信息,所以就需要更大的數(shù)據(jù)集才能達(dá)到比較好的效果

總結(jié)來(lái)看

transformer需要較大的數(shù)據(jù)集,才能取得和CNN相媲美的結(jié)果

2.3 結(jié)構(gòu)

VIT 論文精讀 | transformer架構(gòu)引入CV的開(kāi)創(chuàng)性工作,讀論文,transformer,深度學(xué)習(xí),人工智能

借鑒Bert的輸出,VIT加一個(gè)特殊cls Token 和其他的patch做交互進(jìn)而輸出分類(lèi)信息,我們相信cls Token可以學(xué)習(xí)到整張圖片的信息,可以看做一個(gè)整體特征,因而我們只需要根據(jù)cls Token的信息 做最后的Mlp輸出即可

我們舉一個(gè)例子,把VIT的前向過(guò)程走一編

(1)假設(shè)我們輸入圖片X維度為 224×224×3 (長(zhǎng),寬,通道)

(2)將一張圖片打成多個(gè)圖像塊(patch)

如果我們使用16×16的圖像塊大?。╬atch_size),可以得到多少圖像塊呢?

?

意味著有196個(gè)圖像塊,也就是196個(gè)token

此時(shí)每一個(gè)token維度 16×16×3=768

到此我們就把原來(lái)的一張圖片 224×224×3 變成了 196×768了

(3)經(jīng)過(guò)線性投射層

輸入維度是(2)中我們算出來(lái)的768

輸出維度可以調(diào)整,論文中還是768

所以最后經(jīng)過(guò)線性投射層投射之后輸出還是為196×768

(4)和特殊cls token合并

合并后輸出為197×768

(5)加上位置編碼信息

直接加

輸出還是為197×768

2.4 cls Vs 全局平均池化

不一定非得用這里的cls Token,也可以做全局平均池化

但是得好好調(diào)參,否則全局平均池化效果就不如cls Token

2.5 位置編碼

位置編碼可以是1d 的

也可以是2d的

或者是相對(duì)位置編碼

在本篇文章差異不大

讀完這篇文章,應(yīng)該明白

?

transformer對(duì)比卷積的優(yōu)勢(shì),劣勢(shì)?

VIT結(jié)構(gòu)中,如果輸入圖像是224*224,打成16 *16的patch,頭個(gè)數(shù)12,分析他每一層的形狀是什么樣子的?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-670174.html

3 實(shí)驗(yàn)

VIT 論文精讀 | transformer架構(gòu)引入CV的開(kāi)創(chuàng)性工作,讀論文,transformer,深度學(xué)習(xí),人工智能

灰色的線條是Resnet 從下到上有一個(gè)范圍

如Resnet50到Resnet152這樣一個(gè)范圍

彩色的圓點(diǎn)是VIT

從左到右數(shù)據(jù)集依次增大

在數(shù)據(jù)集較小的情況下卷積Resnet要優(yōu)于vit 中等數(shù)據(jù)集情況下,Renet和vit差不多,大規(guī)模數(shù)據(jù)集vit更好

讀完這篇文章,應(yīng)該明白

transformer對(duì)比卷積的優(yōu)勢(shì),劣勢(shì)?

VIT結(jié)構(gòu)中,如果輸入圖像是224*224,打成16 *16的patch,頭個(gè)數(shù)12,分析他每一層的形狀是什么樣子的?

到了這里,關(guān)于VIT 論文精讀 | transformer架構(gòu)引入CV的開(kāi)創(chuàng)性工作的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 開(kāi)創(chuàng)性的區(qū)塊鏈操作系統(tǒng)項(xiàng)目——生物識(shí)別與機(jī)器學(xué)習(xí)

    開(kāi)創(chuàng)性的區(qū)塊鏈操作系統(tǒng)項(xiàng)目——生物識(shí)別與機(jī)器學(xué)習(xí)

    一起來(lái)認(rèn)識(shí)Locus Software的軟件系統(tǒng)工程師 Marcus Souza。他憑借天生的開(kāi)放且好奇的心態(tài),并且通過(guò)OpenCV不斷的測(cè)試區(qū)塊鏈操作系統(tǒng),以探索它能實(shí)現(xiàn)什么。他一直在尋找如何能夠提升發(fā)揮區(qū)塊鏈操作系統(tǒng)到極致的方法,同時(shí),他創(chuàng)建了一系列測(cè)試實(shí)例。在這個(gè)測(cè)試過(guò)程中,他似

    2024年01月19日
    瀏覽(23)
  • 開(kāi)創(chuàng)性的區(qū)塊鏈操作系統(tǒng)項(xiàng)目——去中心化的戰(zhàn)艦游戲

    開(kāi)創(chuàng)性的區(qū)塊鏈操作系統(tǒng)項(xiàng)目——去中心化的戰(zhàn)艦游戲

    卓有成效的開(kāi)發(fā)人員 Lachezar 說(shuō),他開(kāi)始使用區(qū)塊鏈的時(shí)候很容易。Cartesi 提供了很多開(kāi)發(fā)文檔,他能夠通過(guò)實(shí)際開(kāi)發(fā)他的去中心化應(yīng)用程序來(lái)獲得大部分區(qū)塊鏈知識(shí),而不用先學(xué)復(fù)雜的 Solidity。Blockchain OS為 Lachezar 等開(kāi)發(fā)人員提供了 Linux 操作系統(tǒng):可以在其上運(yùn)行的框架、語(yǔ)

    2024年02月02日
    瀏覽(18)
  • Transformer(二)(VIT,TNT)(基于視覺(jué)CV)

    Transformer(二)(VIT,TNT)(基于視覺(jué)CV)

    目錄 1.視覺(jué)中的Attention ?2.VIT框架(圖像分類(lèi),不需要decoder) 2.1整體框架 2.2.CNN和Transformer遇到的問(wèn)題 2.3.1CNN 2.3.2Transformer 2.3.3二者對(duì)比 2.4.公式理解 3TNT 參考文獻(xiàn) ? ? ? 對(duì)于人類(lèi)而言看到一幅圖可以立即區(qū)分背景和主體,我們希望計(jì)算機(jī)也可以清楚區(qū)分背景和主體,這樣就可

    2024年02月13日
    瀏覽(24)
  • CV攻城獅入門(mén)VIT(vision transformer)之旅——VIT原理詳解篇

    CV攻城獅入門(mén)VIT(vision transformer)之旅——VIT原理詳解篇

    ??作者簡(jiǎn)介:禿頭小蘇,致力于用最通俗的語(yǔ)言描述問(wèn)題 ??往期回顧:CV攻城獅入門(mén)VIT(vision transformer)之旅——近年超火的Transformer你再不了解就晚了! ??近期目標(biāo):寫(xiě)好專(zhuān)欄的每一篇文章 ??支持小蘇:點(diǎn)贊????、收藏?、留言?? ? ???在上一篇,我已經(jīng)詳細(xì)為大家

    2024年02月02日
    瀏覽(30)
  • 論文閱讀 Vision Transformer - VIT

    論文閱讀 Vision Transformer - VIT

    通過(guò)將圖像切成patch線形層編碼成token特征編碼的方法,用transformer的encoder來(lái)做圖像分類(lèi) 解決問(wèn)題: transformer輸入限制: 由于自注意力+backbone,算法復(fù)雜度為o(n2),token長(zhǎng)度一般要512才足夠運(yùn)算 解決:a) 將圖片轉(zhuǎn)為token輸入 b) 將特征圖轉(zhuǎn)為token輸入 c)√ 切patch轉(zhuǎn)為token輸入 tra

    2024年02月01日
    瀏覽(24)
  • ViT(Version Transformer)原始論文解讀

    ViT(Version Transformer)原始論文解讀

    paper:2010.11929.pdf (arxiv.org) code:google-research/vision_transformer (github.com) 期刊/會(huì)議:ICLR 2020 雖然Transformer體系結(jié)構(gòu)已經(jīng)成為自然語(yǔ)言處理任務(wù)的事實(shí)上的標(biāo)準(zhǔn),但它在計(jì)算機(jī)視覺(jué)方面的應(yīng)用仍然有限。在視覺(jué)上,注意力要么與卷積網(wǎng)絡(luò)結(jié)合應(yīng)用,要么用于替換卷積網(wǎng)絡(luò)的某些組件

    2024年02月15日
    瀏覽(23)
  • 《Vision Transformer (ViT)》論文精度,并解析ViT模型結(jié)構(gòu)以及代碼實(shí)現(xiàn)

    《Vision Transformer (ViT)》論文精度,并解析ViT模型結(jié)構(gòu)以及代碼實(shí)現(xiàn)

    《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》 論文共有22頁(yè),表格和圖像很多,網(wǎng)絡(luò)模型結(jié)構(gòu)解釋的很清楚,并且用四個(gè)公式展示了模型的計(jì)算過(guò)程;本文章對(duì)其進(jìn)行精度,并對(duì)源碼進(jìn)行剖析,希望讀者可以耐心讀下去。 論文地址:https://arxiv.org/abs/2010.11929 源

    2024年02月05日
    瀏覽(20)
  • Transformer模型原理—論文精讀

    Transformer模型原理—論文精讀

    今天來(lái)看一下Transformer模型,由Google團(tuán)隊(duì)提出,論文名為《Attention Is All You Need》。論文地址。 正如標(biāo)題所說(shuō)的,注意力是你所需要的一切,該模型摒棄了傳統(tǒng)的RNN和CNN結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)幾乎由Attention機(jī)制構(gòu)成,該論文的亮點(diǎn)在于提出了 Multi-head attention 機(jī)制,其又包含了 self-a

    2024年02月08日
    瀏覽(16)
  • Vision Transformer(ViT)論文解讀與代碼實(shí)踐(Pytorch)

    Vision Transformer(ViT)論文解讀與代碼實(shí)踐(Pytorch)

    Vision Transformer(ViT)是一種基于Transformer架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,用于處理計(jì)算機(jī)視覺(jué)任務(wù)。傳統(tǒng)的計(jì)算機(jī)視覺(jué)模型如卷積神經(jīng)網(wǎng)絡(luò)(CNN)在處理圖像任務(wù)時(shí)取得了很大的成功,但CNN存在一些局限,例如對(duì)于長(zhǎng)距離依賴(lài)的建模能力較弱。ViT通過(guò)引入Transformer的注意力機(jī)制來(lái)解決這

    2024年02月07日
    瀏覽(18)
  • AI繪畫(huà)與CV多模態(tài)能力的起源:從VAE、擴(kuò)散模型DDPM、DETR到ViT/MAE/Swin transformer

    AI繪畫(huà)與CV多模態(tài)能力的起源:從VAE、擴(kuò)散模型DDPM、DETR到ViT/MAE/Swin transformer

    2018年我寫(xiě)過(guò)一篇博客,叫:《一文讀懂目標(biāo)檢測(cè):R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD》,該文相當(dāng)于梳理了2019年之前CV領(lǐng)域的典型視覺(jué)模型,比如 2014 R-CNN 2015 Fast R-CNN、Faster R-CNN 2016 YOLO、SSD 2017 Mask R-CNN、YOLOv2 2018 YOLOv3 隨著2019 CenterNet的發(fā)布,特別是2020發(fā)布的DETR(End-to-End

    2024年02月11日
    瀏覽(19)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包