国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文筆記:ViTGAN: Training GANs with Vision Transformers

這篇具有很好參考價(jià)值的文章主要介紹了論文筆記:ViTGAN: Training GANs with Vision Transformers。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

2021

1 intro

  • 論文研究的問題是:ViT是否可以在不使用卷積或池化的情況下完成圖像生成任務(wù)
    • 即不用CNN,而使用ViT來完成圖像生成任務(wù)
  • 將ViT架構(gòu)集成到GAN中,發(fā)現(xiàn)現(xiàn)有的GAN正則化方法與self-attention機(jī)制的交互很差,導(dǎo)致訓(xùn)練過程中嚴(yán)重的不穩(wěn)定
    • ——>引入了新的正則化技術(shù)來訓(xùn)練帶有ViT的GAN
    • ViTGAN模型遠(yuǎn)優(yōu)于基于Transformer的GAN模型,在不使用卷積或池化的情況下,性能與基于CNN的GAN(如Style-GAN2)相當(dāng)
    • ViTGAN模型是首個(gè)在GAN中利用視覺Transformer的模型之一

2 方法

論文筆記:ViTGAN: Training GANs with Vision Transformers,論文筆記,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí)

  • 直接使用ViT作為鑒別器會(huì)使訓(xùn)練變得不穩(wěn)定。
    • 論文對(duì)生成器和鑒別器都引入了新的技術(shù),用來穩(wěn)定訓(xùn)練動(dòng)態(tài)并促進(jìn)收斂。
      • (1)ViT鑒別器的正則化;
      • (2)生成器的新架構(gòu)

?2.1?ViT鑒別器的正則化

  • 利普希茨連續(xù)(Lipschitz continuity)在GAN鑒別器中很重要
    • GAN筆記:利普希茨連續(xù)(Lipschitz continuity)_UQI-LIUWJ的博客-CSDN博客
  • 然而,最近的一項(xiàng)工作表明,標(biāo)準(zhǔn)dot product self-attention層的Lipschitz常數(shù)可以是無界的,使Lipschitz連續(xù)在ViTs中被違反。
    • —>1,用歐氏距離代替點(diǎn)積相似度
      • 論文筆記:ViTGAN: Training GANs with Vision Transformers,論文筆記,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí)
    • —>2,在初始化時(shí)將每層的歸一化權(quán)重矩陣與spectral norm相乘
      • 對(duì)于任意矩陣 A,其Spectral Norm定義為:
        • 論文筆記:ViTGAN: Training GANs with Vision Transformers,論文筆記,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí)
        • 也可以定義為矩陣 A 的最大奇異值
      • 論文筆記:ViTGAN: Training GANs with Vision Transformers,論文筆記,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí)
        • σ計(jì)算矩陣的Spectral Norm

2.2 設(shè)計(jì)生成器

論文筆記:ViTGAN: Training GANs with Vision Transformers,論文筆記,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí)

3? 實(shí)驗(yàn)

論文筆記:ViTGAN: Training GANs with Vision Transformers,論文筆記,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí)

論文筆記:ViTGAN: Training GANs with Vision Transformers,論文筆記,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí)?文章來源地址http://www.zghlxwxcb.cn/news/detail-731199.html

到了這里,關(guān)于論文筆記:ViTGAN: Training GANs with Vision Transformers的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【論文閱讀筆記】A Recent Survey of Vision Transformers for Medical Image Segmentation

    【論文閱讀筆記】A Recent Survey of Vision Transformers for Medical Image Segmentation

    Khan A, Rauf Z, Khan A R, et al. A Recent Survey of Vision Transformers for Medical Image Segmentation[J]. arXiv preprint arXiv:2312.00634, 2023. 【論文概述】 本文是關(guān)于醫(yī)學(xué)圖像分割中視覺變換器(Vision Transformers,ViTs)的最新綜述。文中詳細(xì)回顧了ViTs及其與卷積神經(jīng)網(wǎng)絡(luò)(CNNs)結(jié)合形成的混合視覺Trans

    2024年02月02日
    瀏覽(47)
  • REC 系列 Visual Grounding with Transformers 論文閱讀筆記

    REC 系列 Visual Grounding with Transformers 論文閱讀筆記

    寫在前面 ??Hello,馬上又是一周過去了,快要開學(xué)了,不知道小伙伴們狀態(tài)都調(diào)整過來了嗎?加油噢~ ??這同樣是一篇關(guān)于 REC 的文章,文章時(shí)間比較早了,但也是屬于那種入門必看的文章。 論文地址:VISUAL GROUNDING WITH TRANSFORMERS 代碼地址:https://github.com/usr922/vgtr 收錄于

    2024年02月12日
    瀏覽(27)
  • 【論文閱讀筆記】Fibroglandular Tissue Segmentation in Breast MRI using Vision Transformers--A multi-institut

    【論文閱讀筆記】Fibroglandular Tissue Segmentation in Breast MRI using Vision Transformers--A multi-institut

    Müller-Franzes G, Müller-Franzes F, Huck L, et al. Fibroglandular Tissue Segmentation in Breast MRI using Vision Transformers–A multi-institutional evaluation[J]. arXiv preprint arXiv:2304.08972, 2023.【代碼開放】 本文創(chuàng)新點(diǎn)一般,只做簡(jiǎn)單總結(jié) 【論文概述】 本文介紹了一項(xiàng)關(guān)于乳房MRI中纖維腺體組織分割的研究,主

    2024年02月03日
    瀏覽(22)
  • 【論文筆記】BiFormer: Vision Transformer with Bi-Level Routing Attention

    【論文筆記】BiFormer: Vision Transformer with Bi-Level Routing Attention

    論文地址:BiFormer: Vision Transformer with Bi-Level Routing Attention 代碼地址:https://github.com/rayleizhu/BiFormer vision transformer中Attention是極其重要的模塊,但是它有著非常大的缺點(diǎn):計(jì)算量太大。 BiFormer提出了Bi-Level Routing Attention,在Attention計(jì)算時(shí),只關(guān)注最重要的token,由此來降低計(jì)算量

    2024年01月25日
    瀏覽(39)
  • DETR-《End-to-End Object Detection with Transformers》論文精讀筆記

    DETR-《End-to-End Object Detection with Transformers》論文精讀筆記

    End-to-End Object Detection with Transformers 參考:跟著李沐學(xué)AI-DETR 論文精讀【論文精讀】 在摘要部分作者,主要說明了如下幾點(diǎn): DETR是一個(gè)端到端(end-to-end)框架,釋放了傳統(tǒng)基于CNN框架的一階段(YOLO等)、二階段(FasterRCNN等)目標(biāo)檢測(cè)器中需要大量的人工參與的步驟,例如:

    2024年02月11日
    瀏覽(30)
  • MCUFormer: Deploying Vision Transformers on Microcontrollers with Limited Memory

    MCUFormer: Deploying Vision Transformers on Microcontrollers with Limited Memory

    論文鏈接:https://ziweiwangthu.github.io/data/MCUFormer.pdf 源碼鏈接:https://hub.yzuu.cf/liangyn22/MCUFormer 用于現(xiàn)實(shí)應(yīng)用的深度神經(jīng)網(wǎng)絡(luò)部署通常需要高性能計(jì)算設(shè)備,如GPU和TPU。由于這些設(shè)備的高昂價(jià)格和能耗,不可接受的部署費(fèi)用嚴(yán)格限制了深度模型在各種任務(wù)中使用。用于現(xiàn)實(shí)應(yīng)用的

    2024年01月23日
    瀏覽(21)
  • 論文筆記:A Time Series is Worth 64 Words: Long-term Forecasting with Transformers

    論文筆記:A Time Series is Worth 64 Words: Long-term Forecasting with Transformers

    ICLR 2023 比較簡(jiǎn)單,就不分intro、model這些了 給定每個(gè)時(shí)間段的長(zhǎng)度、劃分的stride,將時(shí)間序列分成若干個(gè)時(shí)間段 時(shí)間段之間可以有重疊,也可以沒有 每一個(gè)時(shí)間段視為一個(gè)token 降低復(fù)雜度 Attention 的復(fù)雜度是和 token 數(shù)量成二次方關(guān)系。 如果每一個(gè) patch 代表一個(gè) token,而不是

    2024年02月07日
    瀏覽(20)
  • 【論文精讀】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    【論文精讀】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    自然語言處理(Natural Language Processing,NLP)領(lǐng)域內(nèi)的 預(yù)訓(xùn)練語言模型 ,包括基于RNN的ELMo和ULMFiT,基于Transformer的OpenAI GPT及Google BERT等。預(yù)訓(xùn)練語言模型的成功,證明了我們可以從海量的無標(biāo)注文本中學(xué)到潛在的語義信息,而無需為每一項(xiàng)下游NLP任務(wù)單獨(dú)標(biāo)注大量訓(xùn)練數(shù)據(jù)。

    2024年02月14日
    瀏覽(37)
  • 跨模態(tài)檢索論文閱讀:(PTP)Position-guided Text Prompt for Vision-Language Pre-training

    跨模態(tài)檢索論文閱讀:(PTP)Position-guided Text Prompt for Vision-Language Pre-training

    (PTP)Position-guided Text Prompt for Vision-Language Pre-training 視覺語言預(yù)訓(xùn)練的位置引導(dǎo)文本提示 視覺語言預(yù)訓(xùn)練(VLP)已經(jīng)顯示出將圖像和文本對(duì)統(tǒng)一起來的能力,促進(jìn)了各種跨模態(tài)的學(xué)習(xí)任務(wù)。 然而,我們注意到,VLP模型往往缺乏視覺基礎(chǔ)/定位能力,這對(duì)許多下游任務(wù)如視覺推理至

    2024年02月11日
    瀏覽(30)
  • 【論文閱讀】InstructGPT: Training language models to follow instructions with human feedback

    【論文閱讀】InstructGPT: Training language models to follow instructions with human feedback

    論文鏈接:InstructGPT ??關(guān)注公眾號(hào) funNLPer 了解更多AI算法?? 把語言模型變大并不意味著會(huì)讓模型更好的理解用戶意圖,例如大的語言模型會(huì)生成一些不真實(shí)、有害的、沒有幫助的輸出給用戶,換句話說,這些模型并沒有和用戶的意圖對(duì)齊(aligned)。在這篇論文中我們展示了

    2023年04月19日
    瀏覽(17)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包