2021
1 intro
- 論文研究的問題是:ViT是否可以在不使用卷積或池化的情況下完成圖像生成任務(wù)
- 即不用CNN,而使用ViT來完成圖像生成任務(wù)
- 將ViT架構(gòu)集成到GAN中,發(fā)現(xiàn)現(xiàn)有的GAN正則化方法與self-attention機(jī)制的交互很差,導(dǎo)致訓(xùn)練過程中嚴(yán)重的不穩(wěn)定
- ——>引入了新的正則化技術(shù)來訓(xùn)練帶有ViT的GAN
- ViTGAN模型遠(yuǎn)優(yōu)于基于Transformer的GAN模型,在不使用卷積或池化的情況下,性能與基于CNN的GAN(如Style-GAN2)相當(dāng)
- ViTGAN模型是首個(gè)在GAN中利用視覺Transformer的模型之一
2 方法
- 直接使用ViT作為鑒別器會(huì)使訓(xùn)練變得不穩(wěn)定。
- 論文對(duì)生成器和鑒別器都引入了新的技術(shù),用來穩(wěn)定訓(xùn)練動(dòng)態(tài)并促進(jìn)收斂。
- (1)ViT鑒別器的正則化;
- (2)生成器的新架構(gòu)
- 論文對(duì)生成器和鑒別器都引入了新的技術(shù),用來穩(wěn)定訓(xùn)練動(dòng)態(tài)并促進(jìn)收斂。
?2.1?ViT鑒別器的正則化
- 利普希茨連續(xù)(Lipschitz continuity)在GAN鑒別器中很重要
- GAN筆記:利普希茨連續(xù)(Lipschitz continuity)_UQI-LIUWJ的博客-CSDN博客
- 然而,最近的一項(xiàng)工作表明,標(biāo)準(zhǔn)dot product self-attention層的Lipschitz常數(shù)可以是無界的,使Lipschitz連續(xù)在ViTs中被違反。
- —>1,用歐氏距離代替點(diǎn)積相似度
- —>2,在初始化時(shí)將每層的歸一化權(quán)重矩陣與spectral norm相乘
- 對(duì)于任意矩陣 A,其Spectral Norm定義為:
- 也可以定義為矩陣 A 的最大奇異值
-
- σ計(jì)算矩陣的Spectral Norm
- 對(duì)于任意矩陣 A,其Spectral Norm定義為:
- —>1,用歐氏距離代替點(diǎn)積相似度
2.2 設(shè)計(jì)生成器
3? 實(shí)驗(yàn)
文章來源:http://www.zghlxwxcb.cn/news/detail-731199.html
?文章來源地址http://www.zghlxwxcb.cn/news/detail-731199.html
到了這里,關(guān)于論文筆記:ViTGAN: Training GANs with Vision Transformers的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!