国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

AIGC之論文筆記DALL-E

2年前作者：猴猴豬豬分類：Toy博客閱讀(22)違法舉報

這篇具有很好參考價值的文章主要介紹了AIGC之論文筆記DALL-E。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

Zero-Shot Text-to-Image Generation

一. 簡介

機構(gòu)：openai
代碼：https://github.com/openai/DALL-E

人們常說自然語言處理是人工智能皇冠上的明珠，這些年transformer以及大規(guī)模語言模型LLM的蓬勃發(fā)展，讓這顆明珠更加熠熠生輝。除此之外，ViT，MAE等方法也充分驗證了圖像在transformer以及大規(guī)模預訓練之路上的可行性，那么近一步的思考，就是如何跨越圖像，文本等多種模態(tài)的鴻溝，讓機器真正實現(xiàn)智能？理解人類生活中存在的各種模態(tài)？接收人類的指令，與物理世界交互？實現(xiàn)視，聽，說，觸等人類感知在機器上的應用。這份思考也讓多模態(tài)這個領(lǐng)域這些年如火如荼，模態(tài)可能不只包括圖像，文本，視頻，音頻等，除此之外，人體姿態(tài)，3D模型等等都可以視作一種廣義上的模態(tài)，但一般上更關(guān)注圖像以及文本，一方面：圖像文本是人類世界分布最廣的兩種媒介，蘊含著巨大的信息，另一方面：各種模態(tài)之間往往也可以相互轉(zhuǎn)化，比如音頻轉(zhuǎn)化為文本，視頻切幀為圖像。

就圖像和文本而言，有多種benchmark任務建立起兩種模態(tài)之間的橋梁，包括但不限于多模態(tài)檢索：文本檢索圖像，圖像檢索文本，多模態(tài)生成：文本生成圖像，圖像生成文本，多模態(tài)問答：VQA等。其中文本生成圖像是一個備受關(guān)注的領(lǐng)域，之前的技術(shù)路線多是基于VAE，GAN等，在特定數(shù)據(jù)集或者特定域進行生成，比如CUB或者MS-COCO，生成效果差，細節(jié)不逼真，離通用，泛化性強的生成能力還相去甚遠，這兩年DALL-E的一鳴驚人，加上后來diffusion model的井噴式發(fā)展，讓人看到了機器擁有藝術(shù)創(chuàng)造以及設(shè)計的希望，其生成的圖像往往能夠以假亂真，在真實性，多樣性，創(chuàng)造性等方面，遠遠超過之前的模型。

今天，我們先聊一聊DALL-E。按照中文的諧音，DALL-E 音同 dali，所謂大力出奇跡，在這兒仿佛也算是如其名，有氣吞山河山河之勢。參考https://mp.pdnews.cn/Pc/ArtInfoApi/article?id=28457810 才知道openai的初衷是"讓機器擁有頂級藝術(shù)家，設(shè)計師的創(chuàng)造力，因此結(jié)合了藝術(shù)以及機器的兩位代表性標桿：藝術(shù)家薩爾瓦多·達利（Salvador Dali）

visual codebook,AIGC,AIGC,論文閱讀,人工智能

和皮克斯《機器人總動員》中的 WALL-E，用DALL-E向他們致敬。

visual codebook,AIGC,AIGC,論文閱讀,人工智能

摘要：
Text-to-image generation has traditionally focused on finding better modeling assumptions for training on a fixed dataset. These assumptions might involve complex architectures, auxiliary losses, or side information such as object part labels or segmentation masks supplied during training. We describe a simple approach for this task based on a transformer that autoregressively models the text and image tokens as a single stream of data. With sufficient data and scale, our approach is competitive with previous domain-specific models when evaluated in a zero-shot fashion.

論文的摘要比較樸實，其指出先前的文本生成圖像任務在特定的數(shù)據(jù)集上展開，往往訓練過程伴隨著復雜的網(wǎng)絡(luò)結(jié)果，額外的損失函數(shù)或者監(jiān)督信息。而DALL-E用transformer（12億參數(shù)）自回歸地建模圖像以及文本tokens，當給定足夠的數(shù)據(jù)（文中用了2.5億網(wǎng)絡(luò)圖文對），往往能以一種zero-shot的方式，與在某個特定域的專精模型相匹敵。當然，筆者其實對這個zero-shot一直打一個天大的問號，也不太清楚為什么DALL-E主打zero-shot這個點。

二. 方法

整體思路借鑒了：VQ-VAE與VQ-VAE2，即對圖像并不直接在像素級別上自回歸，而是將圖像編碼為離散的tokens，再進行建模，這樣能夠降低復雜度以及長序列的建模難度。具體而言，方法分為了兩個階段：

第一階段：訓練一個離散自編碼器dVAE，將 $256 ? 256$ 的RGB圖像壓縮為 $32 ? 32$ 個tokens，每個token都有8192個可能的選擇，即code book的大小是8192。這樣transformer建模的上下文大小從 $256 ? 256 ? 3$ 降低到 $32 ? 32$ ，壓縮了192倍，但視覺質(zhì)量卻沒有很大的損失（但其實細節(jié)，會有一些損失，比如下圖）
第二階段：將256個BPE編碼的文本token，與上面的 $32 ? 32 = 1024$ 個視覺token進行concate，然后用一個自回歸transformer建模圖像和文本token的聯(lián)合分布。
那么整體的文本生成圖像的優(yōu)化目標，可以視作優(yōu)化一個關(guān)于圖像 $x$ ，文本描述 $y$ ，視覺token $z$ 的ELB。

visual codebook,AIGC,AIGC,論文閱讀,人工智能

其中

$q_\phi$ denotes the distribution over the 32 × 32 image tokens generated by the dVAE encoder given the RGB image $x$ ;（注意論文在這一句有一個注釋：We assume that y is conditionally independent of $x$ given $z$ .，有誰知道這句話的目的是什么嗎？）
$p_\theta$ denotes the distribution over the RGB images generated by the dVAE decoder given the image tokens;
$p_\psi$ denotes the joint distribution over the text and image tokens modeled by the transformer.
其實上面的ELB與VAE的ELB在公式上，長得很相似：

visual codebook,AIGC,AIGC,論文閱讀,人工智能

具體公式的推導可以見：
visual codebook,AIGC,AIGC,論文閱讀,人工智能

整體DALL-E的方法流程圖可見：
visual codebook,AIGC,AIGC,論文閱讀,人工智能

2.1. 第一階段：Learning the visual codebook

訓練dVAE，即最大化關(guān)于 $\phi$ 和 $\theta$ 的ELB，初始化先驗 $\psi$ 為在codebook vectors上的均勻類別分布。
visual codebook,AIGC,AIGC,論文閱讀,人工智能

2.1.1 回顧VQ-VAE

這兒，我們先簡單回顧一下VQ-VAE的相關(guān)內(nèi)容：

visual codebook,AIGC,AIGC,論文閱讀,人工智能

VQ-VAE是DALL-E的前身，不同于VAE，VQ-VAE將圖像編碼成離散的token，具體的做法是定義了一個 $K ? d$ 的code book或者叫做embedding space，其是可以學習的，類似一個nn.embedding層，然后對于一個輸入的圖像，經(jīng)過encder得到 $z_e$ ，它的維度是 $m ? n ? d$ ，然后將 $m ? n$ 個網(wǎng)格的特征，分別與code book里面的K個特征算一個距離，找到最近鄰，其code book中的index當作對應位置的離散編碼 $z$ ，并填充對應的d維特征，形成 $z_q$ ，當作decoder的輸入，并重建得到圖像。其為了避免最近鄰查找中argmax帶來的不可導問題，引入了直通估計來設(shè)計其損失函數(shù)：
visual codebook,AIGC,AIGC,論文閱讀,人工智能
在DALL-E里面，這兒的VQ-VAE也被叫做dVAE，其相關(guān)的配置如下


image_size	256 $\times$ 256
codebook_size	8192
encoding image size	32 $×32 \times 32$
$\beta$ （上面KL散度的權(quán)重）	6.6

如上所說，訓練dVAE就是在最大化 $\phi$ 和 $\theta$ 的ELB，初始化先驗 $p_{\psi}$ 為在codebook vectors上的均勻類別分布。
目前存在的問題:

$p_{\psi}$ 是離散分布，涉及到不可導的問題
$p_{\theta}$ 分布和像素不匹配的問題

2.1.2 $p_{\psi}$ 是離散分布，不可導的問題 -> gumbel-softmax

首先我們介紹一下什么是gumbel分布

visual codebook,AIGC,AIGC,論文閱讀,人工智能

它的分布函數(shù)是： $F(x;\mu,\beta)=e^{-e^{-(x-\mu)/\beta}}$
采樣: $F^{-1}(\mu)=\mu-\beta\ln(-\ln(\mu)), \mu\sim Uniform(0,1)$
標準分布: $\mu=0,\beta=1$

$F(x;0,1)=e^{-e^(-x)}$
采樣: $x=F^{-1}(\mu)=-\ln(-ln(\mu)), \mu \sim Uniform(0,1)$

gumbel softmax

[1] E. Jang, S. Gu, and B. Poole. Categorical reparameterization with gumbel-softmax. arXiv preprint arXiv:1611.01144, 2016.
針對離散變量采樣過程無法求導這個固有性質(zhì)，上面的文獻[1]提出了連續(xù)且可導的近似采樣替代方案gumbel softmax。

假設(shè)離散變量 $z$ 的值域有k個可能的取值 ${z_1, z_2, ..., z_k}$ ，對應的概率分布向量為 $p=[p_1,p_2,...,p_k]$ ，那么整個采樣的過程就變成了
$z=one_{hot}(argmax_i[g_i + \log p_i])$ ，其中 $g_i$ 是從gumbel(0,1)中獨立同分布采樣得到。然后用連續(xù)可導的計算代替argmax近似得到采樣向量 $y$ 。
$y_i=\frac{e^{(\log(p_i)+g_i)/\tau}}{\sum_{j=1}^k e^{(\log(p_j) + g_j)/\tau}} for\ i = 1,...,k$ 文章來源地址http://www.zghlxwxcb.cn/news/detail-824948.html

到了這里，關(guān)于AIGC之論文筆記DALL-E的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務器費用

使用AIGC工具提升論文閱讀效率
??大家好，我是herosunly。985院校碩士畢業(yè)，現(xiàn)擔任算法研究員一職，熱衷于機器學習算法研究與應用。曾獲得阿里云天池比賽第一名，CCF比賽第二名，科大訊飛比賽第三名。擁有多項發(fā)明專利。對機器學習和深度學習擁有自己獨到的見解。曾經(jīng)輔導過若干個非計算機專業(yè)的
2024年02月08日
瀏覽(23)
AIGC時代高效閱讀論文實操
??大家好，我是herosunly。985院校碩士畢業(yè)，現(xiàn)擔任算法研究員一職，熱衷于機器學習算法研究與應用。曾獲得阿里云天池比賽第一名，CCF比賽第二名，科大訊飛比賽第三名。擁有多項發(fā)明專利。對機器學習和深度學習擁有自己獨到的見解。曾經(jīng)輔導過若干個非計算機專業(yè)的
2024年01月21日
瀏覽(21)
【AIGC】論文閱讀神器 SciSpace 注冊與測試
歡迎關(guān)注【AIGC使用教程】專欄【AIGC使用教程】論文閱讀神器 SciSpace 從注冊到體驗【AIGC使用教程】Microsoft Edge/Bing Chat 注冊使用完全指南【AIGC使用教程】GitHub Copilot 免費注冊及在 VS Code 中的安裝使用【AIGC使用教程】GitHub Copilot 免費注冊及在 PyCharm 中的安裝使用【AIGC使用
2023年04月09日
瀏覽(17)
【AIGC使用教程】論文閱讀神器 SciSpace 從注冊到體驗
歡迎關(guān)注【AIGC使用教程】專欄【AIGC使用教程】論文閱讀神器 SciSpace 從注冊到體驗【AIGC使用教程】Microsoft Edge/Bing Chat 注冊使用完全指南【AIGC使用教程】GitHub Copilot 免費注冊及在 VS Code 中的安裝使用【AIGC使用教程】GitHub Copilot 免費注冊及在 PyCharm 中的安裝使用【AIGC使用
2024年02月05日
瀏覽(19)
論文閱讀：Vary論文閱讀筆記
論文：Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models Paper | Github | Demo 許久不精讀論文了，內(nèi)心一直想找個專門的時間來細細品讀自己感興趣的論文?，F(xiàn)在想來，無異于是自己騙自己了，因為根本就不存在那個專門的時間。所以改變最好的時候就是現(xiàn)在。因為自己一
2024年01月19日
瀏覽(23)
論文閱讀：Vary-toy論文閱讀筆記
論文：Small Language Model Meets with Reinforced Vision Vocabulary Paper | Github | Demo 說來也巧，之前在寫論文閱讀：Vary論文閱讀筆記文章時，正好看到了Vary-toy剛剛發(fā)布。這次，咱也是站在了時代的前沿，這不趕緊先睹為快。讓我看看相比于Vary，Vary-toy做了哪些改進？從整體結(jié)構(gòu)來看，仍
2024年01月25日
瀏覽(24)
[論文閱讀筆記18] DiffusionDet論文筆記與代碼解讀
擴散模型近期在圖像生成領(lǐng)域很火, 沒想到很快就被用在了檢測上. 打算對這篇論文做一個筆記. 論文地址: 論文代碼: 代碼首先介紹什么是擴散模型. 我們考慮生成任務, 即encoder-decoder形式的模型, encoder提取輸入的抽象信息, 并嘗試在decoder中恢復出來. 擴散模型就是這一類中的
2023年04月08日
瀏覽(26)
論文閱讀：Segment Anything之閱讀筆記
引言論文：Segment Anything是Meta出的圖像語義分割的算法。這個算法因其強大的zero-shot泛化能力讓人驚艷，這不抽空拿來學習了一下。該算法的代碼寫得很清楚、簡潔和規(guī)范，讀來讓人賞心悅目。推薦去看源碼，很有意思。本篇文章，將以問答形式來解讀閱讀過程中遇到的困
2024年02月13日
瀏覽(28)
3D卷積網(wǎng)絡(luò)論文閱讀筆記
數(shù)據(jù)集 BraTS 2020 數(shù)據(jù)增強方法 ? Flipping翻轉(zhuǎn): 以1/3的概率隨機沿著三個軸之一翻轉(zhuǎn) ? Rotation旋轉(zhuǎn): 從限定范圍（0到 15?或到30?或到60?或到90?）的均勻分布中隨機選擇角度旋轉(zhuǎn) ? Scale縮放: 通過從范圍為±10%或為±20%的均勻分布中隨機選擇的因子，對每個軸進行縮放 ? Br
2023年04月10日
瀏覽(26)
LIME論文閱讀筆記
這是暗圖增強領(lǐng)域一篇經(jīng)典的傳統(tǒng)方法論文，發(fā)表在TIP這個頂刊文章基于的是這樣一個公式： L = R ? T L=Rcdot T L = R ? T 其中， L L L 是暗圖， R R R 是反射分量， T T T 是illumination map，并且對于彩色圖像來說，三通道都共享相同的illumination map。我們可以使用各種方法估計 T
2024年02月09日
瀏覽(27)