【計算機視覺|生成對抗】改進(jìn)的生成對抗網(wǎng)絡(luò)（GANs）訓(xùn)練技術(shù)

這篇具有很好參考價值的文章主要介紹了【計算機視覺|生成對抗】改進(jìn)的生成對抗網(wǎng)絡(luò)（GANs）訓(xùn)練技術(shù)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

本系列博文為深度學(xué)習(xí)/計算機視覺論文筆記，轉(zhuǎn)載請注明出處

標(biāo)題：Improved Techniques for Training GANs

鏈接：[1606.03498v1] Improved Techniques for Training GANs (arxiv.org)

摘要

本文介紹了一系列應(yīng)用于生成對抗網(wǎng)絡(luò)（GANs）框架的新的架構(gòu)特性和訓(xùn)練過程。我們專注于GAN的兩個應(yīng)用領(lǐng)域：半監(jiān)督學(xué)習(xí)以及生成人類視覺上逼真的圖像。與大多數(shù)有關(guān)生成模型的研究不同，我們的主要目標(biāo)不是訓(xùn)練一個將測試數(shù)據(jù)分配高概率的模型，我們也不要求模型在不使用任何標(biāo)簽的情況下能夠?qū)W習(xí)得很好。通過我們的新技術(shù)，我們在MNIST、CIFAR-10和SVHN的半監(jiān)督分類任務(wù)中取得了最先進(jìn)的結(jié)果。生成的圖像具有很高的質(zhì)量，經(jīng)過視覺圖靈測試確認(rèn)：我們的模型生成的MNIST樣本與真實數(shù)據(jù)無法區(qū)分，而CIFAR-10樣本的人類錯誤率為21.3%。我們還展示了具有前所未有分辨率的ImageNet樣本，并且表明我們的方法使模型能夠?qū)W習(xí)識別ImageNet類別的特征。

1 引言

生成對抗網(wǎng)絡(luò)（Generative Adversarial Networks，簡稱GANs）是一類基于博弈論的學(xué)習(xí)生成模型的方法[1]。GANs的目標(biāo)是訓(xùn)練一個生成器網(wǎng)絡(luò) $\pmb{θ}^{(G)})$ ，通過將噪聲向量 $z$ 轉(zhuǎn)換為樣本 $\pmb{θ}^{(G)})$ ，從數(shù)據(jù)分布 $p_{data}(x)$ 中生成樣本。生成器 $G$ 的訓(xùn)練信號來自一個判別器網(wǎng)絡(luò) $D (x)$ ，該網(wǎng)絡(luò)被訓(xùn)練用于區(qū)分生成器分布 $p_{model}(x)$ 的樣本和真實數(shù)據(jù)。生成器網(wǎng)絡(luò) $G$ 反過來被訓(xùn)練，以使判別器接受其輸出為真實樣本。

最近GANs的應(yīng)用表明它們可以生成優(yōu)質(zhì)的樣本[2, 3]。然而，訓(xùn)練GANs需要找到一個具有連續(xù)、高維參數(shù)的非凸博弈的納什均衡點。通常使用梯度下降技術(shù)來訓(xùn)練GANs，這些技術(shù)旨在找到代價函數(shù)的較低值，而不是找到博弈的納什均衡。當(dāng)用于尋找納什均衡時，這些算法可能無法收斂[4]。

在本文中，我們引入了幾種技術(shù)，旨在鼓勵GANs博弈的收斂。這些技術(shù)是基于對非收斂問題的啟發(fā)式理解而提出的，它們導(dǎo)致了改進(jìn)的半監(jiān)督學(xué)習(xí)性能和改進(jìn)的樣本生成。我們希望其中一些技術(shù)可以成為未來工作的基礎(chǔ)，提供收斂性的形式保證。

所有代碼和超參數(shù)可在以下鏈接找到：https://github.com/openai/improved_gan

2 相關(guān)工作

近期有幾篇論文專注于改進(jìn)GAN樣本的訓(xùn)練穩(wěn)定性和生成品質(zhì)[2, 3, 5, 6]。我們在本文中借鑒了其中一些技術(shù)。例如，我們在本文中使用了Radford等人提出的“DCGAN”架構(gòu)創(chuàng)新，如下所述。

我們提出的其中一種技術(shù)，特征匹配，在第3.1節(jié)中討論，與使用最大均值差異[7, 8, 9]訓(xùn)練生成器網(wǎng)絡(luò)[10, 11]的方法在精神上類似。我們提出的另一種技術(shù)，小批量特征，部分基于用于批歸一化[12]的思想，而我們提出的虛擬批歸一化則是批歸一化的直接擴展。

本工作的主要目標(biāo)之一是提高生成對抗網(wǎng)絡(luò)在半監(jiān)督學(xué)習(xí)中的效果（通過在額外的無標(biāo)簽示例上學(xué)習(xí)，改善有監(jiān)督任務(wù)，本例中是分類任務(wù)的性能）。與許多深度生成模型一樣，GANs以前已被應(yīng)用于半監(jiān)督學(xué)習(xí)[13, 14]，我們的工作可以看作是這一努力的延續(xù)和改進(jìn)。

3 邁向收斂的GAN訓(xùn)練

訓(xùn)練生成對抗網(wǎng)絡(luò)（GANs）涉及尋找一個兩個玩家的非合作博弈的納什均衡點。每個玩家希望最小化其自己的代價函數(shù)，對于判別器來說是 $J^{(D)}(\pmb{θ}^{(D)}, \pmb{θ}^{(G)})$ ，對于生成器來說是 $J^{(G)}(\pmb{θ}^{(D)}, \pmb{θ}^{(G)})$ 。納什均衡是一個點 $(\pmb{θ}^{(D)}, \pmb{θ}^{(G)})$ ，使得 $J^{(D)}$ 在 $θ(D) \pmb{θ}^{(D)}$ 方面達(dá)到最小值，而 $J^{(G)}$ 在 $θ(G) \pmb{θ}^{(G)}$ 方面達(dá)到最小值。然而，尋找納什均衡是一個非常困難的問題。雖然對于特定情況存在一些算法，但我們不知道有任何適用于GAN博弈的方法，其中代價函數(shù)是非凸的，參數(shù)是連續(xù)的，且參數(shù)空間極高維。

每個玩家的最小化代價函數(shù)即納什均衡的觀念似乎直觀地支持使用傳統(tǒng)的基于梯度的最小化技術(shù)同時最小化每個玩家的代價。然而，減小 $θ(D) \pmb{θ}^{(D)}$ 以減少 $J^{(D)}$ 可能會增加 $J^{(G)}$ ，而減小 $θ(G) \pmb{θ}^{(G)}$ 以減少 $J^{(G)}$ 可能會增加 $J^{(D)}$ 。梯度下降因此在許多博弈中無法收斂。例如，當(dāng)一個玩家相對于 $x$ 最小化 $x y$ ，而另一個玩家相對于 $y$ 最小化 $? x y$ ，梯度下降進(jìn)入一個穩(wěn)定軌道，而不是收斂到期望的均衡點 $x = y = 0$ [15]。因此，以前的GAN訓(xùn)練方法在每個玩家的代價上同時應(yīng)用梯度下降，盡管沒有保證此過程將收斂。我們引入了以下啟發(fā)式的技術(shù)，以鼓勵收斂：

3.1 特征匹配（Feature matching）

特征匹配通過為生成器指定一個新的目標(biāo)來解決GAN的不穩(wěn)定性問題，該目標(biāo)防止生成器在當(dāng)前判別器上過度訓(xùn)練。新的目標(biāo)要求生成器不是直接最大化判別器的輸出，而是要求生成器生成與真實數(shù)據(jù)統(tǒng)計相匹配的數(shù)據(jù)，我們只使用判別器來指定值得匹配的統(tǒng)計數(shù)據(jù)。具體來說，我們訓(xùn)練生成器以匹配判別器中間層的特征的期望值。這是生成器選擇要匹配的統(tǒng)計數(shù)據(jù)的自然選擇，因為通過訓(xùn)練判別器，我們要求它找到最能區(qū)分實際數(shù)據(jù)和當(dāng)前模型生成數(shù)據(jù)的特征。

設(shè) $\pmb{f}(x)$ 表示判別器中間層的激活，我們?yōu)樯善鞫x的新目標(biāo)是： $||\mathbb{E}_{x～p_{data}} \pmb{f}(x) ? \mathbb{E}_{z～p_z(z)} \pmb{f}(G(z))||^2_2$ 。判別器和 $\pmb{f}(x)$ 均以通常的方式訓(xùn)練。與常規(guī)的GAN訓(xùn)練一樣，該目標(biāo)具有一個固定點，其中 $G$ 完全匹配訓(xùn)練數(shù)據(jù)的分布。我們不能保證在實踐中達(dá)到這一固定點，但我們的實證結(jié)果表明，特征匹配在常規(guī)GAN變得不穩(wěn)定的情況下確實是有效的。

3.2 小批量判別（Minibatch discrimination）

GAN的主要失敗模式之一是生成器崩潰到一個參數(shù)設(shè)置，使其始終發(fā)出相同的點。當(dāng)即將崩潰為單一模式時，許多相似點的判別器梯度可能指向相似的方向。因為判別器獨立地處理每個示例，所以其梯度之間沒有協(xié)調(diào)，因此沒有機制告訴生成器的輸出變得更不相似。相反，所有的輸出都趨向于一個判別器當(dāng)前認(rèn)為非常逼真的單一點。崩潰發(fā)生后，判別器學(xué)習(xí)到這個單一點來自生成器，但梯度下降無法分開相同的輸出。判別器的梯度隨后將生成器產(chǎn)生的單一點永遠(yuǎn)推到空間中，算法無法收斂到具有正確熵量的分布。避免這種類型失敗的一個明顯策略是允許判別器查看多個數(shù)據(jù)示例的組合，并進(jìn)行我們稱之為小批量判別。

小批量判別的概念非常普遍：任何判別器模型，它查看多個示例的組合，而不是孤立地查看，都有可能有助于避免生成器的崩潰。實際上，Radford等人通過在判別器中成功應(yīng)用批歸一化的做法[3]從這個角度解釋得很好。然而，到目前為止，我們的實驗僅限于明確旨在識別特別接近的生成器樣本的模型。一個成功的規(guī)范是對建模小批量中示例之間的緊密程度的如下描述：令 $f(x_i) ∈ \mathbb{R}^A$ 表示輸入 $x_i$ 在判別器的某個中間層產(chǎn)生的特征向量。然后，將向量 $f(x_i)$ 與張量 $\mathbb{R}^{A×B×C}$ 相乘，得到矩陣 $M_i ∈ \mathbb{R}^{B×C}$ 。然后，計算結(jié)果矩陣 $M_i$ 的行之間的L1距離，跨越樣本 $i ∈ \{1, 2, . . . , n\}$ ，并應(yīng)用負(fù)指數(shù)函數(shù)（圖1）： $c_b(x_i, x_j) = exp(?||M_{i,b} - M_{j,b}||_{L1}) ∈ \mathbb{R}$ 。小批量層的輸出 $o(x_i)$ 對于樣本 $x_i$ 定義為與所有其他樣本的 $c_b(x_i, x_j)$ 之和：

$\begin{align} o(x_i)_b & = \sum_{j=1}^{n} c_b(x_i, x_j) \in \mathbb{R} \\ o(x_i) & = [o(x_i)_1, o(x_i)_2, ..., o(x_i)_B] \in \mathbb{R}^B \\ o(X) & \in \mathbb{R}^{n \times B} \end{align}$

圖1：圖示了小批量判別的工作原理。來自樣本 $x_i$ 的特征 $f(x_i)$ 通過張量 $T$ 相乘，并計算交叉樣本距離。

接下來，我們將小批量層的輸出 $o(x_i)$ 與作為其輸入的中間特征 $f(x_i)$ 進(jìn)行連接，然后將結(jié)果輸入判別器的下一層。我們分別為來自生成器和訓(xùn)練數(shù)據(jù)的樣本計算這些小批量特征。與以前一樣，判別器仍需要為每個示例輸出一個單一數(shù)字，指示其來自訓(xùn)練數(shù)據(jù)的可能性：判別器的任務(wù)實際上仍然是將單個示例分類為真實數(shù)據(jù)還是生成數(shù)據(jù)，但現(xiàn)在它能夠使用小批量中的其他示例作為輔助信息。小批量判別使我們能夠快速生成視覺吸引人的樣本，在這方面它優(yōu)于特征匹配（第6節(jié)）。有趣的是，然而，特征匹配在使用第5節(jié)中描述的半監(jiān)督學(xué)習(xí)方法來獲得強分類器方面表現(xiàn)更好。

3.3 歷史平均法（Historical averaging）

在應(yīng)用這種技術(shù)時，我們修改每個玩家的代價，包括一個項 $||\pmb{θ} - \frac{1}{t} \sum_{i=1}^{t} \pmb{θ}[i]||^2$ ，其中 $\pmb{θ}[i]$ 是過去時間點 i 處的參數(shù)值。參數(shù)的歷史平均可以以在線方式更新，因此這種學(xué)習(xí)規(guī)則適用于長時間序列。這種方法受到虛擬游戲[16]算法的啟發(fā)，該算法可以在其他類型的游戲中找到均衡點。我們發(fā)現(xiàn)，我們的方法能夠找到低維連續(xù)非凸博弈的均衡點，例如，一個玩家控制 $x$ ，另一個玩家控制 $y$ ，價值函數(shù)為 $(f (x) ? 1) (y ? 1)$ ，其中 $f (x) = x$ （對于 $x < 0$ ）和 $f(x) = x^2$ （其他情況）。對于這些玩具游戲，梯度下降失敗，進(jìn)入不逼近均衡點的擴展軌道。

3.4 單側(cè)標(biāo)簽平滑（One-sided label smoothing）

標(biāo)簽平滑是20世紀(jì)80年代的一項技術(shù)，最近由Szegedy等人[17]獨立重新發(fā)現(xiàn)，它用平滑的值（如0.9或0.1）替換分類器的0和1目標(biāo)，并且最近被證明可以減少神經(jīng)網(wǎng)絡(luò)對對抗性示例的脆弱性[18]。將正分類目標(biāo)替換為α，負(fù)目標(biāo)替換為β，最優(yōu)判別器變?yōu)? $\frac{αp_{data}(x)+βp_{model}(x)}{p_{data}(x)+p_{model}(x)}$ 。分子中的 $p_{model}$ 的存在是有問題的，因為在 $p_{data}$ 接近零且 $p_{model}$ 較大的區(qū)域中，來自 $p_{model}$ 的錯誤樣本沒有動力靠近數(shù)據(jù)。因此，我們只對正標(biāo)簽進(jìn)行平滑處理，將負(fù)標(biāo)簽設(shè)為0。

3.5 虛擬批歸一化（Virtual batch normalization）

批歸一化極大地改善了神經(jīng)網(wǎng)絡(luò)的優(yōu)化，并且已被證明對DCGANs[3]非常有效。然而，它導(dǎo)致神經(jīng)網(wǎng)絡(luò)對于輸入示例 $x$ 的輸出在同一小批量中的其他輸入 $x_0$ 高度相關(guān)。為了避免這個問題，我們引入虛擬批歸一化（VBN），其中每個示例 $x$ 基于對參考示例批次的統(tǒng)計信息進(jìn)行歸一化，這些參考示例在訓(xùn)練開始時被選擇一次并固定下來，以及基于 $x$ 本身。參考批次僅使用其自己的統(tǒng)計數(shù)據(jù)進(jìn)行歸一化。VBN在計算上是昂貴的，因為它需要在兩個數(shù)據(jù)小批次上運行前向傳播，因此我們僅在生成器網(wǎng)絡(luò)中使用它。

4 圖像質(zhì)量評估

生成對抗網(wǎng)絡(luò)缺乏客觀函數(shù)，這使得比較不同模型的性能變得困難。一種直觀的性能指標(biāo)可以通過讓人類標(biāo)注員評估樣本的視覺質(zhì)量來獲得[2]。我們使用Amazon Mechanical Turk（MTurk）自動化這個過程，使用圖中的網(wǎng)絡(luò)界面（位于 http://infinite-chamber-35121.herokuapp.com/cifar-minibatch/），我們用它來要求標(biāo)注員區(qū)分生成數(shù)據(jù)和真實數(shù)據(jù)。我們模型的質(zhì)量評估結(jié)果在第6節(jié)中進(jìn)行了描述。

使用人類標(biāo)注員的一個不足之處是指標(biāo)會根據(jù)任務(wù)的設(shè)置和標(biāo)注員的動機而變化。我們還發(fā)現(xiàn)，當(dāng)我們?yōu)闃?biāo)注員提供有關(guān)他們錯誤的反饋時，結(jié)果會發(fā)生很大變化：通過從這些反饋中學(xué)習(xí)，標(biāo)注員能夠更好地指出生成圖像中的缺陷，從而給出更為悲觀的質(zhì)量評估。圖2的左列呈現(xiàn)了標(biāo)注過程中的一個屏幕，而右列顯示了我們?nèi)绾瓮ㄖ獦?biāo)注員其錯誤。

圖2：提供給標(biāo)注員的網(wǎng)絡(luò)界面。要求標(biāo)注員區(qū)分計算機生成的圖像和真實圖像。

作為人類標(biāo)注員的替代方案，我們提出了一種自動方法來評估樣本，我們發(fā)現(xiàn)這種方法與人類評估很好地相關(guān)：我們將Inception模型¹ [19] 應(yīng)用于每個生成的圖像，以獲得條件標(biāo)簽分布 $p (y ∣ x)$ 。包含有意義對象的圖像應(yīng)該具有低熵的條件標(biāo)簽分布 $p (y ∣ x)$ 。此外，我們期望模型生成各種各樣的圖像，因此邊緣分布 $p (y ∣ x = G (z)) d z$ 應(yīng)該具有高熵。結(jié)合這兩個要求，我們提出的度量是： $exp(E_xKL(p(y|x)||p(y)))$ ，我們對結(jié)果進(jìn)行指數(shù)化，以便更容易比較值。我們的Inception得分與CatGAN [14]中用于訓(xùn)練生成模型的目標(biāo)密切相關(guān)：雖然我們在訓(xùn)練時沒有取得太大成功，但我們發(fā)現(xiàn)它是一個很好的評估指標(biāo)，與人類判斷非常相關(guān)。我們發(fā)現(xiàn)，在評估這個指標(biāo)時，對足夠多的樣本（即50k）進(jìn)行評估是很重要的，因為該指標(biāo)的一部分衡量了多樣性。

5 半監(jiān)督學(xué)習(xí)

考慮一個用于將數(shù)據(jù)點 $x$ 分類為 $K$ 個可能類別之一的標(biāo)準(zhǔn)分類器。這樣的模型將 $x$ 作為輸入，并輸出一個 K 維的對數(shù)向量 { $l_1, . . . , l_K$ }，可以通過應(yīng)用 softmax 轉(zhuǎn)化為類別概率： $p_{\text{model}}(y = j|x) = \frac{exp(l_j)}{\sum_{k=1}^{K} exp(l_k)}$ 。在監(jiān)督學(xué)習(xí)中，這樣的模型通過最小化觀察到的標(biāo)簽與模型預(yù)測分布 $p_{\text{model}}(y|x)$ 之間的交叉熵來進(jìn)行訓(xùn)練。

我們可以通過將來自 GAN 生成器 $G$ 的樣本添加到我們的數(shù)據(jù)集中來使用任何標(biāo)準(zhǔn)分類器進(jìn)行半監(jiān)督學(xué)習(xí)，將它們標(biāo)記為新的 “生成” 類別 $y = K + 1$ ，并相應(yīng)地將我們的分類器輸出維度從 $K$ 增加到 $K + 1$ 。然后我們可以使用 $p_{\text{model}}(y = K + 1 | x)$ 來提供 $x$ 是假的概率，對應(yīng)于原始 GAN 框架中的 $1 ? D (x)$ ?，F(xiàn)在，我們還可以從無標(biāo)簽數(shù)據(jù)中進(jìn)行學(xué)習(xí)，只要我們知道它與 $K$ 類真實數(shù)據(jù)之一相對應(yīng)，通過最大化 $p_{\text{model}}(y \in \{1, . . . , K\}|x)$ 。

假設(shè)我們的數(shù)據(jù)集一半是真實數(shù)據(jù)，一半是生成的數(shù)據(jù)（這是任意的），我們用于訓(xùn)練分類器的損失函數(shù)則變?yōu)椋?/p>

$\begin{align} L & = -\mathbb{E}_{x,y \sim p_{\text{data}}(x,y)} [\log p_{\text{model}}(y|x)] - \mathbb{E}_{x \sim G} [\log p_{\text{model}}(y = K + 1|x)] \\ & = L_{\text{supervised}} + L_{\text{unsupervised}} \end{align}$

，其中

$\begin{align} L_{\text{supervised}} & = -\mathbb{E}_{x,y \sim p_{\text{data}}(x,y)} \log p_{\text{model}}(y|x, y < K + 1) \\ L_{\text{unsupervised}} & = -\{\mathbb{E}_{x \sim p_{\text{data}}(x)} \log[1 - p_{\text{model}}(y = K + 1|x)] + \mathbb{E}_{x \sim G} \log[p_{\text{model}}(y = K + 1|x)]\} \end{align}$
在這里，我們將總的交叉熵?fù)p失分解為標(biāo)準(zhǔn)監(jiān)督損失函數(shù) $L_{\text{supervised}}$ （給定數(shù)據(jù)為真時標(biāo)簽的負(fù)對數(shù)概率）和一個無監(jiān)督損失 $L_{\text{unsupervised}}$ ，事實上，它就是標(biāo)準(zhǔn)的 GAN 博弈值，當(dāng)我們將 $p_{\text{model}}(y = K + 1|x)$ 代入表達(dá)式時，這一點變得明顯：
$L_{\text{unsupervised}} = -\{\mathbb{E}_{x \sim p_{\text{data}}(x)} \log D(x) + \mathbb{E}_{z \sim \text{noise}} \log(1 - D(G(z)))\}$ 。

最小化 $L_{\text{supervised}}$ 和 $L_{\text{unsupervised}}$ 的最佳解是使 $exp[l_j (x)] = c(x)p(y=j, x)$ 對所有 $j < K + 1$ ，以及 $exp[l_{K+1}(x)] = c(x)p_G(x)$ ，其中 $c (x)$ 是一個未確定的縮放函數(shù)。因此，無監(jiān)督損失從 Sutskever 等人 [13] 的角度來看與監(jiān)督損失是一致的，我們可以通過共同最小化這兩個損失函數(shù)來更好地從數(shù)據(jù)中估計這個最優(yōu)解。實際上，當(dāng)對于我們的分類器來說，最小化 $L_{\text{unsupervised}}$ 不是微不足道的時， $L_{\text{unsupervised}}$ 可能會有所幫助，因此我們需要訓(xùn)練 $G$ 來近似數(shù)據(jù)分布。一種做法是通過訓(xùn)練 $G$ 來最小化 GAN 博弈值，使用由我們的分類器定義的判別器 $D$ 。這種方法引入了 $G$ 和我們的分類器之間的相互作用，我們尚未完全理解，但實際上我們發(fā)現(xiàn)，使用特征匹配 GAN 來優(yōu)化 $G$ 在半監(jiān)督學(xué)習(xí)中非常有效，而使用帶有小批次判別的 GAN 來訓(xùn)練 $G$ 則根本不起作用。在這里，我們使用這種方法呈現(xiàn)我們的實證結(jié)果；使用這種方法開發(fā)關(guān)于 $D$ 和 $G$ 之間相互作用的完整理論理解將留待將來的工作。

最后，注意我們的具有 K + 1 輸出的分類器是過度參數(shù)化的：從每個輸出邏輯中減去一個一般函數(shù) f(x)，即將 $l_j (x) \leftarrow l_j (x) - f(x)$ 對所有 $j$ ，不會改變 softmax 的輸出。這意味著我們可以等效地固定 $l_{K+1}(x) = 0$ 對所有 $x$ ，在這種情況下， $L_{\text{supervised}}$ 變?yōu)槲覀冊季哂?K 個類別的分類器的標(biāo)準(zhǔn)監(jiān)督損失函數(shù)，而我們的判別器 $D$ 給出為 $\frac{Z(x)}{Z(x)+1}$ ，其中 $\sum_{k=1}^{K} exp[l_k(x)]$ 。

5.1 標(biāo)簽對圖像質(zhì)量的重要性

除了在半監(jiān)督學(xué)習(xí)方面取得了最先進(jìn)的結(jié)果，上述方法還具有出乎意料的效果，即通過人類標(biāo)注員的評價來改善生成圖像的質(zhì)量。原因似乎是人類視覺系統(tǒng)對能夠幫助推斷圖像所代表的對象類別的圖像統(tǒng)計信息非常敏感，而對于解釋圖像的不太重要的局部統(tǒng)計信息可能相對不太敏感。這得到了我們在第4節(jié)中開發(fā)的Inception得分和人類標(biāo)注員報告的質(zhì)量之間高度相關(guān)性的支持，該得分明確構(gòu)建用于衡量生成圖像的“物體性”。通過讓判別器 $D$ 對圖像中顯示的對象進(jìn)行分類，我們會使其形成一個內(nèi)部表示，強調(diào)與人類強調(diào)的相同特征。這種效果可以理解為一種遷移學(xué)習(xí)的方法，可能可以更廣泛地應(yīng)用。我們將進(jìn)一步探討這種可能性留待未來的工作。

6 實驗

我們在 MNIST、CIFAR-10 和 SVHN 數(shù)據(jù)集上進(jìn)行了半監(jiān)督實驗，并在 MNIST、CIFAR-10、SVHN 和 ImageNet 數(shù)據(jù)集上進(jìn)行了樣本生成實驗。我們提供了復(fù)現(xiàn)大部分實驗的代碼。

6.1 MNIST

MNIST 數(shù)據(jù)集包含 60,000 個標(biāo)記的手寫數(shù)字圖像。我們進(jìn)行半監(jiān)督訓(xùn)練，隨機選擇其中的一小部分，考慮使用 20、50、100 和 200 個帶標(biāo)簽的示例進(jìn)行設(shè)置。結(jié)果在 10 個隨機子集上進(jìn)行平均，每個子集都被選擇為每個類別都有平衡數(shù)量的示例。其余的訓(xùn)練圖像則沒有標(biāo)簽。我們的網(wǎng)絡(luò)各有 5 個隱藏層。我們使用權(quán)重歸一化 [20]，并在判別器的每一層的輸出上添加高斯噪聲。表格 1 總結(jié)了我們的結(jié)果。

表1：在具有置換不變性的 MNIST 上的半監(jiān)督設(shè)置中被錯誤分類的測試示例數(shù)量。結(jié)果在 10 個種子上進(jìn)行平均。

使用特征匹配（第3.1節(jié)）在半監(jiān)督學(xué)習(xí)期間生成的生成器樣本在視覺上看起來不太吸引人（左圖3）。相反，使用小批次判別（第3.2節(jié)），我們可以改善它們的視覺質(zhì)量。在 MTurk 上，標(biāo)注員在52.4％的情況下（共2000個投票）能夠區(qū)分樣本，其中隨機猜測會獲得50％的準(zhǔn)確率。同樣地，我們機構(gòu)的研究人員也沒有找到任何可以用來區(qū)分樣本的痕跡。然而，使用小批次判別的半監(jiān)督學(xué)習(xí)并沒有產(chǎn)生與特征匹配一樣好的分類器。

圖3：（左）在半監(jiān)督訓(xùn)練期間由模型生成的樣本。這些樣本可以明顯地與來自 MNIST 數(shù)據(jù)集的圖像區(qū)分開來。（右）使用小批次判別生成的樣本。這些樣本與數(shù)據(jù)集中的圖像完全無法區(qū)分。

6.2 CIFAR-10

CIFAR-10 是一個小型且經(jīng)過廣泛研究的 32 × 32 的自然圖像數(shù)據(jù)集。我們使用這個數(shù)據(jù)集來研究半監(jiān)督學(xué)習(xí)，以及檢查可以實現(xiàn)的樣本的視覺質(zhì)量。對于我們的 GAN 中的判別器，我們使用了一個有 9 層深度的卷積神經(jīng)網(wǎng)絡(luò)，并加入了 dropout 和權(quán)重歸一化。生成器是一個有 4 層深度的卷積神經(jīng)網(wǎng)絡(luò)，并使用了批歸一化。表 2 總結(jié)了我們在半監(jiān)督學(xué)習(xí)任務(wù)上的結(jié)果。

表2：在半監(jiān)督 CIFAR-10 上的測試錯誤。結(jié)果在數(shù)據(jù)的 10 個拆分上進(jìn)行平均。

當(dāng)我們使用我們最好的 CIFAR-10 模型生成了50％的真實數(shù)據(jù)和50％的虛假數(shù)據(jù)時，MTurk 用戶正確分類了78.7％的圖像。然而，MTurk 用戶可能對 CIFAR-10 圖像不太熟悉或者動機不足；我們自己則能以 >95％的準(zhǔn)確率對圖像進(jìn)行分類。我們通過觀察到，在根據(jù) Inception 得分僅使用前1％的樣本進(jìn)行過濾時，MTurk 的準(zhǔn)確率降至71.4％，從而驗證了上述描述的 Inception 得分。我們進(jìn)行了一系列的消融實驗，以證明我們提出的技術(shù)提高了 Inception 得分，結(jié)果總結(jié)在表3 中。我們還展示了這些消融實驗的圖像 — 在我們看來，Inception 得分與我們對圖像質(zhì)量的主觀判斷相關(guān)良好。數(shù)據(jù)集的樣本達(dá)到了最高值。所有甚至部分崩潰的模型得分都相對較低。我們警告說，Inception 得分應(yīng)該被用作粗略指導(dǎo)來評估通過某些獨立標(biāo)準(zhǔn)進(jìn)行訓(xùn)練的模型；直接優(yōu)化 Inception 得分會導(dǎo)致產(chǎn)生對抗性示例 [25]。

圖4：在半監(jiān)督 CIFAR-10 上使用特征匹配（第3.1節(jié)，左）和小批次判別（第3.2節(jié)，右）訓(xùn)練期間生成的樣本。

6.3 SVHN

對于 SVHN 數(shù)據(jù)集，我們使用了與 CIFAR-10 相同的體系結(jié)構(gòu)和實驗設(shè)置。

圖5：（左）在 SVHN 上的錯誤率。（右）來自 SVHN 生成器的樣本。

表 3：不同模型生成的樣本的 Inception 得分表，用于 50,000 張圖像。得分與人類判斷高度相關(guān)，自然圖像的得分最高。生成坍縮樣本的模型得分相對較低。這個指標(biāo)使我們不必依賴人類評估?！拔覀兊姆椒ā卑ū疚闹忻枋龅乃屑夹g(shù)，但不包括特征匹配和歷史平均。其余的實驗是消融實驗，顯示我們的技術(shù)是有效的?！?VBN+BN” 在生成器中將 VBN 替換為 BN，與 DCGANs 一樣。這會在 CIFAR 上導(dǎo)致樣本質(zhì)量小幅下降。VBN 對 ImageNet 更為重要?！?L+HA” 從訓(xùn)練過程中刪除標(biāo)簽，并添加歷史平均來進(jìn)行補償。HA 使得仍然能夠生成一些可識別的對象。沒有 HA，樣本質(zhì)量會大幅降低（見“-L”）。 “-LS” 移除標(biāo)簽平滑，并導(dǎo)致相對于“我們的方法”明顯的性能下降。“-MBF” 移除小批次特征，并導(dǎo)致非常大的性能下降，甚至比移除標(biāo)簽引起的下降還要大。添加 HA 不能防止這個問題。

6.4 ImageNet

我們在一個規(guī)模前所未有的數(shù)據(jù)集上測試了我們的技術(shù)：來自ILSVRC2012數(shù)據(jù)集的128×128圖像，擁有1,000個類別。據(jù)我們所知，以前沒有任何出版物將生成模型應(yīng)用于具有這么高分辨率和這么多對象類別的數(shù)據(jù)集。由于生成模型傾向于低估分布中的熵，大量的對象類別對GANs特別具有挑戰(zhàn)性。我們廣泛修改了一個公開可用的TensorFlow [26]實現(xiàn)的DCGANs²，使用了多GPU實現(xiàn)來實現(xiàn)高性能。未經(jīng)修改的DCGANs可以學(xué)習(xí)一些基本的圖像統(tǒng)計信息，并生成具有某種自然顏色和紋理的連續(xù)形狀，但不會學(xué)習(xí)任何對象。使用本文中描述的技術(shù)，GANs學(xué)會生成類似動物的對象，但解剖學(xué)不正確。結(jié)果如圖6所示。

圖6：從ImageNet數(shù)據(jù)集生成的樣本。（左）由DCGAN生成的樣本。（右）使用本文提出的技術(shù)生成的樣本。新技術(shù)使得GAN能夠?qū)W習(xí)到動物的可識別特征，如毛皮、眼睛和鼻子，但這些特征未能正確地結(jié)合形成具有現(xiàn)實解剖結(jié)構(gòu)的動物。

7 結(jié)論

生成對抗網(wǎng)絡(luò)是一類有前途的生成模型，但迄今為止，其不穩(wěn)定的訓(xùn)練和缺乏適當(dāng)?shù)脑u估指標(biāo)一直是限制因素。本研究提出了這兩個問題的部分解決方案。我們提出了幾種穩(wěn)定訓(xùn)練的技術(shù)，使我們能夠訓(xùn)練以前無法訓(xùn)練的模型。此外，我們提出的評估指標(biāo)（Inception分?jǐn)?shù)）為我們比較這些模型的質(zhì)量提供了基礎(chǔ)。我們將我們的技術(shù)應(yīng)用于半監(jiān)督學(xué)習(xí)問題，在計算機視覺中的多個不同數(shù)據(jù)集上實現(xiàn)了最先進(jìn)的結(jié)果。本研究的貢獻(xiàn)具有實際意義；我們希望在未來的研究中能夠發(fā)展出更嚴(yán)謹(jǐn)?shù)睦碚摾斫狻?/p>

參考文獻(xiàn)

Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza等。生成對抗網(wǎng)絡(luò)。在NIPS，2014年。
Emily Denton，Soumith Chintala，Arthur Szlam和Rob Fergus。使用Laplacian金字塔的深度生成圖像模型。arXiv預(yù)印本arXiv：1506.05751，2015年。
Alec Radford，Luke Metz和Soumith Chintala。深度卷積生成對抗網(wǎng)絡(luò)中的無監(jiān)督表示學(xué)習(xí)。arXiv預(yù)印本arXiv：1511.06434，2015年。
Ian J Goodfellow。關(guān)于估計生成模型的可分辨性標(biāo)準(zhǔn)。arXiv預(yù)印本arXiv：1412.6515，2014年。
Daniel Jiwoong Im，Chris Dongjoo Kim，Hui Jiang和Roland Memisevic。使用循環(huán)對抗網(wǎng)絡(luò)生成圖像。arXiv預(yù)印本arXiv：1602.05110，2016年。
Donggeun Yoo，Namil Kim，Sunggyun Park，Anthony S Paek和In So Kweon。像素級域轉(zhuǎn)換。arXiv預(yù)印本arXiv：1603.07442，2016年。
Arthur Gretton，Olivier Bousquet，Alex Smola和Bernhard Sch¨olkopf。使用Hilbert-Schmidt范數(shù)測量統(tǒng)計依賴性。在算法學(xué)習(xí)理論，第63-77頁。Springer，2005年。
Kenji Fukumizu，Arthur Gretton，Xiaohai Sun和Bernhard Sch¨olkopf。條件依賴的核測度。在NIPS，第20卷，第489-496頁，2007年。
Alex Smola，Arthur Gretton，Le Song和Bernhard Sch¨olkopf。分布的Hilbert空間嵌入。在算法學(xué)習(xí)理論，第13-31頁。Springer，2007年。
Yujia Li，Kevin Swersky和Richard S. Zemel。生成矩匹配網(wǎng)絡(luò)。CoRR，abs/1502.02761，2015年。
Gintare Karolina Dziugaite，Daniel M Roy和Zoubin Ghahramani。通過最大均值差異優(yōu)化訓(xùn)練生成神經(jīng)網(wǎng)絡(luò)。arXiv預(yù)印本arXiv：1505.03906，2015年。
Sergey Ioffe和Christian Szegedy。通過減少內(nèi)部協(xié)變量偏移來加速深度網(wǎng)絡(luò)訓(xùn)練的批量歸一化。arXiv預(yù)印本arXiv：1502.03167，2015年。
Ilya Sutskever，Rafal Jozefowicz，Karol Gregor等。走向基于原則的無監(jiān)督學(xué)習(xí)。arXiv預(yù)印本arXiv：1511.06440，2015年。
Jost Tobias Springenberg。使用分類生成對抗網(wǎng)絡(luò)的無監(jiān)督和半監(jiān)督學(xué)習(xí)。arXiv預(yù)印本arXiv：1511.06390，2015年。
Ian Goodfellow，Yoshua Bengio和Aaron Courville。深度學(xué)習(xí)。2016年。MIT出版社。
George W Brown。通過虛擬游戲的迭代解決游戲。生產(chǎn)和分配的活動分析，第13卷，第374-376頁，1951年。
C. Szegedy，V. Vanhoucke，S. Ioffe，J. Shlens和Z. Wojna。重新思考計算機視覺的Inception架構(gòu)。ArXiv e-prints，2015年12月。
David Warde-Farley和Ian Goodfellow。深度神經(jīng)網(wǎng)絡(luò)的敵對擾動。在Tamir Hazan，George Papandreou和Daniel Tarlow的編輯下，擾動、優(yōu)化和統(tǒng)計，第11章。2016年。MIT出版社正在籌備中的書。
Christian Szegedy，Vincent Vanhoucke，Sergey Ioffe，Jonathon Shlens和Zbigniew Wojna。重新思考計算機視覺的創(chuàng)始架構(gòu)。arXiv預(yù)印本arXiv：1512.00567，2015年。
Tim Salimans和Diederik P Kingma。權(quán)重歸一化：一種簡單的重新參數(shù)化加速深度神經(jīng)網(wǎng)絡(luò)的方法。arXiv預(yù)印本arXiv：1602.07868，2016年。
Diederik P Kingma，Shakir Mohamed，Danilo Jimenez Rezende和Max Welling。具有深度生成模型的半監(jiān)督學(xué)習(xí)。在神經(jīng)信息處理系統(tǒng)中，2014年。
Takeru Miyato，Shin-ichi Maeda，Masanori Koyama，Ken Nakae和Shin Ishii。通過虛擬對抗性示例進(jìn)行分布平滑。arXiv預(yù)印本arXiv：1507.00677，2015年。
Lars Maal?e，Casper Kaae S?nderby，S?ren Kaae S?nderby和Ole Winther。輔助深度生成模型。arXiv預(yù)印本arXiv：1602.05473，2016年。
Antti Rasmus，Mathias Berglund，Mikko Honkala，Harri Valpola和Tapani Raiko。具有梯田網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)。在神經(jīng)信息處理系統(tǒng)的進(jìn)展中，2015年。
Christian Szegedy，Wojciech Zaremba，Ilya Sutskever等。神經(jīng)網(wǎng)絡(luò)的有趣屬性。arXiv預(yù)印本arXiv：1312.6199，2013年。
Mart′?n Abadi，Ashish Agarwal，Paul Barham等。TensorFlow：在異構(gòu)系統(tǒng)上進(jìn)行大規(guī)模機器學(xué)習(xí)，2015年。軟件可在tensorflow.org上獲得。

References

Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, et al. Generative adversarial nets. In NIPS, 2014.
Emily Denton, Soumith Chintala, Arthur Szlam, and Rob Fergus. Deep generative image models using a Laplacian pyramid of adversarial networks. arXiv preprint arXiv:1506.05751, 2015.
Alec Radford, Luke Metz, and Soumith Chintala. Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434, 2015.
Ian J Goodfellow. On distinguishability criteria for estimating generative models. arXiv preprint arXiv:1412.6515, 2014.
Daniel Jiwoong Im, Chris Dongjoo Kim, Hui Jiang, and Roland Memisevic. Generating images with recurrent adversarial networks. arXiv preprint arXiv:1602.05110, 2016.
Donggeun Yoo, Namil Kim, Sunggyun Park, Anthony S Paek, and In So Kweon. Pixel-level domain transfer. arXiv preprint arXiv:1603.07442, 2016.
Arthur Gretton, Olivier Bousquet, Alex Smola, and Bernhard Sch¨olkopf. Measuring statistical dependence with Hilbert-Schmidt norms. In Algorithmic learning theory, pages 63–77. Springer, 2005.
Kenji Fukumizu, Arthur Gretton, Xiaohai Sun, and Bernhard Sch¨olkopf. Kernel measures of conditional dependence. In NIPS, volume 20, pages 489–496, 2007.
Alex Smola, Arthur Gretton, Le Song, and Bernhard Sch¨olkopf. A Hilbert space embedding for distributions. In Algorithmic learning theory, pages 13–31. Springer, 2007.
Yujia Li, Kevin Swersky, and Richard S. Zemel. Generative moment matching networks. CoRR, abs/1502.02761, 2015.
Gintare Karolina Dziugaite, Daniel M Roy, and Zoubin Ghahramani. Training generative neural networks via maximum mean discrepancy optimization. arXiv preprint arXiv:1505.03906, 2015.
Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015.
Ilya Sutskever, Rafal Jozefowicz, Karol Gregor, et al. Towards principled unsupervised learning. arXiv preprint arXiv:1511.06440, 2015.
Jost Tobias Springenberg. Unsupervised and semi-supervised learning with categorical generative adversarial networks. arXiv preprint arXiv:1511.06390, 2015.
Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning. 2016. MIT Press.
George W Brown. Iterative solution of games by fictitious play. Activity analysis of production and allocation, 13(1):374–376, 1951.
C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna. Rethinking the Inception Architecture for Computer Vision. ArXiv e-prints, December 2015.
David Warde-Farley and Ian Goodfellow. Adversarial perturbations of deep neural networks. In Tamir Hazan, George Papandreou, and Daniel Tarlow, editors, Perturbations, Optimization, and Statistics, chapter 11. 2016. Book in preparation for MIT Press.
Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, and Zbigniew Wojna. Rethinking the inception architecture for computer vision. arXiv preprint arXiv:1512.00567, 2015.
Tim Salimans and Diederik P Kingma. Weight normalization: A simple reparameterization to accelerate training of deep neural networks. arXiv preprint arXiv:1602.07868, 2016.
Diederik P Kingma, Shakir Mohamed, Danilo Jimenez Rezende, and Max Welling. Semi-supervised learning with deep generative models. In Neural Information Processing Systems, 2014.
Takeru Miyato, Shin-ichi Maeda, Masanori Koyama, Ken Nakae, and Shin Ishii. Distributional smoothing by virtual adversarial examples. arXiv preprint arXiv:1507.00677, 2015.
Lars Maal?e, Casper Kaae S?nderby, S?ren Kaae S?nderby, and Ole Winther. Auxiliary deep generative models. arXiv preprint arXiv:1602.05473, 2016.
Antti Rasmus, Mathias Berglund, Mikko Honkala, Harri Valpola, and Tapani Raiko. Semi-supervised learning with ladder networks. In Advances in Neural Information Processing Systems, 2015.
Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, et al. Intriguing properties of neural networks. arXiv preprint arXiv:1312.6199, 2013.
Mart′?n Abadi, Ashish Agarwal, Paul Barham, et al. TensorFlow: Large-scale machine learning on heterogeneous systems, 2015. Software available from tensorflow.org.
perties of neural networks. arXiv preprint arXiv:1312.6199, 2013.
Mart′?n Abadi, Ashish Agarwal, Paul Barham, et al. TensorFlow: Large-scale machine learning on heterogeneous systems, 2015. Software available from tensorflow.org.

我們使用預(yù)訓(xùn)練的Inception模型，下載鏈接為 http://download.tensorflow.org/models/image/imagenet/inception-2015-12-05.tgz。在發(fā)表時，將提供使用該模型計算Inception得分的代碼。 ??
https://github.com/carpedm20/DCGAN-tensorflow ??文章來源地址http://www.zghlxwxcb.cn/news/detail-649106.html

到了這里，關(guān)于【計算機視覺|生成對抗】改進(jìn)的生成對抗網(wǎng)絡(luò)（GANs）訓(xùn)練技術(shù)的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！