點進(jìn)去這篇文章的開源地址,才發(fā)現(xiàn)這篇文章和DC DSA居然是一個作者,數(shù)據(jù)濃縮寫了三篇論文,第一篇梯度匹配,第二篇數(shù)據(jù)增強后梯度匹配,第三篇匹配數(shù)據(jù)分布。DC是匹配濃縮數(shù)據(jù)和原始數(shù)據(jù)訓(xùn)練一次后的梯度差,DSA是在DC前加入了一層數(shù)據(jù)增強,DM直接就匹配濃縮數(shù)據(jù)和原始數(shù)據(jù)丟入模型得到的輸出,匹配輸出的分布。
一個github地址包含了三個數(shù)據(jù)濃縮方法的開源代碼。
1. 基于分布匹配的數(shù)據(jù)集濃縮
在降低訓(xùn)練成本方面,最近一個很有前途的方向是數(shù)據(jù)集凝聚,其目的是在保留原始信息的情況下,用一個小得多的學(xué)習(xí)合成集取代原來的大訓(xùn)練集。
雖然在小集合的壓縮圖像上訓(xùn)練深度模型可以非??欤捎趶?fù)雜的雙層優(yōu)化和二階導(dǎo)數(shù)計算,它們的合成仍然是計算昂貴的(DD,DC,DSA)。
在本工作中,我們提出了一種簡單而有效的方法,通過匹配合成圖像和原始訓(xùn)練圖像在多個采樣嵌入空間的特征分布來合成壓縮圖像。我們的方法顯著降低了合成成本,同時實現(xiàn)了相當(dāng)或更好的性能。
2. 方法
2.1 數(shù)據(jù)濃縮的問題:
現(xiàn)有的方法包括DD,DC和DSA等,他們的弊端在于時間復(fù)雜度太高,內(nèi)層需要訓(xùn)練模型并更新濃縮數(shù)據(jù)集,外層還需要適應(yīng)不同的 θ 0 \theta_0 θ0?,實現(xiàn)起來需要三層循環(huán),時間復(fù)雜度高。
2.2 分布匹配的數(shù)據(jù)濃縮
真實數(shù)據(jù)分布記為
P
D
P_{\mathcal{D}}
PD?。
我們將訓(xùn)練數(shù)據(jù)記為
x
∈
?
d
\boldsymbol{x} \in \Re^d
x∈?d ,并且可以被編碼到一個低維空間,通過函數(shù)
ψ
?
:
?
d
→
?
d
′
\psi_{\vartheta}: \Re^d \rightarrow \Re^{d^{\prime}}
ψ??:?d→?d′ ,其中
d
′
?
d
d^{\prime} \ll d
d′?d ,
?
\vartheta
? 是函數(shù)的參數(shù)數(shù)值。 換句話說,每個embedding 函數(shù)
ψ
\psi
ψ可以被視為提供其輸入的部分解釋,而它們的組合則提供完整的解釋。
現(xiàn)在我們可以使用常用的最大平均差異(MMD)來估計真實數(shù)據(jù)分布和合成數(shù)據(jù)分布之間的距離:
sup
?
∥
ψ
?
∥
H
≤
1
(
E
[
ψ
?
(
T
)
]
?
E
[
ψ
?
(
S
)
]
)
\sup _{\left\|\psi_{\vartheta}\right\|_{\mathcal{H}} \leq 1}\left(\mathbb{E}\left[\psi_{\vartheta}(\mathcal{T})\right]-\mathbb{E}\left[\psi_{\vartheta}(\mathcal{S})\right]\right)
∥ψ??∥H?≤1sup?(E[ψ??(T)]?E[ψ??(S)])
由于我們無法獲得真實數(shù)據(jù)分布,因此我們使用 MMD 的經(jīng)驗估計:
E
?
~
P
?
∥
1
∣
T
∣
∑
i
=
1
∣
T
∣
ψ
?
(
x
i
)
?
1
∣
S
∣
∑
j
=
1
∣
S
∣
ψ
?
(
s
j
)
∥
2
\mathbb{E}_{\boldsymbol{\vartheta} \sim P_{\vartheta}}\left\|\frac{1}{|\mathcal{T}|} \sum_{i=1}^{|\mathcal{T}|} \psi_{\boldsymbol{\vartheta}}\left(\boldsymbol{x}_i\right)-\frac{1}{|\mathcal{S}|} \sum_{j=1}^{|\mathcal{S}|} \psi_{\boldsymbol{\vartheta}}\left(\boldsymbol{s}_j\right)\right\|^2
E?~P???
?∣T∣1?i=1∑∣T∣?ψ??(xi?)?∣S∣1?j=1∑∣S∣?ψ??(sj?)
?2
就是在不同參數(shù)取值的embedding函數(shù)下,輸入原始數(shù)據(jù)和濃縮數(shù)據(jù)得到的輸出要盡可能接近,論文里就直接使用了神經(jīng)網(wǎng)絡(luò)的輸出,讓神經(jīng)網(wǎng)絡(luò)的輸出盡可能接近。
因為這篇論文是DSA的后續(xù)作,所以順其自然,沿用了DSA的方法,訓(xùn)練的時候?qū)饪s數(shù)據(jù)和原始數(shù)據(jù)都進(jìn)行了相同的數(shù)據(jù)增強。
min
?
S
E
ω
~
P
?
ω
~
Ω
∥
1
∣
T
∣
∑
i
=
1
∣
T
∣
ψ
?
(
A
(
x
i
,
ω
)
)
?
1
∣
S
∣
∑
j
=
1
∣
S
∣
ψ
?
(
A
(
s
j
,
ω
)
)
∥
2
\min _{\mathcal{S}} \mathbb{E}_{\substack{\boldsymbol{\omega} \sim P_{\boldsymbol{\vartheta}} \\ \omega \sim \Omega}}\left\|\frac{1}{|\mathcal{T}|} \sum_{i=1}^{|\mathcal{T}|} \psi_{\boldsymbol{\vartheta}}\left(\mathcal{A}\left(\boldsymbol{x}_i, \omega\right)\right)-\frac{1}{|\mathcal{S}|} \sum_{j=1}^{|\mathcal{S}|} \psi_{\boldsymbol{\vartheta}}\left(\mathcal{A}\left(\boldsymbol{s}_j, \omega\right)\right)\right\|^2
Smin?Eω~P??ω~Ω??
?∣T∣1?i=1∑∣T∣?ψ??(A(xi?,ω))?∣S∣1?j=1∑∣S∣?ψ??(A(sj?,ω))
?2
A
\mathcal{A}
A就是對應(yīng)的數(shù)據(jù)增強操作,
ω
\omega
ω是對應(yīng)數(shù)據(jù)增強操作的參數(shù)。
2.3 訓(xùn)練步驟
訓(xùn)練K-1步,每一步都選定一個embedding函數(shù)的參數(shù),不斷地訓(xùn)練并修改S使得S輸出盡可能接近原始數(shù)據(jù)集T。(這個embedding函數(shù)就是一個具體的神經(jīng)網(wǎng)絡(luò))
3. 結(jié)果
由于此方法計算不需要計算梯度,只需要正向傳播embedding網(wǎng)絡(luò),得到輸出之后反向傳播濃縮數(shù)據(jù)集S即可,因此可以壓縮到更多數(shù)量的圖片上,并且第一次在TinyImageNet這種大數(shù)據(jù)集上進(jìn)行壓縮。文章來源:http://www.zghlxwxcb.cn/news/detail-718134.html
比起DC和DSA,DM得到的數(shù)據(jù)分布更接近原始數(shù)據(jù)分布。文章來源地址http://www.zghlxwxcb.cn/news/detail-718134.html
到了這里,關(guān)于《論文閱讀:Dataset Condensation with Distribution Matching》的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!