2023
Abstract
????????本文展示了一種學(xué)習(xí)高度語義圖像表示的方法,而不依賴于手工制作的數(shù)據(jù)增強(qiáng)。本文介紹了基于圖像的聯(lián)合嵌入預(yù)測架構(gòu) (I-JEPA),這是一種用于從圖像進(jìn)行自監(jiān)督學(xué)習(xí)的非生成方法。 I-JEPA 背后的想法很簡單:從單個上下文塊,預(yù)測同一圖像中各種目標(biāo)塊的表示。引導(dǎo) I-JEPA 生成語義表示的核心設(shè)計選擇是 掩碼策略;具體來說,至關(guān)重要的是 (a) 預(yù)測圖像中的幾個目標(biāo)塊,(b) 對具有足夠大尺度的目標(biāo)塊進(jìn)行采樣(占據(jù)圖像的 15%–20%),以及 (c) 使用足夠信息(空間分布)的上下文塊。根據(jù)經(jīng)驗,當(dāng)與 Vision Transformers 結(jié)合使用時,本文發(fā)現(xiàn) I-JEPA 具有高度可擴(kuò)展性。例如,本文在 ImageNet 上使用 32 個 A100 GPU 在 38 小時內(nèi)訓(xùn)練了 ViT-Huge/16,以在需要不同抽象級別的各種任務(wù)(從線性分類到目標(biāo)計數(shù)和深度預(yù)測)中實現(xiàn)強(qiáng)大的下游性能。
1. Introduction
????????在計算機(jī)視覺中,有兩種常見的圖像自監(jiān)督學(xué)習(xí)方法:基于不變性的方法 [9,16,17,22,33,35,70] 和 生成方法 [7,26,34,55]。
基于不變性的方法:
????????基于不變性的預(yù)訓(xùn)練方法 優(yōu)化編碼器,為同一圖像的兩個或多個視圖生成相似的嵌入 [14、19],圖像視圖通常使用一組手工制作的數(shù)據(jù)增強(qiáng)來構(gòu)建,例如隨機(jī)縮放、裁剪和顏色抖動 [19],等等 [33]。這些預(yù)訓(xùn)練方法可以產(chǎn)生高語義級別的表示 [3、17],但它們也引入了強(qiáng)烈的偏差,這可能對某些下游任務(wù)甚至具有不同數(shù)據(jù)分布的預(yù)訓(xùn)練任務(wù)不利 [1]。通常,不清楚如何為需要不同抽象級別的任務(wù)概括這些偏差。例如,圖像分類和實例分割不需要相同的不變性 [10]。此外,將這些特定于圖像的增強(qiáng)推廣到其他模式(例如音頻)并不簡單。
生成方法:
????????認(rèn)知學(xué)習(xí)理論表明,生物系統(tǒng)中表示學(xué)習(xí)背后的驅(qū)動機(jī)制是 適應(yīng)內(nèi)部模型 以 預(yù)測感官輸入反應(yīng) [29, 57]。這個想法是自監(jiān)督生成方法的核心,它刪除或破壞部分輸入 并 學(xué)習(xí)預(yù)測損壞的內(nèi)容 [8、34、55、64、65、68]。特別是,掩碼去噪方法 通過 在像素或tokens級別 從輸入重建隨機(jī)屏蔽的patches 來學(xué)習(xí)表示。 掩碼的預(yù)訓(xùn)練任務(wù) 比 視圖不變性方法 需要更少的先驗知識,并且很容易泛化到圖像模態(tài)之外 [7]。然而,由此產(chǎn)生的表示通常具有較低的語義級別,并且在現(xiàn)成的評估(例如,線性探測)和 語義分類任務(wù)監(jiān)督有限的遷移設(shè)置中 表現(xiàn)弱于?基于不變性的預(yù)訓(xùn)練 [3]。因此,需要更復(fù)雜的適應(yīng)機(jī)制(例如,端到端微調(diào))來充分利用這些方法的優(yōu)勢。
????????在這項工作中,探索了如何在?不使用通過圖像變換編碼的額外先驗知識的情況下?提高自監(jiān)督表示的語義水平。為此,本文引入了基于圖像的聯(lián)合嵌入預(yù)測架構(gòu)(I-JEPA) [46]。圖 3 提供了該方法的說明。I-JEPA 背后的想法是預(yù)測抽象表示空間中的缺失信息;例如,給定單個上下文塊,預(yù)測同一圖像中各種目標(biāo)塊的表示,其中目標(biāo)表示由學(xué)習(xí)的目標(biāo)編碼器網(wǎng)絡(luò)計算。
????????與 在 像素/token空間 中進(jìn)行預(yù)測的生成方法相比,I-JEPA 利用抽象的預(yù)測目標(biāo),可能會消除不必要的像素級細(xì)節(jié),從而使模型學(xué)習(xí)更多的語義特征。
????????另一個引導(dǎo) I-JEPA 產(chǎn)生語義表示的核心設(shè)計選擇是 提出的多塊掩碼策略。具體來說,本文證明了 使用 信息豐富的(空間分布的)上下文塊 預(yù)測圖像中的幾個目標(biāo)塊(具有足夠大的比例)的重要性。
????????通過廣泛的實證評估,本文證明:
????????? I-JEPA 在?不使用手工的視圖增強(qiáng)?的情況下 學(xué)習(xí)強(qiáng)大的現(xiàn)成的語義表示(參見圖 1)。 I-JEPA 在 ImageNet-1K 線性探測、半監(jiān)督 1% ImageNet-1K 和語義遷移任務(wù)上優(yōu)于像素重建方法,例如 MAE [34]。
????????? I-JEPA 在語義任務(wù)上與視圖不變的預(yù)訓(xùn)練方法相比具有競爭力,并且在目標(biāo)計數(shù)和深度預(yù)測(第 5 節(jié)和第 6 節(jié))等低級視覺任務(wù)上?取得了更好的性能。通過使用具有較少剛性歸納偏差的更簡單模型,I-JEPA 適用于更廣泛的任務(wù)集。
????????? I-JEPA 還具有可擴(kuò)展性和高效性(第 7 節(jié))。在 ImageNet 上預(yù)訓(xùn)練 ViT-H/14 需要大約 2400 個 GPU 小時,比使用 iBOT [74] 預(yù)訓(xùn)練的 ViTB/16 快 50%,比使用 MAE 預(yù)訓(xùn)練的 ViT-L/16 效率高 140%。在表示空間中進(jìn)行預(yù)測 顯著減少了自監(jiān)督預(yù)訓(xùn)練所需的總計算量。
2. Background
????????自監(jiān)督學(xué)習(xí)是一種表示學(xué)習(xí)方法,在這種方法中,系統(tǒng) 學(xué)習(xí)捕捉 其輸入之間的關(guān)系。使用基于能量的模型 (EBM) [47] 的框架可以很容易地描述這個目標(biāo),其中自監(jiān)督的目標(biāo)是 將高能量分配給不兼容的輸入,并將低能量分配給兼容的輸入。許多現(xiàn)有的自監(jiān)督學(xué)習(xí)的生成和非生成方法確實可以在這個框架中使用;參見圖 2。
圖2:自監(jiān)督學(xué)習(xí)的通用架構(gòu),其中系統(tǒng)學(xué)習(xí)捕獲其輸入之間的關(guān)系。目標(biāo)是為不兼容的輸入分配高能量(大標(biāo)度值),并為兼容的輸入分配低能量(低標(biāo)度值)。 (a) 聯(lián)合嵌入架構(gòu)學(xué)習(xí)為兼容的輸入 x、y 輸出相似的嵌入,為不兼容的輸入輸出不同的嵌入。 (b) 生成架構(gòu)學(xué)習(xí)直接從兼容信號 x 重建信號 y,使用以附加(可能是潛在的)變量 z 為條件的解碼器網(wǎng)絡(luò)以促進(jìn)重建。 (c) 聯(lián)合嵌入預(yù)測架構(gòu) 學(xué)習(xí)從兼容信號 x 預(yù)測信號 y 的嵌入,使用以附加(可能是潛在的)變量 z 為條件的預(yù)測網(wǎng)絡(luò)來促進(jìn)預(yù)測。
聯(lián)合嵌入架構(gòu)。(基于不變性的方法,對比方法)
????????可以使用聯(lián)合嵌入架構(gòu) (JEA) 在 EBM 框架中進(jìn)行基于不變性的預(yù)訓(xùn)練;參見圖 2a。聯(lián)合嵌入架構(gòu)學(xué)習(xí)為兼容的輸入 x、y 輸出相似嵌入,為不兼容的輸入輸出不同嵌入。在基于圖像的預(yù)訓(xùn)練環(huán)境中,兼容的 x、y 對通常是通過將手工制作的數(shù)據(jù)增強(qiáng)隨機(jī)應(yīng)用于同一輸入圖像 [19] 來構(gòu)建的。
????????JEA 的主要挑戰(zhàn)是 表征崩潰,其中能量形狀是平坦的(即,無論輸入如何,編碼器都會產(chǎn)生恒定的輸出)。在過去的幾年中,已經(jīng)研究了幾種方法來防止表示崩潰,例如 顯式推開負(fù)樣本嵌入的對比損失 [14,22,35MoCo],最小化嵌入之間的信息冗余的非對比損失 [9, 70 BarlowTwins],以及 最大化平均嵌入熵的基于聚類的方法 [3, 4, 17]。還有一些啟發(fā)式方法利用 x 編碼器和 y 編碼器之間的非對稱架構(gòu)設(shè)計來避免崩潰 [7、22 SimSiam、33 BYOL]。???
Generative Architectures 生成架構(gòu)?
????????用于自監(jiān)督學(xué)習(xí)的 基于重建的方法 也可以使用生成架構(gòu)投射到 EBM 的框架中;參見圖 2b。生成架構(gòu) 學(xué)習(xí)直接從兼容信號 x 重建信號 y,使用以附加(可能是潛在的)變量 z 為條件的解碼器網(wǎng)絡(luò)以促進(jìn)重建。在基于圖像的預(yù)訓(xùn)練上下文中,計算機(jī)視覺中的一種常見方法是 使用掩碼 [8, 36] 生成兼容的 x, y 對,其中 x 是圖像 y 的副本,但其中一些patches被掩碼。然后,條件變量 z 對應(yīng)于一組(可能是可學(xué)習(xí)的)掩碼和位置tokens,它向解碼器指定要重建哪些圖像塊。只要 z 的信息容量比信號 y 低,這些架構(gòu)就不會擔(dān)心表示崩潰。
聯(lián)合嵌入預(yù)測架構(gòu)。
????????如圖 2c 所示,聯(lián)合嵌入預(yù)測架構(gòu) [46] 在概念上類似于生成架構(gòu);然而,一個關(guān)鍵的區(qū)別是損失函數(shù)應(yīng)用于嵌入空間,而不是輸入空間。 JEPA 學(xué)習(xí)從兼容信號 x 預(yù)測信號 y 的嵌入,使用以附加(可能是潛在的)變量 z 為條件的預(yù)測網(wǎng)絡(luò)來促進(jìn)預(yù)測。本文提出的 I-JEPA 在 使用掩碼的圖像上下文中 提供了該架構(gòu)的實例;參見圖 3。與聯(lián)合嵌入架構(gòu)相比,JEPA 不尋求對一組手工制作的數(shù)據(jù)增強(qiáng)不變的表示,而是尋求在以附加信息 z 為條件時?相互預(yù)測的表示。然而,與聯(lián)合嵌入架構(gòu)一樣,表示崩潰也是 JEPA 的一個問題。本文?利用 x 和 y 編碼器之間的非對稱架構(gòu)?來避免 I-JEPA 中的表示崩潰。
3. Method
?????????現(xiàn)在描述提出的基于圖像的聯(lián)合嵌入預(yù)測架構(gòu) (I-JEPA),如圖 3 所示??傮w目標(biāo)如下:給定上下文塊,預(yù)測同一圖像中各種目標(biāo)塊的表示。本文使用 Vision Transformer [27] (ViT) 架構(gòu)作為上下文編碼器、目標(biāo)編碼器和預(yù)測器。 ViT 由一堆變換器層組成,每個變換器層由一個自注意力 [63] 操作和一個全連接的 MLP 組成。本文的編碼器/預(yù)測器架構(gòu)讓人想起生成掩碼自動編碼器 (MAE) [34] 方法。然而,一個關(guān)鍵的區(qū)別是 I-JEPA 方法是非生成的,并且預(yù)測是在表示空間中進(jìn)行的。
Targets.
?????????首先描述我們?nèi)绾卧?I-JEPA 框架中生成目標(biāo):在 I-JEPA 中,目標(biāo)對應(yīng)于圖像塊的表示。給定輸入圖像 y,我們將其轉(zhuǎn)換為 N 個非重疊塊patch的序列,并將其通過目標(biāo)編碼器 ?獲得相應(yīng)的塊級表示 Sy = {Sy1, . . . ,SyN } 其中Syk 是與第 k 個patch關(guān)聯(lián)的表示。為了獲得損失的目標(biāo),我們從目標(biāo)表示 sy 中隨機(jī)抽取 M 個(可能重疊的)塊block。我們用 Bi 表示第 i 個塊對應(yīng)的掩碼,用
?表示 它的塊級表示。通常,我們將 M 設(shè)置為 4,并以 (0.75, 1.5) 范圍內(nèi)的隨機(jī)長寬比和 (0.15, 0.2) 范圍內(nèi)的隨機(jī)比例 對塊進(jìn)行采樣。請注意,目標(biāo)塊(target blocks)是通過掩碼目標(biāo)編碼器的輸出?而不是輸入來獲得的。這種區(qū)別對于確保高語義級別的目標(biāo)表示至關(guān)重要;參見,例如,[7]。
Context.
????????回想一下,I-JEPA 背后的目標(biāo)是從單個上下文塊預(yù)測目標(biāo)塊表示。為了獲得 I-JEPA 中的上下文,我們首先從圖像中采樣單個上下文塊 x,其范圍為 (0.85, 1.0) 和單位縱橫比。我們用 Bx 表示與上下文塊 x 關(guān)聯(lián)的掩碼。由于目標(biāo)塊是獨(dú)立于上下文塊采樣的,因此可能存在明顯的重疊。為了確保有效的預(yù)測任務(wù),我們從上下文塊中刪除任何重疊區(qū)域。圖 4 顯示了實踐中各種上下文和目標(biāo)塊的示例。接下來,掩碼上下文塊 x 通過上下文編碼器 fθ 提供相應(yīng)的patch級表示 。
???????
Prediction.
?????????給定 上下文編碼器的輸出 Sx,我們希望?預(yù)測 M 個目標(biāo)塊表示 Sy(1), . . . , Sy(M) 。為此,對于 對應(yīng)于目標(biāo)掩碼 Bi 的給定目標(biāo)塊 Sy(i),預(yù)測器 gφ(·,·) 將上下文編碼器的輸出 Sx 和 我們希望預(yù)測的每個patch的掩碼tokens 作為輸入,,并輸出 patch級預(yù)測
。掩碼tokens由一個共享的可學(xué)習(xí)向量參數(shù)化,并添加了位置嵌入。由于我們希望對 M 個目標(biāo)塊進(jìn)行預(yù)測,因此我們應(yīng)用預(yù)測器 M 次,每次以對應(yīng)于我們希望預(yù)測的目標(biāo)塊位置的掩碼tokens為條件,并獲得預(yù)測
。
Loss.
?????????損失簡單地是 預(yù)測的patch級表示 與 目標(biāo)patch級表示之間的平均 L2 距離;即,
?
????????預(yù)測器的參數(shù) φ 和上下文編碼器 θ 是通過基于梯度的優(yōu)化學(xué)習(xí)的,而目標(biāo)編碼器的參數(shù) ˉθ 是通過上下文編碼器參數(shù)的指數(shù)移動平均值更新的。事實證明,使用指數(shù)移動平均目標(biāo)編碼器對于使用 Vision Transformers [17,23,74] 訓(xùn)練 JEA 至關(guān)重要,本文發(fā)現(xiàn) I-JEPA 也是如此。
4. Related Work
????????大量工作通過預(yù)測缺失或損壞的感官輸入的值來探索視覺表示學(xué)習(xí)。去噪自動編碼器使用隨機(jī)噪聲作為輸入損壞 [64]。上下文編碼器根據(jù)其周圍環(huán)境 [55] 回歸整個圖像區(qū)域。其他作品將圖像著色作為去噪任務(wù) [44、45、72]。
????????最近在掩碼圖像建模 [8、34、68] 的背景下重新審視了圖像去噪的想法,其中使用 Vision Transformer [27] 來重建缺失的輸入塊。 Masked Autoencoders (MAE) [34] 的工作提出了一種高效的架構(gòu),它只需要編碼器處理可見圖像塊。通過在像素空間中重建缺失的patches,MAE 在對大型標(biāo)記數(shù)據(jù)集 進(jìn)行 端到端微調(diào)時 實現(xiàn)了強(qiáng)大的性能,并表現(xiàn)出良好的縮放特性。其他類似的作品,例如 BEiT [8],預(yù)測標(biāo)記化空間中缺失補(bǔ)丁的價值;具體來說,使用凍結(jié)的離散 VAE 對圖像塊進(jìn)行標(biāo)記,該 VAE 在包含 2.5 億張圖像的數(shù)據(jù)集上進(jìn)行訓(xùn)練 [56]。然而,像素級預(yù)訓(xùn)練已被證明在微調(diào)方面優(yōu)于 BEiT [34]。另一項工作 SimMiM [68] 基于經(jīng)典的梯度直方圖 [25] 特征空間探索重建目標(biāo),并展示了優(yōu)于像素空間重建的一些優(yōu)勢。與那些作品不同的是,本文的表示空間是在訓(xùn)練過程中通過聯(lián)合嵌入預(yù)測架構(gòu)學(xué)習(xí)的。本文的目標(biāo)是學(xué)習(xí)不需要對下游任務(wù)進(jìn)行大量微調(diào)的語義表示。
????????最接近本文工作的是 data2vec [7],它學(xué)習(xí)預(yù)測 通過在線目標(biāo)編碼器計算的缺失patches的表示。 data2vec [7] 方法不依賴于手工增強(qiáng),可以應(yīng)用于多種模式,在視覺、文本和語音方面取得有希望的結(jié)果。然而,本文的實驗表明,data2vec 需要在基于圖像的預(yù)訓(xùn)練上下文中進(jìn)行端到端微調(diào),以便在下游任務(wù)中具有競爭力。
????????本文的方法和 data2vec 之間的主要區(qū)別是 1) 編碼器/預(yù)測器架構(gòu)設(shè)計?和 2) 提出的多塊multi-block掩碼策略。根據(jù)經(jīng)驗,本文證明 這些差異 對于 學(xué)習(xí)視覺中強(qiáng)大的現(xiàn)成表征至關(guān)重要。此外,I-JEPA 只需要通過上下文編碼器 處理可見的patches,并且在計算效率上有顯著提高。與本文的工作一致,data2vecv2 [6] 探索了不同模式下自監(jiān)督表示學(xué)習(xí)的有效架構(gòu)。
????????本文還將 I-JEPA 與基于聯(lián)合嵌入架構(gòu)的各種方法進(jìn)行了比較;例如,DINO [17]、MSN [3] 和 iBOT [74]。這些方法依賴于預(yù)訓(xùn)練期間 手工制作的數(shù)據(jù)增強(qiáng) 來學(xué)習(xí)語義圖像表示。 MSN [3] 的工作在預(yù)訓(xùn)練期間 使用掩碼 作為額外的數(shù)據(jù)增強(qiáng),而 iBOT 將 data2vec 樣式的patch級重建損失 與 DINO 的視圖不變性損失 相結(jié)合。這些方法的共同點是需要處理 每個輸入圖像的多個用戶生成視圖,從而阻礙了可擴(kuò)展性。相比之下,I-JEPA 只需要處理每個圖像的單個視圖。我們發(fā)現(xiàn)使用 I-JEPA 訓(xùn)練的 ViT-Huge/14 比使用 iBOT 訓(xùn)練的 ViT-Small/16 需要更少的計算量。
5. Image Classification
????????為了證明 I-JEPA 在不依賴手工數(shù)據(jù)增強(qiáng)的情況下學(xué)習(xí)高級表示,本文使用線性探測和部分微調(diào)協(xié)議報告了各種圖像分類任務(wù)的結(jié)果。在本節(jié)中,考慮在 ImageNet-1K 數(shù)據(jù)集 [58] 上預(yù)訓(xùn)練的自監(jiān)督模型。預(yù)訓(xùn)練和評估實施細(xì)節(jié)在附錄 A 中進(jìn)行了描述。除非另有明確說明,否則所有 I-JEPA 模型均以 224×224 分辨率進(jìn)行訓(xùn)練。
ImageNet-1K
????????表 1 顯示了通用 ImageNet-1K 線性評估基準(zhǔn)的性能。自監(jiān)督預(yù)訓(xùn)練后,模型權(quán)重被凍結(jié),并使用完整的 ImageNet-1K 訓(xùn)練集在頂部 訓(xùn)練線性分類器。與掩碼自動編碼器 (MAE) [34] 和 data2vec [7] 等流行方法相比,它們在預(yù)訓(xùn)練期間也不依賴于大量手工制作的數(shù)據(jù)增強(qiáng),我們看到 I-JEPA 顯著提高了線性探測性能,同時使用顯著減少計算量(見第 7 節(jié))。此外,I-JEPA 受益于規(guī)模。以 448 分辨率訓(xùn)練的 ViT-H/16 與 iBOT [74] 等視圖不變方法的性能相匹配,無需額外的手工數(shù)據(jù)增強(qiáng)。
少樣本?ImageNet-1K。
????????表 2 顯示了 1% ImageNet 基準(zhǔn)測試的性能。這里的想法是僅使用 1% 的可用 ImageNet 標(biāo)簽來調(diào)整用于 ImageNet 分類的預(yù)訓(xùn)練模型,對應(yīng)于每個類別大約 12 或 13 個圖像。通過微調(diào)或線性探測來調(diào)整模型,具體取決于哪種方法最適合每種方法。 當(dāng)使用類似的編碼器架構(gòu)時,I-JEPA 優(yōu)于 MAE,同時需要更少的預(yù)訓(xùn)練時期。 I-JEPA 使用 ViTH/14 架構(gòu),與使用 data2vec [7] 預(yù)訓(xùn)練的 ViT-L/16 的性能相匹配,同時使用的計算量要少得多(參見第 7 節(jié))。通過?增加圖像輸入分辨率,I-JEPA 優(yōu)于以前的方法,包括在預(yù)訓(xùn)練期間利用額外的手工數(shù)據(jù)增強(qiáng)的聯(lián)合嵌入方法,例如 MSN [3]、DINO [16] 和 iBOT [74]。
遷移學(xué)習(xí)。
????????表 3 顯示了使用線性探測在各種下游圖像分類任務(wù)上的性能。 I-JEPA 明顯優(yōu)于以前不使用增強(qiáng)的方法(MAE 和 data2vec),并?縮小了與在預(yù)訓(xùn)練期間利用手工數(shù)據(jù)增強(qiáng)的最佳基于視圖不變性的方法的差距,甚至在 CIFAR100 和 Place205 上用線性探測超越了流行的 DINO [17]。
6. 局部預(yù)測任務(wù)
????????如第 5 節(jié)所示,I-JEPA 學(xué)習(xí)語義圖像表示,顯著提高以前方法(如 MAE 和 data2vec)的下游圖像分類性能。此外,I-JEPA 受益于規(guī)模,可以縮小差距,甚至超越基于視圖不變性的方法,這些方法利用額外的手工數(shù)據(jù)增強(qiáng)。在本節(jié)中,發(fā)現(xiàn) I-JEPA 還學(xué)習(xí)了局部圖像特征,并在目標(biāo)計數(shù)和深度預(yù)測等低級密集預(yù)測任務(wù)上超越了基于視圖不變性的方法。
????????表 4 顯示了使用線性探測在各種低級任務(wù)上的性能。特別是,在預(yù)訓(xùn)練之后,模型權(quán)重被凍結(jié),并在頂部訓(xùn)練線性模型以在 Clevr 數(shù)據(jù)集 [41] 上執(zhí)行目標(biāo)計數(shù)和深度預(yù)測。與 DINO 和 iBOT 等視圖不變性方法相比,I-JEPA 方法在預(yù)訓(xùn)練期間有效地捕獲了低級圖像特征,并在目標(biāo)計數(shù) (Clevr/Count) 和深度預(yù)測 (Clevr/Dist) 方面優(yōu)于它們)。
7.可擴(kuò)展性
模型效率。
????????與以前的方法相比,I-JEPA 具有高度可擴(kuò)展性。圖 5 顯示了 1% ImageNet-1K 的半監(jiān)督評估隨 GPU 小時數(shù)的變化。 I-JEPA 比以前的方法需要更少的計算,并且在不依賴手工數(shù)據(jù)增強(qiáng)的情況下實現(xiàn)強(qiáng)大的性能。與直接使用像素作為目標(biāo)的基于重建的方法(例如 MAE)相比,I-JEPA 通過在表示空間中計算目標(biāo)引入了額外的開銷(每次迭代的時間大約慢 7%)。然而,由于 I-JEPA 收斂的迭代次數(shù)減少了大約 5 倍,我們在實踐中仍然看到顯著的計算節(jié)省。與基于視圖不變性的方法(例如 iBOT)相比,iBOT 依靠手工制作的數(shù)據(jù)增強(qiáng)來創(chuàng)建和處理每個圖像的多個視圖,IJEPA 的運(yùn)行速度也快得多。特別是,最大的 I-JEPA 模型 (ViT-H/14) 比最小的 iBOT 模型 (ViT-S/16) 需要更少的計算。
縮放數(shù)據(jù)大小。
????????本文還發(fā)現(xiàn) I-JEPA 可以從更大數(shù)據(jù)集的預(yù)訓(xùn)練中獲益。表 5 顯示了在增加預(yù)訓(xùn)練數(shù)據(jù)集的大小時(IN1K 與 IN22K)在語義和低級任務(wù)上的遷移學(xué)習(xí)性能。當(dāng)在更大、更多樣化的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練時,遷移學(xué)習(xí)在這些概念上不同的任務(wù)上的性能會提高。?
縮放模型大小。
????????表 5 還顯示 I-JEPA 在 IN22K 上進(jìn)行預(yù)訓(xùn)練時受益于更大的模型尺寸。與 ViT-H/14 模型相比,預(yù)訓(xùn)練 ViT-G/16 顯著提高了 Place205 和 INat18 等圖像分類任務(wù)的下游性能。 ViT-G/16 模型不會提高低級下游任務(wù)的性能。 ViT-G/16 使用較大的輸入patch大小,這可能不利于局部預(yù)測任務(wù)。
8.預(yù)測可視化
????????I-JEPA 中?預(yù)測器?的作用是 獲取上下文編碼器的輸出,并以位置掩碼tokens為條件,預(yù)測掩碼標(biāo)記指定位置處 目標(biāo)黑色的表示。一個自然的問題是,以位置掩碼標(biāo)記為條件的預(yù)測器 是否 正在學(xué)習(xí) 正確地捕獲目標(biāo)中的位置不確定性。為了定性地研究這個問題,本文將預(yù)測器的輸出可視化。預(yù)訓(xùn)練后,我們凍結(jié)上下文編碼器 和 預(yù)測器權(quán)重,并按照 RCDM 框架 [12] 訓(xùn)練解碼器,將預(yù)測器輸出的平均池化映射回像素空間。圖 6 顯示了各種隨機(jī)種子的解碼器輸出。樣本間共有的特性 表示著?包含在平均池化預(yù)測變量表征中的信息。 I-JEPA 預(yù)測器正確捕獲位置不確定性 并 生成具有正確姿勢的高級對象部分(例如,鳥的背部和汽車的頂部)。樣本之間不同的特性表示著 表征中 未包含的信息。在這種情況下,I-JEPA 預(yù)測器會丟棄精確的低級細(xì)節(jié)以及背景信息。
?9.消融
在表示空間中進(jìn)行預(yù)測。
????????表 7 比較了在像素空間與表示空間中計算損失時 使用線性探測在 1% ImageNet-1K 上的少樣本性能。本文推測 I-JEPA 的一個關(guān)鍵組成部分是?損失完全在表示空間中計算,從而使目標(biāo)編碼器能夠生成抽象的預(yù)測目標(biāo),從而消除不相關(guān)的像素級細(xì)節(jié)。從表 7 可以清楚地看出,在像素空間中進(jìn)行預(yù)測會導(dǎo)致線性探測性能顯著下降。
掩碼策略。
????????在表 8 中,本文在 I-JEPA 預(yù)訓(xùn)練期間 消融了目標(biāo)塊的數(shù)量 以及 所提出的多塊屏蔽策略(如圖 4 所示)中的上下文和目標(biāo)塊的規(guī)模。我們使用具有各種多塊設(shè)置的 I-JEPA 訓(xùn)練 ViT-B/16 300 個時期,并使用線性探測比較 1% ImageNet-1K 基準(zhǔn)測試的性能。簡而言之,本文發(fā)現(xiàn)重要的是預(yù)測幾個相對較大(語義)的目標(biāo)塊,并使用足夠信息(空間分布)的上下文塊。
????????表 6 在與其他掩碼策略進(jìn)行比較時進(jìn)行了類似的消融。本文與光柵化掩碼策略進(jìn)行比較,其中圖像被分成四個大象限,目標(biāo)是使用一個象限作為上下文來預(yù)測其他三個象限。本文還與傳統(tǒng)的塊和隨機(jī)掩碼策略進(jìn)行了比較,這些策略通常用于基于重建的方法。在塊掩碼中,目標(biāo)是單個圖像塊,上下文是圖像的補(bǔ)充。在隨機(jī)掩碼中,目標(biāo)是一組隨機(jī)(可能不連續(xù))的圖像塊,上下文是圖像的補(bǔ)集。
????????請注意,在所有考慮的掩碼策略中,上下文和目標(biāo)塊之間沒有重疊。事實證明,所提出的多塊掩碼策略?對于 I-JEPA 學(xué)習(xí)語義表示至關(guān)重要。即使切換到傳統(tǒng)的塊掩碼,ImageNet 的性能也會降低超過 24% top-1。
10. 結(jié)論
????????本文提出了 I-JEPA,這是一種簡單有效的學(xué)習(xí)語義圖像表示的方法,無需依賴手工制作的數(shù)據(jù)增強(qiáng)。本文表明,通過在表示空間中進(jìn)行預(yù)測,I-JEPA 比像素重建方法收斂得更快,并且可以學(xué)習(xí)高語義級別的表示。與基于視圖不變性的方法相比,I-JEPA 強(qiáng)調(diào)了一種使用聯(lián)合嵌入架構(gòu)學(xué)習(xí)一般表示的途徑,而不依賴于手工制作的視圖增強(qiáng)。?
?文章來源地址http://www.zghlxwxcb.cn/news/detail-493455.html文章來源:http://www.zghlxwxcb.cn/news/detail-493455.html
?
到了這里,關(guān)于【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!