国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<meter id="yrc1z"><video id="yrc1z"></video></meter>

<address id="yrc1z"><tr id="yrc1z"></tr></address>

【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

2年前作者：YoooooL_分類：Toy博客閱讀(22)違法舉報

這篇具有很好參考價值的文章主要介紹了【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

2023

Abstract

????????本文展示了一種學(xué)習(xí)高度語義圖像表示的方法，而不依賴于手工制作的數(shù)據(jù)增強(qiáng)。本文介紹了基于圖像的聯(lián)合嵌入預(yù)測架構(gòu) (I-JEPA)，這是一種用于從圖像進(jìn)行自監(jiān)督學(xué)習(xí)的非生成方法。 I-JEPA 背后的想法很簡單：從單個上下文塊，預(yù)測同一圖像中各種目標(biāo)塊的表示。引導(dǎo) I-JEPA 生成語義表示的核心設(shè)計選擇是 掩碼策略；具體來說，至關(guān)重要的是 (a) 預(yù)測圖像中的幾個目標(biāo)塊，(b) 對具有足夠大尺度的目標(biāo)塊進(jìn)行采樣（占據(jù)圖像的 15%–20%），以及 (c) 使用足夠信息（空間分布）的上下文塊。根據(jù)經(jīng)驗，當(dāng)與 Vision Transformers 結(jié)合使用時，本文發(fā)現(xiàn) I-JEPA 具有高度可擴(kuò)展性。例如，本文在 ImageNet 上使用 32 個 A100 GPU 在 38 小時內(nèi)訓(xùn)練了 ViT-Huge/16，以在需要不同抽象級別的各種任務(wù)（從線性分類到目標(biāo)計數(shù)和深度預(yù)測）中實現(xiàn)強(qiáng)大的下游性能。

1. Introduction

????????在計算機(jī)視覺中，有兩種常見的圖像自監(jiān)督學(xué)習(xí)方法：基于不變性的方法 [9,16,17,22,33,35,70] 和 生成方法 [7,26,34,55]。

基于不變性的方法：

????????基于不變性的預(yù)訓(xùn)練方法優(yōu)化編碼器，為同一圖像的兩個或多個視圖生成相似的嵌入 [14、19]，圖像視圖通常使用一組手工制作的數(shù)據(jù)增強(qiáng)來構(gòu)建，例如隨機(jī)縮放、裁剪和顏色抖動 [19]，等等 [33]。這些預(yù)訓(xùn)練方法可以產(chǎn)生高語義級別的表示 [3、17]，但它們也引入了強(qiáng)烈的偏差，這可能對某些下游任務(wù)甚至具有不同數(shù)據(jù)分布的預(yù)訓(xùn)練任務(wù)不利 [1]。通常，不清楚如何為需要不同抽象級別的任務(wù)概括這些偏差。例如，圖像分類和實例分割不需要相同的不變性 [10]。此外，將這些特定于圖像的增強(qiáng)推廣到其他模式（例如音頻）并不簡單。

生成方法：

????????認(rèn)知學(xué)習(xí)理論表明，生物系統(tǒng)中表示學(xué)習(xí)背后的驅(qū)動機(jī)制是適應(yīng)內(nèi)部模型以預(yù)測感官輸入反應(yīng) [29, 57]。這個想法是自監(jiān)督生成方法的核心，它刪除或破壞部分輸入并學(xué)習(xí)預(yù)測損壞的內(nèi)容 [8、34、55、64、65、68]。特別是，掩碼去噪方法通過在像素或tokens級別從輸入重建隨機(jī)屏蔽的patches 來學(xué)習(xí)表示。 掩碼的預(yù)訓(xùn)練任務(wù) 比視圖不變性方法需要更少的先驗知識，并且很容易泛化到圖像模態(tài)之外 [7]。然而，由此產(chǎn)生的表示通常具有較低的語義級別，并且在現(xiàn)成的評估（例如，線性探測）和語義分類任務(wù)監(jiān)督有限的遷移設(shè)置中 表現(xiàn)弱于?基于不變性的預(yù)訓(xùn)練 [3]。因此，需要更復(fù)雜的適應(yīng)機(jī)制（例如，端到端微調(diào)）來充分利用這些方法的優(yōu)勢。

????????在這項工作中，探索了如何在?不使用通過圖像變換編碼的額外先驗知識的情況下?提高自監(jiān)督表示的語義水平。為此，本文引入了基于圖像的聯(lián)合嵌入預(yù)測架構(gòu)(I-JEPA) [46]。圖 3 提供了該方法的說明。I-JEPA 背后的想法是預(yù)測抽象表示空間中的缺失信息；例如，給定單個上下文塊，預(yù)測同一圖像中各種目標(biāo)塊的表示，其中目標(biāo)表示由學(xué)習(xí)的目標(biāo)編碼器網(wǎng)絡(luò)計算。

【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

????????與在像素/token空間中進(jìn)行預(yù)測的生成方法相比，I-JEPA 利用抽象的預(yù)測目標(biāo)，可能會消除不必要的像素級細(xì)節(jié)，從而使模型學(xué)習(xí)更多的語義特征。

????????另一個引導(dǎo) I-JEPA 產(chǎn)生語義表示的核心設(shè)計選擇是提出的多塊掩碼策略。具體來說，本文證明了使用信息豐富的（空間分布的）上下文塊預(yù)測圖像中的幾個目標(biāo)塊（具有足夠大的比例）的重要性。

????????通過廣泛的實證評估，本文證明：

????????? I-JEPA 在?不使用手工的視圖增強(qiáng)?的情況下 學(xué)習(xí)強(qiáng)大的現(xiàn)成的語義表示（參見圖 1）。 I-JEPA 在 ImageNet-1K 線性探測、半監(jiān)督 1% ImageNet-1K 和語義遷移任務(wù)上優(yōu)于像素重建方法，例如 MAE [34]。

【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

????????? I-JEPA 在語義任務(wù)上與視圖不變的預(yù)訓(xùn)練方法相比具有競爭力，并且在目標(biāo)計數(shù)和深度預(yù)測（第 5 節(jié)和第 6 節(jié)）等低級視覺任務(wù)上?取得了更好的性能。通過使用具有較少剛性歸納偏差的更簡單模型，I-JEPA 適用于更廣泛的任務(wù)集。

????????? I-JEPA 還具有可擴(kuò)展性和高效性（第 7 節(jié)）。在 ImageNet 上預(yù)訓(xùn)練 ViT-H/14 需要大約 2400 個 GPU 小時，比使用 iBOT [74] 預(yù)訓(xùn)練的 ViTB/16 快 50%，比使用 MAE 預(yù)訓(xùn)練的 ViT-L/16 效率高 140%。在表示空間中進(jìn)行預(yù)測 顯著減少了自監(jiān)督預(yù)訓(xùn)練所需的總計算量。

2. Background

????????自監(jiān)督學(xué)習(xí)是一種表示學(xué)習(xí)方法，在這種方法中，系統(tǒng) 學(xué)習(xí)捕捉其輸入之間的關(guān)系。使用基于能量的模型 (EBM) [47] 的框架可以很容易地描述這個目標(biāo)，其中自監(jiān)督的目標(biāo)是將高能量分配給不兼容的輸入，并將低能量分配給兼容的輸入。許多現(xiàn)有的自監(jiān)督學(xué)習(xí)的生成和非生成方法確實可以在這個框架中使用；參見圖 2。

【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

圖2：自監(jiān)督學(xué)習(xí)的通用架構(gòu)，其中系統(tǒng)學(xué)習(xí)捕獲其輸入之間的關(guān)系。目標(biāo)是為不兼容的輸入分配高能量（大標(biāo)度值），并為兼容的輸入分配低能量（低標(biāo)度值）。 (a) 聯(lián)合嵌入架構(gòu)學(xué)習(xí)為兼容的輸入 x、y 輸出相似的嵌入，為不兼容的輸入輸出不同的嵌入。 (b) 生成架構(gòu)學(xué)習(xí)直接從兼容信號 x 重建信號 y，使用以附加（可能是潛在的）變量 z 為條件的解碼器網(wǎng)絡(luò)以促進(jìn)重建。 (c) 聯(lián)合嵌入預(yù)測架構(gòu) 學(xué)習(xí)從兼容信號 x 預(yù)測信號 y 的嵌入，使用以附加（可能是潛在的）變量 z 為條件的預(yù)測網(wǎng)絡(luò)來促進(jìn)預(yù)測。

聯(lián)合嵌入架構(gòu)。（基于不變性的方法，對比方法）

????????可以使用聯(lián)合嵌入架構(gòu) (JEA) 在 EBM 框架中進(jìn)行基于不變性的預(yù)訓(xùn)練；參見圖 2a。聯(lián)合嵌入架構(gòu)學(xué)習(xí)為兼容的輸入 x、y 輸出相似嵌入，為不兼容的輸入輸出不同嵌入。在基于圖像的預(yù)訓(xùn)練環(huán)境中，兼容的 x、y 對通常是通過將手工制作的數(shù)據(jù)增強(qiáng)隨機(jī)應(yīng)用于同一輸入圖像 [19] 來構(gòu)建的。

????????JEA 的主要挑戰(zhàn)是表征崩潰，其中能量形狀是平坦的（即，無論輸入如何，編碼器都會產(chǎn)生恒定的輸出）。在過去的幾年中，已經(jīng)研究了幾種方法來防止表示崩潰，例如 顯式推開負(fù)樣本嵌入的對比損失 [14,22,35MoCo]，最小化嵌入之間的信息冗余的非對比損失 [9, 70 BarlowTwins]，以及 最大化平均嵌入熵的基于聚類的方法 [3, 4, 17]。還有一些啟發(fā)式方法利用 x 編碼器和 y 編碼器之間的非對稱架構(gòu)設(shè)計來避免崩潰 [7、22 SimSiam、33 BYOL]。???

Generative Architectures 生成架構(gòu)?

????????用于自監(jiān)督學(xué)習(xí)的 基于重建的方法 也可以使用生成架構(gòu)投射到 EBM 的框架中；參見圖 2b。生成架構(gòu) 學(xué)習(xí)直接從兼容信號 x 重建信號 y，使用以附加（可能是潛在的）變量 z 為條件的解碼器網(wǎng)絡(luò)以促進(jìn)重建。在基于圖像的預(yù)訓(xùn)練上下文中，計算機(jī)視覺中的一種常見方法是使用掩碼 [8, 36] 生成兼容的 x, y 對，其中 x 是圖像 y 的副本，但其中一些patches被掩碼。然后，條件變量 z 對應(yīng)于一組（可能是可學(xué)習(xí)的）掩碼和位置tokens，它向解碼器指定要重建哪些圖像塊。只要 z 的信息容量比信號 y 低，這些架構(gòu)就不會擔(dān)心表示崩潰。

【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

聯(lián)合嵌入預(yù)測架構(gòu)。

????????如圖 2c 所示，聯(lián)合嵌入預(yù)測架構(gòu) [46] 在概念上類似于生成架構(gòu)；然而，一個關(guān)鍵的區(qū)別是損失函數(shù)應(yīng)用于嵌入空間，而不是輸入空間。 JEPA 學(xué)習(xí)從兼容信號 x 預(yù)測信號 y 的嵌入，使用以附加（可能是潛在的）變量 z 為條件的預(yù)測網(wǎng)絡(luò)來促進(jìn)預(yù)測。本文提出的 I-JEPA 在使用掩碼的圖像上下文中提供了該架構(gòu)的實例；參見圖 3。與聯(lián)合嵌入架構(gòu)相比，JEPA 不尋求對一組手工制作的數(shù)據(jù)增強(qiáng)不變的表示，而是尋求在以附加信息 z 為條件時?相互預(yù)測的表示。然而，與聯(lián)合嵌入架構(gòu)一樣，表示崩潰也是 JEPA 的一個問題。本文?利用 x 和 y 編碼器之間的非對稱架構(gòu)?來避免 I-JEPA 中的表示崩潰。

【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

3. Method

?????????現(xiàn)在描述提出的基于圖像的聯(lián)合嵌入預(yù)測架構(gòu) (I-JEPA)，如圖 3 所示?？傮w目標(biāo)如下：給定上下文塊，預(yù)測同一圖像中各種目標(biāo)塊的表示。本文使用 Vision Transformer [27] (ViT) 架構(gòu)作為上下文編碼器、目標(biāo)編碼器和預(yù)測器。 ViT 由一堆變換器層組成，每個變換器層由一個自注意力 [63] 操作和一個全連接的 MLP 組成。本文的編碼器/預(yù)測器架構(gòu)讓人想起生成掩碼自動編碼器 (MAE) [34] 方法。然而，一個關(guān)鍵的區(qū)別是 I-JEPA 方法是非生成的，并且預(yù)測是在表示空間中進(jìn)行的。

【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

Targets.

?????????首先描述我們?nèi)绾卧?I-JEPA 框架中生成目標(biāo)：在 I-JEPA 中，目標(biāo)對應(yīng)于圖像塊的表示。給定輸入圖像 y，我們將其轉(zhuǎn)換為 N 個非重疊塊patch的序列，并將其通過目標(biāo)編碼器【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture ?獲得相應(yīng)的塊級表示 Sy = {Sy1, . . . ,SyN } 其中Syk 是與第 k 個patch關(guān)聯(lián)的表示。為了獲得損失的目標(biāo)，我們從目標(biāo)表示 sy 中隨機(jī)抽取 M 個（可能重疊的）塊block。我們用 Bi 表示第 i 個塊對應(yīng)的掩碼，用【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture ?表示它的塊級表示。通常，我們將 M 設(shè)置為 4，并以 (0.75, 1.5) 范圍內(nèi)的隨機(jī)長寬比和 (0.15, 0.2) 范圍內(nèi)的隨機(jī)比例對塊進(jìn)行采樣。請注意，目標(biāo)塊（target blocks）是通過掩碼目標(biāo)編碼器的輸出?而不是輸入來獲得的。這種區(qū)別對于確保高語義級別的目標(biāo)表示至關(guān)重要；參見，例如，[7]。

Context.

????????回想一下，I-JEPA 背后的目標(biāo)是從單個上下文塊預(yù)測目標(biāo)塊表示。為了獲得 I-JEPA 中的上下文，我們首先從圖像中采樣單個上下文塊 x，其范圍為 (0.85, 1.0) 和單位縱橫比。我們用 Bx 表示與上下文塊 x 關(guān)聯(lián)的掩碼。由于目標(biāo)塊是獨(dú)立于上下文塊采樣的，因此可能存在明顯的重疊。為了確保有效的預(yù)測任務(wù)，我們從上下文塊中刪除任何重疊區(qū)域。圖 4 顯示了實踐中各種上下文和目標(biāo)塊的示例。接下來，掩碼上下文塊 x 通過上下文編碼器 fθ 提供相應(yīng)的patch級表示【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture 。

??????? 【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

Prediction.

?????????給定 上下文編碼器的輸出 Sx，我們希望?預(yù)測 M 個目標(biāo)塊表示 Sy(1), . . . , Sy(M) 。為此，對于對應(yīng)于目標(biāo)掩碼 Bi 的給定目標(biāo)塊 Sy(i)，預(yù)測器 gφ(·,·) 將上下文編碼器的輸出 Sx 和我們希望預(yù)測的每個patch的掩碼tokens 作為輸入，【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture ，并輸出 patch級預(yù)測。掩碼tokens由一個共享的可學(xué)習(xí)向量參數(shù)化，并添加了位置嵌入。由于我們希望對 M 個目標(biāo)塊進(jìn)行預(yù)測，因此我們應(yīng)用預(yù)測器 M 次，每次以對應(yīng)于我們希望預(yù)測的目標(biāo)塊位置的掩碼tokens為條件，并獲得預(yù)測【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture 。

Loss.

?????????損失簡單地是 預(yù)測的patch級表示與目標(biāo)patch級表示之間的平均 L2 距離；即，

? 【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

????????預(yù)測器的參數(shù) φ 和上下文編碼器 θ 是通過基于梯度的優(yōu)化學(xué)習(xí)的，而目標(biāo)編碼器的參數(shù) ˉθ 是通過上下文編碼器參數(shù)的指數(shù)移動平均值更新的。事實證明，使用指數(shù)移動平均目標(biāo)編碼器對于使用 Vision Transformers [17,23,74] 訓(xùn)練 JEA 至關(guān)重要，本文發(fā)現(xiàn) I-JEPA 也是如此。

4. Related Work

????????大量工作通過預(yù)測缺失或損壞的感官輸入的值來探索視覺表示學(xué)習(xí)。去噪自動編碼器使用隨機(jī)噪聲作為輸入損壞 [64]。上下文編碼器根據(jù)其周圍環(huán)境 [55] 回歸整個圖像區(qū)域。其他作品將圖像著色作為去噪任務(wù) [44、45、72]。

????????最近在掩碼圖像建模 [8、34、68] 的背景下重新審視了圖像去噪的想法，其中使用 Vision Transformer [27] 來重建缺失的輸入塊。 Masked Autoencoders (MAE) [34] 的工作提出了一種高效的架構(gòu)，它只需要編碼器處理可見圖像塊。通過在像素空間中重建缺失的patches，MAE 在對大型標(biāo)記數(shù)據(jù)集進(jìn)行端到端微調(diào)時實現(xiàn)了強(qiáng)大的性能，并表現(xiàn)出良好的縮放特性。其他類似的作品，例如 BEiT [8]，預(yù)測標(biāo)記化空間中缺失補(bǔ)丁的價值；具體來說，使用凍結(jié)的離散 VAE 對圖像塊進(jìn)行標(biāo)記，該 VAE 在包含 2.5 億張圖像的數(shù)據(jù)集上進(jìn)行訓(xùn)練 [56]。然而，像素級預(yù)訓(xùn)練已被證明在微調(diào)方面優(yōu)于 BEiT [34]。另一項工作 SimMiM [68] 基于經(jīng)典的梯度直方圖 [25] 特征空間探索重建目標(biāo)，并展示了優(yōu)于像素空間重建的一些優(yōu)勢。與那些作品不同的是，本文的表示空間是在訓(xùn)練過程中通過聯(lián)合嵌入預(yù)測架構(gòu)學(xué)習(xí)的。本文的目標(biāo)是學(xué)習(xí)不需要對下游任務(wù)進(jìn)行大量微調(diào)的語義表示。

????????最接近本文工作的是 data2vec [7]，它學(xué)習(xí)預(yù)測通過在線目標(biāo)編碼器計算的缺失patches的表示。 data2vec [7] 方法不依賴于手工增強(qiáng)，可以應(yīng)用于多種模式，在視覺、文本和語音方面取得有希望的結(jié)果。然而，本文的實驗表明，data2vec 需要在基于圖像的預(yù)訓(xùn)練上下文中進(jìn)行端到端微調(diào)，以便在下游任務(wù)中具有競爭力。

????????本文的方法和 data2vec 之間的主要區(qū)別是 1) 編碼器/預(yù)測器架構(gòu)設(shè)計?和 2) 提出的多塊multi-block掩碼策略。根據(jù)經(jīng)驗，本文證明 這些差異對于學(xué)習(xí)視覺中強(qiáng)大的現(xiàn)成表征至關(guān)重要。此外，I-JEPA 只需要通過上下文編碼器處理可見的patches，并且在計算效率上有顯著提高。與本文的工作一致，data2vecv2 [6] 探索了不同模式下自監(jiān)督表示學(xué)習(xí)的有效架構(gòu)。

????????本文還將 I-JEPA 與基于聯(lián)合嵌入架構(gòu)的各種方法進(jìn)行了比較；例如，DINO [17]、MSN [3] 和 iBOT [74]。這些方法依賴于預(yù)訓(xùn)練期間手工制作的數(shù)據(jù)增強(qiáng) 來學(xué)習(xí)語義圖像表示。 MSN [3] 的工作在預(yù)訓(xùn)練期間使用掩碼作為額外的數(shù)據(jù)增強(qiáng)，而 iBOT 將 data2vec 樣式的patch級重建損失與 DINO 的視圖不變性損失相結(jié)合。這些方法的共同點是需要處理每個輸入圖像的多個用戶生成視圖，從而阻礙了可擴(kuò)展性。相比之下，I-JEPA 只需要處理每個圖像的單個視圖。我們發(fā)現(xiàn)使用 I-JEPA 訓(xùn)練的 ViT-Huge/14 比使用 iBOT 訓(xùn)練的 ViT-Small/16 需要更少的計算量。

5. Image Classification

????????為了證明 I-JEPA 在不依賴手工數(shù)據(jù)增強(qiáng)的情況下學(xué)習(xí)高級表示，本文使用線性探測和部分微調(diào)協(xié)議報告了各種圖像分類任務(wù)的結(jié)果。在本節(jié)中，考慮在 ImageNet-1K 數(shù)據(jù)集 [58] 上預(yù)訓(xùn)練的自監(jiān)督模型。預(yù)訓(xùn)練和評估實施細(xì)節(jié)在附錄 A 中進(jìn)行了描述。除非另有明確說明，否則所有 I-JEPA 模型均以 224×224 分辨率進(jìn)行訓(xùn)練。

ImageNet-1K

????????表 1 顯示了通用 ImageNet-1K 線性評估基準(zhǔn)的性能。自監(jiān)督預(yù)訓(xùn)練后，模型權(quán)重被凍結(jié)，并使用完整的 ImageNet-1K 訓(xùn)練集在頂部訓(xùn)練線性分類器。與掩碼自動編碼器 (MAE) [34] 和 data2vec [7] 等流行方法相比，它們在預(yù)訓(xùn)練期間也不依賴于大量手工制作的數(shù)據(jù)增強(qiáng)，我們看到 I-JEPA 顯著提高了線性探測性能，同時使用顯著減少計算量（見第 7 節(jié)）。此外，I-JEPA 受益于規(guī)模。以 448 分辨率訓(xùn)練的 ViT-H/16 與 iBOT [74] 等視圖不變方法的性能相匹配，無需額外的手工數(shù)據(jù)增強(qiáng)。

【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

少樣本?ImageNet-1K。

????????表 2 顯示了 1% ImageNet 基準(zhǔn)測試的性能。這里的想法是僅使用 1% 的可用 ImageNet 標(biāo)簽來調(diào)整用于 ImageNet 分類的預(yù)訓(xùn)練模型，對應(yīng)于每個類別大約 12 或 13 個圖像。通過微調(diào)或線性探測來調(diào)整模型，具體取決于哪種方法最適合每種方法。當(dāng)使用類似的編碼器架構(gòu)時，I-JEPA 優(yōu)于 MAE，同時需要更少的預(yù)訓(xùn)練時期。 I-JEPA 使用 ViTH/14 架構(gòu)，與使用 data2vec [7] 預(yù)訓(xùn)練的 ViT-L/16 的性能相匹配，同時使用的計算量要少得多（參見第 7 節(jié)）。通過?增加圖像輸入分辨率，I-JEPA 優(yōu)于以前的方法，包括在預(yù)訓(xùn)練期間利用額外的手工數(shù)據(jù)增強(qiáng)的聯(lián)合嵌入方法，例如 MSN [3]、DINO [16] 和 iBOT [74]。

【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

遷移學(xué)習(xí)。

????????表 3 顯示了使用線性探測在各種下游圖像分類任務(wù)上的性能。 I-JEPA 明顯優(yōu)于以前不使用增強(qiáng)的方法（MAE 和 data2vec），并?縮小了與在預(yù)訓(xùn)練期間利用手工數(shù)據(jù)增強(qiáng)的最佳基于視圖不變性的方法的差距，甚至在 CIFAR100 和 Place205 上用線性探測超越了流行的 DINO [17]。

【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

6. 局部預(yù)測任務(wù)

????????如第 5 節(jié)所示，I-JEPA 學(xué)習(xí)語義圖像表示，顯著提高以前方法（如 MAE 和 data2vec）的下游圖像分類性能。此外，I-JEPA 受益于規(guī)模，可以縮小差距，甚至超越基于視圖不變性的方法，這些方法利用額外的手工數(shù)據(jù)增強(qiáng)。在本節(jié)中，發(fā)現(xiàn) I-JEPA 還學(xué)習(xí)了局部圖像特征，并在目標(biāo)計數(shù)和深度預(yù)測等低級密集預(yù)測任務(wù)上超越了基于視圖不變性的方法。

【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

????????表 4 顯示了使用線性探測在各種低級任務(wù)上的性能。特別是，在預(yù)訓(xùn)練之后，模型權(quán)重被凍結(jié)，并在頂部訓(xùn)練線性模型以在 Clevr 數(shù)據(jù)集 [41] 上執(zhí)行目標(biāo)計數(shù)和深度預(yù)測。與 DINO 和 iBOT 等視圖不變性方法相比，I-JEPA 方法在預(yù)訓(xùn)練期間有效地捕獲了低級圖像特征，并在目標(biāo)計數(shù) (Clevr/Count) 和深度預(yù)測 (Clevr/Dist) 方面優(yōu)于它們)。

7.可擴(kuò)展性

模型效率。

????????與以前的方法相比，I-JEPA 具有高度可擴(kuò)展性。圖 5 顯示了 1% ImageNet-1K 的半監(jiān)督評估隨 GPU 小時數(shù)的變化。 I-JEPA 比以前的方法需要更少的計算，并且在不依賴手工數(shù)據(jù)增強(qiáng)的情況下實現(xiàn)強(qiáng)大的性能。與直接使用像素作為目標(biāo)的基于重建的方法（例如 MAE）相比，I-JEPA 通過在表示空間中計算目標(biāo)引入了額外的開銷（每次迭代的時間大約慢 7%）。然而，由于 I-JEPA 收斂的迭代次數(shù)減少了大約 5 倍，我們在實踐中仍然看到顯著的計算節(jié)省。與基于視圖不變性的方法（例如 iBOT）相比，iBOT 依靠手工制作的數(shù)據(jù)增強(qiáng)來創(chuàng)建和處理每個圖像的多個視圖，IJEPA 的運(yùn)行速度也快得多。特別是，最大的 I-JEPA 模型 (ViT-H/14) 比最小的 iBOT 模型 (ViT-S/16) 需要更少的計算。

【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

縮放數(shù)據(jù)大小。

????????本文還發(fā)現(xiàn) I-JEPA 可以從更大數(shù)據(jù)集的預(yù)訓(xùn)練中獲益。表 5 顯示了在增加預(yù)訓(xùn)練數(shù)據(jù)集的大小時（IN1K 與 IN22K）在語義和低級任務(wù)上的遷移學(xué)習(xí)性能。當(dāng)在更大、更多樣化的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練時，遷移學(xué)習(xí)在這些概念上不同的任務(wù)上的性能會提高。?

【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

縮放模型大小。

????????表 5 還顯示 I-JEPA 在 IN22K 上進(jìn)行預(yù)訓(xùn)練時受益于更大的模型尺寸。與 ViT-H/14 模型相比，預(yù)訓(xùn)練 ViT-G/16 顯著提高了 Place205 和 INat18 等圖像分類任務(wù)的下游性能。 ViT-G/16 模型不會提高低級下游任務(wù)的性能。 ViT-G/16 使用較大的輸入patch大小，這可能不利于局部預(yù)測任務(wù)。

8.預(yù)測可視化

????????I-JEPA 中?預(yù)測器?的作用是獲取上下文編碼器的輸出，并以位置掩碼tokens為條件，預(yù)測掩碼標(biāo)記指定位置處目標(biāo)黑色的表示。一個自然的問題是，以位置掩碼標(biāo)記為條件的預(yù)測器 是否正在學(xué)習(xí) 正確地捕獲目標(biāo)中的位置不確定性。為了定性地研究這個問題，本文將預(yù)測器的輸出可視化。預(yù)訓(xùn)練后，我們凍結(jié)上下文編碼器和預(yù)測器權(quán)重，并按照 RCDM 框架 [12] 訓(xùn)練解碼器，將預(yù)測器輸出的平均池化映射回像素空間。圖 6 顯示了各種隨機(jī)種子的解碼器輸出。樣本間共有的特性表示著?包含在平均池化預(yù)測變量表征中的信息。 I-JEPA 預(yù)測器正確捕獲位置不確定性并生成具有正確姿勢的高級對象部分（例如，鳥的背部和汽車的頂部）。樣本之間不同的特性表示著表征中未包含的信息。在這種情況下，I-JEPA 預(yù)測器會丟棄精確的低級細(xì)節(jié)以及背景信息。

【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

?9.消融

在表示空間中進(jìn)行預(yù)測。

????????表 7 比較了在像素空間與表示空間中計算損失時使用線性探測在 1% ImageNet-1K 上的少樣本性能。本文推測 I-JEPA 的一個關(guān)鍵組成部分是?損失完全在表示空間中計算，從而使目標(biāo)編碼器能夠生成抽象的預(yù)測目標(biāo)，從而消除不相關(guān)的像素級細(xì)節(jié)。從表 7 可以清楚地看出，在像素空間中進(jìn)行預(yù)測會導(dǎo)致線性探測性能顯著下降。

【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

掩碼策略。

????????在表 8 中，本文在 I-JEPA 預(yù)訓(xùn)練期間消融了目標(biāo)塊的數(shù)量以及所提出的多塊屏蔽策略（如圖 4 所示）中的上下文和目標(biāo)塊的規(guī)模。我們使用具有各種多塊設(shè)置的 I-JEPA 訓(xùn)練 ViT-B/16 300 個時期，并使用線性探測比較 1% ImageNet-1K 基準(zhǔn)測試的性能。簡而言之，本文發(fā)現(xiàn)重要的是預(yù)測幾個相對較大（語義）的目標(biāo)塊，并使用足夠信息（空間分布）的上下文塊。

【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

????????表 6 在與其他掩碼策略進(jìn)行比較時進(jìn)行了類似的消融。本文與光柵化掩碼策略進(jìn)行比較，其中圖像被分成四個大象限，目標(biāo)是使用一個象限作為上下文來預(yù)測其他三個象限。本文還與傳統(tǒng)的塊和隨機(jī)掩碼策略進(jìn)行了比較，這些策略通常用于基于重建的方法。在塊掩碼中，目標(biāo)是單個圖像塊，上下文是圖像的補(bǔ)充。在隨機(jī)掩碼中，目標(biāo)是一組隨機(jī)（可能不連續(xù)）的圖像塊，上下文是圖像的補(bǔ)集。

【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

????????請注意，在所有考慮的掩碼策略中，上下文和目標(biāo)塊之間沒有重疊。事實證明，所提出的多塊掩碼策略?對于 I-JEPA 學(xué)習(xí)語義表示至關(guān)重要。即使切換到傳統(tǒng)的塊掩碼，ImageNet 的性能也會降低超過 24% top-1。

10. 結(jié)論

????????本文提出了 I-JEPA，這是一種簡單有效的學(xué)習(xí)語義圖像表示的方法，無需依賴手工制作的數(shù)據(jù)增強(qiáng)。本文表明，通過在表示空間中進(jìn)行預(yù)測，I-JEPA 比像素重建方法收斂得更快，并且可以學(xué)習(xí)高語義級別的表示。與基于視圖不變性的方法相比，I-JEPA 強(qiáng)調(diào)了一種使用聯(lián)合嵌入架構(gòu)學(xué)習(xí)一般表示的途徑，而不依賴于手工制作的視圖增強(qiáng)。?

?文章來源地址http://www.zghlxwxcb.cn/news/detail-493455.html

?

到了這里，關(guān)于【自監(jiān)督論文閱讀筆記】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【論文閱讀】Digging Into Self-Supervised Monocular Depth Estimation
論文：https://arxiv.org/pdf/1806.01260.pdf 代碼：https://github.com/nianticlabs/monodepth2 A: 這篇論文試圖解決的問題是如何提高僅使用單目圖像進(jìn)行深度估計的性能。具體來說，它關(guān)注的是如何在沒有像素級地面真實深度數(shù)據(jù)的情況下，通過自監(jiān)督學(xué)習(xí)方法訓(xùn)練模型來生成高質(zhì)量的深度圖。
2024年04月17日
瀏覽(25)
論文閱讀：SERE: Exploring Feature Self-relation for Self-supervised Transformer
Self-supervised 學(xué)習(xí)目的是在無人工標(biāo)注的情況下通過自定制的任務(wù)（hand-crafted pretext tasks）學(xué)習(xí)豐富的表示。使用自監(jiān)督學(xué)習(xí) 為卷積網(wǎng)絡(luò)（CNN）學(xué)習(xí)表示已經(jīng)被驗證對視覺任務(wù)有效。作為CNN的一種替代方案，視覺變換器（ViT）具有強(qiáng)大的表示能力，具有空間自注意力和通道
2024年02月09日
瀏覽(27)
【論文閱讀】Self-supervised Image-specific Prototype Exploration for WSSS
一篇CVPR2022上的論文，用于弱監(jiān)督分割 Self-supervised Image-specific Prototype Exploration for Weakly Supervised Semantic Segmentation https://github.com/chenqi1126/SIPE https://openaccess.thecvf.com/content/CVPR2022/papers/Chen_Self-Supervised_Image-Specific_Prototype_Exploration_for_Weakly_Supervised_Semantic_Segmentation_CVPR_2022_paper.pdf 現(xiàn)
2024年02月11日
瀏覽(18)
MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask 論文閱讀
題目：MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask 作者：Weihao Xuan, Ruijie Ren, Siyuan Wu, Changhao Chen 時間：2022 來源： IEEE/SICE International Symposium on System Integration (SII) 深度學(xué)習(xí)的最新進(jìn)展使移動機(jī)器人能夠以自我監(jiān)督的方式聯(lián)合學(xué)習(xí)自我運(yùn)動和深度圖。然而，現(xiàn)有的方
2024年02月09日
瀏覽(21)
論文閱讀：Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data
目錄摘要 Motivation 整體架構(gòu)流程技術(shù)細(xì)節(jié) 雷達(dá)和圖像數(shù)據(jù)的同步小結(jié) 論文地址:? [2203.16258] Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data (arxiv.org) 論文代碼： GitHub - valeoai/SLidR: Official PyTorch implementation of \\\"Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data\\\" ? ?
2024年02月08日
瀏覽(30)
【論文閱讀】OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural Radiance Fields
原文鏈接：https://arxiv.org/abs/2312.09243 3D目標(biāo)檢測任務(wù)受到無限類別和長尾問題的影響。3D占用預(yù)測則不同，其關(guān)注場景的幾何重建，但多數(shù)方法需要從激光雷達(dá)點云獲取的3D監(jiān)督信號。本文提出OccNeRF，一種自監(jiān)督多相機(jī)占用預(yù)測模型。首先使用圖像主干提取2D特征。為節(jié)省空間
2024年02月02日
瀏覽(31)
計算機(jī)視覺 + Self-Supervised Learning 五種算法原理解析
自監(jiān)督學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法，它利用未標(biāo)記的數(shù)據(jù)來訓(xùn)練模型，而無需人工標(biāo)注的標(biāo)簽。相反，自監(jiān)督學(xué)習(xí)通過利用數(shù)據(jù)中的自動生成的標(biāo)簽或任務(wù)來訓(xùn)練模型。現(xiàn)在，讓我使用擬人化的方法來解釋自監(jiān)督學(xué)習(xí)的原理。假設(shè)你是一個學(xué)習(xí)者，而計算機(jī)視覺任務(wù)是你需要完
2024年02月11日
瀏覽(18)
EMP-SSL: TOWARDS SELF-SUPERVISED LEARNING IN ONETRAINING EPOCH
Recently, self-supervised learning (SSL) has achieved tremendous success in learning image representation. Despite the empirical success, most self-supervised learning methods are rather “inefficient” learners, typically taking hundreds of training epochs to fully converge. In this work, we show that the key towards efficient self-supervised learning is
2024年02月15日
瀏覽(19)
論文解讀：SuperPoint: Self-Supervised Interest Point Detection and Description
發(fā)表時間: 2018年項目地址：https://arxiv.org/abs/1712.07629 論文地址：https://github.com/magicleap/SuperPointPretrainedNetwork 本文提出了一種用于訓(xùn)練計算機(jī)視覺中大量多視點幾何問題的興趣點檢測器和描述符的自監(jiān)督框架。與patch-based的神經(jīng)網(wǎng)絡(luò)相比，我們的全卷積模型處理全尺寸的圖像，
2024年02月14日
瀏覽(27)
Video Self-Supervised Pertraining（Video SSL）
Video Self-Supervised learning (SSL) ：Video Model 在大規(guī)模 unabled dataset 上 Pertraining，然后在 labeled dataset 上 Finetuning： Video Pertraining Downstream Evaluation將預(yù)訓(xùn)練的Video Model經(jīng)過Zero-Shot（不再訓(xùn)練）、Fine-tuning（需要再訓(xùn)練）、Linear probing（需要再訓(xùn)練）.通常在以下Task上進(jìn)行測試評估： A
2024年03月14日
瀏覽(18)

<address id="ilv6g"></address>