1.介紹
1.1? 核心觀點
當時的所有的重建目標都是關(guān)于低級圖像元素的,低估了高級語義。
【Q】怎么去定義高級和低級語義
1.2 基本流程
VQ-KD編碼器首先根據(jù)可學習碼本將輸入圖像轉(zhuǎn)換為離散令牌
然后,解碼器學習重建由教師模型編碼的語義特征,以離散令牌為條件
在訓練VQ-KD之后,其編碼器被用作BEIT預訓練的語義視覺標記器,其中離散代碼用作監(jiān)督信號。
1.3 核心貢獻
?我們提出了矢量量化的知識提?。╲ector-quantized knowledge distillation),將掩蔽圖像建模從像素級提升到語義級,用于自監(jiān)督表示學習。
?我們引入了一種補丁聚合策略,該策略在給定離散語義令牌的情況下強制執(zhí)行全局結(jié)構(gòu),并提高了學習表示的性能。
2. 方法
該框架使用視覺標記器將每個圖像轉(zhuǎn)換為一組離散的視覺標記。訓練目標是恢復掩蔽的視覺標記,每個視覺標記對應(yīng)于一個圖像補丁。
【Q】使用VQ-KD編碼器有什么好處?
?2.1 訓練視覺分詞器(Visual Tokenizer)
2.1.1?視覺分詞器
分詞器由Vit編碼器和量化器組成。
2.1.2?訓練視覺分詞器的基本流程
- 標記器首先將輸入圖像編碼為矢量。
- 矢量量化器在碼本中查找每個補丁表示hi的最近鄰居。
- 量化視覺標記送入解碼器
- 最大化解碼器輸出和教師指導之間的余弦相似性。
2.1.3 量化過程
設(shè){v1,v2,··,vK}表示碼本嵌入。
這個公式表示了查找每個補丁在codebook中的最近鄰居。
由于量化過程是不可微分的,所以梯度被直接從解碼器輸入復制到編碼器輸出(下圖)
2.1.4 視覺分詞器的訓練目標
最大化解碼器輸出和教師指導之間的余弦相似性。
?2.1.5?提高碼本利用率
為了緩解碼本崩潰(codebook collapse,即只使用了一小部分code)。
- 在被送入解碼器之前被映射回高維空間,因為量化過程會將碼本嵌入空間的維數(shù)減少到32-d
- 使用指數(shù)移動平均用于更新碼本嵌入
2.2 預訓練BEIT v2
- 輸入準備了一個可學習的[CLS]token,最后的編碼向量中的h0表示[CLS]令牌。
- 使用全連接層作為MIM頭和softmax分類器預測掩蔽位置的視覺標記
,其中Wc、bc分別表示MIM頭的權(quán)重和偏置。
- MIM的訓練損失定義為
?????????????????D表示預訓練圖像,M表示掩蔽位置
2.2.1?預訓練全局表示
?
- 預訓練了用于全局圖像表示的[CLS]令牌,為了減輕補丁級預訓練和圖像級表示聚合之間的差異
- 為了預訓練最后一層的[CLS]標記,將最后一層的[CLS]標記與中間第l層的補丁向量連接,送入解碼器中并再次進行掩蔽預測。
- 該令牌在預訓練后被丟棄
3.代碼
3.1 訓練Vector-Quantized Visual Tokenizers
?3.1.1 編碼器
編碼器部分 = base-vit + FFN降維 +?NormEMAVectorQuantizer(量化器)
將作為encoder的vit得到的feature降維到32
?3.1.2 解碼器
編碼器部分 = 一層的vit + FFN?
?3.1.3 損失
損失由兩部分構(gòu)成:①量化器得到的損失 ②余弦相似損失
【todo】量化器?。。?!
3.2 預訓練 beit V2
基本上和beit相近
代碼中有兩種vit:一種就是普通的vit,這個老生常談就不說了,另一種就是論文中增加了cls的VisionTransformerForMaskedImageModelingCLS。(如下圖)
3.2.1 補丁聚合
?正如論文,
較淺的頭部(即1/2層)比較深的頭部(如3層)表現(xiàn)更好,這表明較淺的頭比較深頭部更關(guān)注輸入[CLS]令牌。
取用了第6層(總共12層)的patch和最后一層的cls送入兩層的一個vit結(jié)構(gòu)中,作為全局聚合
?全局聚合部分只取cls文章來源:http://www.zghlxwxcb.cn/news/detail-511107.html
?損失函數(shù)最后就由兩部分組成:①MIM損失②全局cls損失?文章來源地址http://www.zghlxwxcb.cn/news/detail-511107.html
到了這里,關(guān)于【論文筆記】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!