国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文筆記】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

這篇具有很好參考價值的文章主要介紹了【論文筆記】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

【論文筆記】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

1.介紹

1.1? 核心觀點

當時的所有的重建目標都是關(guān)于低級圖像元素的,低估了高級語義。

【Q】怎么去定義高級和低級語義

1.2 基本流程

VQ-KD編碼器首先根據(jù)可學習碼本將輸入圖像轉(zhuǎn)換為離散令牌

然后,解碼器學習重建由教師模型編碼的語義特征,以離散令牌為條件

在訓練VQ-KD之后,其編碼器被用作BEIT預訓練的語義視覺標記器,其中離散代碼用作監(jiān)督信號。

1.3 核心貢獻

?我們提出了矢量量化的知識提?。╲ector-quantized knowledge distillation),將掩蔽圖像建模從像素級提升到語義級,用于自監(jiān)督表示學習。

?我們引入了一種補丁聚合策略,該策略在給定離散語義令牌的情況下強制執(zhí)行全局結(jié)構(gòu),并提高了學習表示的性能。

2. 方法

該框架使用視覺標記器將每個圖像轉(zhuǎn)換為一組離散的視覺標記。訓練目標是恢復掩蔽的視覺標記,每個視覺標記對應(yīng)于一個圖像補丁。

【Q】使用VQ-KD編碼器有什么好處?

【論文筆記】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

?2.1 訓練視覺分詞器(Visual Tokenizer)

2.1.1?視覺分詞器

分詞器由Vit編碼器和量化器組成。

2.1.2?訓練視覺分詞器的基本流程

  1. 標記器首先將輸入圖像編碼為矢量。
  2. 矢量量化器在碼本中查找每個補丁表示hi的最近鄰居。
  3. 量化視覺標記送入解碼器
  4. 最大化解碼器輸出和教師指導之間的余弦相似性。

2.1.3 量化過程

設(shè){v1,v2,··,vK}表示碼本嵌入。

【論文筆記】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

這個公式表示了查找每個補丁在codebook中的最近鄰居。

由于量化過程是不可微分的,所以梯度被直接從解碼器輸入復制到編碼器輸出(下圖)

【論文筆記】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

2.1.4 視覺分詞器的訓練目標

最大化解碼器輸出和教師指導之間的余弦相似性。

【論文筆記】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

?2.1.5?提高碼本利用率

為了緩解碼本崩潰(codebook collapse,即只使用了一小部分code)。

  • 在被送入解碼器之前被映射回高維空間,因為量化過程會將碼本嵌入空間的維數(shù)減少到32-d
  • 使用指數(shù)移動平均用于更新碼本嵌入

2.2 預訓練BEIT v2

  • 輸入準備了一個可學習的[CLS]token,最后的編碼向量中的h0表示[CLS]令牌。
  • 使用全連接層作為MIM頭和softmax分類器預測掩蔽位置的視覺標記【論文筆記】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers,其中Wc、bc分別表示MIM頭的權(quán)重和偏置。
  • MIM的訓練損失定義為

【論文筆記】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

?????????????????D表示預訓練圖像,M表示掩蔽位置

2.2.1?預訓練全局表示

【論文筆記】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

?

  • 預訓練了用于全局圖像表示的[CLS]令牌,為了減輕補丁級預訓練和圖像級表示聚合之間的差異
  • 為了預訓練最后一層的[CLS]標記,將最后一層的[CLS]標記與中間第l層的補丁向量連接,送入解碼器中并再次進行掩蔽預測。
  • 該令牌在預訓練后被丟棄

3.代碼

3.1 訓練Vector-Quantized Visual Tokenizers

【論文筆記】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

?3.1.1 編碼器

編碼器部分 = base-vit + FFN降維 +?NormEMAVectorQuantizer(量化器)

將作為encoder的vit得到的feature降維到32

【論文筆記】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

?3.1.2 解碼器

編碼器部分 = 一層的vit + FFN?

【論文筆記】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

?3.1.3 損失

損失由兩部分構(gòu)成:①量化器得到的損失 ②余弦相似損失

【todo】量化器?。。?!

3.2 預訓練 beit V2

基本上和beit相近

代碼中有兩種vit:一種就是普通的vit,這個老生常談就不說了,另一種就是論文中增加了cls的VisionTransformerForMaskedImageModelingCLS。(如下圖)

【論文筆記】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

3.2.1 補丁聚合

?正如論文,

較淺的頭部(即1/2層)比較深的頭部(如3層)表現(xiàn)更好,這表明較淺的頭比較深頭部更關(guān)注輸入[CLS]令牌。

取用了第6層(總共12層)的patch和最后一層的cls送入兩層的一個vit結(jié)構(gòu)中,作為全局聚合

【論文筆記】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

?全局聚合部分只取cls【論文筆記】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

?損失函數(shù)最后就由兩部分組成:①MIM損失②全局cls損失?文章來源地址http://www.zghlxwxcb.cn/news/detail-511107.html

到了這里,關(guān)于【論文筆記】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 《Masked Image Training for Generalizable Deep Image Denoising》——CVPR23論文閱讀筆記

    《Masked Image Training for Generalizable Deep Image Denoising》——CVPR23論文閱讀筆記

    Project page: https://github.com/haoyuc/MaskedDenoising 前提:在捕獲和存儲圖像時,設(shè)備不可避免地會引入噪聲。減少這種噪聲是一項關(guān)鍵任務(wù),稱為圖像去噪。深度學習已經(jīng)成為圖像去噪的事實方法,尤其是隨著基于Transformer的模型的出現(xiàn),這些模型在各種圖像任務(wù)上都取得了顯著的最

    2024年03月15日
    瀏覽(92)
  • 【論文筆記】Mamba: Linear-Time Sequence Modeling with Selective State Spaces

    【論文筆記】Mamba: Linear-Time Sequence Modeling with Selective State Spaces

    原文鏈接:https://arxiv.org/abs/2312.00752 基石模型(FM)的主干網(wǎng)絡(luò)通常是序列模型,處理任意的輸入序列。但現(xiàn)代FM主要基于Transformer這一序列模型,及其核心的注意力。但是,自注意力僅能在上下文窗口中密集地傳遞信息,而無法建模窗口外部的數(shù)據(jù);此外,其尺度與窗口長度

    2024年04月26日
    瀏覽(20)
  • 【論文筆記】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

    【論文筆記】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

    聲明 不定期更新自己精度論文,通俗易懂,初級小白也可以理解 涉及范圍:深度學習方向,包括 CV、NLP 論文標題:SINE: SINgle Image Editing with Text-to-Image Diffusion Models 論文鏈接: https://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00

    2024年02月13日
    瀏覽(23)
  • 【論文筆記】FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels

    【論文筆記】FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels

    原文鏈接:https://arxiv.org/abs/2308.03755 完全稀疏檢測器在基于激光雷達的3D目標檢測中有較高的效率和有效性,特別是對于長距離場景而言。 但是,由于點云的稀疏性,完全稀疏檢測器面臨的一大困難是中心特征丟失(CFM),即因為點云往往分布在物體表面,物體的中心特征通

    2024年02月02日
    瀏覽(18)
  • SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models 論文筆記

    SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models 論文筆記

    由于大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)或者Attention機制的超分辨模型大部分都是PSNR主導的,即用PSNR作為損失函數(shù)進行訓練,這會導致超分辨圖像過度平滑的問題,也就是超分辨后的圖像高頻信息不能很好保留,并且超分辨的圖像較為固定,對于超分辨這種不適定問題來說不太合適。

    2024年02月11日
    瀏覽(23)
  • High-Resolution Image Synthesis with Latent Diffusion Models 穩(wěn)定擴散模型論文筆記

    High-Resolution Image Synthesis with Latent Diffusion Models 穩(wěn)定擴散模型論文筆記

    一、研究現(xiàn)狀 ? ? ? ?早期圖像生成方法主要是變分自動編碼器(Variational Autoencoders, VAEs),該算法利用編碼器和解碼器以及變分推斷的方法學習隱空間到真實圖像空間的映射從而完成圖像的生成。其優(yōu)勢是特征空間可遷移并且訓練較為穩(wěn)定,但是不容易進行模型評估,當輸入

    2024年02月20日
    瀏覽(25)
  • 【CVPR 2023 論文解讀】TriDet: Temporal Action Detection with Relative Boundary Modeling

    【CVPR 2023 論文解讀】TriDet: Temporal Action Detection with Relative Boundary Modeling

    發(fā)表時間:CVPR 2023 作者團隊:北航,美團,JD Explore 代碼鏈接: GitHub - dingfengshi/TriDet: [CVPR2023] Code for the paper, TriDet: Temporal Action Detection with Relative Boundary Modeling [CVPR2023] Code for the paper, TriDet: Temporal Action Detection with Relative Boundary Modeling - GitHub - dingfengshi/TriDet: [CVPR2023] Code for t

    2024年02月05日
    瀏覽(26)
  • 【長文閱讀】MAMBA作者博士論文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter2

    【長文閱讀】MAMBA作者博士論文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter2

    Gu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023. 本文是MAMBA作者的博士畢業(yè)論文,為了理清楚MAMBA專門花時間拜讀這篇長達330頁的博士論文,由于知識水平有限,只能盡自己所能概述記錄,并適當補充一些相關(guān)數(shù)學背景,歡迎探討與批評指正。內(nèi)容多,分章節(jié)

    2024年01月20日
    瀏覽(17)
  • 【長文閱讀】MAMBA作者博士論文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter1

    【長文閱讀】MAMBA作者博士論文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter1

    Chapter1 Gu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023. 本文是MAMBA作者的博士畢業(yè)論文,為了理清楚MAMBA專門花時間拜讀這篇長達330頁的博士論文,由于知識水平有限,只能盡自己所能概述記錄,并適當補充一些相關(guān)數(shù)學背景,歡迎探討與批評指正。內(nèi)容多,

    2024年01月19日
    瀏覽(46)
  • 零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記

    零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記

    寫在前面 ??新的一周開始了,沖沖沖~ 最近 Segment Anything 爆火,感覺一些方向可能就此終結(jié)了,比如少樣本、零樣本以及視頻領(lǐng)域,但是新的方向也應(yīng)該會源源不斷涌出,切勿悲觀~ 論文地址:Zero-shot Referring Image Segmentation with Global-Local Context Features 代碼地址:https://github

    2024年02月09日
    瀏覽(31)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包