国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記

這篇具有很好參考價值的文章主要介紹了零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。


寫在前面

??新的一周開始了,沖沖沖~

  • 最近 Segment Anything 爆火,感覺一些方向可能就此終結了,比如少樣本、零樣本以及視頻領域,但是新的方向也應該會源源不斷涌出,切勿悲觀~
  • 論文地址:Zero-shot Referring Image Segmentation with Global-Local Context Features
  • 代碼地址:https://github.com/Seonghoon-Yu/Zero-shot-RIS
  • 收錄于:CVPR 2023

一、Abstract

??首先給出參考圖像分割 Referring Image Segmentation (RIS) 的定義,指出數(shù)據收集的困難。于是本文通過 CLIP 模型提出零樣本的 RIS。建立 mask 引導的視覺編碼器,用于捕捉全局和局部的上下文信息。利用離線 mask 生成技術得到輸入圖像中每個實例的 mask。引入一個全局-局部文本編碼器編碼整個句子的語義和目標名詞短語的局部特征。實驗表明效果很好甚至超過一些弱監(jiān)督 RIS 方法。

二、引言

??引出 CLIP,點明零樣本能力強,但不能直接用于稠密預測任務,如目標檢測和實例分割。有一些任務嘗試微調,但是成本大。
??RIS 同樣需要的大量的標注,于是最近出現(xiàn)了弱監(jiān)督 RIS 方法,但同樣需要高質量的圖像-文本對標注,并且性能很差。于是本文提出從預訓練的 CLIP 中執(zhí)行零樣本遷移到 RIS。
??接下來是對 RIS 任務的難點介紹,以及一些零樣本視覺方法不能直接遷移的原因。

零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記
??本文提出采用預訓練的 CLIP 模型執(zhí)行零樣本 RIS,其中圖像和文本表示采用同一種方法進行全局和局部上下文信息的提取。具體來說:提出 mask 引導的視覺編碼器捕捉圖像中給定 mask 的全局和局部上下文信息,提出全局-局部上下文編碼器捕捉整個句子中的全局上下文信息和名詞短語中的局部上下文信息。

??主要貢獻如下:

  • 第一個提出基于 CLIP 的零樣本 RIS 方法;
  • 提出的視覺和文本編碼器以同一樣式分別整合圖像和文本的全局和局部的上下文信息;
  • 提出的全局-局部上下文特征充分利用了 CLIP 模型的優(yōu)勢來捕捉目標語義及視覺文本之間的關系。
  • 實驗效果很牛。

三、相關工作

零樣本遷移

??傳統(tǒng)的零樣本學習的定義,早期的方法的介紹,最近的方法:CLIP、ALIGN。還有一些方法直接應用 CLIP 的編碼器進行語義分割和參考表達式理解,短語定位、目標定位等,本文重點關注 RIS。

零樣本密度預測任務

??最近 CLIP 模型在目標檢測、實例分割上大范圍應用。但主要問題在于 CLIP 學習的是圖像級別特征。于是有一些方法在嘗試解決這一問題:ViLD 先裁剪后提取特征進行分類,Adapting CLIP 使用超像素產生高分辨率的空間特征圖,MaskCLIP 修改 CLIP 的結構。而本文關注 CLIP 的全局-局部上下文視覺特征的提取。

參考圖像分割

?? RIS 的目的,早期的方法,最近兩分支的方法、基于注意力的編碼器融合、基于 Transformer 解碼器的跨模態(tài)解碼器融合,基于 CLIP 的方法。然而這些全監(jiān)督方法需要稠密的標注和大量的語言描述。TSEG 提出一種弱監(jiān)督 RIS 方法,但仍需要高質量的參考表達式標注,因此,本文提出一種無須訓練或者監(jiān)督的零樣本 RIS。

【TSEG】Robin Strudel, Ivan Laptev, and Cordelia Schmid. Weaklysupervised segmentation of referring expressions. arXiv preprint arXiv:2205.04725, 2022. 1, 3, 6, 7

四、方法

??
零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記

4.1 框架總覽

??RIS 的關鍵:在同一個共享的 embedding 空間內學習圖像和文本表示。
??如圖 2 所示,框架由兩部分組成:全局-局部視覺編碼器 + 全局-局部自然語言編碼器。
??首先通過一個無監(jiān)督的 mask 生成器產生一組 mask proposals,然后為每個 mask proposal 提取兩組視覺的全局上下文和局部上下文特征。全局上下文特征表示 mask 及其周圍區(qū)域,而局部上下文視覺特征捕捉特定 mask 區(qū)域內的局部上下文特征。
??對于參考表達式,首先通過 CLIP 文本編碼器提取全局的文本表示,然后利用一個依賴分析器 spaCy 從句子中提取關鍵名詞短語,然后將全局特征和名字短語特征結合。
??由于 CLIP 模型中的視覺和文本特征在同一 embedding 空間上,因此零樣本 RIS 任務表述如下:
??給定輸入圖像 I I I,參考表達式 T T T,旨在找到所有 mask proposl 的視覺特征和文本特征中有著最大相似度的那一個:
m ^ = arg ? max ? m ∈ M ( I ) sim ( t , f m ) \hat{m}=\arg\max\limits_{m\in M(I)}{\text{sim}}(\mathbf{t},\mathbf{f}_m) m^=argmM(I)max?sim(t,fm?)其中 sim ( ? , ? ) {\text{sim}(\cdot,\cdot)} sim(?,?) 為 cosine 相似度, t \mathbf{t} t 為參考表達式 T T T 的全局-局部文本特征, f \mathbf{f} f 為 mask 引導的全局-局部視覺特征, M ( I ) M(I) M(I) 為圖像 I I I 的 mask proposals 集合。

4.2 Mask 引導的全局-局部視覺特征

??CLIP 旨在學習圖像水平的表示,因此并不適合像素級別的稠密預測任務。于是將 RIS 分解為兩個子任務:mask proposal 生成以及 mask 圖像-文本匹配。
??采用離線的、無監(jiān)督的,實例級別的 mask 生成器提取 mask proposals。通過顯式地使用 mask proposals,提出的方法能夠利用 CLIP 解決細粒度的實例分割問題。

全局上下文視覺特征

??對于每個 mask proposal,首先利用 CLIP 提取全局上下文的視覺特征。
??CLIP 有兩種類型的視覺編碼器 ResNet 和 ViT。對于 ResNet,將不含池化層的視覺特征提取器記為 ? f \phi_\mathbf{f} ?f?,對應的注意力池化層為 ? a t t \phi_{att} ?att?,這兩個組合成 CLIP 中的視覺編碼器 ? CLIP \phi_\text{CLIP} ?CLIP?,表示如下:
f = ? CLIP ( I ) = ? att ( ? f ( I ) ) \mathbf{f}=\phi_{\text{CLIP}}(I)=\phi_{\text{att}}(\phi_\mathbf{f}(I)) f=?CLIP?(I)=?att?(?f?(I))ViT 有著多個多頭注意力層,于是將視覺編碼器劃分為兩部分:最后 k k k 層和其它層,前者記為 ? att \phi_{\text{{att}}} ?att?,后者記為 ? f \phi_f ?f?。
??給定圖像 I I I 和一個 mask m m m,全局上下文視覺特征定義為:
f m G = ? a t t ( ? f ( I ) ⊙ m ˉ ) \mathbf{f}_m^G=\phi_\mathrm{att}(\phi_\mathbf{f}(I)\odot\bar m) fmG?=?att?(?f?(I)mˉ)其中 m ˉ \bar m mˉ 為調整尺寸為特征圖大小后的 mask, ⊙ \odot 為 Hadamard 乘積。

局部上下文視覺特征

??首先裁剪出圖像中的 mask 區(qū)域,然后送入 CLIP 視覺編碼器得到局部上下文特征 f m L \mathbf{f}^L_m fmL?
f m L = ? CLIP ( T crop ( I ⊙ m ) ) \mathbf{f}^L_m=\phi_{\text{CLIP}}(\mathcal{T}_{\text{crop}}(I\odot m)) fmL?=?CLIP?(Tcrop?(Im))其中 T crop ( ? ) \mathcal{T}_{\text{crop}}(\cdot) Tcrop?(?) 為裁剪操作。

全局-局部上下文視覺特征

??全局局部上下文視覺特征計算如下:
f m = α f m G + ( 1 ? α ) f m L \mathbf f_m=\alpha\mathbf f_m^G+(1-\alpha)\mathbf f_m^L fm?=αfmG?+(1?α)fmL?其中 α ∈ [ 0 , 1 ] \alpha\in[0,1] α[0,1] 為常數(shù), m m m 為 mask proposal, f G \mathbf f^G fG、 f L \mathbf f^L fL 分別為 全局上下文和局部上下文特征。于是每個 mask proposal 的得分可以通過計算 f m \mathbf f_m fm? 和文本表達式的特征相似度得到。

4.3 全局-局部文本特征

??給定參考表達式 T T T,利用 CLIP 文本編碼器 ψ CLIP \psi_{\text{CLIP}} ψCLIP? 提取全局句子特征 t G \mathbf{t}^G tG
t G = ψ CLIP ( T ) \mathbf{t}^G=\psi_{\text{CLIP}}(T) tG=ψCLIP?(T)
由于參考表達式通常包含多個線索,使得文本特征很難關注表達式中的特定名詞,于是利用依賴分析 spaCy 找到目標名詞短語 NP ( T ) {\text{NP}}(T) NP(T)。
??首先在表達式中找到所有的名詞短語,然后選擇組成句子根名詞的目標名詞短語。之后采用 CLIP 的文本編碼器提取局部上下文文本特征:
t L = ψ C L P ( N P ( T ) ) \mathbf{t}^L=\psi_{\mathrm{CLP}}(\mathrm{NP}(T)) tL=ψCLP?(NP(T))最后通過對全局和局部上下文特征加權求和得到全局-局部上下文特征:
t = β t G + ( 1 ? β ) t L \mathbf{t}=\beta\mathbf{t}^G+(1-\beta)\mathbf{t}^L t=βtG+(1?β)tL其中 β ∈ [ 0 , 1 ] \beta\in[0,1] β[0,1] 為常數(shù), t G \mathbf{t}^G tG、 t L \mathbf{t}^L tL 分別為全局句子和局部短語文本特征。

五、實施細節(jié)

??采用無監(jiān)督的實例分割方法:FreeSOLO,得到 mask proposal,輸入圖像短邊調整為 800 800 800,CLIP 的輸入圖像尺寸為 224 × 224 224\times224 224×224,ViT 中 masking 層數(shù) 3 3 3, α = 0.85 \alpha=0.85 α=0.85 對于 RefCOCOg, α = 0.95 \alpha=0.95 α=0.95 對于 RefCOCO、RefCOCO+, β = 0.5 \beta=0.5 β=0.5 對于所有數(shù)據集。

【FreeSOLO】Xinlong Wang, Zhiding Yu, Shalini De Mello, Jan Kautz, Anima Anandkumar, Chunhua Shen, and Jose M Alvarez. Freesolo: Learning to segment objects without annotations. In CVPR, 2022. 3, 4, 5, 6, 7

5.1 全局-局部視覺編碼器中的掩碼

??ReseNet-50 和 ViT-B/32 作為 CLIP 的視覺編碼器。

零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記

ResNet 中的掩碼注意力池化

??在 ResNet 中,用注意力池化層代替全局平均池化。這里的池化層和 Transformer 中的多頭注意力結構一樣, q u e r y query query 為 ResNet 提取的特征圖送入全局平均池化的結果, k e y key key、 v a l u e value value 為展平后的特征圖。流程:首先利用給定的 mask 遮住特征圖,然后進行 q u e r y query query、 k e y key key、 v a l u e value value 以及多頭注意力的計算。

ViT 中的 Token 掩碼

??首先將圖像劃分為網格 patches,然后利用線性層 embedding,并加入位置 embedding 得到 tokens,接著送入一系列的 Transformer 層。注意:為捕捉圖像的全局上下文,僅在 Transformer 的最后 k k k 個層 mask 掉 tokens,然后對這些 tokens 調整尺寸,并通過給定的 mask proposal 遮住,展平后送入后續(xù)的 Transformer 層。ViT 中有個分類 token (CLS),從最后輸出的特征中取出 CLS {\text{CLS}} CLS 作為全局上下文視覺表示。實驗中只在視覺編碼器的最后 3 層應用 token masking。

六、實驗

6.1 數(shù)據集和指標

  • 數(shù)據集:RefCOCO、Ref-COCO+ 、RefCOCOg;
  • 指標:整體 Intersection over Union(oIoU)、平均 Intersection over Union(mIoU)。

6.2 Baselines

  • Grad-CAM
  • Score Map:MaskCLIP
  • Region Token in ViT:Adapting CLIP
  • Cropping

6.3 結果

主要結果

??
零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記

未知域上的零樣本評估

??
零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記

在少樣本設置下與有監(jiān)督方法的比較

??圖 4 右側。

6.4 消融實驗

掩碼質量的效果

??
零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記

全局-局部上下文特征的效果

??
零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記

定性分析

??
零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記
??
零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記
??
零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記

七、結論

??利用 CLIP 中圖像-文本跨模態(tài)表示,提出零樣本 RIS 方法,提出全局-局部上下文編碼來計算圖像和表達式的相似度,實驗表明方法有效。

補充材料 A:全局-局部上下文特征的分析

數(shù)據集統(tǒng)計

??
零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記

全局-局部上下文特征的有效性

??
零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記

采用 SpaCY 的目標名詞短語提取

??
零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記

補充材料 B:超參數(shù) α \alpha α、 β \beta β 的分析

??
零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記

補充材料 C:ViT 中 Token 掩碼的消融研究

??
零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記

補充材料 D:附加的定量結果

??
零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記

更多的定量結果

??
零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記
??
零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記
??
零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記

對定量結果的定量支持

??
零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記
寫在后面

??這篇文章實驗充足,創(chuàng)新點足夠,框架也比較簡單,能打動審稿人的應該是在另外一個數(shù)據集上的實驗。寫作手法值得借鑒,是篇不錯的零樣本 Baseline。文章來源地址http://www.zghlxwxcb.cn/news/detail-486268.html

到了這里,關于零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯(lián)網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 105、Zero-1-to-3: Zero-shot One Image to 3D Object

    105、Zero-1-to-3: Zero-shot One Image to 3D Object

    官網 ?使用合成數(shù)據集來學習相對攝像機視點的控制,這允許在指定的攝像機變換下生成相同對象的新圖像,用于從單個圖像進行三維重建的任務。 ?輸入圖像 x ∈ R H × W × 3 x in R^{H times W times 3} x ∈ R H × W × 3 ,所需視點的相對攝像機旋轉和平移 R ∈ R 3 × 3 , T ∈ R

    2024年02月01日
    瀏覽(27)
  • Text2Video-Zero:Text-to-Image擴散模型是Zero-Shot視頻生成器

    Text2Video-Zero:Text-to-Image擴散模型是Zero-Shot視頻生成器

    Paper: https://arxiv.org/abs/2303.13439 Project: https://github.com/Picsart-AI-Research/Text2Video-Zero 原文鏈接:Text2Video-Zero:Text-to-Image擴散模型是Zero-Shot視頻生成器(by 小樣本視覺與智能前沿) 目錄 最近的text-to-video生成方法依賴于計算量大的訓練,并且需要大規(guī)模的視頻數(shù)據集。 在本文中,我

    2024年02月11日
    瀏覽(44)
  • Metric3D:Towards Zero-shot Metric 3D Prediction from A Single Image

    Metric3D:Towards Zero-shot Metric 3D Prediction from A Single Image

    參考代碼:Metric3D 在如MiDas、LeReS這些文章中對于來源不同的深度數(shù)據集使用歸一化深度作為學習目標,則在網絡學習的過程中就天然失去了對真實深度和物體尺寸的度量能力。而這篇文章比較明確地指出了影響深度估計尺度變化大的因素就是焦距 f f f ,則對輸入的圖像或是

    2024年02月14日
    瀏覽(22)
  • 論文精讀:用于少樣本圖像識別的語義提示(Semantic Prompt for Few-Shot Image Recognition)

    論文精讀:用于少樣本圖像識別的語義提示(Semantic Prompt for Few-Shot Image Recognition)

    原論文于2023.11.6撤稿,原因:缺乏合法的授權 ,詳見此處 在小樣本學習中(Few-shot Learning, FSL)中,有通過利用額外的語義信息,如類名的文本Embedding,通過將語義原型與視覺原型相結合來解決樣本稀少的問題。但這種方法可能會遇到稀有樣本中學到噪聲特征導致收益有限。

    2024年02月08日
    瀏覽(22)
  • 【計算機視覺】Zero-shot, One-shot和Few-shot的理解

    【計算機視覺】Zero-shot, One-shot和Few-shot的理解

    機器學習任務按照對 樣本量 的需求可以分為:傳統(tǒng)監(jiān)督式學習、Few-shot Learning、One-shot Learning、Zero-shot Learning。 傳統(tǒng)learning,煉丹模式。傳統(tǒng)深度學習的學習速度慢,往往需要學習海量數(shù)據和反復訓練后才能使網絡模型具備不錯的泛化能力,傳統(tǒng)learning可以總結為:海量數(shù)據

    2024年02月04日
    瀏覽(41)
  • AIGC零基礎30天學習——CLIP與zero-shot

    AIGC零基礎30天學習——CLIP與zero-shot

    ? ? ? ?在前面對CLIP的學習中,對 zero-shot prediction 環(huán)節(jié)一直有一些疑惑,zero-shot是什么,它該如何進行操作? ? ? zero-shot是指零樣本學習,和zero-shot相關聯(lián)的概念包括many-shot、few-shot和one-shot,這些其實都是從訓練集樣本類型、測試集樣本類型和對應的樣本數(shù)量角度進行劃分

    2024年02月09日
    瀏覽(19)
  • 代碼解讀:Zero-shot 視頻生成任務 Text2Video-Zero

    Diffusion Models視頻生成-博客匯總 前言: 上一篇博客《【ICCV 2023 Oral】解讀Text2Video-Zero:解鎖 Zero-shot 視頻生成任務》解讀了這篇論文《Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators》。這篇論文的創(chuàng)新點比較多,含金量很高,而且開源了代碼。所以這篇博客結合

    2024年02月03日
    瀏覽(17)
  • 論文筆記--Prompt Consistency for Zero-Shot Task Generalization

    論文筆記--Prompt Consistency for Zero-Shot Task Generalization

    標題:Prompt Consistency for Zero-Shot Task Generalization 作者:Chunting Zhou, Junxian He, Xuezhe Ma, Taylor Berg-Kirkpatrick, Graham Neubig 日期:2022 期刊:Arxiv preprint ??文章基于prompt的一致性學習給出了一種zero-shot task generalization(零樣本泛化學習)的無監(jiān)督方法。數(shù)值實驗表明,文章提出的指令

    2024年02月10日
    瀏覽(26)
  • diffusion model (七) diffusion model是一個zero-shot 分類器

    diffusion model (七) diffusion model是一個zero-shot 分類器

    Paper: Your Diffusion Model is Secretly a Zero-Shot Classifier Website: diffusion-classifier.github.io/ diffusion model(一)DDPM技術小結 (denoising diffusion probabilistic) diffusion model(二)—— DDIM技術小結 diffusion model(三)—— classifier guided diffusion model diffusion model(四)文生圖diffusion model(classifier-free

    2024年02月12日
    瀏覽(17)
  • 【NLP文章閱讀】Zero-Shot Information Extraction via Chatting with ChatGPT

    【NLP文章閱讀】Zero-Shot Information Extraction via Chatting with ChatGPT

    轉載和使用規(guī)則:更多論文解讀請關注: NLP_paper,如需轉載文章需要為我的github項目star,并聲明文章來源 零樣本信息提?。↖nformation Extraction)旨在從未注釋的文本中構建IE系統(tǒng)。由于很少涉及人類干預,這是一項具有挑戰(zhàn)性的工作。零樣本IE具有挑戰(zhàn)性但值得一提,它減少

    2023年04月09日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包