国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 論文閱讀筆記

這篇具有很好參考價值的文章主要介紹了RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 論文閱讀筆記。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。


寫在前面

??又是一周周末,可惜今天運氣不咋好,上午被小汽車撞自行車后座上了,手臂皮外傷,所幸人沒事。下午繼續(xù)淦論文吧。

  • 論文地址:Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation
  • 代碼地址:原論文未提供
  • 預計投稿于:CVPR 2024
  • Ps:2023 年每周一篇博文閱讀筆記,主頁 更多干貨,歡迎關(guān)注呀,期待 6 千粉絲有你的參與呦~

一、Abstract

??Referring Image Segmentation 指代圖像分割旨在在像素水平上分割出自然語言表達式所指的特定目標。最近一些基于 Transformer 的方法憑借著注意力機制生成上下文 query,雖然很是成功,但是未能理解復雜表達式中的上下文。于是本文受到 masked autoencoder (MAE) 的啟發(fā)提出 bidirectional token-masking autoencoder (BTMAE) 雙向 token-masking 自編碼器。通過在 token 水平上利用圖像-文本以及文本-圖像構(gòu)建出圖像和文本上缺失的特征。換句話說,這一方法涉及到兩個模態(tài)的相互補全。實驗效果很好。

二、引言

??RIS 的定義,最近的一些進展,應用。一些工作基于 Transformer 編碼器利用 Transformer 的編碼器 tokensize 視覺和文本特征,使用交叉注意力建模多模態(tài)間的關(guān)系。其缺點在于可能會產(chǎn)生混亂的視覺-語言關(guān)系,一些工作嘗試利用豐富的多模態(tài)上下文信息提取 tokens、使用類似對比學習的方式、視覺-語言 Transformer 微調(diào)、多模態(tài) embedding 空間來增強聯(lián)系,然而這些方法仍然在建模高維度視覺-語言上下文時有難度。

??為解決這些問題,本文關(guān)注于 Masked Autoencoder (MAE) 的自特征建模能力。然而很難將其應用在 RIS 任務上。原因:基于 MAE 的預訓練需要大量數(shù)據(jù);傳統(tǒng)的單模態(tài) MAE 不能學習多模態(tài)的知識。

??于是本文提出 bidirectional token masking token autoencoder (BTMAE) 雙向 token masking 自回歸編碼器來解決 RIS 及 MAE 的缺點。

RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 論文閱讀筆記,RIS_REC,論文閱讀,筆記
??如上圖所示,將 BTMAE 劃分為雙流來建模模態(tài)間的高維度關(guān)聯(lián)信息:其中一流用于從完整的文本中重構(gòu)缺失的圖像,另外一流從完整的圖像中重構(gòu)缺失的文本。進一步,為維持模型的魯棒性,提出一個解碼器層,名為 Impact Token Attention (ITA),ITA 從 BEMAEs 生成的視覺語言 tokens 中采樣關(guān)鍵的 tokens。于是提出的模型會盡可能消除混亂句子的噪聲干擾,并生成一個正確的預測 mask。

??在 RefCOCO、RefCOCO+、GRef 數(shù)據(jù)集上進行評估,提出的方法達到了 SOTA。本文貢獻總結(jié)如下:

  • 提出 BTMAE,在無大數(shù)據(jù)集的情況下能夠捕捉多模態(tài)上下文信息,有效增強模型的性能;
  • 引入 IAT 模塊消除復雜句子中無關(guān)信息的影響。ITA 模塊通過 BTMAE 采樣多模態(tài) tokens,來建立起關(guān)鍵的 tokens;
  • 方法達到了 SOTA 的性能。

三、相關(guān)工作

Referring Image Segmentation

??RIS 的定義,傳統(tǒng)的方法將圖像特征圖映射到語言特征空間,最近的一些方法應用 Transformer 中的注意力機制實現(xiàn)更高維度的視覺-語言特征融合,但問題在于未能定位到那些包含太多無關(guān)描述以及復雜背景的句子。于是有一些方法單獨 tokenizing 目標和文本,然后融合這兩個模態(tài)的 embedding,然而仍然依賴于圖像和語言特征間的關(guān)聯(lián)。而本文提出的 BTMAE 以無監(jiān)督學習的方式能夠跨模態(tài)建模上下文信息。

Masked Autoencoder

??MAE 旨在重構(gòu)輸入的數(shù)據(jù),同時選擇性地忽略或 mask 掉輸入的某些部分,通常用于特征學習和維度降低。提出的方法利用 MAE 特征表示建模的能力學習模態(tài)間復雜的上下文關(guān)系。

四、提出的方法

4.1 整體框架

RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 論文閱讀筆記,RIS_REC,論文閱讀,筆記
??如上圖所示,提出的模型包含視覺和語言編碼器用于特征提取,兩個 BTMAEs 模塊用于增強上下文信息。此外,ITA 的解碼器層生成多模態(tài)緊湊型的 tokens,用于生成最終預測的 masks。具體來說,首先輸入的 RGB 圖像通過視覺編碼器生成多尺度的融合特征 X v ∈ R C × H × W \mathbf{X_v}\in\mathbb{R}^{C\times H\times W} Xv?RC×H×W,其中 C C C 是 embedding 維度, H H H W W W 分別為特征的高、寬。

??對于文本輸入,其通過一個預訓練的語言編碼器來建立語言特征 X t ∈ R C × H × W \mathbf{X_t}\in\mathbb{R}^{C\times H\times W} Xt?RC×H×W,其中 L L L 為特征的長度。這兩種特征分別提煉為 tokens T v ∈ R C ′ × ( H × W ) \mathrm{T}_\mathbf{v}\in\mathbb{R}^{C^{\prime}\times(H\times W)} Tv?RC×(H×W) T l ∈ R C ′ × L \mathbf{T_l}\in\mathbb{R}^{C^{\prime}\times L} Tl?RC×L。而 T v \mathrm{T}_\mathbf{v} Tv? T 1 \mathrm{T}_\mathbf{1} T1? 則分別用于兩種類型的輸入: B T M A E l → v BTMAE_{l→v} BTMAElv? B T M A E v → l BTMAE_{v→l} BTMAEvl?。在 B T M A E l → v BTMAE_{l→v} BTMAElv? 中,其生成一個重構(gòu)的視覺 tokens T v r ∈ R C ′ × ( H × W ) \mathrm{T}_\mathbf{v}^{\mathbf{r}}\in\mathbb{R}^{C^{\prime}\times(H\times W)} Tvr?RC×(H×W),具有精煉的空間上下文信息。而對于 B T M A E v → l BTMAE_{v→l} BTMAEvl?,其生成一個重構(gòu)的語言 tokens T l r ∈ R C ′ × l \mathrm{T}_\mathbf{l}^{\mathbf{r}}\in\mathbb{R}^{C^{\prime}\times l} Tlr?RC×l,具有增強的語言上下文信息。此外,ITA 在目標上生成一個關(guān)鍵的凝練 tokens T v i ∈ R C ′ × K \mathrm{T}_\mathbf{v}^{\mathbf{i}}\in\mathbb{R}^{C^{\prime}\times K} Tvi?RC×K,接下來穿過 impact token transformer (ITT) 層的得到預測的 mask。

4.2 雙向 token-masking 自回歸編碼器

RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 論文閱讀筆記,RIS_REC,論文閱讀,筆記
??如上圖所示,將 BTMAE 劃分為兩步,首先 BTMAE 編碼器和解碼器生成自編碼圖像,然后僅在 BTMAE 編碼器上執(zhí)行 token 提煉。上圖 (a) 和 (b) 預測 B T M A E l → v BTMAE_{l→v} BTMAElv?,而 B T M A E v → l BTMAE_{v→l} BTMAEvl? 則是相同的流程。

??具體來說,在視覺 tokens T v \mathrm{T}_\mathbf{v} Tv? 上執(zhí)行位置編碼和隨機 masking,生成 masked token T v m \mathrm{T}_\mathbf{v}^{\mathbf{m}} Tvm? 。如果 masking 比例為 α \alpha α,則 T v m \mathrm{T}_\mathbf{v}^{\mathbf{m}} Tvm? 的尺寸為 C ′ × ( ? H × W × ( 1 ? α ) ? ) C'\times(\lfloor H\times W\times(1-\alpha)\rfloor) C×(?H×W×(1?α)?)。其次, T v m \mathrm{T}_\mathbf{v}^{\mathbf{m}} Tvm? 作為 E E E Transformer 的編碼器輸入特征,需要注意的是一個不同的模態(tài) tokens T 1 \mathrm{T}_\mathbf{1} T1? query 用作第二個多頭自注意力機制中的 key 和 value。再者,類似于 MAE,應用一個隨機的 masking tokens 和位置編碼到編碼器的輸出 tokens。而這些 masking tokens 分別插入到 T v \mathrm{T}_\mathbf{v} Tv? 的 masked 位置上。于是 T v m \mathrm{T}_\mathbf{v}^{\mathbf{m}} Tvm? 的尺寸和 T v \mathrm{T}_\mathbf{v} Tv? 相同了。最后將這些 tokens 穿過 D D D 個 Transformer 解碼器塊,并將其 reshape,投影到一個自編碼圖像 I p r e d \mathrm{I}_\mathbf{pred} Ipred?。

??解碼器采用 T 1 \mathrm{T}_\mathbf{1} T1? 作為 key 和 value,其與 BTMAE 編碼器一致。 T v r \mathrm{T}_\mathbf{v}^{\mathbf{r}} Tvr? 僅僅采用未 masked 的 T v \mathrm{T}_\mathbf{v} Tv?, T l \mathrm{T}_\mathbf{l} Tl? E E E 個 Transformer 編碼器。此外 , B T M A E ( v → l ) BTMAE_{(v→l)} BTMAE(vl)? 有著與 B T M A E ( l → v ) BTMAE_{(l→v)} BTMAE(lv)? 相同的結(jié)構(gòu)以及自回歸編碼器語言特征。

4.3 凝縮的 Token 注意力

??ITA 模塊從增強的多模態(tài)特征 T v r \mathrm{T}_\mathbf{v}^{\mathbf{r}} Tvr?、 T l r \mathrm{T}_\mathbf{l}^{\mathbf{r}} Tlr? 中生成濃縮的 tokens T v i \mathrm{T}_\mathbf{v}^{\mathbf{i}} Tvi?,用于 mask 的生成。具體來說,通過在 T v r \mathrm{T}_\mathbf{v}^{\mathbf{r}} Tvr? 上執(zhí)行空間全局平均池化,生成 T l r \mathrm{T}_\mathbf{l}^{\mathbf{r}} Tlr? T v r \mathrm{T}_\mathbf{v}^{\mathbf{r}} Tvr? T l r \mathrm{T}_\mathbf{l}^{\mathbf{r}} Tlr? 穿過 MHA 和 FFN 層后,其輸出 shape 改為 X v \mathrm{X}_\mathbf{v} Xv? 相同的形狀。接下來采用 1 × 1 1\times1 1×1 卷積和逐元素 softmax 操作生成空間采樣 masks S v ∈ R K × H × W \mathbf{S_v}\in\mathbb{R}^{K\times H\times W} Sv?RK×H×W,其中 K K K 為視覺濃縮 tokens 的數(shù)量。因此,定義 S v \mathbf{S_v} Sv? 的第 k k k 個通道為 S v k ∈ R 1 × H × W \mathrm{S}_{\mathbf{v}^{\mathbf{k}}}\in\mathbb{R}^{1\times H\times W} Svk?R1×H×W,這一過程表示如下:
S v k ( x , y ) = e X v k ( x , y ) r ∑ k = 1 K e X v k ( x , y ) r \mathbf{S_{v^{k}(x,y)}}=\frac{e^{\mathbf{X_{v^{k}(x,y)}^{r}}}}{\sum_{k=1}^{K}e^{\mathbf{X_{v^{k}(x,y)}^{r}}}} Svk(x,y)?=k=1K?eXvk(x,y)r?eXvk(x,y)r??其中 ( x , y ) (x,y) (x,y) 為像素坐標, k = 1 , 2 , … , k k=1,2,\ldots,k k=1,2,,k, X v r ∈ R K × H × W \mathrm{X}_\mathbf{v}^{\mathbf{r}}\in\mathbb{R}^{K\times H\times W} Xvr?RK×H×W 為標準自注意力序列的輸出,其計算如下:
X v r = f 1 × 1 ( f F F N ( X a t t ) ) X a t t = ψ ( w Q T v r ( w K T l r ) ? C ′ ) ( w V T l r ) + T v r \begin{aligned} &\mathbf{X_{v}^{r}}=f_{1\times1}\left(f_{FFN}\left(\mathbf{X_{att}}\right)\right)\\ &\mathbf{X_{att}}=\psi\left(\frac{\mathbf{w_{Q}T_{v}^{r}}\left(\mathbf{w_{K}T_{l}^{r}}\right)^{\top}}{\sqrt{C^{\prime}}}\right)(\mathbf{w_{V}T_{l}^{r}})+\mathbf{T_{v}^{r}} \end{aligned} ?Xvr?=f1×1?(fFFN?(Xatt?))Xatt?=ψ(C ?wQ?Tvr?(wK?Tlr?)??)(wV?Tlr?)+Tvr??其中 w K ∈ R C ′ × C ′ \mathrm{w}_{\mathbf{K}}\in\mathbb{R}^{C^{\prime}\times C^{\prime}} wK?RC×C、 w Q ∈ R C ′ × C ′ \mathrm{w}_{\mathbf{Q}}\in\mathbb{R}^{C^{\prime}\times C^{\prime}} wQ?RC×C, w V ∈ R C ′ × C ′ \mathrm{w}_{\mathbf{V}}\in\mathbb{R}^{C^{\prime}\times C^{\prime}} wV?RC×C 分別為可學習的投影矩陣。此外, ψ ( ? ) \psi(\cdot) ψ(?) f ( ? ) f(\cdot) f(?) 分別表示 softmax 和 1 × 1 1\times1 1×1 卷積操作。因此通過下列過程生成 K K K 個濃縮的 tokens T V i = T v 1 i , T v 2 i , . . . , T v K i \mathrm{T}_\mathbf{V}^\mathbf{i}={\mathrm{T_{v^{1}}^{i}},\mathrm{T_{v^{2}}^{i}},...,\mathrm{T_{v^{K}}^{i}}} TVi?=Tv1i?,Tv2i?,...,TvKi?
T v k i = ∑ x = 1 H ∑ y = 1 W ( S v k ( x , y ) ? X ( x , y ) ) ∑ x = 1 H ∑ y = 1 W S v k ( x , y ) \mathrm{T}_{\mathbf{v}\mathbf{k}}^{\mathrm{i}}=\frac{\sum_{x=1}^{H}\sum_{y=1}^{W}(\mathrm{S}_{\mathbf{v}\mathbf{k}(\mathbf{x},\mathbf{y})}\cdot\mathrm{X}_{(\mathbf{x},\mathbf{y})})}{\sum_{x=1}^{H}\sum_{y=1}^{W}\mathrm{S}_{\mathbf{v}\mathbf{k}(\mathbf{x},\mathbf{y})}} Tvki?=x=1H?y=1W?Svk(x,y)?x=1H?y=1W?(Svk(x,y)??X(x,y)?)?其中 T v K i \mathrm{T_{v^{K}}^{i}} TvKi? 為第 k k k 個視覺濃縮 token。

??ITA 最后一次的處理涉及到多模態(tài)濃縮 tokens 的融合,通過 impact token transformer (ITT) 和編碼器的特征來表示 IoU 區(qū)域。ITT 的結(jié)構(gòu)類似于標準的 Transformer 解碼器。

4.4 目標函數(shù)

??首先,在 B T M A E ( l → v ) BTMAE_{(l→v)} BTMAE(lv)? 中使用均方誤差損失來重建輸入的圖像,這一過程如下:
L B T M A E ( l → v ) = ∑ x , y ( I P r e d ( x , y ) ? I G T ( x , y ) ) 2 \mathcal{L}_{BTMAE_{(l\to v)}}=\sum_{x,y}\left(\mathrm{I}_{\mathrm{Pred}}\left(x,y\right)-\mathrm{I}_{\mathrm{GT}}\left(x,y\right)\right)^2 LBTMAE(lv)??=x,y?(IPred?(x,y)?IGT?(x,y))2其中 I P r e d \mathrm{I}_{\mathrm{Pred}} IPred? I G T \mathrm{I}_{\mathrm{GT}} IGT? 指的是預測的 RGB 圖像和原始的 RGB 圖像。

??對于 B T M A E ( v → l ) BTMAE_{(v→l)} BTMAE(vl)?,采用交叉熵損失來性訓練預測的語言 tokens T l r \mathrm{T}_{\mathrm{l}}^{\mathrm{r}} Tlr? 和原始的語言 tokens X 1 \mathrm{X}_{\mathrm{1}} X1?。

??最后采用 IoU 損失求和以及加權(quán)的交叉熵損失來賦值更多的權(quán)重給難的像素,定義損失函數(shù)如下:
L I O U = 1 ? ∑ ( x , y ) min ? ( M P , M G ) ∑ ( x , y ) max ? ( M P , M G ) L b c e w = ? ∑ ( x , y ) w [ M G ln ? ( M P ) + ( 1 ? M G T ) ln ? ( 1 ? M P ) ] \begin{aligned} &\mathcal{L}_{IOU}=1-\frac{\sum_{(x,y)}\operatorname{min}\left(\mathbf{M_P},\mathbf{M_G}\right)}{\sum_{(x,y)}\operatorname{max}\left(\mathbf{M_P},\mathbf{M_G}\right)}\\ &\mathcal{L}_{bce}^{w}=-\sum_{(x,y)}w\left[\mathbf{M_{G}}\ln\left(\mathbf{M_{P}}\right)+\left(1-\mathbf{M_{GT}}\right)\ln\left(1-\mathbf{M_{P}}\right)\right] \end{aligned} ?LIOU?=1?(x,y)?max(MP?,MG?)(x,y)?min(MP?,MG?)?Lbcew?=?(x,y)?w[MG?ln(MP?)+(1?MGT?)ln(1?MP?)]?其中 w = σ ∣ M P ? M G ∣ w=\sigma|\mathrm{M_P-M_G}| w=σMP??MG? M G \mathbf{M_{G}} MG? M P \mathbf{M_{P}} MP? 為 GT maps 以及預測的 maps。最后,總體的損失表達如下:
L t o t a l = L B T M A E ( l → v ) + L B T M A E ( v → l ) + L I O U + L b c e w \mathcal{L}_{\mathrm{total}}=\mathcal{L}_{BTMAE_{(l\to v)}}+\mathcal{L}_{BTMAE_{(v\to l)}}+\mathcal{L}_{IOU}+\mathcal{L}_{bce}^{w} Ltotal?=LBTMAE(lv)??+LBTMAE(vl)??+LIOU?+Lbcew?

五、實驗

5.1 數(shù)據(jù)集 & 評估指標

??Ref-COCO、RefCOCO+、GRef;
??mean intersection-overunion (mIoU)、overall intersection-over-union (oIoU)

5.2 實施細節(jié)

??使用 ResNet-101、Darknet-53、Swin-B 預訓練在 ImageNet 上作為視覺 Backbone,BERT 12 層的 Transformer,768 維度。輸入圖像尺寸 480 × 480 480\times480 480×480, B T M A E ( l → v ) BTMAE_{(l→v)} BTMAE(lv)? 中編碼器層數(shù) E = 4 E=4 E=4, B T M A E ( v → l ) BTMAE_{(v→l)} BTMAE(vl)? 中解碼器層數(shù) D = 4 D=4 D=4。設置 BTMAE 中所有的 masking ration α = 0.5 \alpha=0.5 α=0.5。每個 ITA 用于設定濃縮 tokens T v r \mathrm{T_v^{r}} Tvr? 的數(shù)量分別為 16,8,2。于是,在 ITA 最后一層僅有兩個 token 保留下來,即對應前景和背景。Adam 優(yōu)化器,用于訓練和微調(diào)的超參數(shù)為 β 1 = 0.9 \beta_1=0.9 β1?=0.9 β 2 = 0.999 \beta_2=0.999 β2?=0.999, ? = 1 0 ? 8 \epsilon=10^{-8} ?=10?8。學習率從 1 0 ? 4 10^{-4} 10?4 衰減為 1 0 ? 5 10^{-5} 10?5,余弦學習率計劃??傮w epochs 設為 200 200 200,Batch_size 12,兩塊 NVIDIA RTX A6000 GPUs。

5.3 結(jié)果

定性結(jié)果

RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 論文閱讀筆記,RIS_REC,論文閱讀,筆記

定量結(jié)果

RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 論文閱讀筆記,RIS_REC,論文閱讀,筆記

視覺 & 語言重構(gòu)結(jié)果

RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 論文閱讀筆記,RIS_REC,論文閱讀,筆記

5.4 消融分析

??Swin-B 視覺 Backbone + BERT 語言 Backbone

BTMAE 的效果

RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 論文閱讀筆記,RIS_REC,論文閱讀,筆記

ITA 的效果

??上表 2。
RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 論文閱讀筆記,RIS_REC,論文閱讀,筆記

Masking 比例的影響

RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 論文閱讀筆記,RIS_REC,論文閱讀,筆記

六、結(jié)論

??提出的 BTMAE 解決了現(xiàn)有 RIS 模型的限制,增強了對復雜和混亂的上下文信息的理解 ,大量實驗表明 BTMAE 達到了 SOTA 的效果,提升了魯棒性。

寫在后面

??總算是把這篇博文寫完了 ,怎么說,思路想法還是可以的,就是這個寫作好像有點不太行,需要注意下。文章來源地址http://www.zghlxwxcb.cn/news/detail-772139.html

到了這里,關(guān)于RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 論文閱讀筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關(guān)文章

  • Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models ----論文閱讀

    Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models ----論文閱讀

    Vary 的代碼和模型均已開源,還給出了供大家試玩的網(wǎng)頁 demo。感興趣的小伙伴可以去試試 主頁:https://varybase.github.io/ 部分內(nèi)容參考:https://mp.weixin.qq.com/s/Sg_yHAVVN-yAYT61SNKvCA 官網(wǎng):https://openai.com/research/clip (要了解的建議看這個,篇幅少點,論文中大量篇幅是介紹實驗的) 論

    2024年02月03日
    瀏覽(18)
  • (詳細版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

    (詳細版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

    Haoran Wei1?, Lingyu Kong2?, Jinyue Chen2, Liang Zhao1, Zheng Ge1?, Jinrong Yang3, Jianjian Sun1, Chunrui Han1, Xiangyu Zhang1 1MEGVII Technology 2University of Chinese Academy of Sciences 3Huazhong University of Science and Technology arXiv 2023.12.11 背景: 隨著大規(guī)模視覺-語言模型(LVLMs)的興起,它們在多個領域展現(xiàn)出了卓

    2024年02月02日
    瀏覽(19)
  • 論文精讀:Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

    論文精讀:Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

    Status: Reading Author: Chunrui Han, Haoran Wei, Jianjian Sun, Jinrong Yang, Jinyue Chen, Liang Zhao, Lingyu Kong, Xiangyu Zhang, Zheng Ge Institution: 中國科學院大學, 華中科技大學, 曠視科技(MEGVII Technology) Publisher: arXiv Publishing/Release Date: December 11, 2023 Score /5: ?????? Type: Paper Link: https://arxiv.org/abs/

    2024年02月01日
    瀏覽(28)
  • 【多模態(tài)】13、Vision-Language 模型在視覺任務中的調(diào)研

    【多模態(tài)】13、Vision-Language 模型在視覺任務中的調(diào)研

    近來,一種新的學習范式 pre-training → Finetuning → Prediction 取得了很大的進步,并且在視覺識別任務中取得了很好的效果。 使用 pretrained 模型來學習豐富的知識,可以加速模型對下游任務的收斂速度并且提高效果 但是,這種學習范式在下游任務仍然需要很多帶標注的數(shù)據(jù),如

    2024年02月17日
    瀏覽(27)
  • 【AIGC】16、Vision-Language 模型在視覺任務中的調(diào)研

    【AIGC】16、Vision-Language 模型在視覺任務中的調(diào)研

    近來,一種新的學習范式 pre-training → Finetuning → Prediction 取得了很大的進步,并且在視覺識別任務中取得了很好的效果。 使用 pretrained 模型來學習豐富的知識,可以加速模型對下游任務的收斂速度并且提高效果 但是,這種學習范式在下游任務仍然需要很多帶標注的數(shù)據(jù),如

    2024年02月11日
    瀏覽(25)
  • 論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models

    論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models

    存在的問題 之前的來自目標數(shù)據(jù)集的標記數(shù)據(jù)(有監(jiān)督學習)可能會限制可伸縮性。 動機 通過無監(jiān)督提示學習(UPL)方法,以避免提示工程,同時提高類clip視覺語言模型的遷移性能。 主張top-k而不是top-p 注:top-k是指挑選概率最大的k個,top-p是指挑選預測概率大于p的那些數(shù)據(jù) 看

    2024年04月23日
    瀏覽(69)
  • VLT:Vision-Language Transformer用于引用的視覺語言轉(zhuǎn)換和查詢生成分割

    VLT:Vision-Language Transformer用于引用的視覺語言轉(zhuǎn)換和查詢生成分割

    在這項工作中,我們解決了引用分割的挑戰(zhàn)性任務。引用分割中的查詢表達式通常通過描述目標對象與其他對象的關(guān)系來表示目標對象。因此,為了在圖像中的所有實例中找到目標實例,模型必須對整個圖像有一個整體的理解。為了實現(xiàn)這一點,我們 將引用分割重新定義為直

    2024年02月14日
    瀏覽(21)
  • RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記

    RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記

    寫在前面 ??一篇 Arxiv 上面的新文章,看看清華大佬們的研究。 論文地址:Mask Grounding for Referring Image Segmentation 代碼地址:原論文說將會開源,靜待佳音~ 預計提交于:CVPR 2024 Ps:2023 年每周一篇博文閱讀筆記,主頁 更多干貨,歡迎關(guān)注呀,期待 6 千粉絲有你的參與呦~ ??

    2024年02月03日
    瀏覽(23)
  • 論文閱讀《Vision-Language Pre-Training with Triple Contrastive Learning》

    論文閱讀《Vision-Language Pre-Training with Triple Contrastive Learning》

    本文是2022年CVPR上的一篇 多模態(tài) 論文,利用對比學習和動量來進行圖片與文本信息的上游預訓練。 作者提出問題 簡單的跨模態(tài)比對模型無法確保來自同一模態(tài)的相似輸入保持相似。(模態(tài)內(nèi)部語義信息損失) 全局互信息最大化的操作沒有考慮局部信息和結(jié)構(gòu)信息。 對于上

    2024年04月13日
    瀏覽(28)
  • 【論文閱讀】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS

    【論文閱讀】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS

    提出了一種針對視覺語言模型的新型越獄框架? 論文地址:https://arxiv.org/abs/2311.05608 代碼地址:?GitHub - ThuCCSLab/FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts ?1.Motivation VLM可以分為三個模塊: 語言模塊:是一個預先訓練的LLM, 已經(jīng)安全對齊 。 視覺模塊:是

    2024年02月03日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包