論文:https://arxiv.org/pdf/2308.00692
代碼:GitHub - dvlab-research/LISA?
摘要
盡管感知系統(tǒng)近年來取得了顯著的進步,但在執(zhí)行視覺識別任務之前,它們?nèi)匀灰蕾囉诿鞔_的人類指令來識別目標物體或類別。這樣的系統(tǒng)缺乏主動推理和理解隱含用戶意圖的能力。在這項工作中,我們提出了一種新的分割任務-推理分割。該任務的目的是在給定復雜且隱式的查詢文本的情況下輸出分割mask。此外,我們建立了一個由一千多個圖像指令對組成的基準,將復雜的推理和世界知識納入評估目的。最后,我們提出了LISA:大型語言指導分割助手(large Language Instructed Segmentation Assistant),它繼承了多模態(tài)大型語言模型(LLM)的語言生成能力,同時還具有生成分割掩碼的能力。我們使用<SEG>標記擴展原始詞匯表,并提出嵌入作為掩碼范式來解鎖分割功能。值得注意的是,LISA可以處理以下情況:1)復雜推理;2)世界知識;3)解釋性答案;4)多回合對話。此外,當只在無推理數(shù)據(jù)集上訓練時,它顯示出強大的zero shot能力。此外,僅使用239對推理分割圖像指令對模型進行微調(diào)可以進一步提高性能。實驗表明,該方法不僅開啟了新的推理分割能力,而且在復雜推理分割和標準參考分割任務中都是有效的。
背景
在這項工作中,我們引入了一種新的分割任務-推理分割,它需要基于涉及復雜推理的隱式查詢文本生成二進制分割mask。
值得注意的是,查詢文本并不局限于簡單的引用(例如,“橘子”),而是涉及復雜推理或世界知識的更復雜的描述(例如,“高質(zhì)量的食物含有維生素C”)。為了完成這一任務,模型必須具備兩個關鍵能力:1)與圖像聯(lián)合推理復雜和隱式的文本查詢;2)生成分割掩碼。
盡管一些研究已經(jīng)將robust的推理能力集成到多模態(tài)llm中以適應視覺輸入,但這些模型中的大多數(shù)主要集中在文本生成任務上,并且在執(zhí)行以視覺為中心需要細粒度fine-grained的輸出格式的任務時仍然不足,例如分割。
通過將分割掩碼表示為嵌入,LISA獲得了分割能力,并從端到端訓練中獲益。
貢獻
1) 我們引入了推理分割任務,該任務需要基于隱含的人類指令進行推理。這項任務強調(diào)了自我推理能力的重要性,這對于構建一個真正智能的感知系統(tǒng)至關重要。
2)?我們建立了一個推理分割基準,ReasonSeg,包含一千多個圖像指令對。這個基準對于評估和鼓勵社區(qū)開發(fā)新技術至關重要。
3)?我們提出了我們的模型- LISA,它采用嵌入作為掩碼范式來合并新的分割功能。當在無推理數(shù)據(jù)集上訓練時,LISA在推理分割任務上表現(xiàn)出強大的零射擊能力,并且通過對239對涉及推理的圖像指令對進行微調(diào),進一步提高了性能。我們相信LISA將促進感知智能的發(fā)展,并激發(fā)這一方向的新進展。
相關工作
圖像分割?IMAGE SEGMENTATION
語義分割的目的是為圖像中的每個像素分配一個類標簽。
大量研究提出了多種設計(如編碼器-解碼器、擴展卷積、金字塔池模塊、非局部算子等)來有效地編碼語義信息。
實例分割研究和全視分割為實例級分段引入了各種架構創(chuàng)新,包括基于DETR (Carion et al., 2020)的結構、mask attention 和 dynamic convolution。
最近,Kirillov等人(2023)引入了SAM,使用數(shù)十億個高質(zhì)量掩碼進行訓練,支持邊界框和點作為提示,同時展示了出色的分割質(zhì)量。X-Decoder (Zou et al., 2023a)在視覺和語言之間架起了橋梁,將多個任務統(tǒng)一在一個模型中。SEEM (Zou et al., 2023b)進一步支持各種人類交互方法,包括文本、音頻和涂鴉。然而,這些研究主要關注多任務的兼容性和統(tǒng)一,而忽視了新功能的注入。
在這項工作中,我們提出了LISA來解決推理分割任務,并通過自我推理能力增強現(xiàn)有的視覺分割器。
多模態(tài)大語言模型 MULTI-MODAL LARGE LANGUAGE MODEL
受llm卓越的推理能力的激勵,研究人員正在探索將這些能力轉(zhuǎn)移到視覺領域的方法,開發(fā)多模態(tài)llm。
Flamingo(Alayrac,2022)采用交叉注意結構來關注視覺情境,從而實現(xiàn)視覺情境學習。
BLIP-2 (Li et al., 2023b)和mPLUG-OWL (Ye et al., 2023)等模型提出用視覺編碼器編碼圖像特征,然后將其與文本嵌入一起輸入LLM。
Otter (Li et al., 2023a)通過對擬議的MIMIC-IT數(shù)據(jù)集進行上下文指令調(diào)優(yōu),進一步整合了魯棒的少鏡頭功能。LLaVA (Liu et al., 2023b)和MiniGPT-4 (Zhu et al., 2023)首先進行圖像-文本特征對齊,然后進行指令調(diào)優(yōu)。
此外,眾多著作(Wu et al., 2023;Yang et al., 2023b;沈等,2023;Liu et al., 2023c;Yang等人,2023a)利用即時工程,通過API調(diào)用連接獨立模塊,但沒有端到端培訓的好處。
最近,有一些研究探討了LLM和視覺任務多模態(tài)之間的交集。
VisionLLM (Wang et al., 2023)通過指令調(diào)優(yōu)為多個以視覺為中心的任務提供了靈活的交互界面,但未能充分利用llm進行復雜的推理。
Kosmos -2 (Peng et al., 2023)構建了基于圖像-文本對的大規(guī)模數(shù)據(jù),為llm注入了基于的能力。GPT4RoI (Zhang et al., 2023)引入空間框作為輸入,在區(qū)域-文本對上訓練模型
相比之下,我們的工作旨在
1)有效地將分割能力注入到多模態(tài)llm中
2)解鎖當前感知系統(tǒng)的自我推理能力。
Reasoning Segmentation 推理分割介紹
問題定義
?推理分割任務是給定一個輸入圖像ximg和一個隱式查詢文本指令xtxt,輸出一個二值分割maskM
查詢文本可能不是簡單的短語(例如,“垃圾桶”),而是包含更復雜的表達式(例如,“應該把垃圾放入的東西”)或更長的句子(例如,“烹飪后,吃完食物,我們可以把剩下的食物和殘羹冷炙扔在哪里?”),這涉及到復雜的推理或世界知識。
基準 Benchmark
在缺乏定量評價的情況下,為推理分割任務建立一個基準是十分必要的。為了確保可靠的評估,我們從OpenImages (Kuznetsova et al., 2020)和ScanNetv2 (Dai et al., 2017)中收集了一組不同的圖像,并用隱含的文本指令和高質(zhì)量的目標掩碼對它們進行注釋。我們的文字說明包括兩種類型:1)短句;2)長句子,如圖2所示。所得的ReasonSeg基準測試總共包含1218個圖像指令對。該數(shù)據(jù)集進一步劃分為三個部分:train、val和test,分別包含239、200和779個圖像指令對。由于基準測試的主要目的是評估,因此驗證和測試集包含更多的圖像指令樣本。
方法
模型結構
?Embedding as Mask
?VisionLLM (Wang et al., 2023)可以通過將分割掩碼解析為多邊形序列,支持將分割掩碼表示為純文本,并允許在現(xiàn)有多模態(tài)llm框架內(nèi)進行端到端訓練。然而,除非使用大量的數(shù)據(jù)和計算資源,否則多邊形序列的端到端訓練會引入優(yōu)化挑戰(zhàn),并可能損害泛化能力。例如,訓練一個7B模型,VisionLLM需要4 × 8 NVIDIA 80G A100 gpu和50個epoch,這在計算上是令人望而卻步的。相比之下,訓練LISA-7B只需要在8臺NVIDIA 24G 3090 gpu 上訓練10,000步。
?為此,我們提出了嵌入作為掩碼范式,將新的分割功能注入到多模態(tài)LLM中。
step1
Text
我們首先用一個新的令牌擴展原始的LLM詞匯表,即<SEG>,它表示對segmentation輸出的請求。給定文本指令xtxt和輸入圖像ximg,我們將它們輸入到多模態(tài)LLM F中,LLM F反過來輸出文本響應ytxt。
?當LLM打算生成二進制分割掩碼時,輸出的ytxt應該包含一個<SEG>令牌。
然后,我們提取與<SEG>令牌對應的最后一層嵌入- hseg,并應用MLP投影層γ來獲得hseg。
image
同時,視覺骨干神經(jīng)網(wǎng)絡從視覺輸入圖像中提取視覺嵌入。最后,hseg和f被饋送到解碼器Fdec以產(chǎn)生最終的分割掩碼M。解碼器Fdec的詳細結構參照Kirillov et al.(2023)。該過程可表述為
Training Objectives
損失函數(shù)
使用文本生成損失Lxt和segmentation mask損失Lmask對模型進行端到端訓練??偰繕薒是這些損失的加權和,由λtxt和λmask決定:
具體來說,Ltxt是文本生成的自回歸交叉熵損失,Lmask是掩碼損失,這促使模型產(chǎn)生高質(zhì)量的分割結果。為了計算Lmask,我們采用了每像素二進制交叉熵(BCE)損失和DICE損失的組合,相應的損失權重分別為λbce和λdice。給定真值目標ytxt和m,這些損失可以表示為:
?文章來源地址http://www.zghlxwxcb.cn/news/detail-631976.html
Training Data Formulation 訓練數(shù)據(jù)公式
我們的訓練數(shù)據(jù)由三部分組成,全部來源于廣泛使用的公共數(shù)據(jù)集。具體情況如下
Semantic Segmentation Dataset.語義分割數(shù)據(jù)集
語義分割數(shù)據(jù)集通常由圖像和相應的多類標簽組成。
在訓練過程中,我們隨機為每個圖像選擇幾個類別。為了生成與可視化問答格式匹配的數(shù)據(jù),我們使用了如下的問答模板
" USER: <IMAGE>你能分割這個圖像中的{CLASS NAME}嗎? "助理:是<SEG>,其中{CLASS NAME}是選擇的類別,<IMAGE>表示圖像patches token 的placeholder。
使用相應的二值分割掩碼作為ground truth,提供mask loss監(jiān)督。在訓練過程中,我們還使用其他模板來生成QA數(shù)據(jù),以保證數(shù)據(jù)的多樣性。我們采用ADE20K,COCO-Stuff和LVIS-PACO零件分割數(shù)據(jù)集。
Vanilla Referring Segmentation Dataset?參考分割數(shù)據(jù)集
參考分割數(shù)據(jù)集提供輸入圖像和目標對象的顯式簡短描述。
因此,使用類似于“USER: <IMAGE>可以在此圖像中分割{description}嗎?”這樣的模板很容易將它們轉(zhuǎn)換為問答對。Assistant:當然,是<SEG>,其中{description}是給定的顯式描述。本部分采用refCOCO、refCOCO+、refCOCOg和refCLEF數(shù)據(jù)集。
Visual Question Answering Dataset 圖片問答數(shù)據(jù)集
為了保持多模態(tài)LLM原有的視覺問答(VQA)能力,我們還在訓練過程中加入了VQA數(shù)據(jù)集。我們直接使用GPT-4生成的llava - instruction -150k數(shù)據(jù)(Liu et al., 2023b)。
可訓練參數(shù)
為了保持預訓練的多模態(tài)LLM F(即我們實驗中的LLaVA)的泛化能力,我們利用LoRA (Hu et al., 2021)進行高效微調(diào),并完全凍結視覺骨干區(qū)。解碼器Fdec是完全微調(diào)的。此外,LLM的詞嵌入和投影層γ也是可訓練的。
實驗
實驗設置
網(wǎng)絡結構
除非另有說明,我們采用LLaVA-7B-v1-1或LLaVA-13B-v1-1作為多模態(tài)LLM F
采用ViT-H SAM骨干網(wǎng)作為視覺骨干網(wǎng)。
γ的投影層是通道為[256,4096,4096]的MLP。
?
實現(xiàn)細節(jié)
8個NVIDIA 24G 3090 gpu
訓練腳本基于deepspeed (Rasley et al., 2020)引擎。我們使用AdamW (Loshchilov & Hutter, 2017)優(yōu)化器,學習率和權重衰減分別設置為0.0003和0。
我們也采用WarmupDecayLR作為學習率調(diào)度器,其中warmup迭代設置為100。
文本生成loss λtxt gen和掩碼loss λmask的權值分別設為1.0和1.0,
bce loss λbce和dice loss λdice的權值分別設為2.0和0.5。
此外,每個設備的batch size設置為2,gradient accumulation step設置為10。在訓練過程中,我們對語義分割數(shù)據(jù)集中的每個圖像最多選擇3個類別。
數(shù)據(jù)集
對于語義分割數(shù)據(jù)集,我們使用ADE20K (Zhou等人,2017)和COCO-Stuff (Caesar等人,2018)。此外,為了增強對物體某些部分的分割結果,我們還使用了部分語義分割數(shù)據(jù)集,包括PACO-LVIS (Ramanathan等人,2023)、PartImageNet (He等人,2022)和PASCAL-Part (Chen等人,2014);
對于參考分割數(shù)據(jù)集,我們使用了refCLEF, refCOCO, refCOCO+ (Kazemzadeh et al., 2014), and refCOCOg (Mao et al., 2016).
對于視覺問答(VQA)數(shù)據(jù)集,我們使用llava - instruction -150k數(shù)據(jù)集(Liu et al., 2023b)。為了避免數(shù)據(jù)泄露,我們在訓練過程中排除了圖像出現(xiàn)在refCOCO(+/g)驗證集中的COCO樣本。
此外,我們驚奇地發(fā)現(xiàn),通過對ReasonSeg圖像指令對的239個樣本進行模型微調(diào),模型的性能可以進一步提高。
評價指標
我們遵循之前大多數(shù)關于參考分割的工作(Kazemzadeh等人,2014;)gIoU是由所有每個圖像的交集-聯(lián)合(iou)的平均值定義的,而cIoU是由累積交集-聯(lián)合定義的。由于cIoU對大面積物體的偏倚較大,且波動較大,所以首選gIoU。
實驗結果
REASONING SEGMENTATION
只有真正理解了查詢,模型才能很好地完成任務?,F(xiàn)有的工作僅限于顯式引用,沒有適當?shù)姆椒▉砝斫怆[式查詢,而我們的模型利用多模態(tài)LLM來實現(xiàn)這一目標。
LISA-13B的性能大大優(yōu)于7B,特別是在長查詢場景下,這表明當前的性能瓶頸可能仍然在于理解查詢文本,而更強大的多模態(tài)LLM可能會帶來更好的結果?
VANILLA REFERRING SEGMENTATION
?
消融實驗
除非另有說明,我們在驗證集中報告LISA-7B的gIoU和cIoU指標。
?視覺主干的設計選擇
?視覺骨干的設計選擇是靈活的,不局限于SAM
SAM LoRA微調(diào)
?我們注意到經(jīng)過LoRA調(diào)優(yōu)的SAM主干的性能不如凍結的主干。一個潛在的原因是微調(diào)削弱了原始SAM模型的泛化能力
?
SAM預訓練權重
不帶預訓練權重性能大下降!
MLP vs.線性投影層
我們注意到使γ MLP在gIoU中的性能下降很小,但在cIoU中的性能相對較高↑
所有類型訓練數(shù)據(jù)的貢獻
?值得注意的是,在Exp. 4中,我們沒有使用任何語義分割數(shù)據(jù)集,性能下降了很多。我們推測語義分割數(shù)據(jù)集為訓練提供了大量的基真二值掩碼,因為一個多類標簽可以產(chǎn)生多個二值掩碼。這表明語義分割數(shù)據(jù)集在訓練中是至關重要的
GPT-3.5指令復述
在對推理分割圖像指令對進行微調(diào)的過程中,我們使用GPT-3.5對文本指令進行改寫,并隨機選擇一條。表4中實驗3和實驗4的對比表明,性能分別提高了2.2%和2.9% cIoU。該結果驗證了該數(shù)據(jù)增強方法的有效性。
附錄-一些實驗結果
?文章來源:http://www.zghlxwxcb.cn/news/detail-631976.html
?
到了這里,關于LISA:通過大語言模型進行推理分割的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!