国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

邁向多模態(tài)AGI之開放世界目標檢測 | 人工智能

這篇具有很好參考價值的文章主要介紹了邁向多模態(tài)AGI之開放世界目標檢測 | 人工智能。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

作者:王斌 謝春宇 冷大煒

引言

目標檢測是計算機視覺中的一個非常重要的基礎(chǔ)任務,與常見的的圖像分類/識別任務不同,目標檢測需要模型在給出目標的類別之上,進一步給出目標的位置和大小信息,在CV三大任務(識別、檢測、分割)中處于承上啟下的關(guān)鍵地位。當前大火的多模態(tài)GPT4在視覺能力上只具備目標識別的能力,還無法完成更高難度的目標檢測任務。而識別出圖像或視頻中物體的類別、位置和大小信息,是現(xiàn)實生產(chǎn)中眾多人工智能應用的關(guān)鍵,例如自動駕駛中的行人車輛識別、安防監(jiān)控應用中的人臉鎖定、醫(yī)學圖像分析中的腫瘤定位等等。

已有的目標檢測方法如YOLO系列、R-CNN系列等耳熟能詳?shù)哪繕藱z測算法在科研人員的不斷努力下已經(jīng)具備很高的目標檢測精度與效率,但由于現(xiàn)有方法需要在模型訓練前就定義好待檢測目標的集合(閉集),導致它們無法檢測訓練集合之外的目標,比如一個被訓練用于檢測人臉的模型就不能用于檢測車輛;另外,現(xiàn)有方法高度依賴人工標注的數(shù)據(jù),當需要增加或者修改待檢測的目標類別時,一方面需要對訓練數(shù)據(jù)進行重新標注,另一方面需要對模型進行重新訓練,既費時又費力。一個可能的解決方案是,收集海量的圖像,并人工標注Box信息與語義信息,但這將需要極高的標注成本,而且使用海量數(shù)據(jù)對檢測模型進行訓練也對科研工作者提出了嚴峻的挑戰(zhàn),如數(shù)據(jù)的長尾分布問題與人工標注的質(zhì)量不穩(wěn)定等因素都將影響檢測模型的性能表現(xiàn)。

發(fā)表于CVPR2021的文章OVR-CNN[1]提出了一種全新的目標檢測范式:開放詞集目標檢測(Open-Vocabulary Detection,OVD,亦稱為開放世界目標檢測),來應對上文提到的問題,即面向開放世界未知物體的檢測場景。OVD由于能夠在無需人工擴充標注數(shù)據(jù)量的情形下識別并定位任意數(shù)量和類別目標的能力,自提出后吸引了學術(shù)界與工業(yè)界持續(xù)增長的關(guān)注,也為經(jīng)典的目標檢測任務帶來了新的活力與新的挑戰(zhàn),有望成為目標檢測的未來新范式。具體地,OVD技術(shù)不需要人工標注海量的圖片來增強檢測模型對未知類別的檢測能力,而是通過將具有良好泛化性的無類別(class-agnostic)區(qū)域檢測器與經(jīng)過海量無標注數(shù)據(jù)訓練的跨模態(tài)模型相結(jié)合,通過圖像區(qū)域特征與待檢測目標的描述性文字進行跨模態(tài)對齊來擴展目標檢測模型對開放世界目標的理解能力??缒B(tài)和多模態(tài)大模型工作近期的發(fā)展非常迅速,如CLIP[2]、ALIGN[3]與R2D2[4]等,而它們的發(fā)展也促進了OVD的誕生與OVD領(lǐng)域相關(guān)工作的快速迭代與進化。

OVD技術(shù)涉及兩大關(guān)鍵問題的解決:1)如何提升區(qū)域(Region)信息與跨模態(tài)大模型之間的適配;2)如何提升泛類別目標檢測器對新類別的泛化能力。從這個兩個角度出發(fā),下文我們將詳細介紹一些OVD領(lǐng)域的相關(guān)工作。

開放世界目標檢測,目標檢測,人工智能,計算機視覺,深度學習,機器學習

OVD基本流程示意[1]

OVD的基礎(chǔ)概念:OVD的使用主要涉及到 few-shot 和 zero-shot兩大類場景,few-shot是指有少量人工標注訓練樣本的目標類別,zero-shot則是指不存在任何人工標注訓練樣本的目標類別。在常用的學術(shù)評測數(shù)據(jù)集COCO、LVIS上,數(shù)據(jù)集會被劃分為Base類和Novel類,其中Base類對應few-shot場景,Novel類對應zero-shot場景。如COCO數(shù)據(jù)集包含65種類別,常用的評測設定是Base集包含48種類別,few-shot訓練中只使用該48個類別。Novel集包含17種類別,在訓練時完全不可見。測試指標主要參考Novel類的AP50數(shù)值進行比較。

開放世界目標檢測,目標檢測,人工智能,計算機視覺,深度學習,機器學習

論文地址:https://arxiv.org/pdf/2011.10678.pdf

代碼地址:https://github.com/alirezazareian/ovr-cnn

OVR-CNN是CVPR2021的Oral-Paper,也是OVD領(lǐng)域的開山之作。它的二階段訓練范式,影響了后續(xù)很多的OVD工作。如下圖所示,第一階段主要使用image-caption pairs對視覺編碼器進行預訓練,其中借助BERT(參數(shù)固定)來生成詞掩碼,并與加載ImageNet預訓練權(quán)重的ResNet50進行弱監(jiān)督的Grounding匹配,作者認為弱監(jiān)督會讓匹配陷入局部最優(yōu),于是加入多模態(tài)Transformer進行詞掩碼預測來增加魯棒性。

開放世界目標檢測,目標檢測,人工智能,計算機視覺,深度學習,機器學習?

第二階段的訓練流程與Faster-RCNN類似,區(qū)別點在于,特征提取的Backbone來自于第一階段預訓練得到的ResNet50的1-3層,RPN后依然使用ResNet50的第四層進行特征加工,隨后將特征分別用于Box回歸與分類預測。分類預測是OVD任務區(qū)別于常規(guī)檢測的關(guān)鍵標志,OVR-CNN中將特征輸入一階段訓練得到的V2L模塊(參數(shù)固定的圖向量轉(zhuǎn)詞向量模塊)得到一個圖文向量,隨后與標簽詞向量組進行匹配,對類別進行預測。在二階段訓練中,主要使用Base類對檢測器模型進行框回歸訓練與類別匹配訓練。由于V2L模塊始終固定,配合目標檢測模型定位能力向新類別遷移,使得檢測模型能夠識別并定位到全新類別的目標。

開放世界目標檢測,目標檢測,人工智能,計算機視覺,深度學習,機器學習?

如下圖所示,OVR-CNN在COCO數(shù)據(jù)集上的表現(xiàn)遠超之前的Zero-shot目標檢測算法。

開放世界目標檢測,目標檢測,人工智能,計算機視覺,深度學習,機器學習

?開放世界目標檢測,目標檢測,人工智能,計算機視覺,深度學習,機器學習

論文地址:https://arxiv.org/abs/2112.09106

代碼地址:https://github.com/microsoft/RegionCLIP

OVR-CNN中使用BERT與多模態(tài)Transfomer進行image-text pairs預訓練,但隨著跨模態(tài)大模型研究的興起,科研工作者開始利用CLIP,ALIGN等更強力的跨模態(tài)大模型對OVD任務進行訓練。檢測器模型本身主要針對Proposals,即區(qū)域信息進行分類識別,發(fā)表于CVPR2022的RegionCLIP[5]發(fā)現(xiàn)當前已有的大模型,如CLIP,對裁剪區(qū)域的分類能力遠低于對原圖本身的分類能力,為了改進這一點,RegionCLIP提出了一個全新的兩階段OVD方案。

開放世界目標檢測,目標檢測,人工智能,計算機視覺,深度學習,機器學習

第一階段,數(shù)據(jù)集主要使用CC3M,COCO-caption等圖文匹配數(shù)據(jù)集進行區(qū)域級別的蒸餾預訓練。具體地,

1.將原先存在于長文本中的詞匯進行提取,組成Concept Pool,進一步形成一組關(guān)于Region的簡單描述,用于訓練。

2.利用基于LVIS預訓練的RPN提取Proposal Regions,并利用原始CLIP對提取到的不同Region與準備好的描述進行匹配分類,并進一步組裝成偽造的語義標簽。

3.將準備好的Proposal Regions與語義標簽在新的CLIP模型上進行Region-text對比學習,進而得到一個專精于Region信息的CLIP模型。

4.在預訓練中,新的CLIP模型還會通過蒸餾策略學習原始CLIP的分類能力,以及進行全圖級別的image-text對比學習,來維持新的CLIP模型對完整圖像的表達能力。

第二階段,將得到的預訓練模型在檢測模型上進行遷移學習。

開放世界目標檢測,目標檢測,人工智能,計算機視覺,深度學習,機器學習

?RegionCLIP進一步拓展了已有跨模態(tài)大模型在常規(guī)檢測模型上的表征能力,進而取得了更加出色的性能,如下圖所示,RegionCLIP相比OVR-CNN在Novel類別上取得了較大提升。RegionCLIP通過一階段的預訓練有效地的提升了區(qū)域(Region)信息與多模態(tài)大模型之間的適應能力,但CORA認為其使用更大參數(shù)規(guī)模的跨模態(tài)大模型進行一階段訓練時,訓練成本將會非常高昂。

開放世界目標檢測,目標檢測,人工智能,計算機視覺,深度學習,機器學習

開放世界目標檢測,目標檢測,人工智能,計算機視覺,深度學習,機器學習?

論文地址:https://arxiv.org/abs/2303.13076

代碼地址:https://github.com/tgxs002/CORA

CORA[6]已被收錄于CVPR2023,為了克服其所提出當前OVD任務所面臨的兩個阻礙,設計了一個類DETR的OVD模型。如其文章標題所示,該模型中主要包含了Region Prompting與Anchor Pre-Matching兩個策略。前者通過Prompt技術(shù)來優(yōu)化基于CLIP的區(qū)域分類器所提取的區(qū)域特征,進而緩解整體與區(qū)域的分布差距,后者通過DETR檢測方法中的錨點預匹配策略來提升OVD模型對新類別物體定位能力的泛化性。

開放世界目標檢測,目標檢測,人工智能,計算機視覺,深度學習,機器學習

CLIP 原始視覺編碼器的整體圖像特征與區(qū)域特征之間存在分布差距,進而導致檢測器的分類精度較低(這一點與RegionCLIP的出發(fā)點類似)。因此,CORA提出Region Prompting來適應CLIP圖像編碼器,提高對區(qū)域信息的分類性能。具體地,首先通過CLIP編碼器的前3層將整幅圖像編碼成一個特征映射,然后由RoI Align生成錨點框或預測框,并將其合并成區(qū)域特征。隨后由 CLIP 圖像編碼器的第四層進行編碼。為了緩解CLIP 圖像編碼器的全圖特征圖與區(qū)域特征之間存在分布差距,設置了可學習的Region Prompts并與第四層輸出的特征進行組合,進而生成最終的區(qū)域特征用來與文本特征進行匹配,匹配損失使用了樸素的交叉熵損失,且訓練過程中與CLIP相關(guān)的參數(shù)模型全都凍結(jié)。

開放世界目標檢測,目標檢測,人工智能,計算機視覺,深度學習,機器學習?

CORA是一個類DETR的檢測器模型,類似于DETR,其也使用了錨點預匹配策略來提前生成候選框用于框回歸訓練。具體來說,錨點預匹配是將每個標簽框與最接近的一組錨點框進行匹配,以確定哪些錨點框應該被視為正樣本,哪些應該被視為負樣本。這個匹配過程通常是基于 IoU(交并比)進行的,如果錨點框與標簽框的 IoU 超過一個預定義的閾值,則將其視為正樣本,否則將其視為負樣本。CORA表明該策略能夠有效提高對新類別定位能力的泛化性。

但是使用錨點預匹配機制也會帶來一些問題,比如只有在至少有一個錨點框與標簽框形成匹配時,才可正常進行訓練。否則,該標簽框?qū)⒈缓雎?,同時阻礙模型的收斂。進一步,即使標簽框獲得了較為準確的錨點框,由于Region Classifier的識別精度有限,進而導致該標簽框仍可能被忽略,即標簽框?qū)念悇e信息沒有與基于CLIP訓練的Region Classifier形成對齊。因此,CORA用CLIP-Aligned技術(shù)利用CLIP的語義識別能力,與預訓練ROI的定位能力,在較少人力情形下對訓練數(shù)據(jù)集的圖像進行重新標注,使用這種技術(shù),可以讓模型在訓練中匹配更多的標簽框。

開放世界目標檢測,目標檢測,人工智能,計算機視覺,深度學習,機器學習

相比于RegionCLIP,CORA在COCO數(shù)據(jù)集上進一步提升了2.4的AP50數(shù)值。

總結(jié)與展望

OVD技術(shù)不僅與當前流行的跨/多模態(tài)大模型的發(fā)展緊密聯(lián)系,同時也承接了過去科研工作者對目標檢測領(lǐng)域的技術(shù)耕耘,是傳統(tǒng)AI技術(shù)與面向通用AI能力研究的一次成功銜接。OVD更是一項面向未來的全新目標檢測技術(shù),可以預料到的是,OVD可以檢測并定位任意目標的能力,也將反過來推進多模態(tài)大模型的進一步發(fā)展,有希望成為多模態(tài)AGI發(fā)展中的重要基石。當下,多模態(tài)大模型的訓練數(shù)據(jù)來源是網(wǎng)絡上的海量粗糙信息對,即文本圖像對或文本語音對。若利用OVD技術(shù)對原本粗糙的圖像信息進行精準定位,并輔助預測圖像的語義信息來篩選語料,將會進一步提升大模型預訓練數(shù)據(jù)的質(zhì)量,進而優(yōu)化大模型的表征能力與理解能力。

一個很好的例子便是SAM(Segment Anything)[7],SAM不僅讓科研工作者們看到了通用視覺大模型未來方向,也引發(fā)了很多思考。值得注意的是,OVD技術(shù)可以很好地接入SAM,來增強SAM的語義理解能力,自動地生成SAM需要的box信息,從而進一步解放人力。同樣的對于AIGC(人工智能生成內(nèi)容),OVD技術(shù)同樣可以增強與用戶之間的交互能力,如當用戶需要指定一張圖片的某一個目標進行變化,或?qū)υ撃繕松梢痪涿枋龅臅r候,可以利用OVD的語言理解能力與OVD對未知目標檢測的能力實現(xiàn)對用戶描述對象的精準定位,進而實現(xiàn)更高質(zhì)量的內(nèi)容生成。當下OVD領(lǐng)域的相關(guān)研究蓬勃發(fā)展,OVD技術(shù)對未來通用AI大模型能夠帶來的改變值得期待。

號外

為了推動OVD研究在國內(nèi)的普及和發(fā)展,360人工智能研究院聯(lián)合中國圖象圖形學學會舉辦了2023開放世界目標檢測競賽,目前競賽正在火熱報名中。競賽可以幫助大家找到OVD方向的研究同好,與他們切磋交流,并能接觸實際業(yè)務場景數(shù)據(jù),體驗OVD技術(shù)在實際生產(chǎn)中的優(yōu)勢與魅力,歡迎報名和轉(zhuǎn)發(fā)。

參考文獻

[1] Zareian A, Rosa K D, Hu D H, et al. Open-vocabulary object detection using captions[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 14393-14402.

[2] Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//International conference on machine learning. PMLR, 2021: 8748-8763.

[3] Li J, Selvaraju R, Gotmare A, et al. Align before fuse: Vision and language representation learning with momentum distillation[J]. Advances in neural information processing systems, 2021, 34: 9694-9705.

[4] Xie C, Cai H, Song J, et al. Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework[J]. arXiv preprint arXiv:2205.03860, 2022.

[5] Zhong Y, Yang J, Zhang P, et al. Regionclip: Region-based language-image pretraining[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 16793-16803.

[6] Wu X, Zhu F, Zhao R, et al. CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching[J]. arXiv preprint arXiv:2303.13076, 2023.

[7] Kirillov A, Mintun E, Ravi N, et al. Segment anything[J]. arXiv preprint arXiv:2304.02643, 2023.文章來源地址http://www.zghlxwxcb.cn/news/detail-599345.html

到了這里,關(guān)于邁向多模態(tài)AGI之開放世界目標檢測 | 人工智能的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務器費用

相關(guān)文章

  • 【多模態(tài)】21、BARON | 通過引入大量 regions 來提升模型開放詞匯目標檢測能力(CVPR2021)

    【多模態(tài)】21、BARON | 通過引入大量 regions 來提升模型開放詞匯目標檢測能力(CVPR2021)

    論文:Aligning Bag of Regions for Open-Vocabulary Object Detection 代碼:https://github.com/wusize/ovdet 出處:CVPR2023 傳統(tǒng)目標檢測器只能識別特定的類別,開放詞匯目標檢測由于不受預訓練類別的限制,能夠檢測任意類別的目標,而受到了很多關(guān)注 針對 OVD 問題的一個典型解決方案就是基于蒸

    2024年02月15日
    瀏覽(23)
  • 【CSIG圖像圖形技術(shù)挑戰(zhàn)賽-開放世界目標檢測競賽】火熱報名中!

    【CSIG圖像圖形技術(shù)挑戰(zhàn)賽-開放世界目標檢測競賽】火熱報名中!

    競賽名稱: 開放世界目標檢測競賽/Few Shot) 主辦方:? 中國圖象圖形學學會(CSIG) 合作方:? 360集團 競賽目的與意義: 目標檢測是計算機視覺中的核心任務之一, 主要目的是讓計算機可以自動識別圖片中目標的類別,并標示出每個目標的位置 。當前主流的目標檢測方法主要

    2023年04月20日
    瀏覽(24)
  • 人工智能 - 目標檢測:發(fā)展歷史、技術(shù)全解與實戰(zhàn)

    人工智能 - 目標檢測:發(fā)展歷史、技術(shù)全解與實戰(zhàn)

    本文全面回顧了目標檢測技術(shù)的演進歷程,從早期的滑動窗口和特征提取方法到深度學習的興起,再到Y(jié)OLO系列和Transformer的創(chuàng)新應用。通過對各階段技術(shù)的深入分析,展現(xiàn)了計算機視覺領(lǐng)域的發(fā)展趨勢和未來潛力。 關(guān)注TechLead,分享AI全維度知識。作者擁有10+年互聯(lián)網(wǎng)服務架

    2024年02月05日
    瀏覽(19)
  • 人工智能TensorFlow PyTorch物體分類和目標檢測合集【持續(xù)更新】

    人工智能TensorFlow PyTorch物體分類和目標檢測合集【持續(xù)更新】

    1. 基于TensorFlow2.3.0的花卉識別 基于TensorFlow2.3.0的花卉識別Android APP設計_基于安卓的花卉識別_lilihewo的博客-CSDN博客 2. 基于TensorFlow2.3.0的垃圾分類 基于TensorFlow2.3.0的垃圾分類Android APP設計_def model_load(img_shape=(224, 224, 3)_lilihewo的博客-CSDN博客 ? 3. 基于TensorFlow2.3.0的果蔬識別系統(tǒng)的

    2024年02月09日
    瀏覽(95)
  • AI一葉知秋:從目標檢測部署淺談人工智能發(fā)展

    筆者寫這篇文章也有討巧之嫌,僅以個人視角分享一些看法,主要從實踐部署來談談近兩年來計算機視覺模型的變化,不過AI是一個宏大的話題,每個人定義的人工智能就不一樣,我們先來探討一下何為人工智能。百度百科中是這樣定義的: 人工智能是研究、開發(fā)用于模擬、

    2024年02月02日
    瀏覽(15)
  • 人工智能學習與實訓筆記(三):神經(jīng)網(wǎng)絡之目標檢測問題

    人工智能學習與實訓筆記(三):神經(jīng)網(wǎng)絡之目標檢測問題

    人工智能專欄文章匯總:人工智能學習專欄文章匯總-CSDN博客 目錄 三、目標檢測問題 3.1 目標檢測基礎(chǔ)概念 3.1.1 邊界框(bounding box) 3.1.2?錨框(Anchor box) 3.1.3 交并比 3.2?單階段目標檢測模型YOLOv3 3.2.1?YOLOv3模型設計思想 3.2.2 YOLOv3模型訓練過程 3.2.3 如何建立輸出特征圖與預

    2024年02月20日
    瀏覽(89)
  • YOLO目標檢測——真實和人工智能生成的合成圖像數(shù)據(jù)集下載分享

    YOLO目標檢測——真實和人工智能生成的合成圖像數(shù)據(jù)集下載分享

    YOLO真實和人工智能生成的合成圖像數(shù)據(jù)集,真實場景的高質(zhì)量圖片數(shù)據(jù),圖片格式為jpg,數(shù)據(jù)場景豐富??捎糜跈z測圖像是真實的還是由人工智能生成。 數(shù)據(jù)集點擊下載 :YOLO真實和人工智能生成的合成圖像數(shù)據(jù)集+120000圖片+數(shù)據(jù)說明.rar

    2024年02月10日
    瀏覽(24)
  • 基于人工智能與邊緣計算Aidlux的鳥類檢測驅(qū)趕系統(tǒng)(可修改為coco 80類目標檢測)

    基于人工智能與邊緣計算Aidlux的鳥類檢測驅(qū)趕系統(tǒng)(可修改為coco 80類目標檢測)

    ●項目名稱 基于人工智能與邊緣計算Aidlux的鳥類檢測驅(qū)趕系統(tǒng)(可修改為coco 80類目標檢測) ●項目簡介 本項目在Aidlux上部署鳥類檢測驅(qū)趕系統(tǒng),通過視覺技術(shù)檢測到有鳥類時,會進行提示。并可在源碼上修改coco 80類目標檢測索引直接檢測其他79類目標,可以直接修改、快速

    2024年02月12日
    瀏覽(22)
  • 人工智能學習07--pytorch15(前接pytorch10)--目標檢測:FPN結(jié)構(gòu)詳解

    人工智能學習07--pytorch15(前接pytorch10)--目標檢測:FPN結(jié)構(gòu)詳解

    backbone:骨干網(wǎng)絡,例如cnn的一系列。(特征提?。?(a)特征圖像金字塔 檢測不同尺寸目標。 首先將圖片縮放到不同尺度,針對每個尺度圖片都一次通過算法進行預測。 但是這樣一來,生成多少個尺度就要預測多少次,訓練效率很低。 (b)單一特征圖 faster rcnn所采用的一種方式

    2023年04月12日
    瀏覽(237)
  • AIGC邁向通用人工智能時代

    AIGC邁向通用人工智能時代

    2023年1月30日,AIGC概念股突飛猛漲。一時間,AIGC再次站上風口浪尖。 AIGC(AI Generated Content)是指利用人工智能技術(shù)來生成內(nèi)容,被認為是繼UGC、PGC之后的新型內(nèi)容生產(chǎn)方式,常見的 AI繪畫、AI寫作 等都屬于AIGC的分支。 事實上,AIGC在這一波熱議之前,早已悄然興起。 這要從

    2024年02月09日
    瀏覽(101)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包