国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

CLIP,GLIP論文解讀,清晰明了

這篇具有很好參考價值的文章主要介紹了CLIP,GLIP論文解讀,清晰明了。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

CLIP:Contrastive Language-Image Pre-training

論文名稱:Learning Transferable Visual Models From Natural Language Supervision

原論文地址:https://arxiv.org/abs/2103.00020

開源預訓練模型:https://github.com/OpenAI/CLIP

GLIP論文名稱:Grounded Language-Image Pre-training

原論文地址: https://arxiv.org/abs/2112.03857

是的沒錯,開篇必須說點啥是我的特色,大連疫情了,整個假期啥事沒有,一開學就疫情,另外才知道發(fā)核心才能畢業(yè)哦呵呵呵,我笑噶了。本文介紹兩篇論文,目標抓緊開題!

目錄

1. CLIP干啥的

2. GLIP

2.1 怎么將兩個任務相結合的

2.2 預訓練數(shù)據(jù)集

2.3?模型總體框架

3. 升級版:GLIPV2


1. CLIP干啥的

CLIP,GLIP論文解讀,清晰明了?

1.1 CLIP如何進行預訓練

CLIP就是用對比學習的方式,去訓練一個視覺語言的多模態(tài)模型。模型的輸入是一個圖片和文字的配對,比如這里圖片畫的是一只狗,那么配對的文字是一只小狗,圖片通過一個圖片編碼器(Resnet或者vision transformer),從而得到了一些特征,文字通過文本編碼器,從而得到一些文本的特征,假設說,每個training betch里都有N個這樣的圖片文本對,那個我們就可以得到N個這種圖片的特征,N個文本的特征,CLIP就是在這些特征上去做對比學習,對比學習就非常的靈活,他只需要一個正樣本和負樣本的定義,那么如圖,配對的一個圖片文本對就是正樣本,也就是圖中紅框框起來的,因為他描述的是一個東西。那么剩下這個矩陣中所有不是對角線上的元素,都是負樣本,也就是說,這里有N個正樣本,有-N個負樣本。然后模型就可以通過對比學習方式訓練起來了,完全不需要任何手工的標注,對于這種無監(jiān)督的預訓練方式,需要大量的數(shù)據(jù),那么作者搞了4個億的數(shù)據(jù)集...好嘛

1.2?CLIP如何來做zero shot的推理

因為CLIP模型經(jīng)過預訓練之后只能得到視覺上和文本上的這些特征,并沒有在任何分類的任務上,做繼續(xù)的訓練或者微調(diào),所以說他沒有這么一個分類頭,那么沒分類頭如何推理:

prompt template:用 Image Net舉例,CLIP就是先把Image Net 里這1000各類,飛機,車,狗啥的,變成一個句子,A photo of a?plane,然后這1000個句子通過之前預訓練好的這個文本編碼器得到1000個文本的特征,推理的時候,任何一張圖片通過圖片的編碼器,得到圖片特征之后,與所有的文本特征做cosine similarity,相似性最高的這個文本特征所對應的句子就是我們想要的,從而完成分類。

CLIP這個模型,徹底擺脫了categorical labal(絕對標簽)這個限制,就是不論在訓練的時候還是在推理的時候都不需要一個提前定好的一個標簽的列表了,任意一張照片,都可以通過給模型輸入不同的文本句子,從而知道這張圖片是啥。

2. GLIP

這篇論文做的任務是phrase grounding(利用指定描述的語句進行標定圖片中所顯示的物體),屬于visual grounding(視覺基礎訓練)的一種。phrase grounding的任務是輸入句子和圖片,對于給定的sentence,要定位其中提到的全部物體然后框出來。

對比一下的話,目標檢測是給你一個圖片,把bounding box找出來,visual grounding就是給你一個圖片,再給一個文本,根據(jù)這個文本把物體找出來。此篇文章就是將兩個任務結合,把detection和phrase grounding兩個任務合起來,變成一個統(tǒng)一的框架,來做模型的與訓練,再把尾標簽的一系列方法加進來(self-training),就可以實現(xiàn)在沒有標注過的圖像文本對上生成bounding box標簽。

CLIP,GLIP論文解讀,清晰明了

Zero Shot:給一些標簽或者一句話,通過GLIP模型得到檢測框

2.1 怎么將兩個任務相結合的

對于目標檢測和phrase grounding來說,訓練目標函數(shù)是一個分類的loss加一個定位的loss,其中這個定位的loss兩者差不多,區(qū)別就在于怎么來計算這個分類的loss。

目標檢測的分類loss:給定一個圖片,有一個此圖像的backbone,就可以得到這個region embedding,上圖的這個O就是一個Nxd的region embedding,意思就是假如說有N個bounding box,每個bounding box embedding的維度就是d,然后就是接了一個分類頭,看看每一個bounding box里面的物體到底是哪個類,那么這個分類頭就是一個矩陣W,它的維度就是cxd,c是有多少個類別,然后把region embedding和W相乘之后就可以得到最后這個分類的logic,再用NMS把這些bounding box篩選一下,跟ground truth(正確標記的)算cross entropy loss(交叉熵損失)就能得到最終的這個分類loss。CLIP,GLIP論文解讀,清晰明了

vision grounding的分類loss:算了一個匹配的分數(shù)S,看圖像中的區(qū)域和句子里的單詞如何匹配,也是給定一個圖片,有一個image backbone,得到這個region embedding,然后給了一個句子prompt,通過一個文本編碼器得到文本的embedding P,之后跟圖像的embedding O 算一下similarity,就可以得到最終的這個分數(shù),

CLIP,GLIP論文解讀,清晰明了

把目標檢測和vision grounding聯(lián)合:判斷什么時候是positive match,什么時候是negative match

2.2 預訓練數(shù)據(jù)集

用已有的數(shù)據(jù)集不夠,想把數(shù)據(jù)集變大,就需要借鑒于unlable的data,引入圖像文本對來增加數(shù)據(jù)集,為了訓練這個的目標檢測模型,必須得有bounding box的ground truth,還需要知道這個bounding box對應于句子里的哪個單詞,所以作者就采取self training,借鑒偽標簽的方式,就是說他拿已經(jīng)訓練好的這個glip-tiny c,直接在這些圖像文本對上做推理,他推理出來當前的圖片上有哪些bounding box,他就把這些bounding box當成ground truth??赡苡绣e誤所以叫做偽標簽,用了之后模型的穩(wěn)健性更好。

2.3?模型總體框架

目標函數(shù)怎么算的:做了一個有監(jiān)督的學習的工作,時時刻刻都是有bounding box annotation,當抽出來O1,O2這些region的時候,是知道跟上面的單詞是一一對應的,這樣在算完這個O和P的這個相似度點乘之后,就可以去跟ground truth來算Alignment Loss,就完成了文本和圖像特征之間的融合,就可以進一步的來做zero shot,對于這個定位的loss來說,因為有ground turth,就直接算一個L-1loss就可以。

Deep Fusion:將文本的特征和圖像的特征抽出來之后,理論上是可以算后面這個相似度矩陣的,但是如果直接這么算的話,這個圖像文本的joint embedding space (聯(lián)合的特征提?。┻€沒學好,如果多加一些層數(shù),讓他們之間融合一下,可能學的更好,相似的概念拉的更近,能讓最后的文本特征和圖像特征更好,更有關聯(lián)性,這樣再算后面的相似度的時候,就更有針對性。具體操作:用cross attention把這個文本和圖像的特征進行交互,

CLIP,GLIP論文解讀,清晰明了

3. 升級版:GLIPV2

論文名稱:GLIPV2:Unifying Localization and VL Understanding

原論文地址:https://arxiv.org/pdf/2206.05836.pdf

卷起來了,他融合了更多的數(shù)據(jù)集,更多的任務,加入了一個VQA(Visual Question Answering)能回答問題了和Image Caption(圖片說明),如圖

CLIP,GLIP論文解讀,清晰明了

4. 小小總結

數(shù)據(jù)集大力出奇跡,老鼻子數(shù)據(jù),訓練訓練就賊準,發(fā)論文的密碼掌握了文章來源地址http://www.zghlxwxcb.cn/news/detail-446648.html

到了這里,關于CLIP,GLIP論文解讀,清晰明了的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • VLM 系列——中文CLIP——論文解讀

    ?? ?CLIP 的中文版《Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese》,訓練使用2億 圖-文 對的對比學習(不是LLM的預測下一個token),是一個雙塔模型(圖像和文本各子擁有一個編碼器)。由于對齊了圖像和文本特征,可以用來做:圖-圖(文章中沒有相關測試任務)、圖

    2024年01月24日
    瀏覽(23)
  • CLIP原理解讀——大模型論文閱讀筆記一

    CLIP原理解讀——大模型論文閱讀筆記一

    通過自然語言處理來的一些監(jiān)督信號,可以去訓練一個遷移效果很好的視覺模型。 論文的作者團隊收集了一個超級大的圖像文本配對的數(shù)據(jù)集,有400 million個圖片文本的配對, 模型最大用了ViT-large,提出了CLIP(Contrastive Language-Image Pre-training),是一種從自然語言監(jiān)督中學習

    2024年02月08日
    瀏覽(35)
  • Node 多版本管理(清晰明了)

    Node 多版本管理(清晰明了)

    最近學習cloud項目,前端使用到 vue3 + ts 等技術,在啟動 vue3 項目中需要 node 版本較高(16.15.0),但自己又不想卸載原來的版本,這時使用需要 Node 多版本管理 ,根據(jù) 項目官方文檔提供的方法在此記錄一下 。 需要先把本地安裝的Node.js卸載,然后再下載nvm ,地址: https://g

    2024年02月07日
    瀏覽(19)
  • 清晰、明了的@Transcation事務嵌套使用

    清晰、明了的@Transcation事務嵌套使用

    ??事務(Transaction):指數(shù)據(jù)庫中執(zhí)行的一系列操作被視為一個邏輯單元,要么全部成功地執(zhí)行,要么全部失敗回滾,保證數(shù)據(jù)的一致性和完整性。 ??@Transactional注解是Spring框架提供的用于聲明事務的注解,作用于類和方法上。 屬性 可選值 作用 propagation REQUIRED REQUIRES_

    2024年02月08日
    瀏覽(22)
  • Docker部署springcloud項目(清晰明了)

    Docker部署springcloud項目(清晰明了)

    最近在想做個cloud項目,gitee上找了個模板項目,后端使用到 Nacos、Gateway、Security等技術,需要到 Docker 容器部署 ,在此總結一下,若有不足之處,望大佬們可以指出。 Docker 使用 Google 公司推出的 Go 語言 進行開發(fā)實現(xiàn),基于 Linux 內(nèi)核的 cgroup,namespace,以及 AUFS 類的 Union FS 等

    2024年02月06日
    瀏覽(14)
  • VSCode 配置 Lua 開發(fā)環(huán)境(清晰明了)

    VSCode 配置 Lua 開發(fā)環(huán)境(清晰明了)

    由于 AutoJS 學得已經(jīng)差不多了,基本都會了,現(xiàn)在開始向其他游戲腳本框架進發(fā), Lua 語言很強大 ,就不多說, 按鍵精靈、觸動精靈等等都是用該語言編程腳本的,由于按鍵精靈、觸動精靈 和 AutoJS 類似,不是說一樣是因為按鍵精靈、觸動精靈整合大漠插件等牛逼插件,控制

    2024年02月07日
    瀏覽(20)
  • WIndows 配置多版本python環(huán)境,非常清晰明了

    配置多個python環(huán)境 下面以配置三個python版本環(huán)境為例子 首先下載好三個環(huán)境的python,如: python2.7、python3.6、python3.10 給個官網(wǎng)鏈接自己下,想要幾版本就下幾:https://www.python.org/downloads/windows/ 下載完成后將python2.7中的python.exe文件改名為python2.exe,也可以叫python2.7.exe, 反正叫

    2024年02月10日
    瀏覽(16)
  • Vue3 使用MD5加密(清晰明了)

    Vue3 使用MD5加密(清晰明了)

    最近在想做個cloud項目,gitee上找了個模板項目,前端使用到vue3 + typeScript、Element Plus、Vue Router、Pinia、Axios、i18n、Vite等技術,最近使用到 vue3 MD5加密 ,順便學習一下,在此總結一下,若有不足之處,望大佬們可以指出。 注意: ts-md5 不是 js-md5 定義: 局部使用: 定義: 意思

    2023年04月08日
    瀏覽(28)
  • 【網(wǎng)絡】無線路由器的AP、Client、WDS、WISP使用功能圖解(清晰明了)

    【網(wǎng)絡】無線路由器的AP、Client、WDS、WISP使用功能圖解(清晰明了)

    有線路由器組成:一個有一個 WAN 口和一個 LAN 口的路由器、一個有幾個 LAN 口的網(wǎng)絡交換機,一個接在 LAN 口的 DHCP 服務器。如下圖所示 在路由器的 LAN 口上,接了一個無線交換機。這個無線交換機的無線插接口,就是這個無線路由器的無線 AP,這種工作模式就是無線路由器

    2024年02月09日
    瀏覽(21)
  • MySQL5.7版本在CentOS系統(tǒng)安裝 保姆級教程 從小白開始 步驟清晰簡單明了

    MySQL5.7版本在CentOS系統(tǒng)安裝 保姆級教程 從小白開始 步驟清晰簡單明了

    注意:需要使用root權限 ps:圖片大都為安裝MySQL8.0版本時的截圖僅供參考,實際指令請參照紅色字體代碼,8.0和5.7版本安裝步驟相同,個別地方代碼有所差別 安裝MySQL8.0版本:http://t.csdn.cn/CSOqM 目錄 一. 安裝 1. 配置yum倉庫 2. 使用yum安裝MySQL 3. 安裝完成后,啟動MySQL并配置開機

    2024年02月08日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包