国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

CLIP原理解讀——大模型論文閱讀筆記一

這篇具有很好參考價值的文章主要介紹了CLIP原理解讀——大模型論文閱讀筆記一。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

CLIP原理解讀

一. 核心思想

通過自然語言處理來的一些監(jiān)督信號,可以去訓練一個遷移效果很好的視覺模型。
論文的作者團隊收集了一個超級大的圖像文本配對的數據集,有400 million個圖片文本的配對, 模型最大用了ViT-large,提出了CLIP(Contrastive Language-Image Pre-training),是一種從自然語言監(jiān)督中學習的有效方法。嘗試了30個數據集,都能和之前的有監(jiān)督的模型效果差不多甚至更好。

二. 方法實現(xiàn)

CLIP原理解讀——大模型論文閱讀筆記一,大模型,人工智能,論文閱讀,筆記,深度學習

1. CLIP的訓練過程

模型的輸入是圖片和文字的配對,圖片輸入到圖片的encoder得到一些特征,文本輸入到文本的encoder得到一些特征,每個traning batch里有n個圖片-文本對,就能得到n個圖片的特征和n個文本的特征,然后在這些特征上做對比學習,對比學習非常靈活,就需要正樣本和負樣本的定義,其它都是正常套路(不懂對比學習),配對的圖片-文本對就是正樣本,描述的是同一個東西,特征矩陣里對角線上的都是正樣本,矩陣中非對角線上的元素都是負樣本,有了正負樣本,模型就可以通過對比學習的方式去訓練了,不需要任何手工標注。這種無監(jiān)督的訓練方式,是需要大量的訓練數據的。

2. CLIP的推理過程

預訓練之后只能得到文本和圖片的特征,是沒有分類頭的,作者提出一種利用自然語言的方法,prompt template。比如對于ImageNet的類別,首先把它變成"A photo of a {object}" 這樣一個句子,ImageNet有1000個類,就生成1000個句子,然后這1000個句子通過之前預訓練好的文本的encoder能得到1000個文本特征。直接用類別單詞去抽取文本特征也可以,但是模型預訓練的時候和圖片配對的都是句子,推理的時候用單詞效果會下降。把需要分類的圖片送入圖片的encoder得到特征,拿圖片的特征和1000個文本特征算余弦相似性,選最相似的那個文本特征對應的句子,從而完成了分類任務。不局限于這1000個類別,任何類別都可以。徹底擺脫了categorical label的限制,訓練和推理的時候都不需要提前定義好的標簽列表了。
優(yōu)點:相比其它的訓練方法,從自然語言的監(jiān)督信號來學習,有幾個好處。首先,不需要再去標注數據,比如用傳統(tǒng)方法做分類,需要先確定類別,然后去下載圖片再清洗,再標注,現(xiàn)在只需要去下載圖片和文本的配對,數據集很容易就做大了,現(xiàn)在的監(jiān)督對象是文本,而不是N選1的標簽了。其次,訓練的時候把圖片和文本綁在了一起,學到的特征不再單是視覺特征了,而是多模態(tài)的特征,和語言連在一起以后,就很容易做zero-shot的遷移學習了。

3. CLIP的損失函數

CLIP原理解讀——大模型論文閱讀筆記一,大模型,人工智能,論文閱讀,筆記,深度學習
有兩個輸入,一個是圖片,一個是文本,圖片的維度是[n,h,w,c],文本的維度是[n,l],l是指序列長度,然后送入到各自的encoder提取特征,image encoder可以是ResNet也可以是Vision Transformer,text encoder可以是CBOW,也可以是Text Transformer,得到對應的特征之后,再經過一個投射層(即W_i和W_t),投射層的意義是學習如何從單模態(tài)變成多模態(tài),投射完之后再做l2 norm,就得到了最終的用來對比的特征I_e和T_e,現(xiàn)在有n個圖像的特征,和n個文本的特征,接下來就是算consine similarity,算的相似度就是最后要分類的logits,最后logits和ground truth做交叉熵loss,正樣本是對角線上的元素,logits的維度是[n,n],ground truth label是np.arange(n),算兩個loss,一個是image的,一個是text的,最后把兩個loss加起來就平均。這個操作在對比學習中是很常見的,都是用的這種對稱式的目標函數。

三. 實驗

1. 研究動機

在計算機視覺中,zero-shot學習主要指研究對unseen datasets的泛化。之前的那些自監(jiān)督和無監(jiān)督的方法,主要研究的是特征學習的能力,目標就是學一種泛化性比較好的特征,但即使學到了很好的特征,想應用到下游任務,還是需要有標簽的數據做微調,所以有限制,比如下游任務數據不好收集,可能有distribution shift的問題。怎么做到只訓練一個模型,后面不再需要微調了呢,這就是作者研究zero-shot遷移的研究動機。借助文本訓練了一個又大又好的模型之后,就可以借助這個文本作為引導,很靈活的做zero-shot的遷移學習。
在clip預訓練好之后,就有2個編碼器,一個是圖像編碼器,一個是文本編碼器,推理時給定一張圖片,通過編碼器就能得到一個圖片的特征,文本那邊的輸入就是感興趣的標簽有哪些,比如plane,car,dog等,這些詞會通過prompt engineering得到對應的句子,比如‘A photo of a plane’,‘A photo of a dog’,有了這些句子以后,送入到文本編碼器,就能得到對應的文本特征,這里假設是plane,car,dog這3個,然后拿這3個文本的特征去和那張圖片的特征做余弦相似度,計算得到相似度以后再 通過一個softmax得到概率分布,概率最大的那個句子就是在描述這張照片。

2. 實驗結果

  1. 作者在27個數據集上做了實驗,在16個數據集上的測試指標超越了完全監(jiān)督學習的方法,體現(xiàn)了zero-shot的泛化性。
    CLIP原理解讀——大模型論文閱讀筆記一,大模型,人工智能,論文閱讀,筆記,深度學習
  2. Zero-shot CLIP的魯棒性
    CLIP原理解讀——大模型論文閱讀筆記一,大模型,人工智能,論文閱讀,筆記,深度學習

四. 論文點評

該論文是2021年Open AI的作品,作者使用4億圖文對進行訓練,并將圖片特征和文本特征對齊,展現(xiàn)出強大的Zero-shot能力。后續(xù)很多大模型或者多模態(tài)都可以看到這篇論文的影子,值得精讀。

歡迎技術交流!??!
WeChat:guopeiAI文章來源地址http://www.zghlxwxcb.cn/news/detail-713338.html

到了這里,關于CLIP原理解讀——大模型論文閱讀筆記一的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯(lián)網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 【論文閱讀】Weighted Boxes Fusion(WBF)模型融合原理解讀

    【論文閱讀】Weighted Boxes Fusion(WBF)模型融合原理解讀

    論文地址:https://arxiv.org/pdf/1910.13302.pdf 代碼地址:GitHub - ZFTurbo/Weighted-Boxes-Fusion: Set of methods to ensemble boxes from different object detection models, including implementation of \\\"Weighted boxes fusion (WBF)\\\" method. 【 原理 】 (1)將所有獲得的候選框按得分進行降序排列; (2)選取得分最高的候選框

    2024年02月10日
    瀏覽(27)
  • BioMed-CLIP 論文閱讀筆記

    BioMed-CLIP 論文閱讀筆記

    Abstract 本文聚焦于將VLP(vision-language processing)拓展到生物醫(yī)學領域,介紹了一種迄今為止最大的生物醫(yī)學VLP研究(使用了從PubMed Central中提取的15M 圖像文本對) PMC-15M 數據集的規(guī)模遠大于現(xiàn)有數據集,并且涵蓋不同你那個范圍的生物醫(yī)學圖像?;?CLIP 結構,作者提出了

    2024年02月04日
    瀏覽(17)
  • [論文閱讀筆記18] DiffusionDet論文筆記與代碼解讀

    [論文閱讀筆記18] DiffusionDet論文筆記與代碼解讀

    擴散模型近期在圖像生成領域很火, 沒想到很快就被用在了檢測上. 打算對這篇論文做一個筆記. 論文地址: 論文 代碼: 代碼 首先介紹什么是擴散模型. 我們考慮生成任務, 即encoder-decoder形式的模型, encoder提取輸入的抽象信息, 并嘗試在decoder中恢復出來. 擴散模型就是這一類中的

    2023年04月08日
    瀏覽(26)
  • CLIP 論文解讀

    CLIP 論文解讀

    現(xiàn)有的計算機視覺系統(tǒng)用來預測一組固定的預訂對象類別,比如ImageNet數據集有1000類,CoCo數據集有80類。這種受限的監(jiān)督形式限制了模型的通用性和可用性。使用這種方法訓練好的模型對訓練過程中出現(xiàn)的對象類別有很好的識別效果,但是對訓練過程中未出現(xiàn)的類別,識別效

    2024年02月04日
    瀏覽(30)
  • VLM 系列——中文CLIP——論文解讀

    ?? ?CLIP 的中文版《Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese》,訓練使用2億 圖-文 對的對比學習(不是LLM的預測下一個token),是一個雙塔模型(圖像和文本各子擁有一個編碼器)。由于對齊了圖像和文本特征,可以用來做:圖-圖(文章中沒有相關測試任務)、圖

    2024年01月24日
    瀏覽(23)
  • CLIP,GLIP論文解讀,清晰明了

    CLIP,GLIP論文解讀,清晰明了

    CLIP:Contrastive Language-Image Pre-training 論文名稱:Learning Transferable Visual Models From Natural Language Supervision 原論文地址:https://arxiv.org/abs/2103.00020 開源預訓練模型:https://github.com/OpenAI/CLIP GLIP論文名稱:Grounded Language-Image Pre-training 原論文地址: https://arxiv.org/abs/2112.03857 是的沒錯,開

    2024年02月05日
    瀏覽(17)
  • CLIP Surgery論文閱讀

    CLIP Surgery論文閱讀

    M = norm ? ( resize ? ( reshape ? ( F i ˉ ∥ F i  ̄ ∥ 2 ? ( F t ∥ F t  ̄ ∥ 2 ) ? ) ) ) M=operatorname{norm}left(operatorname{resize}left(operatorname{reshape}left(frac{boldsymbol{F}_{bar{i}}}{left|boldsymbol{F}_{underline{i}}right|_{2}} cdotleft(frac{boldsymbol{F}_{t}}{left|boldsymbol{F}_{underline{t}}right|_{2}}

    2024年03月16日
    瀏覽(23)
  • 萬字長文解讀圖像超分辨率 Real-ESRGAN 論文筆記+代碼閱讀

    萬字長文解讀圖像超分辨率 Real-ESRGAN 論文筆記+代碼閱讀

    目錄 一、介紹 二、重點創(chuàng)新 1.ESRGAN? 2.Real-ESRGAN 三、生成器結構 1.整體結構 2.RRDB結構 四、判別器結構 五、高階退化模型 六、損失函數 1.生成模型損失函數 2.判別模型損失函數 ????????超分辨率(Super-Resolution)指通過硬件或軟件的方法提高原有圖像的分辨率,通過一系列低

    2024年02月14日
    瀏覽(30)
  • 【模型壓縮】 LPPN論文閱讀筆記

    【模型壓縮】 LPPN論文閱讀筆記

    LPPN: A Lightweight Network for Fast Phase Picking ?深度學習模型的問題在于計算復雜度較高,在實際數據處理中需要面臨較高的處理代價,且需要專用的加速處理設備,如GPU。隨著數據累積,迫切需要設計一種能夠保證精度的輕量化高速震相拾取模型,以提高處理海量數據的效率,這

    2024年02月16日
    瀏覽(58)
  • 【論文閱讀筆記】Mamba模型代碼理解

    【論文閱讀筆記】Mamba模型代碼理解

    官方實現(xiàn):state-spaces/mamba (github.com) 最簡化實現(xiàn):johnma2006/mamba-minimal: Simple, minimal implementation of the Mamba SSM in one file of PyTorch. (github.com) 直接實現(xiàn):alxndrTL/mamba.py: A simple and efficient Mamba implementation in PyTorch and MLX. (github.com) 官方代碼做了大量優(yōu)化,目錄層級較多,對于理解模型含

    2024年04月13日
    瀏覽(34)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包