国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

何愷明團隊12頁論文新作劍指AIGC!“新CLIP”只需一個trick,訓(xùn)練速度快3.7倍!性能不降反升...

這篇具有很好參考價值的文章主要介紹了何愷明團隊12頁論文新作劍指AIGC!“新CLIP”只需一個trick,訓(xùn)練速度快3.7倍!性能不降反升...。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

楊凈 艷艷 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

何愷明團隊又上新了。

這次,他們的成果圍繞當(dāng)下最火的AIGC背后的CLIP展開。

——只在該模型的極簡結(jié)構(gòu)上,施加了一個簡單的mask,就讓新模型的速度快了3.7倍。

同時,性能還可以做到不降反升

何愷明團隊12頁論文新作劍指AIGC!“新CLIP”只需一個trick,訓(xùn)練速度快3.7倍!性能不降反升...

團隊表示,希望他們的工作能幫助未來視覺語言模型實現(xiàn)規(guī)模化。

這波,讓大家直呼:不愧是何愷明,還是熟悉的味道啊~

是的,還是“大道至簡”的feel。

就連論文也一如既往,短短12頁,一行公式也沒有。

一起來拜讀吧。

引入類似MAE的mask

本文提出了一個用來訓(xùn)練CLIP的快速、簡單且有效的方法FLIP

Fast Language-Image Pre-training(快速文本-圖像預(yù)訓(xùn)練方法),也是很直接了。

簡單來說,就是基于原有的CLIP架構(gòu),對輸入圖像的那一側(cè), 隨機掩蔽圖像區(qū)塊,之后只對可見區(qū)塊編碼。

何愷明團隊12頁論文新作劍指AIGC!“新CLIP”只需一個trick,訓(xùn)練速度快3.7倍!性能不降反升...

原有CLIP架構(gòu)

更直白來講,對CLIP架構(gòu)引入類似于MAE的思路,于是FLIP架構(gòu)也就變成了這樣。

何愷明團隊12頁論文新作劍指AIGC!“新CLIP”只需一個trick,訓(xùn)練速度快3.7倍!性能不降反升...

這樣一來,既可以減少計算量,提高訓(xùn)練效率,相同的時間可以進行更多圖像-文本樣本學(xué)習(xí);每次迭代還能可對比更多樣本,但保持相似的內(nèi)存占用率。

具體來說,本文采用的是ViT作為圖像編碼器。

圖像首先被劃分為一個不重疊的網(wǎng)格,并隨機地遮蔽掉大部分的區(qū)塊。本文采用的遮蔽比例為50%、75%。隨后ViT只對可區(qū)塊編碼,時間復(fù)雜度相應(yīng)降低為原來的二分之一(50%),或者四分之一(75%)。

同樣的方式還可以用到文本遮蔽上。不過研究者認為由于文本編碼器比較小,帶來的加速效果并不能帶來整體的增益。

不過跟MAE不同的是,此次FLIP并沒有對被遮蔽的圖像內(nèi)容重建,也沒有解碼器。

何愷明團隊12頁論文新作劍指AIGC!“新CLIP”只需一個trick,訓(xùn)練速度快3.7倍!性能不降反升...

MAE架構(gòu)

因為他們發(fā)現(xiàn),放棄解碼器和重建可以產(chǎn)生更好的速度。雖然編碼器在被遮蔽的圖像上進行了預(yù)訓(xùn)練,但它可以直接應(yīng)用在完整圖像上。

相同性能,速度為3.7x

總的來看,采用了mask機制的FLIP相比CLIP,在準確性和訓(xùn)練時間上取得了平衡,即性能在訓(xùn)練時間大幅減少的情況下,不降反升。

——尤其是在mask程度高達50%和75%的情況下。

其中,當(dāng)mask=75%時,F(xiàn)LIP達到和基線模型CLIP相同的性能時,訓(xùn)練速度是它的3.7x。

這也就意味著,CLIP花費大約2500 TPU-days訓(xùn)練完成時,F(xiàn)LIP可以大約節(jié)省1800 TPU-days。

何愷明團隊12頁論文新作劍指AIGC!“新CLIP”只需一個trick,訓(xùn)練速度快3.7倍!性能不降反升...

這一結(jié)果在ImageNet-1K驗證集上的Zero-shot transfer任務(wù)中得出,每個不同mask比例的模型都在LAION-400M上進行了6.4、12.8或32個epoch的訓(xùn)練,包含了4億個圖像-文本對。

接著,采用64k batch,50% mask比和unmasked微調(diào)的FLIP,在ImageNet-1K分類數(shù)據(jù)集上的三個主要指標上也獲得了比CLIP更好的性能。

何愷明團隊12頁論文新作劍指AIGC!“新CLIP”只需一個trick,訓(xùn)練速度快3.7倍!性能不降反升...

注:是比他們復(fù)現(xiàn)出來的CLIP更好,和原始CLIP還差一點,當(dāng)然,兩者數(shù)據(jù)集不一樣。

而在基于各類數(shù)據(jù)集的大量下游任務(wù)中(包括零樣本分類、文字/圖片檢索等),F(xiàn)LIP同樣表現(xiàn)出了優(yōu)勢,且基本全線碾壓了CLIP(見綠色高亮,幾乎點滿)。

何愷明團隊12頁論文新作劍指AIGC!“新CLIP”只需一個trick,訓(xùn)練速度快3.7倍!性能不降反升...
何愷明團隊12頁論文新作劍指AIGC!“新CLIP”只需一個trick,訓(xùn)練速度快3.7倍!性能不降反升...

最后,對于FLIP模型的scale up也是一大看點,結(jié)果可圈可點。

可以看到,當(dāng)增加FLIP的模型大小和數(shù)據(jù)規(guī)模時,F(xiàn)LIP繼續(xù)漲點,尤其增加模型大小時最為明顯(最左)。不過單純增加訓(xùn)練時長基本沒用(最右)。

何愷明團隊12頁論文新作劍指AIGC!“新CLIP”只需一個trick,訓(xùn)練速度快3.7倍!性能不降反升...

從下表我們還能看出,模型大小和數(shù)據(jù)規(guī)模一起增加,效果又上了一個新高度。證明大模型+大數(shù)據(jù)就是好使。

何愷明團隊12頁論文新作劍指AIGC!“新CLIP”只需一個trick,訓(xùn)練速度快3.7倍!性能不降反升...

何愷明擔(dān)任通訊作者

FLIP一共5位作者。

何愷明團隊12頁論文新作劍指AIGC!“新CLIP”只需一個trick,訓(xùn)練速度快3.7倍!性能不降反升...

3位共同一作,都是FAIR研究工程師。其中:

Li Yanghao,本碩畢業(yè)于北京大學(xué)計算機科學(xué)專業(yè),已發(fā)表多篇頂會;

Fan Haoqi,畢業(yè)于CMU機器人學(xué)院;

Hu Ronghang,本科畢業(yè)于清華,2020年博士畢業(yè)于UC伯克利。

通訊作者有兩位:

何愷明和他的同事Christoph Feichtenhofer,擁有同等指導(dǎo)貢獻。

何愷明團隊12頁論文新作劍指AIGC!“新CLIP”只需一個trick,訓(xùn)練速度快3.7倍!性能不降反升...

One More Thing

值得一提的是,有細心的網(wǎng)友統(tǒng)計了近三年CVPR引用量最高的論文(截至2022年11月),分別是Moco(2020)、SimSiam(2021)、MAE(2022)。

何愷明團隊12頁論文新作劍指AIGC!“新CLIP”只需一個trick,訓(xùn)練速度快3.7倍!性能不降反升...

而這三篇文章唯一的共同作者就是何愷明,其中兩篇還是一作,且都是與自監(jiān)督學(xué)習(xí)相關(guān)。據(jù)谷歌學(xué)術(shù)統(tǒng)計,目前他們的引用量分別為5224、1374、834。

愷明大神還是一如既往地穩(wěn)定發(fā)揮呀~

對于他們團隊的最新力作,你怎么看?

比如,為什么對圖像patch進行了隨機mask,反而讓模型性能不降反升呢?

論文鏈接:
https://arxiv.org/abs/2212.00794
參考鏈接:
[1]https://mp.weixin.qq.com/s/SYrNQ64lby8Bi6sQKX7rCA
[2]https://kaiminghe.github.io/
[3]https://www.zhihu.com/question/570153050/answer/2784717398

MEET 2023 大會定檔!

嘉賓全陣容公布

量子位「MEET2023智能未來大會」正式定檔12月14日!嘉賓全陣容已于近日正式公布。

20位來自智能科技產(chǎn)業(yè)、科研、投資領(lǐng)域具有代表性企業(yè)的直接負責(zé)人,將在MEET大會上共同交流、思維碰撞。期待與大家共聚MEET2023!

點這里關(guān)注我 ?? 記得標星噢 ~文章來源地址http://www.zghlxwxcb.cn/news/detail-503450.html

到了這里,關(guān)于何愷明團隊12頁論文新作劍指AIGC!“新CLIP”只需一個trick,訓(xùn)練速度快3.7倍!性能不降反升...的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 【AIGC】CLIP

    【AIGC】CLIP

    ? 對比學(xué)習(xí): Clip使用對比學(xué)習(xí)來訓(xùn)練模型。對比學(xué)習(xí)的目標是通過將正樣本(相似的圖像和文本對)與負樣本(不相似的圖像和文本對)進行比較,從而使模型學(xué)會區(qū)分不同樣本之間的差異。這有助于模型學(xué)到更具泛化性的表示。 雙向編碼器: Clip包括兩個部分的編碼器,

    2024年01月25日
    瀏覽(20)
  • AIGC學(xué)習(xí)筆記——CLIP詳解加推理

    AIGC學(xué)習(xí)筆記——CLIP詳解加推理

    clip論文地址:https://arxiv.org/pdf/2103.00020.pdf clip代碼地址:https://github.com/openai/CLIP 小輝問:能不能解釋一下zero-shot? 小G答:零次學(xué)習(xí)(Zero-Shot Learning,簡稱ZSL)假設(shè)斑馬是未見過的類別,但根據(jù)描述外形和馬相似、有類似老虎的條紋、具有熊貓相似的顏色,通過這些描述推理出

    2024年03月10日
    瀏覽(22)
  • AIGC系列之:CLIP和OpenCLIP

    AIGC系列之:CLIP和OpenCLIP

    目錄 模型背景 CLIP模型介紹 相關(guān)資料 原理和方法 Image Encoder Text Encoder 對比學(xué)習(xí) 預(yù)訓(xùn)練 Zero Shot預(yù)測 優(yōu)勢和劣勢 總結(jié) OpenClip模型介紹 相關(guān)資料 原理 結(jié)果 用法 模型總結(jié) Stable Diffusion主要由三個核心模塊組成: Text Encoder(文本編碼器) Image Information Creator(圖像信息生成器)

    2024年02月04日
    瀏覽(20)
  • AIGC神器CLIP:技術(shù)詳解及應(yīng)用示例

    AIGC神器CLIP:技術(shù)詳解及應(yīng)用示例

    編者按:上一期,我們介紹了Diffusion模型的發(fā)展歷程、核心原理及其對AIGC發(fā)展的推動作用。本期,我們將共同走進另一項AI重要突破——CLIP,著名的DALLE和Stable Diffusion均采用了CLIP哦。 Nikos Kafritsas的這篇文章,為我們詳細介紹了CLIP是如何工作的,同時提供一些編碼示例。 以

    2024年02月11日
    瀏覽(29)
  • AIGC零基礎(chǔ)30天學(xué)習(xí)——CLIP模型

    AIGC零基礎(chǔ)30天學(xué)習(xí)——CLIP模型

    ????????Contrastive Language-Image Pre-training(以下簡稱“CLIP”)是OpenAI 在 2021 年初發(fā)布的用于匹配圖像和文本的預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,可以說是近年來在多模態(tài)研究領(lǐng)域的經(jīng)典之作。該模型直接使用大量的互聯(lián)網(wǎng)數(shù)據(jù)進行預(yù)訓(xùn)練,在很多任務(wù)表現(xiàn)上達到了目前最佳表現(xiàn)(SOT

    2024年02月09日
    瀏覽(19)
  • 【AIGC】10、Chinese CLIP | 專為中文圖文匹配設(shè)計

    【AIGC】10、Chinese CLIP | 專為中文圖文匹配設(shè)計

    論文:Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese 代碼:https://github.com/OFA-Sys/Chinese-CLIP 出處:阿里達摩院 時間:2022.11 貢獻: 提出了 Chinese CLIP,是經(jīng)過在大尺度中文圖像-文本對兒的兩階段預(yù)訓(xùn)練 CLIP 的成功極大地促進了對比學(xué)習(xí)在視覺-語言模型預(yù)訓(xùn)練上的研究和應(yīng)用

    2024年02月13日
    瀏覽(22)
  • CLIP 論文解讀

    CLIP 論文解讀

    現(xiàn)有的計算機視覺系統(tǒng)用來預(yù)測一組固定的預(yù)訂對象類別,比如ImageNet數(shù)據(jù)集有1000類,CoCo數(shù)據(jù)集有80類。這種受限的監(jiān)督形式限制了模型的通用性和可用性。使用這種方法訓(xùn)練好的模型對訓(xùn)練過程中出現(xiàn)的對象類別有很好的識別效果,但是對訓(xùn)練過程中未出現(xiàn)的類別,識別效

    2024年02月04日
    瀏覽(30)
  • CLIP Surgery論文閱讀

    CLIP Surgery論文閱讀

    M = norm ? ( resize ? ( reshape ? ( F i ˉ ∥ F i  ̄ ∥ 2 ? ( F t ∥ F t  ̄ ∥ 2 ) ? ) ) ) M=operatorname{norm}left(operatorname{resize}left(operatorname{reshape}left(frac{boldsymbol{F}_{bar{i}}}{left|boldsymbol{F}_{underline{i}}right|_{2}} cdotleft(frac{boldsymbol{F}_{t}}{left|boldsymbol{F}_{underline{t}}right|_{2}}

    2024年03月16日
    瀏覽(23)
  • AIGC零基礎(chǔ)30天學(xué)習(xí)——CLIP與zero-shot

    AIGC零基礎(chǔ)30天學(xué)習(xí)——CLIP與zero-shot

    ? ? ? ?在前面對CLIP的學(xué)習(xí)中,對 zero-shot prediction 環(huán)節(jié)一直有一些疑惑,zero-shot是什么,它該如何進行操作? ? ? zero-shot是指零樣本學(xué)習(xí),和zero-shot相關(guān)聯(lián)的概念包括many-shot、few-shot和one-shot,這些其實都是從訓(xùn)練集樣本類型、測試集樣本類型和對應(yīng)的樣本數(shù)量角度進行劃分

    2024年02月09日
    瀏覽(19)
  • 【AIGC】7、CLIP | OpenAI 出品使用 4 億樣本訓(xùn)練的圖文匹配模型

    【AIGC】7、CLIP | OpenAI 出品使用 4 億樣本訓(xùn)練的圖文匹配模型

    論文:Learning Transferable Visual Models From Natural Language Supervision 代碼:https://github.com/OpenAI/CLIP 官網(wǎng):https://openai.com/research/clip 出處:OpenAI 時間:2021.02 貢獻: 基于圖文匹配,不受限于分類類別,有很強的擴展性!??!這是 CLIP 最炸裂的地方,徹底擺脫了預(yù)定義標簽列表了 不僅僅

    2024年02月08日
    瀏覽(36)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包