国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

大幅超越DALL·E 2和Imagen,斯坦福發(fā)布RA-CM3模型,融合檢索與生成

這篇具有很好參考價值的文章主要介紹了大幅超越DALL·E 2和Imagen,斯坦福發(fā)布RA-CM3模型,融合檢索與生成。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

大幅超越DALL·E 2和Imagen,斯坦福發(fā)布RA-CM3模型,融合檢索與生成

文|QvQ

最近,DALL-E和CM3等模型在多模態(tài)任務(wù)尤其是圖文理解上表現(xiàn)出色。然而,這些模型似乎需要將所有學(xué)到的知識存儲都存儲在模型參數(shù)中,這就不得不需要越來越大的模型和訓(xùn)練數(shù)據(jù)來獲取更多的知識,儼然將bigger and better綁定在了一起。

那既然如此,哪還需要算法工程師?全體轉(zhuǎn)行數(shù)據(jù)標(biāo)注工程師和芯片制造工程師豈不是可以早日實現(xiàn)AI自由?大幅超越DALL·E 2和Imagen,斯坦福發(fā)布RA-CM3模型,融合檢索與生成

這不,斯坦福和Meta AI一眾學(xué)者為了證明算法工程師“不可取代”的地位,提出了一種檢索增強(qiáng)的多模態(tài)模型:實現(xiàn)了通過可縮放和模塊化的方式集成知識,從而使基礎(chǔ)多模態(tài)模型(生成器)能夠引用檢索器從外部存儲器(如Web上的多模態(tài)文檔)獲取的相關(guān)知識,大幅度增強(qiáng)模型性能。smaller also better躍然紙上。

論文題目
Retrieval-Augmented Multimodal Language Modeling

論文鏈接:
https://arxiv.org/pdf/2211.12561.pdf

1.前言

1.1 整體架構(gòu)

本文提出了一種檢索增強(qiáng)多模態(tài)模型,那么啥是檢索增強(qiáng)多模態(tài)模型?顧名思義,一個復(fù)雜的名詞往往可以拆分來解析:檢索增強(qiáng)多模態(tài)。

  • 檢索增強(qiáng)的操作之前往往應(yīng)用在語言模型上即檢索增強(qiáng)語言模型:框架由檢索模塊和生成器模塊(例如,語言模型)組成。檢索模塊獲取輸入序列和文檔的外部存儲器,并返回文檔的候選檢索列表。然后,生成器獲取輸入序列x和檢索到的文檔(,,),并返回語言建模任務(wù)中的目標(biāo)。

  • 多模態(tài)模型:可以處理如文本、圖像、語音等多種形態(tài)信息的模型。

終上所述,將以上兩者進(jìn)行縫合,本文提出的檢索增強(qiáng)多模態(tài)模型是一種可以檢索和生成文本和圖像的新方法。

整體架構(gòu)如下圖:

大幅超越DALL·E 2和Imagen,斯坦福發(fā)布RA-CM3模型,融合檢索與生成

(a):對于給定輸入的多模態(tài)文檔,使用檢索器從外部存儲器檢索相關(guān)的多模態(tài)文件,并讓生成器參考檢索到的文檔對輸入進(jìn)行預(yù)測多模態(tài)預(yù)測。

(b):多模態(tài)檢索器是具有混合模態(tài)編碼器的密集型檢索器,其中編碼器可以對文本和圖像的進(jìn)行混合編碼(如使用CLIP預(yù)訓(xùn)練模型對文本和圖像分別編碼)。

(c):檢索增強(qiáng)生成器的構(gòu)建是基于CM3 Transformer架構(gòu),最終將檢索到的多模態(tài)候選文檔與原始輸入一同作為輸入以生成圖像、文本作為最終目標(biāo)。

作者表示這是第一個可以檢索和生成混合文本圖像的多模態(tài)模型,也是現(xiàn)有多模態(tài)模型中功能最全的模型。大幅超越DALL·E 2和Imagen,斯坦福發(fā)布RA-CM3模型,融合檢索與生成

1.2 CM3模型

因果式masked多模態(tài)模型:CM3是用于多模態(tài)文檔的Transformer解碼器模型。多模態(tài)文檔定義為文本、圖像或一系列富媒體的組合。CM3將每個多模態(tài)文檔格式化為HTML序列,例如<img alt=[text]src=[image]>,其中[text]是文本標(biāo)記序列,[image]是圖像標(biāo)記器獲得的圖像標(biāo)記序列。

在訓(xùn)練時,CM3要么將原始序列作為輸入(例如,=貓的照片:[image]),要么通過mask一些token并將其移動到末尾轉(zhuǎn)換為預(yù)測目標(biāo)(例如,=的照片:[image]貓),然后優(yōu)化輸入的token prediction loss:()。

2.細(xì)節(jié)

2.1 檢索流程

同傳統(tǒng)檢索方式一樣:檢索器獲取查詢q(即輸入序列)并從存儲器中或許候選文檔列表,并計算相關(guān)性得分r(q,m)。這里作者團(tuán)隊選擇了雙塔結(jié)構(gòu)的編碼網(wǎng)絡(luò):

???

其中,查詢編碼器 和文檔編碼器 分別為query和doc生成密集型檢索向量。

給定一個多模式文檔,將其分為文本部分和圖像部分,使用現(xiàn)有的CLIP文本編碼器和圖像編碼器分別對這兩個部分進(jìn)行編碼,然后將二者的輸出做mean pooling,將L2范數(shù)縮放為1,作為文檔的向量表示。和都采用使用相同的編碼方法。

對于給定的檢索器,對所有候選結(jié)果執(zhí)行最大內(nèi)積搜索,以獲得按相關(guān)性得分排序的候選文檔列表。然后從這個列表中對最終檢索到的個文檔進(jìn)行采樣。

2.3 采樣策略

本節(jié)討論在實踐中為生成器采樣信息檢索候選文檔的三個關(guān)鍵因素。

  • 相關(guān)性:檢索到的文檔需要與輸入序列相關(guān);否則,檢索到的文件不能為主要輸入序列建模提供有用信息。基于CLIP的密集檢索器得分能cover這一相關(guān)性因素。

  • 多模態(tài):雖然現(xiàn)有的檢索工作通常只為生成器檢索圖像或文本,但實驗表明,檢索由圖像和文本組成的多模態(tài)文檔可提高生成器性能。多模態(tài)文檔可以提供更多信息,因為其中的文本和圖像可以相互關(guān)聯(lián)。因此,在最終的系統(tǒng)中,同時保留檢索到的多模式文檔,這些文檔為生成器保留全部圖像和文本信息。

  • 多樣性:實驗發(fā)現(xiàn)確保檢索文檔的多樣性也很重要。首先,簡單地基于相關(guān)性得分從文檔列表中采樣的可能會導(dǎo)致重復(fù)或高度相似的圖像或文本,從而導(dǎo)致生成器性能不佳。即使文檔本身不是重復(fù)的,其中包含的圖像或文本可能是重復(fù)的,這會影響生成器的性能。為了避免冗余:①從候選列表頂部獲取文檔時,如果候選文檔與查詢或已經(jīng)檢索到的文檔太相似(例如,相關(guān)性得分>0.9),跳過該候選文檔。②為了進(jìn)一步鼓勵多樣性,在訓(xùn)練時還應(yīng)用了一種查詢丟棄(Query Dropout)機(jī)制,它丟棄了用于檢索的查詢query的一些token。該技術(shù)用作訓(xùn)練的正則化,并使得生成器性能的進(jìn)一步提高。

2.4 多模態(tài)生成器

文中使用CM3作為多模態(tài)生成器的基礎(chǔ)。為了將檢索到的文檔(,,)合并到生成器中,作者將它們前置到原始輸入序列,并將生成的序列(,,,)一同送入Transformer。換句話說,檢索到的文檔是原始輸入的上下文示例。

為訓(xùn)練生成器,優(yōu)化以下loss

αα

其中和分別是CM3模型對于主輸入序列和檢索到的文檔(,,)的token prediction loss。

在這里,作者特別指出需要使用α聯(lián)合優(yōu)化兩個損失項。因為現(xiàn)有的檢索增強(qiáng)模型通常只優(yōu)化主序列的損失(即,α)。雖然,Transformer結(jié)構(gòu)在計算主序列中token prediction loss時通常會涉及候選檢索到的文檔中的token prediction loss。但α提供了一種類似于增加batch_size大?。▋?yōu)化中所有涉及的tokens數(shù)量)的效果,而無需額外的計算,并提高了訓(xùn)練效率。

2.5 Training and inference

(1)Training給定完整的輸入文檔,使用其文本部分或圖像部分作為檢索文檔的查詢query。然后通過標(biāo)準(zhǔn)的Teacher-Forcing優(yōu)化整個級聯(lián)序列(公式2)上的loss。訓(xùn)練時只使用文本或圖像的一部分作為查詢。一方面,因為對于生成器來說,基于完整的輸入文檔可能會使生成器的token predict任務(wù)在訓(xùn)練期間過于容易;另一方面,該訓(xùn)練設(shè)置接近于文本到圖像和圖像到文本生成的典型推理場景(大部分多模推理場景都是輸入較短的篇幅)。

(2)Inference使用作為檢索的查詢,然后讓生成器將檢索到的多模文檔作為輸入的一部分,以解碼并產(chǎn)出多模目標(biāo)。例如,對于文本到圖像的生成:即采用源標(biāo)題,目標(biāo)是生成對應(yīng)的內(nèi)容圖像。對于從圖像到文本,即為獲取的源圖像,而目標(biāo)是為源圖生成標(biāo)題。因此,檢索器只使用簡短的提示作為query,而不會看到要評估的ground-truth,從而確保沒有信息泄漏。

3. 實驗

3.1 標(biāo)題->圖像生成實驗

下表顯示了MS-COCO數(shù)據(jù)集上的從標(biāo)題到圖像生成任務(wù)的性能。指標(biāo)是FID分?jǐn)?shù),越低效果越好。大幅超越DALL·E 2和Imagen,斯坦福發(fā)布RA-CM3模型,融合檢索與生成本文提出的RA-CM3模型顯著優(yōu)于沒有檢索的基線CM3,以及DALL-E(12B參數(shù))等其他模型。此外,RA-CM3模型以比現(xiàn)有模型擁有更少的參數(shù)計算實現(xiàn)了強(qiáng)大的性能。

3.2 圖像->標(biāo)題生成實驗。

下表顯示了MS-COCO數(shù)據(jù)集上的圖像到標(biāo)題的生成性能,沒有進(jìn)行微調(diào)。衡量標(biāo)準(zhǔn)是CIDEr分?jǐn)?shù),其中越高越好。大幅超越DALL·E 2和Imagen,斯坦福發(fā)布RA-CM3模型,融合檢索與生成本文提出的RA-CM3的CIDEr得分為89,顯著優(yōu)于沒有檢索的基線CM3(CIDEr 72)。此外,RA-CM3性能明顯優(yōu)于其他模型(如Parti的20B參數(shù)和Flamingo的3B、4-shot)

3.3 冗余分析

大幅超越DALL·E 2和Imagen,斯坦福發(fā)布RA-CM3模型,融合檢索與生成(1) 檢索相關(guān)性實驗(上表的第一行) 模型的相關(guān)性計算候選是基于CLIP的檢索器檢索的相關(guān)文檔,一個自然的基線是使用隨機(jī)文檔訓(xùn)練模型而不進(jìn)行檢索。這一基線導(dǎo)致了顯著的性能下降,這表明在上下文中有相關(guān)文檔對于模型訓(xùn)練至關(guān)重要。此外,還研究了其他基線,例如在訓(xùn)練時間使用檢索到的文檔,但在推斷時間使用隨機(jī)文檔,或者在訓(xùn)練和推斷時間使用任意文檔。兩者都會導(dǎo)致性能顯著下降。這些結(jié)果證實了相關(guān)性在訓(xùn)練和推理時間都是檢索的關(guān)鍵因素。

(2) 多模檢索實驗(上表的第二行) 檢索器通常只為生成器檢索圖像或文本,但本文中基于混合模態(tài)編碼器的檢索器可以檢索由圖像和文本組成的多模態(tài)文檔。實驗發(fā)現(xiàn)檢索多模式文檔比僅檢索圖像或文本效果更好。直覺上多模式文檔可以提供更多信息,因為其中的文本和圖像可以相互關(guān)聯(lián)。

(3) 檢索多樣性實驗(上表的第三行) 鼓勵檢索文件的多樣性非常重要。簡單地從按檢索器分?jǐn)?shù)排序的候選文檔列表中獲取前K實際上會導(dǎo)致較差的性能,比沒有檢索增強(qiáng)的基線稍差。文中采用的第一種方法“相似拋棄”避免了檢索文檔中的冗余,從而顯著提高了性能。第二種技術(shù)“查詢丟棄”(Query Dropout)在訓(xùn)練過程中鼓勵更多的檢索多樣性,從而進(jìn)一步提高了評估效果。

(3) 生成器訓(xùn)練實驗(上表的第四行) 生成器的一個關(guān)鍵設(shè)計是加權(quán)α聯(lián)合優(yōu)化主輸入文檔和檢索文檔的token prediction loss?,F(xiàn)有的檢索增強(qiáng)模型通常只優(yōu)化主文檔的損失(α=0),實驗發(fā)現(xiàn)聯(lián)合優(yōu)化(α>0)有助于訓(xùn)練并提高性能。且在α=0.1效果最好。如果α設(shè)置得太大(例如,α=1)會影響訓(xùn)練,因為這會對檢索到的文檔而不是主文檔的建模造成太大的影響。

一點碎碎念

文本主要將檢索增強(qiáng)語言模型框架推廣到多模態(tài)場景下,使得輸入和輸出都可以是一個多模態(tài)文檔。雖然,檢索模塊和生成模塊,都是建立在現(xiàn)有技術(shù)CLIP和CM3的基礎(chǔ)上,但本文是第一個通過對整體框架的設(shè)計和廣泛分析將它們進(jìn)行統(tǒng)一,并進(jìn)一步提高性的檢索增強(qiáng)模型的方法。

最近大火的ChatGPT使得人們一度懷疑,生成式問答是否可以直接代替搜索引擎的功能。但當(dāng)越來越多無厘頭的回答出現(xiàn)后,可以發(fā)現(xiàn)ChatGPT的回答可能看似能回答問題本身,但又完全不符合事實根據(jù)。大幅超越DALL·E 2和Imagen,斯坦福發(fā)布RA-CM3模型,融合檢索與生成

然而,在檢索增強(qiáng)語言模型的框架下,如果能先檢索候選答案,再根據(jù)top候選進(jìn)行整合,進(jìn)而生成最終目標(biāo)答案,這樣既可為最終答案增加了一份可信計算的依賴,避免了真實性誤差;又可以真正實現(xiàn)搜索引擎上真正意義上的Top1滿足,可想而知能有多多么震撼的效果!

不管怎樣,未來可期~ 樂樂QvQ

大幅超越DALL·E 2和Imagen,斯坦福發(fā)布RA-CM3模型,融合檢索與生成賣萌屋作者:樂樂QvQ。

碩士畢業(yè)于中國科學(xué)院大學(xué),前ACM校隊隊長,區(qū)域賽金牌。競賽混子,Kaggle兩金一銀,國內(nèi)外各大NLP、大數(shù)據(jù)競賽Top10。校招拿下國內(nèi)外數(shù)十家大廠offer,超過半數(shù)的SSP。目前在百度大搜擔(dān)任搜索算法工程師。知乎ID:QvQ

作品推薦:

1.13個offer,8家SSP,談?wù)勎业那镎薪?jīng)驗

2.BERT為何無法徹底干掉BM25??

3.訓(xùn)練雙塔檢索模型,可以不用query-doc樣本了?

4.他與她,一個兩年前的故事

5.Bing與DuckDuckGo搜索結(jié)果驚人一致?Google展現(xiàn)強(qiáng)勢差異

大幅超越DALL·E 2和Imagen,斯坦福發(fā)布RA-CM3模型,融合檢索與生成后臺回復(fù)關(guān)鍵詞【入群

加入賣萌屋NLP、CV、搜推廣與求職討論群文章來源地址http://www.zghlxwxcb.cn/news/detail-488715.html

到了這里,關(guān)于大幅超越DALL·E 2和Imagen,斯坦福發(fā)布RA-CM3模型,融合檢索與生成的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 筆記匯總 | 斯坦福 CS229 機(jī)器學(xué)習(xí)

    本文為斯坦福大學(xué) CS229 機(jī)器學(xué)習(xí)課程學(xué)習(xí)筆記 本文主體部分轉(zhuǎn)載自黃海廣博士,文末已給出鏈接,大家有興趣可以直接訪問筆記首頁,下載對應(yīng)課程資料及作業(yè)代碼 課程官網(wǎng):CS229: Machine Learning (stanford.edu) 課程視頻:Stanford CS229: Machine Learning Course, Lecture 1 - Andrew Ng (Autumn 2

    2024年02月14日
    瀏覽(18)
  • 斯坦福JSKarel編程機(jī)器人使用介紹

    斯坦福JSKarel編程機(jī)器人使用介紹

    為了避免被編程語言固有的復(fù)雜性所困擾,有一個被稱為卡雷爾(Karel)機(jī)器人的微型世界(microworld)的簡化環(huán)境,可以讓編程初學(xué)者從中學(xué)習(xí)理解編程的基本概念,而不必掌握大量無關(guān)的細(xì)節(jié),讓編程初學(xué)者更容易理解編程的要點和思維方式。 斯坦福Karel是一門面向初學(xué)者

    2024年02月05日
    瀏覽(26)
  • LLaMA模型微調(diào)版本:斯坦福 Alpaca 詳解

    LLaMA模型微調(diào)版本:斯坦福 Alpaca 詳解

    項目代碼:https://github.com/tatsu-lab/stanford_alpaca 博客介紹:https://crfm.stanford.edu/2023/03/13/alpaca.html Alpaca 是 LLaMA-7B 的微調(diào)版本,使用Self-instruct[2]方式借用text-davinct-003構(gòu)建了52K的數(shù)據(jù),同時在其構(gòu)建策略上做了一些修改。 性能上作者對Alpaca進(jìn)行了評估,與openai的text-davinct-003模型在

    2024年02月16日
    瀏覽(30)
  • 斯坦福人生設(shè)計課——簡略筆記(未完待更新)

    斯坦福人生設(shè)計課——簡略筆記(未完待更新)

    來源: ?爾 · 博內(nèi)特 戴夫 · 伊萬斯 著圖書《人生設(shè)計課》 目錄 一、認(rèn)清當(dāng)下的情況,從四個維度觀察自己的人生 二、平衡人生,但不要走入誤區(qū) 2.1 記錄你的“美好時光日志”: 2.1.1 記錄內(nèi)容: 2.1.2 輔助反思的方法:AEIOU方法 2.1.3 一個小TIPS: 2.1.4 如果你發(fā)現(xiàn)自己當(dāng)下

    2024年02月11日
    瀏覽(22)
  • 自驅(qū)力超強(qiáng)的羊駝?斯坦福微調(diào)LLaMa

    自驅(qū)力超強(qiáng)的羊駝?斯坦福微調(diào)LLaMa

    大型“指令調(diào)優(yōu)”語言模型在新任務(wù)上展現(xiàn)了Zero-shot的卓越能力,但嚴(yán)重依賴于人類編寫的指令數(shù)據(jù),而這些數(shù)據(jù)在數(shù)量、多樣性和創(chuàng)造性方面都是有限的。 斯坦??蒲腥藛T引入了self-instruction框架,提高指令遵循能力來自我迭代進(jìn)化,與InstructGPT的性能相當(dāng),相比原始GPT3提

    2024年02月09日
    瀏覽(21)
  • 【LLM系列】00:斯坦福 Alpaca 模型介紹及其復(fù)現(xiàn)

    【LLM系列】00:斯坦福 Alpaca 模型介紹及其復(fù)現(xiàn)

    西風(fēng)吹老洞庭波,一夜湘君白發(fā)多。醉后不知天在水,滿船清夢壓星河。小伙伴好,我是微信公眾號《小窗幽記機(jī)器學(xué)習(xí)》的小編:賣核彈的小女孩。更多、更新文章歡迎關(guān)注微信公眾號:小窗幽記機(jī)器學(xué)習(xí)。后續(xù)會持續(xù)輸出模型推理加速、工程部署、LLM、AI藝術(shù)等系列,敬

    2024年02月13日
    瀏覽(21)
  • 斯坦福2023【FrugalGPT】減少大模型的商業(yè)化應(yīng)用成本

    斯坦福2023【FrugalGPT】減少大模型的商業(yè)化應(yīng)用成本

    FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance 這篇文章主要是要解決如何降低調(diào)用大語言模型的成本(ChatGPT)。大模型API調(diào)用成本主要是三方面的:1. prompt cost(輸入的prompt);2. generation cost(輸出的部分);3. 每次調(diào)用的固定開銷(網(wǎng)費(fèi)等)。不用的模型之前的

    2024年02月06日
    瀏覽(22)
  • 斯坦福| ChatGPT用于生成式搜索引擎的可行性

    斯坦福| ChatGPT用于生成式搜索引擎的可行性

    文|智商掉了一地 隨著 ChatGPT 在文本生成領(lǐng)域邁出了重要一步,Bing 瀏覽器也接入了聊天機(jī)器人功能,因此如何保證 Bing Chat 等搜索引擎結(jié)果的精確率和真實性也成為了搜索領(lǐng)域的熱門話題之一。 當(dāng)我們使用搜索引擎時,往往希望搜索結(jié)果能夠真實準(zhǔn)確地反映我們的需求。然

    2024年02月06日
    瀏覽(16)
  • 斯坦福Dan Boneh密碼學(xué)——02 計算密碼與語義安全

    斯坦福Dan Boneh密碼學(xué)——02 計算密碼與語義安全

    語義安全這塊內(nèi)容實在是被書繞暈了,雖然模型就那么一個,但有各種各樣的數(shù)學(xué)符號交織證明,還有官方深奧的語言表述。第一次看是一知半解的,后面勢必還要再返回來精讀幾遍完善筆記。以篇幅來看,語義安全是密碼學(xué)中非常重要的一個版塊。 計算密碼與語義安全 我

    2024年02月08日
    瀏覽(23)
  • 【斯坦福】FrugalGPT: 如何使用大型語言模型,同時降低成本并提高性能

    【斯坦?!縁rugalGPT: 如何使用大型語言模型,同時降低成本并提高性能

    FrugalGPT: 如何使用大型語言模型,同時降低成本并提高性能 作者:Lingjiao Chen, Matei Zaharia, James Zou 本文介紹了一種新穎的方法,旨在解決使用大型語言模型(LLM)時面臨的成本和性能挑戰(zhàn)。隨著GPT-4和ChatGPT等LLM的日益流行,我們需要找到降低這些模型推理成本的策略。作者強(qiáng)調(diào)

    2024年02月11日
    瀏覽(30)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包