国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文閱讀】(DALLE-3)Improving Image Generation with Better Captions

這篇具有很好參考價值的文章主要介紹了【論文閱讀】(DALLE-3)Improving Image Generation with Better Captions。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

(DALLE-3)Improving Image Generation with Better Captions

引用: Betker J, Goh G, Jing L, et al. Improving image generation with better captions[J]. Computer Science. https://cdn. openai. com/papers/dall-e-3. pdf, 2023, 2(3): 8.

論文鏈接: https://arxiv.org/abs/2212.09748

簡介

論文展示了通過在高度描述性的生成圖像captions上訓練,可以顯著提高文本到圖像模型的提示跟隨能力?,F(xiàn)有的文本到圖像模型在遵循詳細圖像描述方面存在困難,經(jīng)常忽略提示中的單詞或混淆提示的含義。作者假設這個問題源于訓練數(shù)據(jù)集中圖像標題的噪聲和不準確性。通過訓練一個定制的圖像captions生成器并用它來重新標注訓練數(shù)據(jù)集來解決這個問題。然后,訓練了幾個文本到圖像模型,并發(fā)現(xiàn)在這些合成captions上訓練可靠地提高了提示跟隨能力。最后,使用這些發(fā)現(xiàn)構(gòu)建了DALLE 3:一個新的文本到圖像生成系統(tǒng),并在設計用來衡量提示跟隨、連貫性和美學的評估中測試了其性能,發(fā)現(xiàn)它與競爭對手相比具有優(yōu)勢。

Method

論文提出的文本到圖像模型是在由大量配對(t,i)組成的數(shù)據(jù)集上訓練的,其中i是圖像,t是描述該圖像的文本。在大規(guī)模數(shù)據(jù)集中,t通常來源于人類作者,他們專注于對圖像主題的簡單描述,而忽略了圖像中描繪的背景細節(jié)或常識關(guān)系。t中通常省略的重要細節(jié)可能包括:

  1. 廚房水槽或人行道上的停車標志等物體的存在以及對這些物體的描述。
  2. 場景中對象的位置和這些對象的數(shù)量。
  3. 常識性細節(jié),如場景中對象的顏色和大小。
  4. 顯示在圖像中的文本。

糟糕的是,在互聯(lián)網(wǎng)上發(fā)現(xiàn)的captions往往根本不正確;描述圖像的切向相關(guān)細節(jié)。例如,在通常用于為圖像制作captions的文本中,通常會發(fā)現(xiàn)廣告或表情包。作者假設所有這些缺點都可以通過綜合生成的 captions來解決。

圖像字幕與預測文本的傳統(tǒng)語言模型非常相似。語言模型首先使用標記器將文本字符串分解為離散的標記。一旦以這種方式分解,語料庫的文本部分就可以表示為一個序列,t=[t1,t2,…,tn]。然后,可以通過最大化以下可能性函數(shù),在文本上建立一個語言模型:
【論文閱讀】(DALLE-3)Improving Image Generation with Better Captions,論文,論文閱讀,計算機視覺,人工智能

其中,θ是要優(yōu)化的captioner的參數(shù)。要將此語言模型轉(zhuǎn)換為captioner,只需要對圖像進行調(diào)整即可。這里的挑戰(zhàn)是圖像是由成千上萬的像素值組成的。對目前的神經(jīng)網(wǎng)絡來說,對所有這些信息進行調(diào)節(jié)是非常低效的,所以需要一個壓縮的表示空間。方便的是,CLIP提供了這一點。因此,給定預先訓練的CLIP圖像嵌入函數(shù)F(i),擴展語言模型的優(yōu)化目標如下:
【論文閱讀】(DALLE-3)Improving Image Generation with Better Captions,論文,論文閱讀,計算機視覺,人工智能

為了改進圖像生成數(shù)據(jù)集中的captions,希望使caption生成器產(chǎn)生有利于學習文本到圖像模型的圖像描述。在第一次嘗試中,構(gòu)建了一個小的caption數(shù)據(jù)集,只描述圖像的主要主題。然后繼續(xù)在這個數(shù)據(jù)集上訓練captioner。該過程引起的θ更新可以導致模型偏向于描述圖像的主要主題。將此微調(diào)生成的captions稱為"short synthetic captions"。

【論文閱讀】(DALLE-3)Improving Image Generation with Better Captions,論文,論文閱讀,計算機視覺,人工智能

然后,第二次重復這個過程,創(chuàng)建一個由長的、高度描述性的captions組成的數(shù)據(jù)集,描述微調(diào)數(shù)據(jù)集中每個圖像的內(nèi)容。這些captions不僅描述了圖像的主要主題,還描述了圖像周圍的環(huán)境、背景、圖像中的文本、風格、顏色等。再次在此數(shù)據(jù)集上captioner。將此captioner生成的captions稱為“描descriptive synthetic captions”。圖3顯示了基本事實、簡短合成和描述性合成captions的示例。

構(gòu)建完成后,將圖像captioner微調(diào)應用于文本到圖像數(shù)據(jù)集中的每個圖像,從而生成一組合成字幕,用于后續(xù)實驗。

實驗

【論文閱讀】(DALLE-3)Improving Image Generation with Better Captions,論文,論文閱讀,計算機視覺,人工智能
【論文閱讀】(DALLE-3)Improving Image Generation with Better Captions,論文,論文閱讀,計算機視覺,人工智能
【論文閱讀】(DALLE-3)Improving Image Generation with Better Captions,論文,論文閱讀,計算機視覺,人工智能
【論文閱讀】(DALLE-3)Improving Image Generation with Better Captions,論文,論文閱讀,計算機視覺,人工智能文章來源地址http://www.zghlxwxcb.cn/news/detail-838742.html

到了這里,關(guān)于【論文閱讀】(DALLE-3)Improving Image Generation with Better Captions的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務器費用

相關(guān)文章

  • PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 論文閱讀筆記

    PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 論文閱讀筆記

    寫在前面 ??該忙的事情忙的差不多了,繼續(xù)看論文寫筆記,把之前兩個月落下來的補回來?。ㄟ€差7篇博文),歡迎關(guān)注,持續(xù)高產(chǎn)。 論文地址:PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 代碼地址:作者暫未提供 預計投稿在 CVPR 2023,昨天還是前天放榜了,不

    2024年02月07日
    瀏覽(18)
  • 【論文閱讀24】Better Few-Shot Text Classification with Pre-trained Language Model

    【論文閱讀24】Better Few-Shot Text Classification with Pre-trained Language Model

    論文標題:Label prompt for multi-label text classification(基于預訓練模型對少樣本進行文本分類) 發(fā)表時間:2021 領(lǐng)域:多標簽文本分類 發(fā)表期刊:ICANN(頂級會議) 相關(guān)代碼:無 數(shù)據(jù)集:無 最近,預先訓練過的語言模型在許多基準測試上都取得了非凡的性能。通過從一個大型的

    2024年02月14日
    瀏覽(33)
  • 【論文閱讀筆記】Emu Edit: Precise Image Editing via Recognition and Generation Tasks

    【論文閱讀筆記】Emu Edit: Precise Image Editing via Recognition and Generation Tasks

    Emu edit是一篇 圖像編輯Image Editing 的文章,和instruct pix2pix類似,選擇了合成數(shù)據(jù)作為訓練數(shù)據(jù),不是zero-shot任務,并進一步將多種任務都整合為生成任務,從而提高模型的編輯能力。本篇文章的效果應該目前最好的,在local和global編輯甚至其他代理任務(分割、邊緣檢測等)

    2024年02月04日
    瀏覽(52)
  • 論文閱讀和分析:A Tree-Structured Decoder for Image-to-Markup Generation

    論文閱讀和分析:A Tree-Structured Decoder for Image-to-Markup Generation

    HMER論文系列 1、論文閱讀和分析:When Counting Meets HMER Counting-Aware Network for HMER_KPer_Yang的博客-CSDN博客 2、論文閱讀和分析:Syntax-Aware Network for Handwritten Mathematical Expression Recognition_KPer_Yang的博客-CSDN博客 3、論文閱讀和分析:A Tree-Structured Decoder for Image-to-Markup Generation_KPer_Yang的博

    2023年04月08日
    瀏覽(21)
  • 論文閱讀:VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial

    論文閱讀:VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial

    論文標題是“ VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design ”,寫不下了,是2023.7.31原vits團隊剛剛掛在arxiv上的文章,主要基于四個方面對vits做了改動,此篇文章我們就不講vits,主要分析vits2的部分。 單階段文本到語音模型最近

    2024年02月07日
    瀏覽(28)
  • 論文閱讀--High-Resolution Image Synthesis with Latent Diffusion Models

    論文閱讀--High-Resolution Image Synthesis with Latent Diffusion Models

    High-Resolution Image Synthesis with Latent Diffusion Models論文閱讀 Abstract Introduction Diffusion model相比GAN可以取得更好的圖片生成效果,然而該模型是一種自回歸模型,需要反復迭代計算,因此訓練和推理代價都很高。論文提出一種在潛在表示空間(latent space)上進行diffusion過程的方法,

    2024年01月17日
    瀏覽(51)
  • 【論文閱讀】SynDiff Unsupervised Medical Image Translation with Adversarial Diffusion Models

    【論文閱讀】SynDiff Unsupervised Medical Image Translation with Adversarial Diffusion Models

    Unsupervised Medical Image Translation with Adversarial Diffusion Models 論文大致翻譯和主要內(nèi)容講解 通過源-目標通道轉(zhuǎn)換對缺失圖像進行填充可以提高醫(yī)學成像協(xié)議的多樣性。合成目標圖像的普遍方法包括通過生成性對抗網(wǎng)絡(GAN)的一次映射。然而,隱含地描述圖像分布的Gan模型可能會受

    2024年04月17日
    瀏覽(54)
  • 【論文閱讀】SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness

    【論文閱讀】SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness

    論文鏈接:SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness | IEEE Journals Magazine | IEEE Xplore 代碼:?GitHub - Linfeng-Tang/SuperFusion: This is official Pytorch implementation of \\\"SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness\\\" 圖像融合的重要性:由于攝影環(huán)境

    2024年03月19日
    瀏覽(22)
  • 自監(jiān)督論文閱讀筆記 RingMo: A Remote Sensing Foundation Model with Masked Image Modeling

    自監(jiān)督論文閱讀筆記 RingMo: A Remote Sensing Foundation Model with Masked Image Modeling

    ????????深度學習方法促進了遙感 (RS) 圖像解釋的快速發(fā)展。最廣泛使用的訓練范式是利用 ImageNet 預訓練模型來處理指定任務的 RS 數(shù)據(jù)。然而,存在? 自然場景與RS場景之間的領(lǐng)域差距 ,以及 RS模型泛化能力差 等問題。開發(fā) 具有通用 RS 特征表示的基礎(chǔ)模型 是有意義的。

    2024年02月16日
    瀏覽(26)
  • [論文閱讀]YOLO9000:Better,F(xiàn)aster,Stronger

    [論文閱讀]YOLO9000:Better,F(xiàn)aster,Stronger

    我們引入了YOLO9000,一個可以檢測超過9000種類別的先進的實時目標檢測系統(tǒng)。首先我們提出了多種yolo檢測方法的提升方式,既新穎又參考了 之前的工作。改進后的模型,YOLOV2在標準檢測任務例如PASCAL VO 和COCO 上都取得了領(lǐng)先。使用一個新穎的多尺度的訓練方法,同一個YOLO

    2024年02月02日
    瀏覽(23)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包