国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

AIGC技術研究與應用 ---- 下一代人工智能:新范式!新生產(chǎn)力?。?.4 -大模型發(fā)展歷程 之 多模態(tài))

這篇具有很好參考價值的文章主要介紹了AIGC技術研究與應用 ---- 下一代人工智能:新范式!新生產(chǎn)力!(2.4 -大模型發(fā)展歷程 之 多模態(tài))。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。


什么是多模態(tài)

多模態(tài)生成, 指將一種模態(tài)轉(zhuǎn)換成另一種模態(tài), 同時保持模態(tài)間語義一致性 。主要集中在文字生成圖片 、文字生成視頻及圖片生成文字。

為什么 Transformer 也是多模態(tài)模型的基礎架構(gòu)

多模態(tài)數(shù)據(jù)的最大挑戰(zhàn)之一就是要匯總多種模式(或視圖)中的信息,以便在過濾掉模式的冗余部分的同時,又能將補充信息考慮進來。

第一個是任務方面,之前的多模態(tài)任務是怎么做的,為什么現(xiàn)在大家會轉(zhuǎn)向Transformer做多模態(tài)任務?

在Transformer,特別是Vision Transformer出來打破CV和NLP的模型壁壘之前,CV的主要模型是CNN,NLP的主要模型是RNN,那個時代的多模態(tài)任務,主要就是通過CNN拿到圖像的特征,RNN拿到文本的特征,然后做各種各樣的Attention與concat過分類器,這個大家可以從我文章欄的一篇ACL論文解說《Writing by Memorizing: Hierarchical Retrieval-based Medical Report Generation》略窺一二,使用這種方式構(gòu)造出來的多模態(tài)模型會大量依賴各種模型輸出的特征進行多重操作,pipeline巨大并且復雜,很難形成一個end2end的方便好用的模型

第二個是模型原理層面,為什么Transformer可以做圖像也可以做文本,為什么它適合做一個跨模態(tài)的任務?

說的直白一點,因為Transformer中的Self-Attetion機制很強大,使得Transformer是一個天然強力的一維長序列特征提取器,而所有模態(tài)的信息都可以合在一起變成一維長序列被Transformer處理

視覺 Transformer 和 Text Transformer 如何結(jié)合 - contrastive learning 對比學習

AIGC技術研究與應用 ---- 下一代人工智能:新范式!新生產(chǎn)力!(2.4 -大模型發(fā)展歷程 之 多模態(tài)),人工智能,AIGC,深度學習

2021年, OpenAI發(fā)布了CLIP, 是一種經(jīng)典的文圖跨模態(tài)檢索模型, 在大規(guī)模圖文數(shù)據(jù)集上進行了對比學習預訓練, 具有很強的文圖跨模態(tài)表征學習能 力 。CLIP模型包含圖像和文本的Encoder兩部分, 用于對圖像和文本分別進行特征抽取。

clip 的核心是使用INfoNCE Loss進行文本和圖像兩種模態(tài)間互信息最大化

對比學習首先學習未標記數(shù)據(jù)集上圖像的通用表示形式,然后可以使用少量標記圖像對其進行微調(diào),以提升在給定任務(例如分類)的性能。簡單地說,對比表示學習可以被認為是通過比較學習。相對來說,生成學習(generative learning)是學習某些(偽)標簽的映射的判別模型然后重構(gòu)輸入樣本。在對比學習中,通過在輸入樣本之間進行比較來學習表示。對比學習不是一次從單個數(shù)據(jù)樣本中學習信號,而是通過在不同樣本之間進行比較來學習。可以在“相似”輸入的正對和“不同”輸入的負對之間進行比較。

AIGC技術研究與應用 ---- 下一代人工智能:新范式!新生產(chǎn)力?。?.4 -大模型發(fā)展歷程 之 多模態(tài)),人工智能,AIGC,深度學習

對比學習通過同時最大化同一圖像的不同變換視圖(例如剪裁,翻轉(zhuǎn),顏色變換等)之間的一致性,以及最小化不同圖像的變換視圖之間的一致性來學習的。 簡單來說,就是對比學習要做到相同的圖像經(jīng)過各類變換之后,依然能識別出是同一張圖像,所以要最大化各類變換后圖像的相似度(因為都是同一個圖像得到的)。相反,如果是不同的圖像(即使經(jīng)過各種變換可能看起來會很類似),就要最小化它們之間的相似度。通過這樣的對比訓練,編碼器(encoder)能學習到圖像的更高層次的通用特征 (image-level representations),而不是圖像級別的生成模型(pixel-level generation)。

參考:https://towardsdatascience.com/a-framework-for-contrastive-self-supervised-learning-and-designing-a-new-approach-3caab5d29619

stable diffusion

AIGC技術研究與應用 ---- 下一代人工智能:新范式!新生產(chǎn)力!(2.4 -大模型發(fā)展歷程 之 多模態(tài)),人工智能,AIGC,深度學習

AIGC技術研究與應用 ---- 下一代人工智能:新范式!新生產(chǎn)力!(2.4 -大模型發(fā)展歷程 之 多模態(tài)),人工智能,AIGC,深度學習
AIGC技術研究與應用 ---- 下一代人工智能:新范式!新生產(chǎn)力?。?.4 -大模型發(fā)展歷程 之 多模態(tài)),人工智能,AIGC,深度學習
AIGC技術研究與應用 ---- 下一代人工智能:新范式!新生產(chǎn)力?。?.4 -大模型發(fā)展歷程 之 多模態(tài)),人工智能,AIGC,深度學習

“ CLIP + 其他模型”成為通用的做法

多模態(tài)定義: 多模態(tài)生成, 指將一種模態(tài)轉(zhuǎn)換成另一種模態(tài), 同時保持模態(tài)間語義一致性 。主要集中在文字生成圖片 、文字生成視頻及圖片生成文字。
? Transformer架構(gòu)的跨界應用成為跨模態(tài)重要開端之一 。多模態(tài)訓練普遍需要匹配視覺的區(qū)域特征和文本特征序列, 形成Transformer架構(gòu)擅長處理的一 維長序列, 與Transformer的內(nèi)部技術架構(gòu)相符合 。此外Transformer架構(gòu)還具有更高的計算效率和可擴展性, 為訓練大型跨模態(tài)模型奠定了基礎。
? CLIP ( Contrastive Language-Image Pre-training, 可對比語言-圖像預訓練算法) 成為圖文跨模態(tài)重要節(jié)點。
? 2021年, OpenAI發(fā)布了CLIP, 是一種經(jīng)典的文圖跨模態(tài)檢索模型, 在大規(guī)模圖文數(shù)據(jù)集上進行了對比學習預訓練, 具有很強的文圖跨模態(tài)表征學習能 力 。CLIP模型包含圖像和文本的Encoder兩部分, 用于對圖像和文本分別進行特征抽取。
? “CLIP+其他模型”在跨模態(tài)生成領域成為較通用的做法, 如Disco Diffusion, 其原理為CLIP模型持續(xù)計算Diffusion模型隨機生成噪聲與文本表征的 相似度, 持續(xù)迭代修改, 直至生成可達到要求的圖像。

論文標題:Learning Transferable Visual Models From Natural Language Supervision
論文鏈接:https://arxiv.org/abs/2103.00020
github: https://github.com/OpenAI/CLIP

AIGC技術研究與應用 ---- 下一代人工智能:新范式!新生產(chǎn)力?。?.4 -大模型發(fā)展歷程 之 多模態(tài)),人工智能,AIGC,深度學習


多模態(tài)模態(tài)生成:文字生成圖像取得突破,其他領域仍有待提升

? 文字生成圖像: 2021年, OpenAI推出了CLIP和DALL-E, 一年后推出了DALL-E2; 2022年5月, 谷歌推出了Imagen和新一代AI繪畫大師Parti; 2022年 8月, Stability Al推出Stable diffusion并宣布開源 。國內(nèi)主流的AI繪畫平臺有文心一格 、盜夢師 、意間AI 、Tiamat等。
? 文字生成視頻: 以Token為中介, 關聯(lián)文本和圖像生成, 逐幀生成所需圖片, 最后逐幀生成完整視頻 。但由于視頻生成會面臨不同幀之間連續(xù)性的問題, 對 生成圖像間的長序列建模問題要求更高, 以確保視頻整體連貫流程 。按技術生成難度和生成內(nèi)容, 可區(qū)分為拼湊式生成和完全從頭生成。

? 圖像/視頻生成文本: 具體應用有視覺問答系統(tǒng) 、配字幕 、標題生成等, 代表模型有METER 、ALIGN等。

AIGC技術研究與應用 ---- 下一代人工智能:新范式!新生產(chǎn)力?。?.4 -大模型發(fā)展歷程 之 多模態(tài)),人工智能,AIGC,深度學習
AIGC技術研究與應用 ---- 下一代人工智能:新范式!新生產(chǎn)力?。?.4 -大模型發(fā)展歷程 之 多模態(tài)),人工智能,AIGC,深度學習
AIGC技術研究與應用 ---- 下一代人工智能:新范式!新生產(chǎn)力?。?.4 -大模型發(fā)展歷程 之 多模態(tài)),人工智能,AIGC,深度學習

AIGC技術研究與應用 ---- 下一代人工智能:新范式!新生產(chǎn)力?。?.4 -大模型發(fā)展歷程 之 多模態(tài)),人工智能,AIGC,深度學習


參考文獻與學習路徑

車萬翔等統(tǒng)稿

  • ChatGPT 調(diào)研報告

模型部署簡介

  • https://github.com/open-mmlab/mmdeploy/blob/master/docs/zh_cn/tutorial/01_introduction_to_model_deployment.md

GPT 系列模型解析

ChatGPT技術原理解析:從RL之PPO算法、RLHF到GPT4、instructGPT

  • https://blog.csdn.net/v_JULY_v/article/details/128579457

數(shù)云融合|探究GPT家族的進化之路:GPT-3、GPT-3.5和GPT-4的比較分析

  • https://zhuanlan.zhihu.com/p/616691512

前序文章

  • 初探 GPT-2
  • 生成式AI(Generative AI)將重新定義生產(chǎn)力
  • AIGC 后下一個巨大的風口:AI生成檢測
  • 代表AIGC 巔峰的ChatGPT 有哪些低成本開源方案能夠復現(xiàn)?
  • 如何馴化生成式AI,從提示工程 Prompt Engineering 開始 !

模型進化

面向統(tǒng)一的AI神經(jīng)網(wǎng)絡架構(gòu)和預訓練方法

  • https://www.sohu.com/a/673342257_121124371

券商研報

從ChatGPT到生成式AI:人工智能新范式重新定義生產(chǎn)力

  • https://xueqiu.com/9005856403/240887888
  • https://xueqiu.com/5159309685/241858304
    浙商證券:《AIGC算力時代系列:ChatGPT研究框架》
    國泰君安:ChatGPT研究框架(2023)

騰訊研究院:AIGC發(fā)展趨勢報告2023

華東政法大學:人工智能通用大模型ChatGPT的進展風險與應對

  • http://www.199it.com/archives/1568017.html

ChatGPT浪潮下,看中國大語言模型產(chǎn)業(yè)發(fā)展

  • https://www.iresearch.com.cn/Detail/report?id=4166&isfree=0

AI服務器拆解,產(chǎn)業(yè)鏈核心受益梳理

  • https://xueqiu.com/2524803655/247578353

國海證券,AIGC深度行業(yè)報告:新一輪內(nèi)容生產(chǎn)力革命的起點
https://xueqiu.com/6695901611/243415262

陸奇演講

飛書的賽比鏈接不能復制只能看。。。

陸奇演講PPT官方版
https://miracleplus.feishu.cn/file/TGKRbW4yrosqmixCtprcUlAynzg
陸奇演講視頻官方版
https://miracleplus.feishu.cn/file/OrO7bivJeoT6FxxSjaJcXWlwncS
陸奇演講文本官方版
https://miracleplus.feishu.cn/docx/Mir6ddgPgoVs3KxF6sncOUaknNS

微信公眾號版本 ,能復制

  • https://mp.weixin.qq.com/s/fzYxwaANqWpqxC__1zTNDA

多模態(tài)

為什么Transformer適合做多模態(tài)任務?

  • https://www.zhihu.com/question/441073210/answer/2991137965
  • https://www.zhihu.com/question/441073210

直觀理解Stable Diffusion文章來源地址http://www.zghlxwxcb.cn/news/detail-533957.html

  • https://zhuanlan.zhihu.com/p/598999843

到了這里,關于AIGC技術研究與應用 ---- 下一代人工智能:新范式!新生產(chǎn)力?。?.4 -大模型發(fā)展歷程 之 多模態(tài))的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包