什么是多模態(tài)
多模態(tài)生成, 指將一種模態(tài)轉(zhuǎn)換成另一種模態(tài), 同時保持模態(tài)間語義一致性 。主要集中在文字生成圖片 、文字生成視頻及圖片生成文字。
為什么 Transformer 也是多模態(tài)模型的基礎架構(gòu)
多模態(tài)數(shù)據(jù)的最大挑戰(zhàn)之一就是要匯總多種模式(或視圖)中的信息,以便在過濾掉模式的冗余部分的同時,又能將補充信息考慮進來。
第一個是任務方面,之前的多模態(tài)任務是怎么做的,為什么現(xiàn)在大家會轉(zhuǎn)向Transformer做多模態(tài)任務?
在Transformer,特別是Vision Transformer出來打破CV和NLP的模型壁壘之前,CV的主要模型是CNN,NLP的主要模型是RNN,那個時代的多模態(tài)任務,主要就是通過CNN拿到圖像的特征,RNN拿到文本的特征,然后做各種各樣的Attention與concat過分類器,這個大家可以從我文章欄的一篇ACL論文解說《Writing by Memorizing: Hierarchical Retrieval-based Medical Report Generation》略窺一二,使用這種方式構(gòu)造出來的多模態(tài)模型會大量依賴各種模型輸出的特征進行多重操作,pipeline巨大并且復雜,很難形成一個end2end的方便好用的模型
第二個是模型原理層面,為什么Transformer可以做圖像也可以做文本,為什么它適合做一個跨模態(tài)的任務?
說的直白一點,因為Transformer中的Self-Attetion機制很強大,使得Transformer是一個天然強力的一維長序列特征提取器,而所有模態(tài)的信息都可以合在一起變成一維長序列被Transformer處理
視覺 Transformer 和 Text Transformer 如何結(jié)合 - contrastive learning 對比學習
2021年, OpenAI發(fā)布了CLIP, 是一種經(jīng)典的文圖跨模態(tài)檢索模型, 在大規(guī)模圖文數(shù)據(jù)集上進行了對比學習預訓練, 具有很強的文圖跨模態(tài)表征學習能 力 。CLIP模型包含圖像和文本的Encoder兩部分, 用于對圖像和文本分別進行特征抽取。
clip 的核心是使用INfoNCE Loss進行文本和圖像兩種模態(tài)間互信息最大化
對比學習首先學習未標記數(shù)據(jù)集上圖像的通用表示形式,然后可以使用少量標記圖像對其進行微調(diào),以提升在給定任務(例如分類)的性能。簡單地說,對比表示學習可以被認為是通過比較學習。相對來說,生成學習(generative learning)是學習某些(偽)標簽的映射的判別模型然后重構(gòu)輸入樣本。在對比學習中,通過在輸入樣本之間進行比較來學習表示。對比學習不是一次從單個數(shù)據(jù)樣本中學習信號,而是通過在不同樣本之間進行比較來學習。可以在“相似”輸入的正對和“不同”輸入的負對之間進行比較。
對比學習通過同時最大化同一圖像的不同變換視圖(例如剪裁,翻轉(zhuǎn),顏色變換等)之間的一致性,以及最小化不同圖像的變換視圖之間的一致性來學習的。 簡單來說,就是對比學習要做到相同的圖像經(jīng)過各類變換之后,依然能識別出是同一張圖像,所以要最大化各類變換后圖像的相似度(因為都是同一個圖像得到的)。相反,如果是不同的圖像(即使經(jīng)過各種變換可能看起來會很類似),就要最小化它們之間的相似度。通過這樣的對比訓練,編碼器(encoder)能學習到圖像的更高層次的通用特征 (image-level representations),而不是圖像級別的生成模型(pixel-level generation)。
參考:https://towardsdatascience.com/a-framework-for-contrastive-self-supervised-learning-and-designing-a-new-approach-3caab5d29619
stable diffusion
“ CLIP + 其他模型”成為通用的做法
多模態(tài)定義: 多模態(tài)生成, 指將一種模態(tài)轉(zhuǎn)換成另一種模態(tài), 同時保持模態(tài)間語義一致性 。主要集中在文字生成圖片 、文字生成視頻及圖片生成文字。
? Transformer架構(gòu)的跨界應用成為跨模態(tài)重要開端之一 。多模態(tài)訓練普遍需要匹配視覺的區(qū)域特征和文本特征序列, 形成Transformer架構(gòu)擅長處理的一 維長序列, 與Transformer的內(nèi)部技術架構(gòu)相符合 。此外Transformer架構(gòu)還具有更高的計算效率和可擴展性, 為訓練大型跨模態(tài)模型奠定了基礎。
? CLIP ( Contrastive Language-Image Pre-training, 可對比語言-圖像預訓練算法) 成為圖文跨模態(tài)重要節(jié)點。
? 2021年, OpenAI發(fā)布了CLIP, 是一種經(jīng)典的文圖跨模態(tài)檢索模型, 在大規(guī)模圖文數(shù)據(jù)集上進行了對比學習預訓練, 具有很強的文圖跨模態(tài)表征學習能 力 。CLIP模型包含圖像和文本的Encoder兩部分, 用于對圖像和文本分別進行特征抽取。
? “CLIP+其他模型”在跨模態(tài)生成領域成為較通用的做法, 如Disco Diffusion, 其原理為CLIP模型持續(xù)計算Diffusion模型隨機生成噪聲與文本表征的 相似度, 持續(xù)迭代修改, 直至生成可達到要求的圖像。
論文標題:Learning Transferable Visual Models From Natural Language Supervision
論文鏈接:https://arxiv.org/abs/2103.00020
github: https://github.com/OpenAI/CLIP
多模態(tài)模態(tài)生成:文字生成圖像取得突破,其他領域仍有待提升
? 文字生成圖像: 2021年, OpenAI推出了CLIP和DALL-E, 一年后推出了DALL-E2; 2022年5月, 谷歌推出了Imagen和新一代AI繪畫大師Parti; 2022年 8月, Stability Al推出Stable diffusion并宣布開源 。國內(nèi)主流的AI繪畫平臺有文心一格 、盜夢師 、意間AI 、Tiamat等。
? 文字生成視頻: 以Token為中介, 關聯(lián)文本和圖像生成, 逐幀生成所需圖片, 最后逐幀生成完整視頻 。但由于視頻生成會面臨不同幀之間連續(xù)性的問題, 對 生成圖像間的長序列建模問題要求更高, 以確保視頻整體連貫流程 。按技術生成難度和生成內(nèi)容, 可區(qū)分為拼湊式生成和完全從頭生成。
? 圖像/視頻生成文本: 具體應用有視覺問答系統(tǒng) 、配字幕 、標題生成等, 代表模型有METER 、ALIGN等。
參考文獻與學習路徑
車萬翔等統(tǒng)稿
- ChatGPT 調(diào)研報告
模型部署簡介
- https://github.com/open-mmlab/mmdeploy/blob/master/docs/zh_cn/tutorial/01_introduction_to_model_deployment.md
GPT 系列模型解析
ChatGPT技術原理解析:從RL之PPO算法、RLHF到GPT4、instructGPT
- https://blog.csdn.net/v_JULY_v/article/details/128579457
數(shù)云融合|探究GPT家族的進化之路:GPT-3、GPT-3.5和GPT-4的比較分析
- https://zhuanlan.zhihu.com/p/616691512
前序文章
- 初探 GPT-2
- 生成式AI(Generative AI)將重新定義生產(chǎn)力
- AIGC 后下一個巨大的風口:AI生成檢測
- 代表AIGC 巔峰的ChatGPT 有哪些低成本開源方案能夠復現(xiàn)?
- 如何馴化生成式AI,從提示工程 Prompt Engineering 開始 !
模型進化
面向統(tǒng)一的AI神經(jīng)網(wǎng)絡架構(gòu)和預訓練方法
- https://www.sohu.com/a/673342257_121124371
券商研報
從ChatGPT到生成式AI:人工智能新范式重新定義生產(chǎn)力
- https://xueqiu.com/9005856403/240887888
- https://xueqiu.com/5159309685/241858304
浙商證券:《AIGC算力時代系列:ChatGPT研究框架》
國泰君安:ChatGPT研究框架(2023)
騰訊研究院:AIGC發(fā)展趨勢報告2023
華東政法大學:人工智能通用大模型ChatGPT的進展風險與應對
- http://www.199it.com/archives/1568017.html
ChatGPT浪潮下,看中國大語言模型產(chǎn)業(yè)發(fā)展
- https://www.iresearch.com.cn/Detail/report?id=4166&isfree=0
AI服務器拆解,產(chǎn)業(yè)鏈核心受益梳理
- https://xueqiu.com/2524803655/247578353
國海證券,AIGC深度行業(yè)報告:新一輪內(nèi)容生產(chǎn)力革命的起點
https://xueqiu.com/6695901611/243415262
陸奇演講
飛書的賽比鏈接不能復制只能看。。。
陸奇演講PPT官方版
https://miracleplus.feishu.cn/file/TGKRbW4yrosqmixCtprcUlAynzg
陸奇演講視頻官方版
https://miracleplus.feishu.cn/file/OrO7bivJeoT6FxxSjaJcXWlwncS
陸奇演講文本官方版
https://miracleplus.feishu.cn/docx/Mir6ddgPgoVs3KxF6sncOUaknNS
微信公眾號版本 ,能復制
- https://mp.weixin.qq.com/s/fzYxwaANqWpqxC__1zTNDA
多模態(tài)
為什么Transformer適合做多模態(tài)任務?文章來源:http://www.zghlxwxcb.cn/news/detail-533957.html
- https://www.zhihu.com/question/441073210/answer/2991137965
- https://www.zhihu.com/question/441073210
直觀理解Stable Diffusion文章來源地址http://www.zghlxwxcb.cn/news/detail-533957.html
- https://zhuanlan.zhihu.com/p/598999843
到了這里,關于AIGC技術研究與應用 ---- 下一代人工智能:新范式!新生產(chǎn)力?。?.4 -大模型發(fā)展歷程 之 多模態(tài))的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!