国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<th id="1en8d"><progress id="1en8d"></progress></th>

AIGC技術研究與應用 ---- 下一代人工智能：新范式！新生產(chǎn)力?。?.4 -大模型發(fā)展歷程之多模態(tài)）

2年前作者：shiter分類：Toy博客閱讀(98)違法舉報

這篇具有很好參考價值的文章主要介紹了AIGC技術研究與應用 ---- 下一代人工智能：新范式！新生產(chǎn)力！（2.4 -大模型發(fā)展歷程之多模態(tài)）。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

什么是多模態(tài)

多模態(tài)生成，指將一種模態(tài)轉(zhuǎn)換成另一種模態(tài)，同時保持模態(tài)間語義一致性。主要集中在文字生成圖片、文字生成視頻及圖片生成文字。

為什么 Transformer 也是多模態(tài)模型的基礎架構(gòu)

多模態(tài)數(shù)據(jù)的最大挑戰(zhàn)之一就是要匯總多種模式（或視圖）中的信息，以便在過濾掉模式的冗余部分的同時，又能將補充信息考慮進來。

第一個是任務方面，之前的多模態(tài)任務是怎么做的，為什么現(xiàn)在大家會轉(zhuǎn)向Transformer做多模態(tài)任務？

在Transformer，特別是Vision Transformer出來打破CV和NLP的模型壁壘之前，CV的主要模型是CNN，NLP的主要模型是RNN，那個時代的多模態(tài)任務，主要就是通過CNN拿到圖像的特征，RNN拿到文本的特征，然后做各種各樣的Attention與concat過分類器，這個大家可以從我文章欄的一篇ACL論文解說《Writing by Memorizing: Hierarchical Retrieval-based Medical Report Generation》略窺一二，使用這種方式構(gòu)造出來的多模態(tài)模型會大量依賴各種模型輸出的特征進行多重操作，pipeline巨大并且復雜，很難形成一個end2end的方便好用的模型

第二個是模型原理層面，為什么Transformer可以做圖像也可以做文本，為什么它適合做一個跨模態(tài)的任務？

說的直白一點，因為Transformer中的Self-Attetion機制很強大，使得Transformer是一個天然強力的一維長序列特征提取器，而所有模態(tài)的信息都可以合在一起變成一維長序列被Transformer處理

視覺 Transformer 和 Text Transformer 如何結(jié)合 - contrastive learning 對比學習

AIGC技術研究與應用 ---- 下一代人工智能：新范式！新生產(chǎn)力！（2.4 -大模型發(fā)展歷程之多模態(tài)）,人工智能,AIGC,深度學習

2021年， OpenAI發(fā)布了CLIP，是一種經(jīng)典的文圖跨模態(tài)檢索模型，在大規(guī)模圖文數(shù)據(jù)集上進行了對比學習預訓練，具有很強的文圖跨模態(tài)表征學習能力。CLIP模型包含圖像和文本的Encoder兩部分，用于對圖像和文本分別進行特征抽取。

clip 的核心是使用INfoNCE Loss進行文本和圖像兩種模態(tài)間互信息最大化

對比學習首先學習未標記數(shù)據(jù)集上圖像的通用表示形式，然后可以使用少量標記圖像對其進行微調(diào)，以提升在給定任務(例如分類)的性能。簡單地說，對比表示學習可以被認為是通過比較學習。相對來說，生成學習(generative learning)是學習某些（偽）標簽的映射的判別模型然后重構(gòu)輸入樣本。在對比學習中，通過在輸入樣本之間進行比較來學習表示。對比學習不是一次從單個數(shù)據(jù)樣本中學習信號，而是通過在不同樣本之間進行比較來學習。可以在“相似”輸入的正對和“不同”輸入的負對之間進行比較。

AIGC技術研究與應用 ---- 下一代人工智能：新范式！新生產(chǎn)力?。?.4 -大模型發(fā)展歷程之多模態(tài)）,人工智能,AIGC,深度學習

對比學習通過同時最大化同一圖像的不同變換視圖(例如剪裁，翻轉(zhuǎn)，顏色變換等)之間的一致性，以及最小化不同圖像的變換視圖之間的一致性來學習的。簡單來說，就是對比學習要做到相同的圖像經(jīng)過各類變換之后，依然能識別出是同一張圖像，所以要最大化各類變換后圖像的相似度（因為都是同一個圖像得到的）。相反，如果是不同的圖像（即使經(jīng)過各種變換可能看起來會很類似），就要最小化它們之間的相似度。通過這樣的對比訓練，編碼器(encoder)能學習到圖像的更高層次的通用特征 (image-level representations)，而不是圖像級別的生成模型(pixel-level generation)。

參考：https://towardsdatascience.com/a-framework-for-contrastive-self-supervised-learning-and-designing-a-new-approach-3caab5d29619

stable diffusion

AIGC技術研究與應用 ---- 下一代人工智能：新范式！新生產(chǎn)力！（2.4 -大模型發(fā)展歷程之多模態(tài)）,人工智能,AIGC,深度學習

AIGC技術研究與應用 ---- 下一代人工智能：新范式！新生產(chǎn)力！（2.4 -大模型發(fā)展歷程之多模態(tài)）,人工智能,AIGC,深度學習

“ CLIP + 其他模型”成為通用的做法

多模態(tài)定義：多模態(tài)生成，指將一種模態(tài)轉(zhuǎn)換成另一種模態(tài)，同時保持模態(tài)間語義一致性。主要集中在文字生成圖片、文字生成視頻及圖片生成文字。
? Transformer架構(gòu)的跨界應用成為跨模態(tài)重要開端之一。多模態(tài)訓練普遍需要匹配視覺的區(qū)域特征和文本特征序列，形成Transformer架構(gòu)擅長處理的一維長序列，與Transformer的內(nèi)部技術架構(gòu)相符合。此外Transformer架構(gòu)還具有更高的計算效率和可擴展性，為訓練大型跨模態(tài)模型奠定了基礎。
? CLIP ( Contrastive Language-Image Pre-training，可對比語言-圖像預訓練算法) 成為圖文跨模態(tài)重要節(jié)點。
? 2021年， OpenAI發(fā)布了CLIP，是一種經(jīng)典的文圖跨模態(tài)檢索模型，在大規(guī)模圖文數(shù)據(jù)集上進行了對比學習預訓練，具有很強的文圖跨模態(tài)表征學習能力。CLIP模型包含圖像和文本的Encoder兩部分，用于對圖像和文本分別進行特征抽取。
? “CLIP+其他模型”在跨模態(tài)生成領域成為較通用的做法，如Disco Diffusion，其原理為CLIP模型持續(xù)計算Diffusion模型隨機生成噪聲與文本表征的相似度，持續(xù)迭代修改，直至生成可達到要求的圖像。

論文標題：Learning Transferable Visual Models From Natural Language Supervision
論文鏈接：https://arxiv.org/abs/2103.00020
github: https://github.com/OpenAI/CLIP

AIGC技術研究與應用 ---- 下一代人工智能：新范式！新生產(chǎn)力?。?.4 -大模型發(fā)展歷程之多模態(tài)）,人工智能,AIGC,深度學習

多模態(tài)模態(tài)生成：文字生成圖像取得突破，其他領域仍有待提升

? 文字生成圖像： 2021年， OpenAI推出了CLIP和DALL-E，一年后推出了DALL-E2； 2022年5月，谷歌推出了Imagen和新一代AI繪畫大師Parti； 2022年 8月， Stability Al推出Stable diffusion并宣布開源。國內(nèi)主流的AI繪畫平臺有文心一格、盜夢師、意間AI 、Tiamat等。
? 文字生成視頻：以Token為中介，關聯(lián)文本和圖像生成，逐幀生成所需圖片，最后逐幀生成完整視頻。但由于視頻生成會面臨不同幀之間連續(xù)性的問題，對生成圖像間的長序列建模問題要求更高，以確保視頻整體連貫流程。按技術生成難度和生成內(nèi)容，可區(qū)分為拼湊式生成和完全從頭生成。

? 圖像/視頻生成文本：具體應用有視覺問答系統(tǒng) 、配字幕、標題生成等，代表模型有METER 、ALIGN等。

AIGC技術研究與應用 ---- 下一代人工智能：新范式！新生產(chǎn)力?。?.4 -大模型發(fā)展歷程之多模態(tài)）,人工智能,AIGC,深度學習

AIGC技術研究與應用 ---- 下一代人工智能：新范式！新生產(chǎn)力?。?.4 -大模型發(fā)展歷程之多模態(tài)）,人工智能,AIGC,深度學習

參考文獻與學習路徑

車萬翔等統(tǒng)稿

ChatGPT 調(diào)研報告

模型部署簡介

https://github.com/open-mmlab/mmdeploy/blob/master/docs/zh_cn/tutorial/01_introduction_to_model_deployment.md

GPT 系列模型解析

ChatGPT技術原理解析：從RL之PPO算法、RLHF到GPT4、instructGPT

https://blog.csdn.net/v_JULY_v/article/details/128579457

數(shù)云融合｜探究GPT家族的進化之路：GPT-3、GPT-3.5和GPT-4的比較分析

https://zhuanlan.zhihu.com/p/616691512

前序文章

初探 GPT-2
生成式AI（Generative AI）將重新定義生產(chǎn)力
AIGC 后下一個巨大的風口：AI生成檢測
代表AIGC 巔峰的ChatGPT 有哪些低成本開源方案能夠復現(xiàn)？
如何馴化生成式AI，從提示工程 Prompt Engineering 開始 !

模型進化

面向統(tǒng)一的AI神經(jīng)網(wǎng)絡架構(gòu)和預訓練方法

https://www.sohu.com/a/673342257_121124371

券商研報

從ChatGPT到生成式AI：人工智能新范式重新定義生產(chǎn)力

https://xueqiu.com/9005856403/240887888
https://xueqiu.com/5159309685/241858304
浙商證券：《AIGC算力時代系列：ChatGPT研究框架》
國泰君安:ChatGPT研究框架(2023)

騰訊研究院：AIGC發(fā)展趨勢報告2023

華東政法大學:人工智能通用大模型ChatGPT的進展風險與應對

http://www.199it.com/archives/1568017.html

ChatGPT浪潮下，看中國大語言模型產(chǎn)業(yè)發(fā)展

https://www.iresearch.com.cn/Detail/report?id=4166&isfree=0

AI服務器拆解，產(chǎn)業(yè)鏈核心受益梳理

https://xueqiu.com/2524803655/247578353

國海證券，AIGC深度行業(yè)報告：新一輪內(nèi)容生產(chǎn)力革命的起點
https://xueqiu.com/6695901611/243415262

陸奇演講

飛書的賽比鏈接不能復制只能看。。。

陸奇演講PPT官方版
https://miracleplus.feishu.cn/file/TGKRbW4yrosqmixCtprcUlAynzg
陸奇演講視頻官方版
https://miracleplus.feishu.cn/file/OrO7bivJeoT6FxxSjaJcXWlwncS
陸奇演講文本官方版
https://miracleplus.feishu.cn/docx/Mir6ddgPgoVs3KxF6sncOUaknNS

微信公眾號版本，能復制

https://mp.weixin.qq.com/s/fzYxwaANqWpqxC__1zTNDA

多模態(tài)

為什么Transformer適合做多模態(tài)任務？

https://www.zhihu.com/question/441073210/answer/2991137965
https://www.zhihu.com/question/441073210

直觀理解Stable Diffusion文章來源地址http://www.zghlxwxcb.cn/news/detail-533957.html

https://zhuanlan.zhihu.com/p/598999843

到了這里，關于AIGC技術研究與應用 ---- 下一代人工智能：新范式！新生產(chǎn)力?。?.4 -大模型發(fā)展歷程之多模態(tài)）的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權(quán)，不承擔相關法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

AIGC技術研究與應用 ---- 下一代人工智能：新范式！新生產(chǎn)力?。?.2-大模型發(fā)展歷程之 Transformer 與 GPT）
2023年07月01日
瀏覽(102)
AIGC技術研究與應用 ---- 下一代人工智能：新范式！新生產(chǎn)力?。?.3-大模型發(fā)展歷程之圖像、視頻生成與視覺大模型）
2024年02月09日
瀏覽(96)
AI智能助手的未來：與人類互動的下一代人工智能技術
智能助手是一種基于人工智能技術的應用程序或設備，旨在幫助用戶完成各種任務、提供信息和服務。智能助手通常具備語音識別、自然語言處理和機器學習等技術，使其能夠理解和解釋用戶的指令、問題或請求，并以相應的方式作出回應。智能助手可以運行在智能
2024年02月11日
瀏覽(96)
【AI智能助手的未來】與人類互動的下一代人工智能技術
智能助手是一種基于人工智能技術的應用程序或設備，旨在幫助用戶完成各種任務、提供信息和服務。智能助手通常具備語音識別、自然語言處理和機器學習等技術，使其能夠理解和解釋用戶的指令、問題或請求，并以相應的方式作出回應。智能助手可以運行在智能
2024年02月07日
瀏覽(98)
下一代大數(shù)據(jù)分布式存儲技術Apache Ozone初步研究
@ 目錄概述定義特性架構(gòu) 總體架構(gòu) 寫數(shù)據(jù) 讀數(shù)據(jù) 部署安裝方式安裝 Docker啟動 Docker-compose啟動企業(yè)預置型(On Premise)安裝實踐命令行接口 Ofs (Hadoop兼容) Recon API Apache Ozone 官網(wǎng)地址 https://ozone.apache.org/ 最新版本1.3.0 Apache Ozone 官網(wǎng)最新文檔地址 https://ozone.apache.org/docs/1.3.0
2023年04月25日
瀏覽(92)
搭載下一代人工智能技術，微軟推出Power Automate流程挖掘產(chǎn)品
在近日的Microsoft Inspire大會中，微軟揭曉了他們即將推出的Power Automate流程挖掘產(chǎn)品，并計劃在8月1日正式對外開放。試用地址：https://powerautomate.microsoft.com/zh-cn/#home-signup 這款產(chǎn)品搭載了下一代人工智能技術，有助于組織輕松洞察業(yè)務運行的全景，最大程度地理解流程，利用
2024年02月17日
瀏覽(93)
【譯】如何建立一家下一代“人工智能”公司
原作：丹尼爾·塞克斯頓引言：通過不易覺察的路徑 /Gemini翻譯/ dall e，尼古拉·特斯拉啟發(fā)的時光機 ? 如果你回到1915年的美國，當時三分之一的工人是農(nóng)民，你會告訴一個農(nóng)民要做些什么呢？農(nóng)業(yè)正在蓬勃發(fā)展。鐵路提供了前所未有的市場準入機會。小麥和玉米的價格飆升
2024年04月08日
瀏覽(100)
被稱為下一代風口的AIGC到底是什么？
近期，短視頻平臺上“AI繪畫”的概念爆火，ChatGPT這一詞條也刷爆了科技圈，而這些概念同屬于一個領域——AIGC。2022年12月，Science雜志發(fā)布的2022年度科學十大突破中，AIGC入選。那么，被稱之為是AI下一代風口的AIGC到底是什么？ AIGC全稱為AI-Generated Content，即利用人工智能技
2024年01月16日
瀏覽(105)
“Copilot”：微軟下一代人工智能，重新定義你的工作
人類是天生具有夢想、創(chuàng)造和創(chuàng)新的本能。我們渴望做能夠?qū)崿F(xiàn)我們目標的工作——寫出偉大的小說、做出驚人的發(fā)現(xiàn)、建立強大的社區(qū)，照顧病人等等。與工作本質(zhì)的聯(lián)系是我們內(nèi)心深處的渴望。但是今天，我們花費太多時間在枯燥乏味的任務上，這些任務耗費了我們的時
2024年02月13日
瀏覽(97)
【人工智能】下一代 AI 編程語言：Mojo 編程手冊
目錄 Why Mojo???為什么選擇Mojo 魔術?? ? Mojo as a member of the Python familyMojo 作為 Python 家族的一員?
2024年02月09日
瀏覽(88)