本文來源“CVHub”公眾號,侵權(quán)刪,干貨滿滿。
作者丨派派星
來源丨CVHub
原文鏈接:《萬字長文帶你解讀AIGC》系列之入門篇
0. 導(dǎo)讀
圖0
隨著ChatGPT
的病毒式傳播,生成式人工智能(AIGC
, a.k.a?AI-generated content
)因其分析和創(chuàng)造文本、圖像、視頻以及其他方面的出眾能力而儼然成為當下最火熱的投資賽道,沒有之一。在如此鋪天蓋地的信息轟炸下,每個人似乎難以置身事外,我們幾乎不可能錯過從某個角度瞥見AIGC
的機會。
值得注意的是,在人工智能從純分析過渡到創(chuàng)造的時代,ChatGPT
及其最新的語言模型GPT-4
,只是眾多AIGC
任務(wù)中的一個工具而已。在對ChatGPT
的能力印象深刻的同時,很多人都在想它的局限性:GPT-5
或其他未來的GPT
變體能否幫助ChatGPT
統(tǒng)一所有的AIGC
任務(wù),實現(xiàn)多樣化的內(nèi)容創(chuàng)作?為了回答這個問題,需要對現(xiàn)有的AIGC
任務(wù)進行全面審查。
因此,本文[1]將通過提供對AIGC
從技術(shù)到應(yīng)用的初步了解,來及時填補這一空白?,F(xiàn)代生成式AI極度依賴于各種技術(shù)基礎(chǔ),從模型架構(gòu)和自監(jiān)督預(yù)訓(xùn)練到生成式建模方法(如GAN
和Diffusion
)。在介紹了基本技術(shù)之后,這項工作主要是根據(jù)各種AIGC
任務(wù)的輸出類型(包括文本、圖像、視頻、3D內(nèi)容等)來研究其技術(shù)發(fā)展,這描繪了ChatGPT
的全部未來潛力。此外,我們總結(jié)了它們在一些主流行業(yè)的重要應(yīng)用,如教育和創(chuàng)意內(nèi)容。最后,我們將集中討論目前面臨的挑戰(zhàn),并對生成式AI在不久的將來可能的發(fā)展進行了相關(guān)的展望。
1. 引言
這段時間,以ChatGPT[2]和Midjourney[3]為代表的 AIGC 工具迅速占領(lǐng)頭條,充分表明人工智能的新時代即將到來。在這種鋪天蓋地的媒體報道下,哪怕是個普通人都有很多機會可以一睹AIGC
的風(fēng)采。然而,這些報道中的內(nèi)容往往是偏頗的,有時甚至是誤導(dǎo)的。此外,在對ChatGPT
的強大能力印象深刻的同時,許多人也在想象它的極限。
就在近期,OpenAI
發(fā)布了GPT-4
,與之前的變體GPT-3.5
相比,它展示了顯著的性能改進以及多模態(tài)生成能力,如圖像理解。被AIGC
驅(qū)動的GPT-4
的強大能力所打動,許多人想知道它的極限,即GPT-X
是否能幫助下一代ChatGPT
統(tǒng)一所有AIGC
任務(wù)?
傳統(tǒng)人工智能的目標主要是進行分類或回歸(Classification
?or?Regression
)。此類模型可歸納為判別式AI,因此傳統(tǒng)人工智能也經(jīng)常被稱為分析性人工智能。相比之下,生成式AI通過創(chuàng)造新的內(nèi)容來進行區(qū)分。然而,這種技術(shù)往往也要求模型在生成新內(nèi)容之前首先理解一些現(xiàn)有的數(shù)據(jù)(如文本指令?text instruction
)。從這個角度來看,判別式AI可以被看作是現(xiàn)代生成式AI的基礎(chǔ),它們之間的界限往往是模糊的。
需要注意的是,判別式AI也能生成內(nèi)容。例如,標簽內(nèi)容是在圖像分類中產(chǎn)生的。盡管如此,圖像識別往往不被認為是生成式AI的范疇,因為相對于圖像或視頻來說,標簽內(nèi)容的信息維度很低。另一方面,生成式AI的典型任務(wù)涉及生成高維數(shù)據(jù),如文本或圖像。這種生成的內(nèi)容也可以作為合成數(shù)據(jù),用于緩解深度學(xué)習(xí)中對更多數(shù)據(jù)的需求。
如上所述,生成式AI與傳統(tǒng)人工智能的區(qū)別在于其生成的內(nèi)容。說到這里,生成式AI在概念上與AIGC
相似。在描述基于人工智能的內(nèi)容生成的背景下,這兩個術(shù)語通常是可以互換的。因此,在本文中,為了簡單起見,我們把內(nèi)容生成任務(wù)統(tǒng)稱為AIGC
。例如,ChatGPT
是一個被稱為ChatBot
的AIGC
任務(wù)的工具,考慮到AIGC
任務(wù)的多樣性,這其實只是冰山一角而已。盡管生成式AI和AIGC
之間有很高的相似性,但這兩個術(shù)語有細微的區(qū)別。具體來講:
-
AIGC
專注于內(nèi)容生成的任務(wù); -
生成式AI則額外考慮支持各種
AIGC
任務(wù)發(fā)展的底層技術(shù)基礎(chǔ)。
基于此,我們可以將這類基礎(chǔ)技術(shù)劃分為兩大類:
-
Generative Modeling Techniques
:如VAE
、GAN
和Diffusion
,它們與內(nèi)容創(chuàng)作的生成式AI直接相關(guān); -
Backbone Architecture
和Self-Supervised Learning, SSL
:如廣泛應(yīng)用于自然語言處理的Transformer
架構(gòu)和BERT
以及對應(yīng)的計算機視覺領(lǐng)域的Vision Transformer
架構(gòu)和MAE
等。
在這些底層技術(shù)的基礎(chǔ)上,能構(gòu)建出許多AIGC
任務(wù),并且能根據(jù)生成的內(nèi)容類型進行簡單的分類:
-
文本生成:例如
OpenAI
的ChatBot
、谷歌的Bard
等; -
圖像生成:例如
MidJourney
、DALL-E
、Stable Diffusion
及國內(nèi)百度的文心一格
等;支護工囊括的圖像編輯功能更是可以廣泛應(yīng)用于圖像超分、圖像修復(fù)、人臉替換、圖像去水印、圖像背景去除、線條提取等任務(wù); -
音頻生成:例如
AudioLDM
和WaveNet
等; -
視頻生成:詳細介紹可參考此鏈接[4]
此外,便是各種多模態(tài)融合相關(guān)的技術(shù)。隨著技術(shù)的發(fā)展,AIGC
的性能在越來越多的任務(wù)中得到了廣泛地驗證。例如,ChatBot
過去只限于回答簡單的問題。然而,最近的ChatGPT
已被證明能夠理解笑話并在簡單指令(prompt
)下生成代碼。另一方面,文本到圖像曾經(jīng)被認為是一項具有挑戰(zhàn)性的任務(wù);然而,最近的DALL-E 2
和穩(wěn)定擴散(Stable Diffusion
)模型已經(jīng)能夠生成逼真的圖像。
圖1.1
因此,將AIGC
應(yīng)用于各行各業(yè)的機會出現(xiàn)了。在后續(xù)的文章中我們將會全面為大家介紹AIGC
在各個行業(yè)的應(yīng)用,包括娛樂、數(shù)字藝術(shù)、媒體/廣告、教育等。當然,伴隨著AIGC
在現(xiàn)實世界中的應(yīng)用,許多挑戰(zhàn)也出現(xiàn)了,如道德和種族歧視問題等。
下面我們將按照這個版圖為大家進行全面的介紹。
圖1.2 An overview of AIGC.
2. 背景回顧
采用 AI 進行內(nèi)容創(chuàng)作由來已久。IBM 于 1954 年在其紐約總部首次公開展示了機器翻譯系統(tǒng)[5]。第一首計算機生成的音樂于 1957 年問世,名為Illiac Suite
。這種早期嘗試和概念驗證的成功引起了人們對人工智能未來的高度期望,促使政府和企業(yè)在人工智能上投入大量資源。然而,如此高的投資熱潮并沒有產(chǎn)生預(yù)期的產(chǎn)出。之后,一個被稱為人工智能寒冬的時期到來,極大地破壞了人工智能的發(fā)展。AI 及其應(yīng)用的發(fā)展在進入 2010 年代后再次流行起來,特別是在 2012 年?AlexNet[6]?成功用于 ImageNet 分類之后。進入 2020 年代,AI 進入了一個不僅理解現(xiàn)有數(shù)據(jù)而且創(chuàng)造了新的內(nèi)容。本文將通過關(guān)注生成AI的流行及其流行的原因進行去全局的概述。
2.1 搜索指數(shù)
“某個術(shù)語有多受歡迎”的一個很好的指標是搜索指數(shù)。這方面,谷歌提供了一種很有前途的工具來可視化搜索頻率,稱為谷歌趨勢。盡管其他搜索引擎如百度可能提供類似的功能,但我們依然采用谷歌趨勢,因為谷歌是世界上使用最廣泛的搜索引擎之一。
-
Interest over time and by region
?圖2.1 Search interest of generative AI
圖2.2 Search interest of AIGC
圖 2.1 左側(cè)的圖表顯示了生成式AI的搜索指數(shù),表明在過去一年中人們的搜索興趣顯著增加,特別是在2022年10月之后。進入2023年之后,這種搜索興趣達到了一個新高度。類似的趨勢也出現(xiàn)在AIGC
這個術(shù)語上。除了隨時間變化的興趣之外,Google 趨勢還提供了按地區(qū)劃分的搜索興趣。圖2.1和圖2.2右側(cè)圖分別顯示了生成式AI和AIGC的搜索熱度圖。對于這兩個術(shù)語,主要的熱點地區(qū)包括亞洲、北美和西歐。值得注意的是,對于這兩個術(shù)語,中國的搜索興趣最高,達到100,其次是北美約30和西歐約20。值得一提的是,一些技術(shù)導(dǎo)向型的小國家在生成式AI方面的搜索興趣非常高。例如,在按國家劃分的搜索興趣排名中排名前三的國家是新加坡(59)、以色列(58)和韓國(43)。
-
Generative AI v.s. AIGC
圖2.3 Search interest comparison between generative AI and AIGC
上圖簡單的展示了生成式AI和AIGC
相關(guān)搜索指數(shù)的比較。
2.2 為什么會如此受歡迎?
最近一年人們對生成式AI的興趣急劇增加,主要歸因于穩(wěn)定擴散或ChatGPT
等引人入勝的工具的出現(xiàn)。在這里,我們討論為什么生成式AI到歡迎,重點關(guān)注哪些因素促成了這些強大的AIGC
工具的出現(xiàn)。這些原因可以從兩個角度進行總結(jié),即內(nèi)容需求和技術(shù)條件。
2.2.1 內(nèi)容需求
互聯(lián)網(wǎng)的出現(xiàn)從根本上改變了我們與世界的溝通和交互方式,而數(shù)字內(nèi)容在其中扮演了關(guān)鍵角色。過去幾十年里,網(wǎng)絡(luò)上的內(nèi)容也經(jīng)歷了多次重大變革。
在Web1.0時代(1990年代-2004年),互聯(lián)網(wǎng)主要用于獲取和分享信息,網(wǎng)站主要是靜態(tài)的。用戶之間的互動很少,主要的通信方式是單向的,用戶獲取信息,但不貢獻或分享自己的內(nèi)容。內(nèi)容主要以文本為基礎(chǔ),由相關(guān)領(lǐng)域的專業(yè)人士生成,例如記者寫新聞稿。因此,這種內(nèi)容通常被稱為專業(yè)生成的內(nèi)容PGC
,而另一種類型的內(nèi)容則主導(dǎo)了用戶生成內(nèi)容UGC
。
與 PGC 相比,在Web2.0中,UGC 主要由社交媒體上的用戶生成,如 Facebook,Twitter,Youtube 等。與 PGC 相比,UGC 的數(shù)量群體顯然更大,但其質(zhì)量可能較差。
隨著網(wǎng)絡(luò)的發(fā)展,我們目前正在從 Web 2.0 過渡到 Web 3.0。Web 3.0?具有去中心化和無中介的定義特征,還依賴于一種超越 PGC 和 UGC 的新型內(nèi)容生成類型來解決數(shù)量和質(zhì)量之間的權(quán)衡。人工智能被廣泛認為是解決這種權(quán)衡的一種有前途的工具。例如,在過去,只有那些長期練習(xí)過的用戶才能繪制出像樣的圖片。通過文本到圖像的工具(如stable diffusion
),任何人都可以使用簡單的文本描述(prompt
)來創(chuàng)建繪畫圖像。當然,除了圖像生成,AIGC 任務(wù)還有助于生成其他類型的內(nèi)容。
AIGC 帶來的另一個變化是消費者和創(chuàng)作者之間的邊界變得模糊。在 Web 2.0 時代,內(nèi)容生成者和消費者通常是不同的用戶。然而,在 Web 3.0 中,借助 AIGC,數(shù)據(jù)消費者現(xiàn)在可以成為數(shù)據(jù)創(chuàng)作者,因為他們能夠使用 AI 算法和技術(shù)來生成自己的原創(chuàng)內(nèi)容,這使得他們能夠更好地控制他們生產(chǎn)和消費的內(nèi)容,使用自己的數(shù)據(jù)和 AI 技術(shù)來生產(chǎn)符合自己特定需求和興趣的內(nèi)容??偟膩碚f,向 AIGC 的轉(zhuǎn)變有可能大大改變數(shù)據(jù)消費和生產(chǎn)的方式,使個人和組織在他們創(chuàng)建和消費內(nèi)容時具有更多的控制和靈活性。接下來,我們將討論為什么 AIGC 現(xiàn)在變得如此流行。
2.2.2 技術(shù)條件
談到AIGC
技術(shù)時,人們首先想到的往往是深度學(xué)習(xí)算法,而忽略了其兩個重要條件:數(shù)據(jù)訪問和計算資源。
首先,讓我們一起嘮嘮在數(shù)據(jù)獲取方面取得的進展。深度學(xué)習(xí)是在數(shù)據(jù)上訓(xùn)練模型的典型案例。模型的性能在很大程度上取決于訓(xùn)練數(shù)據(jù)的大小。通常情況下,模型的性能隨著訓(xùn)練樣本的增多而提高。以圖像分類為例,ImageNet
是一個常用的數(shù)據(jù)集,擁有超過100萬張圖片,用于訓(xùn)練模型和驗證性能。生成式AI通常需要更大的數(shù)據(jù)集,特別是對于像文本到圖像這樣具有挑戰(zhàn)性的 AIGC 任務(wù)。例如,DALLE
使用了大約2.5億張圖片進行訓(xùn)練。DALL-E 2
則使用了大約6.5億張圖片。ChatGPT
是基于GPT3
構(gòu)建的,該模型部分使用CommonCrawl
數(shù)據(jù)集進行訓(xùn)練,該數(shù)據(jù)集在過濾前有?45TB?的壓縮純文本,過濾后只有?570GB。其他數(shù)據(jù)集如WebText2
、Books1/2
和Wikipedia
也參與了 GPT3 的訓(xùn)練。訪問如此龐大的數(shù)據(jù)集主要得益于互聯(lián)網(wǎng)的開放。
AIGC
的發(fā)展另一個重要因素是計算資源的進步。早期的人工智能算法是在CPU
上運行的,這不能滿足訓(xùn)練大型深度學(xué)習(xí)模型的需求。例如,AlexNet
是第一個在完整的ImageNet
上訓(xùn)練的模型,訓(xùn)練是在圖形處理器GPU
上完成的。GPU 最初是為了在視頻游戲中呈現(xiàn)圖形而設(shè)計的,但現(xiàn)在在深度學(xué)習(xí)中變得越來越常見。GPU 高度并行化,能比 CPU 更快地執(zhí)行矩陣運算。眾所周知,Nvidia
是制造 GPU 的巨頭公司。其 CUDA 計算能力從 2006 年的第一個 CUDA-capable GPU(GeForce 8800)到最近的 GPU(Hopper)已經(jīng)提高了數(shù)百倍。GPU 的價格可以從幾百美元到幾千美元不等,這取決于核心數(shù)和內(nèi)存大小。類似的,Tensor Processing Units(TPU)
是由Google
專門為加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練而設(shè)計的專用處理器。TPU 在 Google Cloud 平臺上可用,價格因使用和配置而異??偟膩碚f,計算資源的價格越來越實惠。
關(guān)于《萬字長文帶你解讀AIGC》系列之入門篇就先講到這里,后續(xù)我們將分四個章進行介紹,包括:
-
《萬字長文帶你解讀AIGC》系列之技術(shù)篇,主要介紹
AIGC
背后的底層技術(shù)棧,如Transforemr
、SSL
、VAE
、GAN
、Diffusion
等; -
《萬字長文帶你解讀AIGC》系列之任務(wù)篇,主要介紹與
AIGC
相關(guān)的任務(wù),如ChatGPT
、圖生文、文生圖、多模態(tài)等; -
《萬字長文帶你解讀AIGC》系列之應(yīng)用篇,主要介紹
AIGC
產(chǎn)業(yè)的實際應(yīng)用,如電影、音樂、代碼、廣告、游戲等; -
《萬字長文帶你解讀AIGC》系列之總結(jié)篇,該篇章主要對上述內(nèi)容進行一個全面的總結(jié),集中討論目前面臨的挑戰(zhàn),并對生成式AI在不久的將來可能的發(fā)展進行相關(guān)的展望。
References
[1]AIGC: https://arxiv.org/pdf/2303.11717.pdf
[2]ChatGPT: https://openai.com/blog/chatgpt,
[3]Midjourney: https://www.midjourney.com/home/?callbackUrl=%2Fapp%2F
[4]視頻生成: https://36kr.com/p/2149600978209282
[5]IBM: https://en.wikipedia.org/wiki/Georgetown%E2%80%93IBM_experiment
[6]AlexNet: https://papers.nips.cc/paper_files/paper/2012/hash/c399862d3b9d6b76c8436e924a68c45b-Abstract.html文章來源:http://www.zghlxwxcb.cn/news/detail-618882.html
說明:最近ChatGPT是真的火,公眾號“CVHub”不錯,大家有推薦的公眾號可以評論區(qū)留言,共同學(xué)習(xí),一起進步。文章來源地址http://www.zghlxwxcb.cn/news/detail-618882.html
到了這里,關(guān)于【CVHub】《萬字長文帶你解讀AIGC》系列之入門篇的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!