量子位智庫 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
AIGC(AI生成內(nèi)容),這個(gè)概念最近可以說是火得一塌糊涂。
例如Stable Diffusion,只要對(duì)它說一句話,“唰唰唰”地就能秒生成畫作:
Big chunky Venom(巨大敦實(shí)的毒液).
知名博主大谷Spitzer還用它“翻拍了”好萊塢國際巨星版的《華強(qiáng)買瓜》:
還有此前谷歌家的Imagen、OpenAI出的DALL·E系列等,也都成了備受網(wǎng)友們熱捧的AI內(nèi)容生成神器。
甚至還有人拿著Midjourney生成的畫作參加藝術(shù)比賽,碾壓人類奪得頭籌,惹怒了一眾藝術(shù)家。
但正所謂“能用起來的技術(shù)才是好技術(shù)”,網(wǎng)友們將諸如此類AIGC技術(shù)熱度推至的高度是對(duì)它實(shí)力的認(rèn)可。
而此前市場(chǎng)還將項(xiàng)目發(fā)布僅一個(gè)月的Stable Diffusion背后公司估值為69億元,這是資本對(duì)AIGC的肯定。
那么站在現(xiàn)在這個(gè)時(shí)間節(jié)點(diǎn)上,是時(shí)候?qū)IGC從技術(shù)發(fā)展路線、產(chǎn)業(yè)落地方向等多角度做一個(gè)梳理。
因此,量子位智庫在進(jìn)行深入調(diào)研之后正式發(fā)布《AIGC/AI生成內(nèi)容產(chǎn)業(yè)展望報(bào)告》,核心回答三大問題:
在技術(shù)上,AIGC已經(jīng)可以完成哪些創(chuàng)作?
在價(jià)值上,AIGC除了直接生成藝術(shù)作品還能做什么?
在未來,AIGC將如何改變內(nèi)容及相關(guān)產(chǎn)業(yè)?
(完整報(bào)告獲取方式見文末)
AIGC技術(shù)及八大場(chǎng)景應(yīng)用
AIGC全稱為AI-Generated Content,指基于生成對(duì)抗網(wǎng)絡(luò)GAN、大型預(yù)訓(xùn)練模型等人工智能技術(shù),通過已有數(shù)據(jù)尋找規(guī)律,并通過適當(dāng)?shù)姆夯芰ι上嚓P(guān)內(nèi)容的技術(shù)。
與之相類似的概念還包括Synthetic media,合成式媒體, 主要指基于AI生成的文字、圖像、音頻等。
Gartner也提出了相似概念Generative AI,也即生成式AI。生成式AI是指該技術(shù)從現(xiàn)有數(shù)據(jù)中生成相似的原始數(shù)據(jù)。
相較于量子位智庫認(rèn)為的AIGC,這一概念的范圍較狹窄。
我們認(rèn)為,目前AIGC生成正在完成從簡(jiǎn)單的降本增效(以生成金融/體育新聞為代表)向創(chuàng)造額外價(jià)值(以提供繪畫 創(chuàng)作素材為代表)轉(zhuǎn)移,跨模態(tài)/多模態(tài)內(nèi)容成為關(guān)鍵的發(fā)展節(jié)點(diǎn)。
技術(shù)視角下,我們認(rèn)為以下場(chǎng)景將成為未來發(fā)展的重點(diǎn):文本-圖像-視頻的跨模態(tài)生成、2D到3D生成、多模態(tài)理解 結(jié)合生成。
商業(yè)視角下,我們認(rèn)為未來3年內(nèi),虛擬人生成和游戲AI這兩種綜合性的AIGC場(chǎng)景將趨于商業(yè)化成熟。
下圖中的綠色部分,是我們認(rèn)為2-3年內(nèi)具有快速增長(zhǎng)潛力的細(xì)分賽道。
文本生成
以結(jié)構(gòu)性新聞撰寫、內(nèi)容續(xù)寫、詩詞創(chuàng)作等細(xì)分功能為代表,基于NLP技術(shù)的文本生成可以算作是AIGC中發(fā)展最早的一部分技術(shù),也已經(jīng)在新聞報(bào)道、對(duì)話機(jī)器人等應(yīng)用場(chǎng)景中大范圍商業(yè)落地。
從現(xiàn)有的落地場(chǎng)景來看,我們將其劃分為應(yīng)用型文本和創(chuàng)作型文本生成,前者的進(jìn)展明顯優(yōu)于后者。此外,從應(yīng)用推廣的角度來說,輔助文本創(chuàng)作是目前落地最為廣泛的場(chǎng)景。
應(yīng)用型文本大多為結(jié)構(gòu)化寫作,以客服類的聊天問答、新聞撰寫等為核心場(chǎng)景。主要玩家包括Automated Insights(美聯(lián)社Wordsmith)、Narrative Science、textengine.io、AX Semantics、Yseop、Arria、retresco、Viable、瀾舟科技等。同時(shí)也是小冰公司、騰訊、百度等綜合性覆蓋AIGC領(lǐng)域公司的重點(diǎn)布局領(lǐng)域。
創(chuàng)作型文本主要適用于劇情續(xù)寫、營銷文本等細(xì)分場(chǎng)景等,具有更高的文本開放度和自由度,需要一定的創(chuàng)意和個(gè)性化,對(duì)生成能力的技術(shù)要求更高。
代表性的國內(nèi)外公司包括Anyword、Phrasee、Persado、Pencil、Copy.ai、?Friday.ai、Retresco、Writesonic、Conversion.ai、?Snazzy AI、Rasa.io、LongShot.AI、彩云小夢(mèng)等。
除去端到端進(jìn)行文本創(chuàng)作外,輔助文本寫作其實(shí)是目前國內(nèi)供給及落地最為廣泛的場(chǎng)景。基本主要為基于素材爬取的協(xié)助作用,例如定向采集信息素材、文本素材預(yù)處理、自動(dòng)聚類去重,并根據(jù)創(chuàng)作者的需求提供相關(guān)素材。
這部分的國內(nèi)代表產(chǎn)品包括寫作貓、Gilso寫作機(jī)器人、Get寫作、寫作狐、沃沃AI人工智能寫作。
圖像生成
圖像生成的傳統(tǒng)思路是生成對(duì)抗網(wǎng)絡(luò)(GAN),由生成器和判別器兩部分組成,生成器將抓取數(shù)據(jù)、產(chǎn)生新的生成數(shù)據(jù),并將其混入原始數(shù)據(jù)中送交判別器區(qū)分。
雖然說在現(xiàn)有的GAN在神經(jīng)網(wǎng)絡(luò)架構(gòu)、損失函數(shù)設(shè)計(jì)、模型訓(xùn)練穩(wěn)定性、模型崩潰問題上取得了相應(yīng)突破,提升了最終圖像的特定細(xì)節(jié)、內(nèi)在邏輯、生成速度等。
但要在實(shí)際應(yīng)用中大規(guī)模穩(wěn)定應(yīng)用,GAN仍需解決以下問題:訓(xùn)練不穩(wěn)定、生成的樣本大量重復(fù)、結(jié)構(gòu)及壓縮等問題。
2022年,Diffusion Model(擴(kuò)散模型)成為圖像生成領(lǐng)域的重要發(fā)現(xiàn),甚至有超越GAN的勢(shì)頭。
相較于其他的圖像生成模型(比如GAN、VAE和基于流的模型),在所需數(shù)據(jù)更少的背景下,Diffusion Model的圖像生成效果有明顯提升。
而在3D內(nèi)容生成上,神經(jīng)輻射場(chǎng)模型NeRF成為新一代模型。
NeRF通過將場(chǎng)景表示為隱式的神經(jīng)輻射場(chǎng),渲染時(shí)通過神經(jīng)網(wǎng)絡(luò)查詢位置上的場(chǎng)景信息生成新視角圖像。簡(jiǎn)單來說,NeRF利用深度學(xué)習(xí)完成了計(jì)算機(jī)圖形學(xué)中的3D渲染任務(wù)。
基于對(duì)不同技術(shù)原理的梳理,我們將圖像生成領(lǐng)域的技術(shù)場(chǎng)景劃分為圖像屬性編輯、圖像局部生成及更改、以及端到端的圖像生成。
屬性編輯部分,可以直觀的將其理解為經(jīng)AI降低門檻的PhotoShop?,F(xiàn)有代表公司包括美圖秀秀(美圖AI開放平臺(tái))、Radius5、Photokit、Imglarger、Hotpot、Remove.bg、Skylum(Mask AI)、Photodiva。
圖像部分編輯部分,指部分更改圖像部分構(gòu)成、修改面部特征。典型代表為選入CVPR2022的InsetGAN,該模型由Adobe推出。
圖像端到端生成主要指基于草圖生成完整圖像、有機(jī)組合多張圖像生成新圖像、根據(jù)指定屬性生成目標(biāo)圖像等。
該部分包含兩類場(chǎng)景,分別為創(chuàng)意圖像生成與功能性圖像生成。前者大多以NPF等形式體現(xiàn),后者則大多以營銷類海報(bào)/界面、logo、模特圖、用戶頭像為主。
垂直代表公司/產(chǎn)品包括Deepdream Generator、Rosebud.ai、AI Gahaku、artbreeder、nightcafe、starryai、wombo、deepart、obvious、阿里鹿班、ZMO.ai、Datagrid、詩云科技、道子智能繪畫系統(tǒng)等。
音頻生成
此類技術(shù)可應(yīng)用于流行歌曲、樂曲、有聲書的內(nèi)容創(chuàng)作,以及視頻、游戲、影視等領(lǐng)域的配樂創(chuàng)作,大大降低音樂版權(quán)的采購成本。
我們目前最為看好的場(chǎng)景是自動(dòng)生成實(shí)時(shí)配樂、語音克隆以及心理安撫等功能性音樂的自動(dòng)生成。
TTS(Text-to-speech)在AIGC領(lǐng)域下已相當(dāng)成熟,廣泛應(yīng)用于客服及硬件機(jī)器人、有聲讀物制作、語音播報(bào)等任務(wù)。
目前技術(shù)上的的關(guān)鍵,在于如何通過富文本信息(如文本的深層情感、深層語義了解等)更好的表現(xiàn)其中的抑揚(yáng)頓挫, 以及基于用戶較少的個(gè)性化數(shù)據(jù)得到整體的復(fù)制能力(如小樣本遷移學(xué)習(xí))。
垂直代表公司包括倒映有聲、科大訊飛、思必馳(DUI)、Readspeaker、DeepZen和Sonantic。
隨著內(nèi)容媒體的變遷,短視頻內(nèi)容配音已成為重要場(chǎng)景。部分軟件能夠基于文檔自動(dòng)生成解說配音,上線有150+款包括不同方言和音色的AI智能配音主播。代表公司有剪映、九錘配音、加音、XAudioPro等。
在TTS領(lǐng)域,語音克隆值得特別關(guān)注。該技術(shù)目前被應(yīng)用于虛擬歌手演唱、自動(dòng)配音等,在聲音IP化的基礎(chǔ)上,對(duì)于動(dòng)畫、電影、以及虛擬人行業(yè)有重要意義。
代表公司包括標(biāo)貝科技、Modulate、overdub、replika、Replica Studios、Lovo、Voice mod、Resemble Ai、Respeecher、DeepZen、Sonantic、VoiceID?、Descript。
……
除此之外,因篇幅有限,更多AIGC落地細(xì)分場(chǎng)景可在文末獲取完整報(bào)告進(jìn)一步了解。
不過總體而言,我們認(rèn)為,不同賽道下AIGC應(yīng)用落地推廣程度主要受到兩方面影響,特定技術(shù)的水平狀況以及在實(shí)際應(yīng)用中出現(xiàn)的轉(zhuǎn)化門檻。
并且以下技術(shù)要素值得關(guān)注:長(zhǎng)文本生成、開放式文本生成、NeRF模型、Diffusion模型、跨模態(tài)大型預(yù)訓(xùn)練模型(支持的模態(tài)數(shù)據(jù)類型、模態(tài)對(duì)齊架構(gòu)設(shè)計(jì)、支持的下游應(yīng)用)、小樣本學(xué)習(xí)及自監(jiān)督算法、強(qiáng)化學(xué)習(xí)及環(huán)境學(xué)習(xí)。
技術(shù)場(chǎng)景方面,我們認(rèn)為短期內(nèi)將有較明顯爆發(fā)的包括閑聊式文本生成、個(gè)性化營銷文本、富情感及細(xì)節(jié)TTS、拼湊式視頻生成、基于文本的AI繪畫、語音復(fù)刻。
AIGC價(jià)值和產(chǎn)業(yè)發(fā)展分析
在量子位智庫看來,用AI進(jìn)行內(nèi)容創(chuàng)作的價(jià)值主要 來源于五點(diǎn)。
區(qū)別于市場(chǎng)觀點(diǎn),我們認(rèn)為最后一點(diǎn),也即與AI系統(tǒng)的個(gè)性化、實(shí)時(shí)化互動(dòng)最能體現(xiàn)其潛在價(jià)值。
盡管目前AIGC尚無法完成精準(zhǔn)可控的生成,但我們相信這一賽道未來的技術(shù)與市場(chǎng)規(guī)模上限。
以下為五點(diǎn)主要價(jià)值,重要性逐次遞增。
降低內(nèi)容創(chuàng)作門檻,增加UGC用戶群體
AIGC能夠代替人工完成聲音錄制、圖像渲染等工作,使更多人員能夠參與到高價(jià)值的內(nèi)容創(chuàng)作流程中。預(yù)計(jì)這一效果在2B結(jié)構(gòu)化內(nèi)容生成的領(lǐng)域非常明顯,個(gè)別場(chǎng)景會(huì)出現(xiàn)2C服務(wù)??缒B(tài)生成成為未來重點(diǎn)。
提升創(chuàng)作及反饋效率,鋪墊線上實(shí)時(shí)互動(dòng)
目前來看,效率提升主要體現(xiàn)在提升專業(yè)人員的生產(chǎn)效率。用戶對(duì)于能夠動(dòng)態(tài)交互的個(gè)性化數(shù)字內(nèi)容的需求越來越高,傳統(tǒng)的開發(fā)方式無法滿足日益上升的需求,消費(fèi)速度遠(yuǎn)高于制作速度。需要AIGC填補(bǔ)供需間的差距。
但我們認(rèn)為,更為關(guān)鍵的是,AI同樣提升了內(nèi)容的反饋生成速度,對(duì)于實(shí)時(shí)交互內(nèi)容有重大意義,具有將線下和真人的快速交互遷移到線上的可能,也即令A(yù)I承擔(dān)真人的社交、創(chuàng)作、協(xié)作功能,可能會(huì)出現(xiàn)新的潛在場(chǎng)景(如社交類和探索類游戲等)。
目前來看,內(nèi)容消費(fèi)者變得更容易將現(xiàn)實(shí)情感需求投射在虛擬世界中,預(yù)計(jì)會(huì)產(chǎn)生許多深入實(shí)時(shí)的互動(dòng)需求,市場(chǎng)規(guī)模可觀。
基于海量數(shù)據(jù)得到強(qiáng)創(chuàng)造性和開放性,有助于激發(fā)創(chuàng)意認(rèn)知、提升內(nèi)容生產(chǎn)多樣性
相較于人類藝術(shù)家,AI能夠接觸借鑒更多的數(shù)據(jù),在基于prompt進(jìn)行內(nèi)容生成后,AI創(chuàng)作的內(nèi)容會(huì)有更多的二次創(chuàng)造空間和自由度。
例如,生成算法能基于特定條件或完全隨機(jī)的生成現(xiàn)實(shí)中不存在的形狀、色彩搭配、圖案或結(jié)構(gòu)等,賦予內(nèi)容創(chuàng)作更多可能,產(chǎn)生“超現(xiàn)實(shí)感”及“未來感”,推動(dòng)藝術(shù)創(chuàng)新。
對(duì)不同模態(tài)元素進(jìn)行二次拆解組合,改變內(nèi)容生產(chǎn)邏輯及形式
通過語音克隆、編曲風(fēng)格提取等手段,AIGC能夠?qū)⒃腕w所對(duì)應(yīng)的不同模態(tài)信息進(jìn)行拆解,例如演講者的面部形象、 聲音、演講內(nèi)容等。
在重新組合之后,能夠完成過往受到條件限制無法完成的工作。例如路人的聲音+專業(yè)的播音邏輯、 更符合特定審美的面部等,打破真人/真實(shí)場(chǎng)景在要素組合上具有的局限性。
和其他AI系統(tǒng)或數(shù)據(jù)庫進(jìn)行聯(lián)動(dòng),有實(shí)現(xiàn)高度個(gè)性化/高頻優(yōu)化
在與特定的數(shù)據(jù)庫(例如實(shí)時(shí)更新的客戶數(shù)據(jù)、市場(chǎng)反饋數(shù)據(jù)、特定主題下的歷史統(tǒng)計(jì)數(shù)據(jù))或AI系統(tǒng)進(jìn)行聯(lián)動(dòng)后(如個(gè)性化推薦系統(tǒng)等),AIGC能夠在更為精準(zhǔn)的未來預(yù)測(cè)/個(gè)性化預(yù)測(cè)基礎(chǔ)上調(diào)整其生成內(nèi)容。
例如,根據(jù)用戶習(xí)慣調(diào)整內(nèi)容營銷文本、根據(jù)所處渠道風(fēng)格調(diào)整生成內(nèi)容、參考?xì)v史數(shù)據(jù)優(yōu)化生成內(nèi)容等。
產(chǎn)業(yè)鏈分析方面,由于我國的AIGC行業(yè)尚未發(fā)展成型,我們?cè)诖嘶谧陨砝斫猓L制了產(chǎn)業(yè)鏈分布圖。
目前,在上游,我國AIGC產(chǎn)業(yè)還有眾多欠缺,以數(shù)據(jù)標(biāo)注為重點(diǎn)體現(xiàn)。
我們認(rèn)為,未來業(yè)務(wù)關(guān)聯(lián)的大公司收購可能會(huì)成為主流現(xiàn)象,或應(yīng)當(dāng)存在較明顯的大廠擴(kuò)展業(yè)務(wù)趨勢(shì)。但大廠的業(yè)務(wù)擴(kuò)展動(dòng)機(jī)往往在于通過新賣點(diǎn)快速 獲取流量,優(yōu)化核心業(yè)務(wù),并不會(huì)過度關(guān)注AIGC本身業(yè)務(wù)價(jià)值的充分挖掘。
因此,在明確的新場(chǎng)景出來之前,我們認(rèn)為這個(gè)行業(yè)更容易分散在不同的內(nèi)容消費(fèi)場(chǎng)景下。
我們所分析的行業(yè)門檻及核心競(jìng)爭(zhēng)力:
無論是內(nèi)容還是延展領(lǐng)域,在產(chǎn)品上最終需要回到一體化解決方案服務(wù)能力
回避大廠商后期的競(jìng)爭(zhēng)壓力
與行業(yè)的深度綁定關(guān)系
構(gòu)建業(yè)務(wù)閉環(huán)
最后是我們基于此次調(diào)研所得出的六大關(guān)鍵結(jié)論:
One More Thing
掃描二維碼,即可下載量子位智庫出品的完整版《AIGC/AI生成內(nèi)容產(chǎn)業(yè)展望報(bào)告》:
也可掃描下方智庫小助手微信,進(jìn)入主題群進(jìn)行討論:
關(guān)于量子位智庫:文章來源:http://www.zghlxwxcb.cn/news/detail-501428.html
量子位旗下科技創(chuàng)新產(chǎn)業(yè)鏈接平臺(tái)。致力于提供前沿科技和技術(shù)創(chuàng)新領(lǐng)域產(chǎn)學(xué)研體系化研究。面向前沿AI&計(jì)算機(jī)、生物計(jì)算、量子技術(shù)及健康醫(yī)療等領(lǐng)域最新技術(shù)創(chuàng)新進(jìn)展,提供系統(tǒng)化報(bào)告和認(rèn)知。通過媒體、社群和線下活動(dòng),幫助決策者更早掌握創(chuàng)新風(fēng)向。文章來源地址http://www.zghlxwxcb.cn/news/detail-501428.html
到了這里,關(guān)于Diffusion的火,只是AIGC的縮影 | 量子位智庫報(bào)告(附下載)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!