摘要:CV、NLP、大模型...AI技術(shù)的加持下,讓數(shù)字人內(nèi)外在更加生動(dòng)真實(shí)。在未來的發(fā)展中,數(shù)字人的應(yīng)用場景越來越廣泛,并將發(fā)揮出重要的作用,讓美好照進(jìn)生活。
本文分享自華為云社區(qū)《AIGC:新AI時(shí)代,推動(dòng)數(shù)字人進(jìn)化的引擎》,作者:華為云社區(qū)精選。
現(xiàn)在我們?cè)谑謾C(jī)視頻里經(jīng)??吹剑瑤装倨椒矫椎目諘绶块g內(nèi)沒有工作人員,屏幕上的“美女主播”正在全自動(dòng)直播帶貨;在某餐飲短視頻賬號(hào)中,一名主播正情緒飽滿地介紹產(chǎn)品,此時(shí),“他”連續(xù)直播已經(jīng)超過24小時(shí)…
原來,他們都是AI數(shù)字大軍,即數(shù)字人。
在今年電商行業(yè)的銷售模式中,有超過50%的企業(yè)嘗試新的營銷手段——數(shù)字人直播帶貨。在直播期間,“家人們”、“上鏈接”、“321”等直播“黑話”他們張口就來。不僅如此,各個(gè)領(lǐng)域的大佬數(shù)字人出現(xiàn)在大眾視野。不難發(fā)現(xiàn),數(shù)字人分身、虛擬主播正在成為“潮流”的Style。
然而,基于越來越多的數(shù)字人進(jìn)行直播的趨勢,網(wǎng)絡(luò)都在瘋傳:真人主播要失業(yè)了,AI要取代三億人的工作等新聞。借此,華為開發(fā)者大會(huì)2023社區(qū)直播活動(dòng)邀請(qǐng)到了硅基智能AI數(shù)字人事業(yè)部全國城市生態(tài)總監(jiān)大成老師和華為云AI技術(shù)研發(fā)專家王朝老師,一起聊聊“AIGC浪潮下的數(shù)字人進(jìn)化論”。
視頻地址:當(dāng)技術(shù)遇上藝術(shù):AIGC浪潮下的數(shù)字人進(jìn)化論
AIGC正在改變市場與行業(yè)
被問到“數(shù)字人主播是否會(huì)取代真人主播”時(shí),大成老師給出了肯定的回答,他從三個(gè)方面進(jìn)行的解釋:
? 數(shù)字人主播可以降低整體行業(yè)的門檻,規(guī)避對(duì)主播顏值和過往履歷的要求,并且可以直接生成各種風(fēng)格的數(shù)字人,提高直播間的顏值和風(fēng)格多樣性。
? 數(shù)字人主播可以快速上手,不需要培訓(xùn)和熟悉產(chǎn)品,也能做到24小時(shí)不間斷的工作,提高直播效率。
? 數(shù)字人主播不需要考慮留存和分配的問題,不會(huì)出現(xiàn)被競爭對(duì)手或主播帶走的情況,保障企業(yè)的投資和利益。
他還補(bǔ)充到,數(shù)字人主播現(xiàn)在在外形上基本可以做到以假亂真,不過在交互層面還是處于弱交互階段,在比較豐富的互動(dòng)上和情感表達(dá)上還有提升的空間。不過,目前的技術(shù)已經(jīng)足以在各種場景下得到應(yīng)用和落地,已經(jīng)有很多企業(yè)在使用數(shù)字人主播,如電商、教育、文旅、銀行金融等,數(shù)字人賦能千行百業(yè)的時(shí)代已經(jīng)到來了。
“現(xiàn)在AI技術(shù)更新迭代的速度非???,數(shù)字人也在不斷進(jìn)化升級(jí)。對(duì)于我們而言,擁抱AI,躬身入局是最正確的選擇。”大成老師談到。
數(shù)字人,要內(nèi)外兼修
從技術(shù)層面來看,數(shù)字人主要兩種模式:真人驅(qū)動(dòng)型和計(jì)算驅(qū)動(dòng)型。前者成本較高,用于影視創(chuàng)作、虛擬偶像等大型活動(dòng);后者成本更低,更常見。
針對(duì)計(jì)算驅(qū)動(dòng)型數(shù)字人,制作流程為:制作模型→表演捕捉→模型驅(qū)動(dòng)→模型渲染及后處理。在加入了AI技術(shù)之后,模型的制作可以由一段視頻去做三維重建,表演捕捉則由一系列的驅(qū)動(dòng)模型去代替。“這相當(dāng)于是數(shù)字人的外在?!蓖醭f道。
除了外在,內(nèi)在也很重要。為了讓數(shù)字人像人一樣開口說話,需要使用TTS技術(shù)(Text-to-speech,語音合成技術(shù))將文本轉(zhuǎn)換為語音,這是第一步。要讓聲音聽起來毫無違和感,就需要使用聲音轉(zhuǎn)換技術(shù),將原說話人的聲音轉(zhuǎn)換為目標(biāo)說話人,同時(shí)保留原說話人的風(fēng)格特色。做到這一步,一個(gè)基礎(chǔ)的數(shù)字人就構(gòu)建出來了。
要讓數(shù)字人更加智能,可以使用NLP和CV技術(shù),其中NLP用于支撐內(nèi)在技術(shù),CV用于支撐外在技術(shù)。王朝表示,現(xiàn)在的數(shù)字人互動(dòng)性較弱,但GPT等大模型的出現(xiàn)可以彌補(bǔ)這一缺陷,以及diffusion model的生成能力可以用于數(shù)字人的模型制作和后期渲染,可以增加背景的多樣性,使效果更有趣。
技術(shù)加持下,如何降低創(chuàng)造和內(nèi)容成本
如果說,虛擬數(shù)字人成為連接元宇宙的身份入口。那么大模型掀起的熱潮,生成式AI技術(shù)的爆發(fā),則是虛擬數(shù)字人的“生動(dòng)力”。生成式AI正在支撐虛擬數(shù)字人的回答變得更具多樣性且擬人化,驅(qū)動(dòng)數(shù)字人更好地表達(dá)情緒。
生成式AI是近年來發(fā)展迅速的領(lǐng)域,其中Diffusion model是一種重要的生成模型。王朝講到,Diffusion model可以看做是一個(gè)去噪的過程,通過不斷去除噪聲圖像中的噪聲,逐漸生成我們想要的圖片。這個(gè)過程是通過訓(xùn)練一個(gè)噪聲預(yù)測器來實(shí)現(xiàn),通過使用加過噪聲的圖片和第幾次加噪聲這兩個(gè)參數(shù)去預(yù)測噪聲本身。訓(xùn)練后的模型可以用來自定義生成圖像,通過輸入文本描述或其他控制信號(hào)來改變生成圖像的樣式和內(nèi)容。
王朝表示,Diffusion model的優(yōu)勢包括生成能力強(qiáng)、可控性強(qiáng)、容易訓(xùn)練等。由于整個(gè)生成過程需要不斷去噪,所以生成速度較慢。為了解決這個(gè)問題,許多diffusion模型并不在原始空間做去噪,而是選擇一個(gè)低分辨率的空間進(jìn)行生成,這也導(dǎo)致了許多繪畫模型都采用了相同的結(jié)構(gòu)。
“一般來說我們自己的生成需求,多數(shù)情況直接用基礎(chǔ)模型是無法解決的。模型應(yīng)用的關(guān)鍵是怎么樣去自定義我們的模型,或者說怎么樣去提升模型的可控性?!?王朝講到,在應(yīng)用方面,可以使用DreamBooth、lora和controlnet等方法來提高模型的可控性,這些方法可以幫助我們自定義生成圖像,通過輸入文本描述或其他控制信號(hào)來改變生成圖像的樣式和內(nèi)容,從而滿足我們的個(gè)性化需求。
數(shù)字人應(yīng)用,讓美好更近一點(diǎn)
“朋友們,我是謝晉,上影廠的一名電影導(dǎo)演,今年100歲了,此刻我竟然以人工智能數(shù)字人的方式來到SHO未來·海上論壇?!痹谏虾k娪肮?jié)期間,出現(xiàn)了一個(gè)令人驚奇的影像——已故導(dǎo)演謝晉通過數(shù)字人的形式跨越時(shí)空和在場的電影人見面,讓在座的觀眾驚嘆。
大成老師表示,謝晉導(dǎo)演數(shù)字人是通過硅基數(shù)字人和炎帝大模型的技術(shù),根據(jù)謝晉導(dǎo)演生前的一些素材,進(jìn)行訓(xùn)練復(fù)合而成的。這就是數(shù)字永生。
不僅在影視行業(yè),數(shù)字人在各行各業(yè)都有應(yīng)用,比如銀行金融、知識(shí)付費(fèi)、房地產(chǎn)、文旅和政策宣導(dǎo)等領(lǐng)域。在銀行金融領(lǐng)域,數(shù)字人可以被用來提供一對(duì)一的理財(cái)服務(wù),讓普通用戶也能享受到VIP的服務(wù);在知識(shí)付費(fèi)領(lǐng)域,數(shù)字人可以被用來錄制短視頻,節(jié)省時(shí)間并提高效率;在房地產(chǎn)和文旅領(lǐng)域,數(shù)字人可以被用來進(jìn)行虛擬游覽,讓用戶無需親自到場就能體驗(yàn)到景區(qū)的風(fēng)光。
此外,數(shù)字人在老年陪護(hù)領(lǐng)域也有應(yīng)用。有些家庭因?yàn)楣ぷ骰蛏畹脑颍瑹o法全天候照顧到老人或孩子。此時(shí),數(shù)字人可以用來進(jìn)行陪護(hù),提供全方位的服務(wù),如聊天、做飯、打掃衛(wèi)生等。這樣可以讓家庭成員更加放心,同時(shí)也能讓老人和孩子感受到更多的關(guān)愛和陪伴。
不難發(fā)現(xiàn),數(shù)字人技術(shù)的應(yīng)用范圍非常廣泛,可以在各個(gè)領(lǐng)域都發(fā)揮出重要的作用。隨著技術(shù)的不斷進(jìn)步,數(shù)字人也將越來越逼真,應(yīng)用場景也將越來越廣泛。
華為云攜手硅基智能,一起征途元宇宙的星辰大海
硅基智能推出的諸多數(shù)字人,這背后的內(nèi)核是“DUIX 數(shù)字人智能交互平臺(tái)”。它是集成了ASR、TTS、虛擬人、NLP、BOT等技術(shù),旨在滿足未來虛擬數(shù)字經(jīng)濟(jì)多服務(wù)場景的虛擬化服務(wù)需求。而且,DUIX交互平臺(tái)與華為云平臺(tái)基礎(chǔ)能力結(jié)合,提升數(shù)字人視頻生產(chǎn)、多模態(tài)交互能力,為客戶打造銀行元宇宙、虛擬主播、虛擬培訓(xùn)老師等創(chuàng)新解決方案。
截止到現(xiàn)在,硅基智能與華為云開展了多維度的合作。2021年8月,硅基智能成為華為云的用戶,并將整體業(yè)務(wù)遷移到華為云。隨后將產(chǎn)上架華為云云商店,通過鯤鵬認(rèn)證和產(chǎn)品的嚴(yán)選認(rèn)證,得到華云全球生態(tài)部、華為江蘇代表處、南京人工智能創(chuàng)新中心等部門的大力支持。在同年的10月份,產(chǎn)品還完成了自營認(rèn)證,并啟動(dòng)了數(shù)字人的嚴(yán)選上架。到2022年4月份,硅基智能的數(shù)字人產(chǎn)品已經(jīng)完成聯(lián)營聯(lián)運(yùn)的認(rèn)證,同時(shí)智能語音產(chǎn)品也通過了電信運(yùn)營商cmp認(rèn)證,并啟動(dòng)了佛山電信試點(diǎn)。
為了更好地落地?cái)?shù)字內(nèi)容等相關(guān)產(chǎn)品和技術(shù),在2022年9月,華為全國首個(gè)數(shù)字創(chuàng)意產(chǎn)業(yè)方向的創(chuàng)新中心——華為(龍崗)數(shù)字創(chuàng)意產(chǎn)業(yè)創(chuàng)新中心正式簽約,創(chuàng)新中心將以數(shù)據(jù)虛擬化引擎服務(wù)、云媒體服務(wù)、云桌面和數(shù)字內(nèi)容產(chǎn)線MetaStudio等創(chuàng)新技術(shù)加速場景商業(yè)落地,助推數(shù)字創(chuàng)意產(chǎn)業(yè)集群融合發(fā)展,實(shí)現(xiàn)生態(tài)共生共贏,完成數(shù)字創(chuàng)意產(chǎn)業(yè)集群融合發(fā)展,助推龍崗數(shù)創(chuàng)走廊建設(shè)。
作為華為云客戶,硅基智能得到了華為云專家團(tuán)隊(duì)的有力技術(shù)支持,進(jìn)行了云資源規(guī)劃和診斷,優(yōu)化了云資源調(diào)度。同時(shí),硅基智能也積極推薦華為云服務(wù),幫助伙伴加速了解華為云生態(tài),提供經(jīng)驗(yàn)分享。雙方還在解決方案維度進(jìn)行了聯(lián)合創(chuàng)新,在金融、政府、廣電等多個(gè)行業(yè)聯(lián)合營銷,為行業(yè)客戶提供有競爭力的創(chuàng)新方案。
?文章來源:http://www.zghlxwxcb.cn/news/detail-558442.html
點(diǎn)擊關(guān)注,第一時(shí)間了解華為云新鮮技術(shù)~文章來源地址http://www.zghlxwxcb.cn/news/detail-558442.html
到了這里,關(guān)于AIGC:新AI時(shí)代,推動(dòng)數(shù)字人進(jìn)化的引擎的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!