誰不想有一個可愛的數(shù)字人形象呢?在日常的工作和娛樂中,越來越多的數(shù)字人虛擬形象與大家見面,他們可以是主播,也可以是語音助手,還可以是你自己的虛擬寵物。只有更快更精準的生成數(shù)字人,才能讓數(shù)字人更加普及,普通消費者才能更多地接觸到數(shù)字人。LiveVideoStackCon 2022北京站邀請到了張瑞全老師為我們分享美攝科技的數(shù)字人技術(shù)。
文/張瑞全
編輯/LiveVideoStack
大家好,我是來自美攝科技研發(fā)中心的高級AI算法專家張瑞全。今天分享的主題是美攝科技關(guān)于快速落地基于“AIGC+數(shù)字人”的數(shù)字化內(nèi)容生產(chǎn)的整體方案。
-01-
整體概括
美攝科技產(chǎn)品主要分為AI數(shù)字人、視音頻處理SDK、AI智能處理、汽車及智能硬件方案、云端/PC端視頻處理方案和開發(fā)及設(shè)計服務(wù)六個部分。
美攝的技術(shù)已經(jīng)在超過千余款實際產(chǎn)品中落地,尤其針對大量的手機廠商和大型互聯(lián)網(wǎng)客戶,面向多款超千萬級的DAU應(yīng)用,美攝的SDK技術(shù)對大量的硬件和系統(tǒng)進行適配,保障各類場景下兼容性的同時,提供高質(zhì)量的服務(wù)。
實時語音數(shù)字人是基于語音和文字實時驅(qū)動的高精度數(shù)字人,主要用于數(shù)字客服、車載形象和APP助手等場景中。虛擬主播則更多的應(yīng)用于新聞播報、直播助手和虛擬講解等場景中。
-02-
數(shù)字人形象生成
數(shù)字人形象的三維渲染是數(shù)字人領(lǐng)域核心內(nèi)容。美攝科技自研的三維圖像渲染技術(shù)擁有強大的渲染能力、多端互通、高效率處理、體積小巧、快速拓展和制作方便六個特點,可以為數(shù)字人制作提供非常強大的輔助作用。
目前美攝科技支持支持基于物理的材質(zhì)渲染、實時陰影處理、法向量貼圖、全局環(huán)境光和屏幕空間環(huán)境光遮蔽,為各種環(huán)境下的數(shù)字人提供全面且逼真的渲染能力。為了增加可玩性和用途,可以在數(shù)字人身上添加不同的配飾等。目前美攝科技的渲染引擎可以很好地支持輔助道具和數(shù)字人動作的同步,讓數(shù)字形象更加逼真。
要實現(xiàn)實時語音輸出,就需要數(shù)字人擁有唇音同步能力。美攝科技基于AI訓(xùn)練建立了一套獨特的唇音分析算法,可以實現(xiàn)自然生動的形象展現(xiàn)。通過對輸入的語音進行輕量化AI分析,獲取實際人物的面部表情,再將AI算法輸出的結(jié)果與語音內(nèi)容結(jié)合,驅(qū)動數(shù)字人模型,實現(xiàn)實時的三維唇音同步效果。美攝AI唇音同步技術(shù)具有高效、無時延、過度順滑自然、適配多種語音系統(tǒng)等特點。
基于自研的Morphing技術(shù),美攝渲染引擎支持多達54種人臉基礎(chǔ)表情。這些基礎(chǔ)表情相互組合,構(gòu)成了擬真的數(shù)字人面部系統(tǒng),幾乎可以囊括所有的人臉表情,為數(shù)字人模型生動的表情展現(xiàn)奠定基礎(chǔ)。左邊5張圖是通過基礎(chǔ)的表情融合出的一些復(fù)雜面部動作。中間是一個實時驅(qū)動的樣例,同時也攜帶了頭發(fā)的物理效果。
同時我們也提供了非常全面的數(shù)字人設(shè)計工具,設(shè)計師可以將其與C4D、Maya等工具配合,快速進行貼圖更換、效果調(diào)節(jié),實現(xiàn)高效設(shè)計。其中,美攝自研的數(shù)字人設(shè)計工具與渲染器內(nèi)部使用同一套引擎,設(shè)計效果與最終渲染效果完全一致,所見即所得。設(shè)計制作出的模型效果可快速部署發(fā)布。
這張圖是數(shù)字人的一套基本流程。美攝實時語音數(shù)字人集成了多家合作伙伴的語音系統(tǒng),可以快速理解用戶輸入的文字信息并返回答案,并生成對應(yīng)的數(shù)字人語音,驅(qū)動數(shù)字人進行實時語音播報和動作表達。整套數(shù)字人方案具有良好的開放性和可拓展性,能夠快速與各種主流的AI聊天系統(tǒng)、語音系統(tǒng)進行結(jié)合,形成對應(yīng)的方案。
一些用戶希望生成的數(shù)字人更加貼合自己的形象,對此我們也提供了形象自動生成的方案。用戶只需提供一張照片,系統(tǒng)將提取特征生成對應(yīng)的數(shù)字人形象。在此基礎(chǔ)上,我們提供人臉屬性檢測+自動形象生成的算法,根據(jù)檢測分析的結(jié)果自動添加配飾,形成用戶專屬的虛擬形象。目前已支持性別、年齡、眼型、發(fā)型等多種人物屬性分析。
除了自動生成形象外,用戶還可以在生成的形象基礎(chǔ)上修改預(yù)先提供的可修改元素,自定義數(shù)字人形象,滿足個性化需求。
為應(yīng)對運營成長需求,如本土化適配,節(jié)日、熱點等,美攝科技提供了可自定義的配飾。根據(jù)基礎(chǔ)屬性,通過捏臉換裝可延展出不同的形象。
-03-
AIGC+數(shù)字人
虛擬視頻合成技術(shù)是指通過綜合利用計算機視覺、圖像處理和深度學習等技術(shù),實現(xiàn)虛擬視頻的生成,包含語音驅(qū)動、動作驅(qū)動和換臉三個關(guān)鍵技術(shù)。語音驅(qū)動,利用語音去驅(qū)動口型和面部表情,生成講話視頻;動作驅(qū)動,基于源視頻輸入的動作和口型、表情等,驅(qū)動目標視頻人物做出相同的動作、表情和口型;換臉,將目標視頻中的人臉換成某個指定的形象,并且保持目標視頻中人物的動作、表情、口型不變。
這張圖展示了表情和口型預(yù)測的基本邏輯。使用語音特征提取算法對語音特征進行提取,基于特征進行口型參數(shù)的預(yù)測。隨后根據(jù)口型參數(shù)進行3D面部渲染,并與真實人臉擬合,生成最終的渲染圖。
特征提取目前常用的算法有兩種,一種是MFCC特征提取,另一種是深度特征提取。目前美攝科技推出了自研的綜合算法和對應(yīng)的特征提取算法。
口型預(yù)測使用深度學習算法,初步生成當前語音對應(yīng)的口型參數(shù)。為了使幀與幀之間的口型變化更加平滑,我們采用了兩種方法:一種是將一個窗口內(nèi)的預(yù)測結(jié)果做加權(quán)平均,來對預(yù)測的口型進行平滑;另一種是利用LSTM的記憶能力,來平滑預(yù)測口型。
在講話過程中,當口型發(fā)生變化時人臉的表情和肌肉等都會發(fā)生對應(yīng)的變化。為了使表情更加貼合口型,我們對整個人臉的參數(shù)進行了預(yù)測。基于預(yù)測的人臉參數(shù),通過渲染引擎,對當前人臉進行擬合,渲染得出一套人臉參數(shù)對應(yīng)的人臉表情片。最后基于渲染出的3D人臉表情以及視頻真正對應(yīng)的人臉和mask眼模,利用GAN網(wǎng)絡(luò)完成最終渲染。
考慮到客戶和用戶多樣化的使用場景,美攝科技提供了三種不同的形式,讓大家快速生成自己想要的數(shù)字人形象——照片自動生成形象、視頻自動生成形象以及GLB模型自動生成形象。
圖片生成數(shù)字人形象方案是基于照片快速生成需要的語音播報數(shù)字人。用戶只需要上傳一張人物照,根據(jù)照片和錄入的文本產(chǎn)生對應(yīng)的播報視頻。
上圖為視頻自動生成數(shù)字人形象方案。用戶可以上傳一段視頻,系統(tǒng)會將視頻中人物的口型替換成想要的口型,同時保持原來視頻中的動作和表情,生成播報形象。
美攝科技還支持基于傳統(tǒng)3D模型GLB文件快速生成數(shù)字人。GLB文件是以圖形語言傳輸格式保存的3D模型,它以二進制格式存儲有關(guān)3D模型的信息,包括節(jié)點層級、攝像機、材質(zhì)、動畫和網(wǎng)格。以GLB生成數(shù)字人形象時,可以將其轉(zhuǎn)換為美攝自研的3D文件格式“.ARSCENE”,轉(zhuǎn)換后的效果包可以通過美攝SDK在不同的平臺上實時渲染驅(qū)動。
ChatGPT最近非常火,美攝科技也將ChatGPT的混合語義理解能力和美攝已有的語音交互系統(tǒng)相結(jié)合,利用ChatGPT對語義的理解和回答,生成交互式數(shù)字人。用戶只需輸入一段語音或文字,利用ChatGPT對于語音或文字進行理解,對返回的答案進行語音播報。該方案更多用于大屏、車載、APP數(shù)字人等產(chǎn)品中。
此外,我們還嘗試了將ChatGPT與視頻剪輯和數(shù)字人結(jié)合。用戶只需填寫一句話,設(shè)定好要求,系統(tǒng)就可以通過ChatGPT返回分鏡腳本,并從中提取所需標簽,由系統(tǒng)從媒資庫中智能尋找對應(yīng)的圖像和視頻資料。用戶可以選擇推薦素材,一鍵套用模板,直接形成預(yù)覽視頻,極大提高視頻創(chuàng)作效率。另外我們也提供云剪技術(shù),客戶可以借助云剪對數(shù)字人視頻進行進一步包裝編輯。
LiveVideoStackCon 2023上海講師招募中文章來源:http://www.zghlxwxcb.cn/news/detail-490707.html
LiveVideoStackCon是每個人的舞臺,如果你在團隊、公司中獨當一面,在某一領(lǐng)域或技術(shù)擁有多年實踐,并熱衷于技術(shù)交流,歡迎申請成為LiveVideoStackCon的講師。請?zhí)峤谎葜v內(nèi)容至郵箱:speaker@livevideostack.com。文章來源地址http://www.zghlxwxcb.cn/news/detail-490707.html
到了這里,關(guān)于快速落地基于“AIGC+數(shù)字人”的數(shù)字化內(nèi)容生產(chǎn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!