国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

非常全面的數字人解決方案(含源碼)

這篇具有很好參考價值的文章主要介紹了非常全面的數字人解決方案(含源碼)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

github

TheRamU/Fay: 語音互動,直播自動帶貨 虛擬數字人 (github.com)

gitee

fay: 這是一個數字人項目,包含python內核及ue數字人模型,可以用于做數字助理及自動直播,又或者作為你的應用入口也很帥 (gitee.com)

2022.10.27

補充mac上的安裝辦法:(34條消息) Fay數字人開源項目在mac 上的安裝辦法_郭澤斌之心的博客-CSDN博客

一、實際應用案例

抖音虛擬主播

fay數字人,解決方案,Fay數字人,語音識別,人工智能,python,ue4,虛擬現(xiàn)實

人機

fay數字人,解決方案,Fay數字人,語音識別,人工智能,python,ue4,虛擬現(xiàn)實

數字站桶人

fay數字人,解決方案,Fay數字人,語音識別,人工智能,python,ue4,虛擬現(xiàn)實

二、數字人是什么

? ? ? 首先我先給數字人重新做一個定義:“把人數字化,以行人的職責”。怎么理解呢?我舉兩個例子就清楚了。第一個是現(xiàn)在直播帶貨,主播成本越來越高,我們的數字人能否代替主播24小時自動帶貨呢?這里數字化的是主播的形象、聲音、性格特質,以及商品的知識。另一個是,一些客服或者售前情景,所做的工作也是重復度非常高,我們能否交給數字人去完成呢?這里就簡單多了,只需要把知識庫給數字化,就是我們常說的Q&A。

“把人數字化”這個說得有些籠統(tǒng),具體來說是把人的那些方面可以數字化呢?

  1. 三維人物:信息的傳輸需要載體,把三維人物形象作為載體可以融入語音、文字、動作、情緒等信息傳輸通道,遠比單純的語音或文字的承載量大得多。
  2. 語言:你的數字人會說什么內容,以怎么樣的聲音說話,用的是粵語還是國語。
  3. 形象表情動作:一個數字人單純的只會與人溝通還不夠,還需要能夠做出不同的表情動作。不竟,人類溝通70%的內容是通過非語言傳達的,數字化的過程中我們又怎會錯過條重要的信息通道呢。
  4. 情緒:情緒可以附加在語言和表情動作里,讓信息傳輸的帶寬更大。
  5. 環(huán)境模型:數字人向你展示的時候是在大廳,還是在房間,在戶外。然后數字人的周圍有些什么,這都可以襯托出不同的氛圍。

? ? ?我們再來說說,一個數字人如何行人的職責。比如,在展廳里,不能讓解說員24小時站在展品前面等著游客來詢問,更不能循環(huán)播放著一個段音視頻。但數字人可以,只需要一個顯示屏即可。若你辦的是一個云展廳、元宇宙,就更是如此了。

三、數字人可以解決什么問題

數字時代,數字產品泛濫,互聯(lián)網平臺多不勝數。那個這個數字人就是你在不同的電子產品、不同平臺上的分身,代替你行人的職責。除了文章開頭說的三個案例外,至少還可以用于:

  1. 電子導游;
  2. 電子解說員;
  3. 虛擬老師;
  4. 售前、售后客服;
  5. 前臺指引。

四、這個數字人怎么實現(xiàn)

我們以直播帶貨為例,為了方便理解,首先說明的是我們對直播場景做過分析,發(fā)現(xiàn)了如下邏輯

fay數字人,解決方案,Fay數字人,語音識別,人工智能,python,ue4,虛擬現(xiàn)實

接下來我來就可以來具體操作了:

1、建立行為模型

這會直接影響到數字人接受外部刺激(大數多情況下是,用戶說的話,在直播場景下也有粉絲關注送愛心等情況)之后的情緒變化,以及響應的方式和程度。你可能會想,為什么需要建行為模型呢?舉個例子你就明白了。你可以設計了一個邏輯,粉絲點贊時,主播非常開心地感謝粉絲,粉絲罵主播時,主播表現(xiàn)出憤怒。你在直播時,有一個粉絲點贊了,另一個粉絲同時在罵主播,你的數字人該作出怎么樣的反應呢?這個只是簡單的例子,實際情況復雜得多。也有人,說這是算法和AI的區(qū)別。這有一定的道理,但說法不嚴緊,這個話題就不在此展開了。我們在直播場景下,試過以下這兩種方式建立性格模型:

  • 學習真實主播的性格

?我們只需要把目標主播的直播給錄制下來,提取樣本數據,然后訓練一個從粉絲的不同刺激的組合,到主播的不同響應方式的多元邏輯回歸的數學模型參數即可。

fay數字人,解決方案,Fay數字人,語音識別,人工智能,python,ue4,虛擬現(xiàn)實

fay數字人,解決方案,Fay數字人,語音識別,人工智能,python,ue4,虛擬現(xiàn)實

  • 人為調節(jié)各刺激的影響程度

把現(xiàn)有主播的性格模型數字化,這種方式缺憾也十分明顯,就是你無法快速調節(jié)其性格特質。想要人為調節(jié),你也可以參考以下方試:

?fay數字人,解決方案,Fay數字人,語音識別,人工智能,python,ue4,虛擬現(xiàn)實

?我們做了一個“數字人控制器”的客戶端,可以手動調節(jié)行為模型的參數。想體驗參考的話,也可以私下跟我聯(lián)系(qq467665317),我把代碼發(fā)你。

2、人物模型、場景載入引擎

人物模型的選擇大體上可以是二次元和超寫實。場景的選擇就很多,可以是戶內戶外,坐著站著。再配合其它物體就可以把整個氛圍襯托出來,比如:沙發(fā)可以表現(xiàn)出舒適放松;顯示屏可以不違和的插入廣告信息。

????我們對比了多個引擎技術之后,最終選擇UE4作為模型的驅動引擎。主要有以下幾點原因:首先UE4不像live2d那樣,出來的是假三維的紙片人;其次,UE4里對現(xiàn)實世界的光照、材質、重量等物理屬性都存在一一映射,可以非常全面地還原一個真實場景。這里提醒一下,在三維的世界里,有兩條工具線:一個是引擎,用于驅動三維模型按照你的邏輯運作;一個是建模工具,比如maya。但通常這兩類工具都會互相融合、相互交叉。

?fay數字人,解決方案,Fay數字人,語音識別,人工智能,python,ue4,虛擬現(xiàn)實

二次元的模型建立可以使用daz studio(偶然機會獲得了120G資源,有需要加我qq467665317),非常簡單。可以非常方便選選擇人的各個組成部分,比如:身驅、頭發(fā)、臉型、眼睛等,然后組合成一個你想要的形象。

fay數字人,解決方案,Fay數字人,語音識別,人工智能,python,ue4,虛擬現(xiàn)實

至于超寫實的模型就可以使用metahuman了。metahuman說白了其實就是一個云端版本的ue,優(yōu)點是集成了大量真人掃描的高精度組件,可以非常方便地調節(jié)出一個歐美真人。對,你無看錯,是歐美的。官方的解釋是,由于疫情原因,還未對亞洲人進行掃描。在虛擬主播這個案例上實際我們就是用metahuman的。

?fay數字人,解決方案,Fay數字人,語音識別,人工智能,python,ue4,虛擬現(xiàn)實

? ? ? 在直播帶貨案例里,我們把模型導入到ue4,我們給模型在ue4里預設了四個動作(站著、站著說話、坐著、坐著說話),三個表情(平靜、開發(fā)、憤怒),三個鏡頭(全局、近矩說話、看顯示器播放商品展示)。

? ? ? 當數字人的心情激動(開心和憤怒)是站著的,其余時候是坐著的,表情也做對應的變化。說話的時候就會做更多的肢體動作了,唇是根據說話的發(fā)音驅動同步化的。當主播在介紹商品時切換到顯示器鏡頭,可以形象的看到商品效果(針對每個商品建模的成本太高)。當主播在與粉絲互動時切換到近矩鏡頭,方便觀看主播的表情動作。其實這兩個鏡頭主播都在說話,當主播說話結束后就切換回全局鏡頭,讓觀眾感受整個環(huán)境。

fay數字人,解決方案,Fay數字人,語音識別,人工智能,python,ue4,虛擬現(xiàn)實

3、行為模型驅動UE引擎里的三維模型

UE4大多情況下應該是用于游戲開發(fā)和影視制作的,要想使用上文第1點說的行為模型邏輯去控制UE里的三維模型,網上可以參考的資源非常少。咨詢過常年從事三維模型制作的專家,給出可以參考的答案是把邏輯輸出模擬成鍵盤操作,UE再依據鍵盤輸入來驅動三維模型作出變化。(鍵盤操作?這是把數字人做成游戲吧?)當然,這種方式我們肯定接受不了,因為這樣無辦法做復雜的數據傳輸。幾經折騰之后,我們在UE商城里找到一個websocket藍圖插件,與行為模型實現(xiàn)websocket通訊。

?fay數字人,解決方案,Fay數字人,語音識別,人工智能,python,ue4,虛擬現(xiàn)實

4、接通刺激輸入

???其實在直播帶貨這個案例里,我們使用的是抖音,刺激是非常有限的,粉絲在你的直播間里能做的事情就是這么點,進來、關注、點贊、刷禮物、購買商品,或者打段文字。在這里,我們需要獲取直播間上的這些信息。我們測試過網絡上主流的方法“抓包然后解碼”,這種方法太麻煩,而且離開抖音這個平臺之后,就很難再使用這個辦法。所以我們最后使用的方案是,用selenium驅動chrome瀏覽器內核加載直播間https鏈接,獲取瀏覽器上的內容。我們再把這個內容推送給上面所說的“行為模型”。這樣方法將會極大地方便以后做平臺的遷移。

?fay數字人,解決方案,Fay數字人,語音識別,人工智能,python,ue4,虛擬現(xiàn)實

5、接入輸出通道

在這個案例里,我們是要把行為模型驅動UE里三維模型的變化和數字人主播說的音頻,通過視頻流的形式輸出到抖音直播平臺。這個我們使用抖音直播伴侶,可以直接上線直播,同時又可以使用抖音上很多玩法。這里特別強調一下,我們測試過訊飛、阿里云、百度、亞馬訊和微軟的語音合成,只有微軟是直接提供帶情緒的合成。

?fay數字人,解決方案,Fay數字人,語音識別,人工智能,python,ue4,虛擬現(xiàn)實

五、挑戰(zhàn)

1、怎么樣把人行為、認知、情緒數字化?

如果你要設計一個模型,把人的東西都數字化下來,以目前的水平還沒有人能夠做到。但你鎖定在某一特定的情景,只要稍加分析,你就會發(fā)現(xiàn),這其實并不難。

2、UE4的功能非常強大、非常多,你遇到的任何一個問題都不少于三個解決辦法,如果你沒有這塊的工作經驗,你就得一個個去試。其間我就翻閱了7本書,無數B站上的視頻教程。其間解決了諸如:websocket通訊、表情動作、唇形同步、光線控制、頭身分離、藍圖通訊等問題。

3、Metahuman的模型導入本地ue后要做很多適應性的調節(jié)。若要使用ue商城里的動作,還需要做骨絡重定向等操作。由于metahuman自帶藍圖,咱們還需要調整原藍圖的邏輯,以兼容我們的行為模型的要求。那怕是怎么控制表情,對于我們來說還是有挑戰(zhàn)的。

4、抖音本身不提供直播的數據接口,故要獲取直播間的互動數據,就得花些工夫了。

5、語音合成沒有你想像中的成熟。若要做情緒語音集的訓練,成本會很高。還好,有微軟的云端服務。(經驗總結:別太相信國內企業(yè)廣告上說的)文章來源地址http://www.zghlxwxcb.cn/news/detail-824813.html

到了這里,關于非常全面的數字人解決方案(含源碼)的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯(lián)網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • ?Java OCR技術全面解析:六大解決方案比較

    ?Java OCR技術全面解析:六大解決方案比較

    博主貓頭虎的技術世界 ?? 歡迎來到貓頭虎的博客 — 探索技術的無限可能! 專欄鏈接 : ?? 精選專欄 : 《面試題大全》 — 面試準備的寶典! 《IDEA開發(fā)秘籍》 — 提升你的IDEA技能! 《100天精通鴻蒙》 — 從Web/安卓到鴻蒙大師! 《100天精通Golang(基礎入門篇)》 — 踏入

    2024年04月15日
    瀏覽(18)
  • 電腦藍屏問題排查和解決方案(超全面,超詳細)

    電腦藍屏問題排查和解決方案(超全面,超詳細)

    本篇文章適用于 解決電腦能正常開機,但是用一會后就藍屏 的問題。按照下面的順序進行檢查和修復, 絕大部分藍屏問題都能得到解決 。 電腦藍屏可以從三個方面進行檢查: 1、內存條,2、硬盤,3、程序或者軟件驅動。 1.內存條 內存條出問題或者損壞會導致電腦藍屏,可

    2024年02月09日
    瀏覽(18)
  • 【BAT】win10 命令行工具cmd亂碼解決方案及cmd非常用命令chcp介紹

    【BAT】win10 命令行工具cmd亂碼解決方案及cmd非常用命令chcp介紹

    修改cmd的編碼格式 臨時更改:更改當前cmd命令窗口編碼格式(關閉當前窗口后,重新開啟又回到原先的編碼格式) (1)進入cmd命令窗口:window + R,輸入cmd (2)直接輸入chcp 65001,按回車鍵/Enter 永久更改:將cmd命令窗口的編碼格式永久設置為utf-8 (1)進入注冊表編輯器:window + R,

    2024年02月04日
    瀏覽(24)
  • 修復“找不到unityplayer.dll”故障:全面解析與實用解決方案大全

    修復“找不到unityplayer.dll”故障:全面解析與實用解決方案大全

    在運行基于Unity引擎開發(fā)的游戲或應用時,遭遇“找不到unityplayer.dll,無法繼續(xù)執(zhí)行代碼”的錯誤提示,意味著系統(tǒng)未能找到該核心動態(tài)鏈接庫(DLL)文件,從而導致程序無法啟動或正常運行。本文將深入解析該問題的原因,提供一系列詳細的排查步驟與有效的修復策略,幫

    2024年04月12日
    瀏覽(25)
  • 數字化校園整體解決方案

    一、項目背景 二、數字化校園概述 2.1 數字化校園的發(fā)展和特征 2.2 數字化校園的功能特性 2.3 數字化校園的關鍵技術 三、 建設目標 3.1 解決學校信息化建設中存在的各種問題 3.2 促進教學、科研、管理過程及模式的全面信息化 3.3 輔助各級管理與決策數字化 3.4 創(chuàng)建學習與研

    2024年02月08日
    瀏覽(21)
  • 由于找不到unityplayer.dll無法繼續(xù)執(zhí)行代碼如何解決?UnityPlayer.dll丟失引發(fā)的程序執(zhí)行障礙問題解析與全面解決方案指南

    由于找不到unityplayer.dll無法繼續(xù)執(zhí)行代碼如何解決?UnityPlayer.dll丟失引發(fā)的程序執(zhí)行障礙問題解析與全面解決方案指南

    在使用Unity引擎開發(fā)的游戲或應用中,時常會遇到一個常見的問題:“由于找不到unityplayer.dll,無法繼續(xù)執(zhí)行代碼?!边@個錯誤信息表明,運行環(huán)境在嘗試啟動基于Unity制作的應用程序時,無法找到一個關鍵的動態(tài)鏈接庫(DLL)文件——UnityPlayer.dll,從而導致程序無法正常啟動

    2024年04月15日
    瀏覽(37)
  • 石化企業(yè)數字化防爆融合通信解決方案

    石化企業(yè)數字化防爆融合通信解決方案

    項目背景 石化工業(yè)是我國國民經濟和社會發(fā)展的基礎性、戰(zhàn)略性產業(yè),其發(fā)展和壯大受到了黨和國家的高度重視。隨著石化企業(yè)廠區(qū)規(guī)模的不斷擴大以及技術的快速發(fā)展,現(xiàn)有石化企業(yè)專網通信系統(tǒng)建設相對滯后,缺乏結合人員管理、安全生產、安全通信、互聯(lián)互通、統(tǒng)一指

    2024年02月01日
    瀏覽(28)
  • 5G基站節(jié)能及數字化管理解決方案

    5G基站節(jié)能及數字化管理解決方案

    截至2023年10月,我國5G基站總數達321.5萬個,占全國通信基站總數的28.1%。然而,隨著5G基站數量的快速增長,基站的能耗問題也逐漸日益凸顯,基站的用電給運營商帶來了巨大的電費開支壓力,降低5G基站的能耗成為了運營商們亟待解決的問題。 1.? 5G基站的高能耗 從2G時代開

    2024年01月20日
    瀏覽(28)
  • 方案解決:5G基站節(jié)能及數字化管理

    方案解決:5G基站節(jié)能及數字化管理

    截至2023年10月,我國5G基站總數達321.5萬個,占全國通信基站總數的28.1%。然而,隨著5G基站數量的快速增長,基站的能耗問題也逐漸日益凸顯,基站的用電給運營商帶來了巨大的電費開支壓力,降低5G基站的能耗成為了運營商們亟待解決的問題。 5G基站的高能耗 從2G時代開始,

    2024年01月20日
    瀏覽(27)
  • 大型綜合集團數字化轉型解決方案PPT

    大型綜合集團數字化轉型解決方案PPT

    導讀:原文《大型綜合集團數字化轉型解決方案PPT》(獲取來源見文尾),本文精選其中精華及架構部分,邏輯清晰、內容完整,為快速形成售前方案提供參考。 部分內容:

    2024年02月11日
    瀏覽(106)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包