目錄
前 言
一、AutoDL云算力平臺簡介
二、在AutoDL云算力平臺上部署Wav2Lip-GFPGAN代碼
2.1、創(chuàng)建AutoDL云算力實例
2.2、將源碼導入實例
2.3、遠程AutoDL云服務
2.4、安裝依賴
2.5、導入視頻和音頻目錄文件
2.6、配置參數(shù)
2.7、學術(shù)資源加速
2.8、運行run.py
2.9、導出視頻
三、結(jié)論
四、參考資料和進一步閱讀
前 言
在近年來,人工智能的快速發(fā)展極大地改變了我們的生活,同時也帶來了無限可能。其中,AI數(shù)字人是其中的一項重要技術(shù),他們是由計算機生成的,可以模擬人的行為和外觀,甚至可以產(chǎn)生幾乎與真人無法區(qū)分的視頻內(nèi)容。這一切都離不開先進的人工智能算法和強大的計算平臺的支持。在這篇文章中,我們的主題是如何在AutoDL云算力平臺上部署并使用Wav2Lip和GFPGAN兩個人工智能模型來創(chuàng)建AI數(shù)字人視頻。我們的目標是利用Wav2Lip模型將輸入的音頻與數(shù)字人的口型進行同步,然后使用GFPGAN模型對生成的數(shù)字人的面部圖像進行高質(zhì)量的重建,從而創(chuàng)造出逼真的AI數(shù)字人視頻。
一、AutoDL云算力平臺簡介
AutoDL云算力平臺是一個強大的云計算平臺,專注于提供大規(guī)模并行計算資源和AI模型部署的一鍵式解決方案。它為研究人員、開發(fā)者和企業(yè)提供了一個高效、可靠和易用的環(huán)境,以實現(xiàn)復雜的計算任務和AI模型的部署。AutoDL平臺的主要功能之一是提供大規(guī)模的并行計算資源。它擁有強大的計算集群和高性能的計算節(jié)點,可以快速處理大規(guī)模的數(shù)據(jù)和復雜的計算任務。這使得用戶能夠在短時間內(nèi)完成大規(guī)模的計算和模型訓練,提高工作效率。此外,AutoDL平臺還提供了一鍵式的AI模型部署功能。用戶可以輕松地上傳和配置自己的AI模型,然后使用平臺提供的工具和接口將其部署到計算集群上進行推理和應用。這大大簡化了AI模型部署的流程,節(jié)省了用戶的時間和精力。AutoDL平臺的優(yōu)點之一是其易用性。它提供了直觀的用戶界面和簡單易懂的操作指南,使得即使對于非專業(yè)的用戶來說,也能夠快速上手并使用平臺的功能。此外,平臺還提供了豐富的軟件支持和開發(fā)工具,用戶可以根據(jù)自己的需求進行定制和擴展。使用AutoDL云算力平臺的好處不僅僅局限于計算資源和AI模型部署的便利性。它還具有可擴展性和靈活性,可以根據(jù)用戶的需求進行橫向和縱向的擴展,以適應不斷增長的計算需求和新興的技術(shù)挑戰(zhàn)。
二、在AutoDL云算力平臺上部署Wav2Lip-GFPGAN代碼
2.1、創(chuàng)建AutoDL云算力實例
首先在AutoDL官網(wǎng)(AutoDL-品質(zhì)GPU租用平臺-租GPU就上AutoDL)注冊登錄,接著在“算力市場”上挑選GPU。
此時我們選擇RTX3090的GPU版本,計費方式為按量計費,這樣比較省錢。
?然后選擇“基礎鏡像”,GPU數(shù)量為1個,挑選好下圖中的Pytorch鏡像,因為待會源碼的環(huán)境是需要Pytorch的,點擊“立即創(chuàng)建”即可,稍等片刻即可創(chuàng)建成功。
2.2、將源碼導入實例
百度網(wǎng)盤鏈接:https://pan.baidu.com/s/1einWK_uy-HdpZ4xOgEK0YA?pwd=oshu?
提取碼:oshu
首先下載好源碼到本地文件夾,接著將源碼的壓縮包導入到阿里云盤,通過點擊“AutoPanel”進入到此頁面,掃碼授權(quán)即可,通過阿里云盤將里面的代碼導入到實例中去。
2.3、遠程AutoDL云服務
這里推薦使用VScode利用ssh來遠程。
首先下載安裝好VScode(Visual Studio Code - Code Editing. Redefined);
然后進入到VScode,點擊“遠程資源管理器”,再點擊“+”即可。
然后將登錄指令和密碼分別輸入進去。
?進入到下面這個狀態(tài)就差不多了。?
?
2.4、安裝依賴
打開VScode終端界面,按步驟安裝以下的命令即可。
sudo apt update
sudo apt install ffmpeg
pip install -r requirements.txt
2.5、導入視頻和音頻目錄文件
- inputs/ {自定義文件名} /source_video:制作好的數(shù)字人基礎視頻。
- inputs/ {自定義文件名} /source_audio:制作好的音頻文件。
- outputs:輸出制作好的合成視頻。
注意:這個自定義文件名一定要純字母組合或者數(shù)字組合又或者字母數(shù)字組合!
數(shù)字人基礎視頻可以去Heygen (HeyGen - AI Video Generator) 上制作一個數(shù)字人;
音頻文件可以去這里 (免費微軟語音生成工具)生成音頻。
?
2.6、配置參數(shù)
導入好文件后,打開run.py文件,更改環(huán)境路徑。
然后更改在inputs下面的文件夾路徑。(即是上面的{自定義文件名})
?
2.7、學術(shù)資源加速
打開終端,輸入以下命令可以加速訪問的學術(shù)資源,比如github,這個很有必要的,關乎到后面運行代碼自動下載那些權(quán)重文件。
設置學術(shù)資源加速
source /etc/network_turbo
取消學術(shù)資源加速(如果不用的話可以取消它)
unset http_proxy && unset https_proxy
2.8、運行run.py
保證上面都配置好后,在命令行中運行run.py。
python run.py
2.9、導出視頻
執(zhí)行完畢后會生成在對應的outputs文件夾中,紅框的文件為最后合成好的高清視頻文件。
?
2.10、效果演示
?
三、結(jié)論
隨著人工智能技術(shù)的飛速發(fā)展,AI數(shù)字人已經(jīng)成為越來越重要的研究和應用領域。Wav2Lip和GFPGAN這兩種強大的AI模型可以幫助我們創(chuàng)建出逼真的AI數(shù)字人視頻。其中,Wav2Lip模型負責將音頻與數(shù)字人的口型進行同步,而GFPGAN模型則能對生成的數(shù)字人的面部圖像進行高質(zhì)量的重建。AutoDL云算力平臺為部署和運行這些模型提供了便利。這個平臺不僅擁有大規(guī)模的并行計算資源,而且還提供了一鍵式的AI模型部署功能,使得我們可以快速高效地完成模型的部署和運行。我們已經(jīng)探討了如何在AutoDL云算力平臺上部署并使用Wav2Lip和GFPGAN模型來創(chuàng)建AI數(shù)字人視頻,并通過實例來展示了生成的視頻效果。盡管這些技術(shù)仍有改進空間,例如提高生成圖像的質(zhì)量,優(yōu)化口型同步的效果,但它們已經(jīng)展示出了強大的潛力。在未來,我們期待看到更多創(chuàng)新的應用和發(fā)展。隨著人工智能技術(shù)的不斷進步,AI數(shù)字人可能會更加逼真,更加智能,并在更多領域中發(fā)揮作用。而我們,將繼續(xù)關注這個領域的新動態(tài),期待它為我們的生活帶來更多可能。
四、參考資料和進一步閱讀
(如有問題可以在評論區(qū)咨詢喔(づ ̄3 ̄)づ╭?~)
參考源碼①:Wav2Lip
參考源碼②:GFPGAN
參考源碼③:GitHub - ajay-sainy/Wav2Lip-GFPGAN: High quality Lip sync
參考源碼④:https://github.com/jecklianhuo/Wav2Lip-GFPGAN-main
參考博客①:基于Wav2Lip的AI主播_c# 數(shù)字人_Mr數(shù)據(jù)楊的博客-CSDN博客
參考博客②:基于Wav2Lip+GFPGAN的高清版AI主播_Mr數(shù)據(jù)楊的博客-CSDN博客文章來源:http://www.zghlxwxcb.cn/news/detail-658095.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-658095.html
到了這里,關于基于Wav2Lip+GFPGAN的AI數(shù)字人視頻(以AutoDL算力云平臺部署為例)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!