国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<tr id="e8e7p"><p id="e8e7p"></p></tr>

<mark id="e8e7p"></mark>

聲音好聽(tīng),顏值能打,基于PaddleGAN給人工智能AI語(yǔ)音模型配上動(dòng)態(tài)畫(huà)面(Python3.10)

2年前作者：劉悅的技術(shù)博客分類(lèi)：Toy博客閱讀(33)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了聲音好聽(tīng),顏值能打,基于PaddleGAN給人工智能AI語(yǔ)音模型配上動(dòng)態(tài)畫(huà)面(Python3.10)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

借助So-vits我們可以自己訓(xùn)練五花八門(mén)的音色模型，然后復(fù)刻想要欣賞的任意歌曲，實(shí)現(xiàn)點(diǎn)歌自由，但有時(shí)候卻又總覺(jué)得少了點(diǎn)什么，沒(méi)錯(cuò)，缺少了畫(huà)面，只聞其聲，卻不見(jiàn)其人，本次我們讓AI川普的歌聲和他偉岸的形象同時(shí)出現(xiàn)，基于PaddleGAN構(gòu)建“靚聲靚影”的“懂王”。

PaddlePaddle是百度開(kāi)源的深度學(xué)習(xí)框架，其功能包羅萬(wàn)象，總計(jì)覆蓋文本、圖像、視頻三大領(lǐng)域40個(gè)模型，可謂是在深度學(xué)習(xí)領(lǐng)域無(wú)所不窺。

PaddleGAN視覺(jué)效果模型中一個(gè)子模塊Wav2lip是對(duì)開(kāi)源庫(kù)Wav2lip的二次封裝和優(yōu)化，它實(shí)現(xiàn)了人物口型與輸入的歌詞語(yǔ)音同步，說(shuō)白了就是能讓靜態(tài)圖的唇部動(dòng)起來(lái)，讓人物看起來(lái)仿佛正在唱歌。

除此以外，Wav2lip還可以直接將動(dòng)態(tài)的視頻，進(jìn)行唇形替換，輸出與目標(biāo)語(yǔ)音相匹配的視頻，如此一來(lái)，我們就可以通過(guò)AI直接定制屬于自己的口播形象了。

本機(jī)配置CUDA和cudnn

要想把PaddlePaddle框架在本地跑起來(lái)，并非易事，但好在有國(guó)內(nèi)深度學(xué)習(xí)領(lǐng)域的巨擘百度進(jìn)行背書(shū)，文檔資源非常豐富，只要按部就班，就不會(huì)出太大問(wèn)題。

首先，在本地配置好Python3.10開(kāi)發(fā)環(huán)境，參見(jiàn)：一網(wǎng)成擒全端涵蓋，在不同架構(gòu)(Intel x86/Apple m1 silicon)不同開(kāi)發(fā)平臺(tái)(Win10/Win11/Mac/Ubuntu)上安裝配置Python3.10開(kāi)發(fā)環(huán)境

隨后，需要在本地配置好CUDA和cudnn，cudnn是基于CUDA的深度學(xué)習(xí)GPU加速庫(kù)，有了它才能在GPU上完成深度學(xué)習(xí)的計(jì)算。它就相當(dāng)于工作的工具，而CUDA作為計(jì)算平臺(tái)，就需要cudnn的配合，這倆個(gè)在版本上必須配套。

首先點(diǎn)擊N卡控制中心程序，查看本機(jī)N卡驅(qū)動(dòng)所支持的CUDA版本：

從圖上可知，筆者的顯卡是RTX4060，當(dāng)前驅(qū)動(dòng)最大支持CUDA12.1的版本，換句話(huà)說(shuō)只要是小于等于12.1的CUDA就都是支持的。

隨后查看PaddlePaddle框架的官方文檔，查看Python3.10所支持的框架版本：

https://www.paddlepaddle.org.cn/documentation/docs/zh/install/Tables.html#ciwhls-release

根據(jù)文檔可知，對(duì)于Python3.10來(lái)說(shuō)，PaddlePaddle最高的支持版本是win-cuda11.6-cudnn8.4-mkl-vs2017-avx，也就是CUDA的版本是11.6，cudnn的版本是8.4，再高就不支持了。

所以本機(jī)需要安裝CUDA11.6和cudnn8.4。

注意版本一定要吻合，否則后續(xù)無(wú)法啟動(dòng)程序。

知曉了版本號(hào)，我們只需要去N卡的官網(wǎng)下載安裝包即可。

CUDA11.6安裝包下載地址：

https://developer.nvidia.com/cuda-toolkit-archive

cudnn8.4安裝包下載地址：

https://developer.nvidia.com/rdp/cudnn-archive

首先安裝CUDA11.6，安裝完成后，解壓cudnn8.4壓縮包，將解壓后的文件拷貝到CUDA11.6安裝目錄中即可，CUDA安裝路徑是：

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.6

隨后需要將bin目錄添加到系統(tǒng)的環(huán)境變量中：

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.6\bin

接著在終端進(jìn)入demo文件夾：

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.6\extras\demo_suite

執(zhí)行bandwidthTest.exe命令，返回：

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.6\extras\demo_suite>bandwidthTest.exe  
[CUDA Bandwidth Test] - Starting...  
Running on...  
  
 Device 0: NVIDIA GeForce RTX 4060 Laptop GPU  
 Quick Mode  
  
 Host to Device Bandwidth, 1 Device(s)  
 PINNED Memory Transfers  
   Transfer Size (Bytes)        Bandwidth(MB/s)  
   33554432                     12477.8  
  
 Device to Host Bandwidth, 1 Device(s)  
 PINNED Memory Transfers  
   Transfer Size (Bytes)        Bandwidth(MB/s)  
   33554432                     12337.3  
  
 Device to Device Bandwidth, 1 Device(s)  
 PINNED Memory Transfers  
   Transfer Size (Bytes)        Bandwidth(MB/s)  
   33554432                     179907.9  
  
Result = PASS  
  
NOTE: The CUDA Samples are not meant for performance measurements. Results may vary when GPU Boost is enabled.

即代表安裝成功，隨后可通過(guò)deviceQuery.exe查詢(xún)GPU設(shè)備：

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.6\extras\demo_suite>deviceQuery.exe  
deviceQuery.exe Starting...  
  
 CUDA Device Query (Runtime API) version (CUDART static linking)  
  
Detected 1 CUDA Capable device(s)  
  
Device 0: "NVIDIA GeForce RTX 4060 Laptop GPU"  
  CUDA Driver Version / Runtime Version          12.1 / 11.6  
  CUDA Capability Major/Minor version number:    8.9  
  Total amount of global memory:                 8188 MBytes (8585216000 bytes)  
MapSMtoCores for SM 8.9 is undefined.  Default to use 128 Cores/SM  
MapSMtoCores for SM 8.9 is undefined.  Default to use 128 Cores/SM  
  (24) Multiprocessors, (128) CUDA Cores/MP:     3072 CUDA Cores  
  GPU Max Clock rate:                            2370 MHz (2.37 GHz)  
  Memory Clock rate:                             8001 Mhz  
  Memory Bus Width:                              128-bit  
  L2 Cache Size:                                 33554432 bytes  
  Maximum Texture Dimension Size (x,y,z)         1D=(131072), 2D=(131072, 65536), 3D=(16384, 16384, 16384)  
  Maximum Layered 1D Texture Size, (num) layers  1D=(32768), 2048 layers  
  Maximum Layered 2D Texture Size, (num) layers  2D=(32768, 32768), 2048 layers  
  Total amount of constant memory:               zu bytes  
  Total amount of shared memory per block:       zu bytes  
  Total number of registers available per block: 65536  
  Warp size:                                     32  
  Maximum number of threads per multiprocessor:  1536  
  Maximum number of threads per block:           1024  
  Max dimension size of a thread block (x,y,z): (1024, 1024, 64)  
  Max dimension size of a grid size    (x,y,z): (2147483647, 65535, 65535)  
  Maximum memory pitch:                          zu bytes  
  Texture alignment:                             zu bytes  
  Concurrent copy and kernel execution:          Yes with 1 copy engine(s)  
  Run time limit on kernels:                     Yes  
  Integrated GPU sharing Host Memory:            No  
  Support host page-locked memory mapping:       Yes  
  Alignment requirement for Surfaces:            Yes  
  Device has ECC support:                        Disabled  
  CUDA Device Driver Mode (TCC or WDDM):         WDDM (Windows Display Driver Model)  
  Device supports Unified Addressing (UVA):      Yes  
  Device supports Compute Preemption:            Yes  
  Supports Cooperative Kernel Launch:            Yes  
  Supports MultiDevice Co-op Kernel Launch:      No  
  Device PCI Domain ID / Bus ID / location ID:   0 / 1 / 0  
  Compute Mode:  
     < Default (multiple host threads can use ::cudaSetDevice() with device simultaneously) >  
  
deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 12.1, CUDA Runtime Version = 11.6, NumDevs = 1, Device0 = NVIDIA GeForce RTX 4060 Laptop GPU  
Result = PASS

至此，CUDA和cudnn就配置好了。

配置PaddlePaddle框架

配置好CUDA之后，讓我們來(lái)安裝PaddlePaddle框架：

python -m pip install paddlepaddle-gpu==2.4.2.post116 -f https://www.paddlepaddle.org.cn/whl/windows/mkl/avx/stable.html

這里安裝paddlepaddle的gpu版本，版本號(hào)是2.4.2.post116，2.4是最新版，其中116就代表Cuda的版本，注意版本一定不能弄錯(cuò)。

隨后克隆PaddleGan項(xiàng)目：

git clone https://gitee.com/PaddlePaddle/PaddleGAN

運(yùn)行命令本地編譯安裝PaddleGan項(xiàng)目：

pip install -v -e .

隨后再安裝其他依賴(lài)：

pip install -r requirements.txt

這里有幾個(gè)坑，需要說(shuō)明一下：

首先PaddleGan依賴(lài)的numpy庫(kù)還是老版本，它不支持最新的1.24版本，所以如果您的numpy版本是1.24，需要先把numpy卸載了：

pip uninstall numpy

隨后安裝1.21版本：

pip install numpy==1.21

接著在Python終端中驗(yàn)證PaddleGan是否安裝成功：

import paddle  
paddle.utils.run_check()

如果報(bào)這個(gè)錯(cuò)誤：

PreconditionNotMetError: The third-party dynamic library (cudnn64_7.dll) that Paddle depends on is not configured correctly. (error code is 126)  
      Suggestions:  
      1. Check if the third-party dynamic library (e.g. CUDA, CUDNN) is installed correctly and its version is matched with paddlepaddle you installed.  
      2. Configure third-party dynamic library environment variables as follows:  
      - Linux: set LD_LIBRARY_PATH by `export LD_LIBRARY_PATH=...`  
      - Windows: set PATH by `set PATH=XXX; (at ..\paddle\phi\backends\dynload\dynamic_loader.cc:305)  
      [operator < fill_constant > error]

則需要下載cudnn64_7.dll動(dòng)態(tài)庫(kù)，然后復(fù)制到CUDA11.6的bin目錄中，動(dòng)態(tài)庫(kù)地址后面會(huì)貼出來(lái)。

再次運(yùn)行驗(yàn)證程序，返回：

Python 3.10.11 (tags/v3.10.11:7d4cc5a, Apr  5 2023, 00:38:17) [MSC v.1929 64 bit (AMD64)] on win32  
Type "help", "copyright", "credits" or "license" for more information.  
>>> import paddle  
>>> paddle.utils.run_check()  
Running verify PaddlePaddle program ...  
W0517 20:15:34.881800 31592 gpu_resources.cc:61] Please NOTE: device: 0, GPU Compute Capability: 8.9, Driver API Version: 12.1, Runtime API Version: 11.6  
W0517 20:15:34.889958 31592 gpu_resources.cc:91] device: 0, cuDNN Version: 8.4.  
PaddlePaddle works well on 1 GPU.  
PaddlePaddle works well on 1 GPUs.  
PaddlePaddle is installed successfully! Let's start deep learning with PaddlePaddle now.

說(shuō)明大功告成，安裝成功。

本地推理

下面我們給川普的歌曲配上動(dòng)態(tài)畫(huà)面，首先通過(guò)Stable-Diffusion生成一張懂王的靜態(tài)圖片：

關(guān)于Stable-Diffusion，請(qǐng)移步：人工智能,丹青圣手,全平臺(tái)(原生/Docker)構(gòu)建Stable-Diffusion-Webui的AI繪畫(huà)庫(kù)教程(Python3.10/Pytorch1.13.0)，囿于篇幅，這里不再贅述。

接著進(jìn)入到項(xiàng)目的tools目錄：

\PaddleGAN\applications\tools>

將川普的靜態(tài)圖片和歌曲文件放入tools目錄中。

接著運(yùn)行命令，進(jìn)行本地推理：

python .\wav2lip.py --face .\Trump.jpg --audio test.wav --outfile pp_put.mp4 --face_enhancement

這里--face是目標(biāo)圖片，--audio則是需要匹配唇形的歌曲，--outfile參數(shù)是輸出視頻。

face_enhancement:參數(shù)可以添加人臉增強(qiáng)，不添加參數(shù)默認(rèn)為不使用增強(qiáng)功能。

但添加了這個(gè)參數(shù)需要單獨(dú)下載模型文件。

Wav2Lip實(shí)現(xiàn)唇形與語(yǔ)音精準(zhǔn)同步突破的關(guān)鍵在于，它采用了唇形同步判別器，以強(qiáng)制生成器持續(xù)產(chǎn)生準(zhǔn)確而逼真的唇部運(yùn)動(dòng)。此外，它通過(guò)在鑒別器中使用多個(gè)連續(xù)幀而不是單個(gè)幀，并使用視覺(jué)質(zhì)量損失（而不僅僅是對(duì)比損失）來(lái)考慮時(shí)間相關(guān)性，從而改善了視覺(jué)質(zhì)量。

具體效果：

結(jié)語(yǔ)

有的時(shí)候，人工智能AI技術(shù)的發(fā)展真的會(huì)讓人有一種恍若隔世的感覺(jué)，耳聽(tīng)未必為實(shí)，眼見(jiàn)也未必為真。最后，成品視頻可在Youtube平臺(tái)(B站)搜索：劉悅的技術(shù)博客，歡迎諸君品鑒，本文所有涉及的安裝包和動(dòng)態(tài)庫(kù)請(qǐng)參見(jiàn)：文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-448788.html

https://pan.baidu.com/s/1-6NA2uAOSRlT4O0FGEKUGA?pwd=oo0d   
提取碼：oo0d

到了這里，關(guān)于聲音好聽(tīng),顏值能打,基于PaddleGAN給人工智能AI語(yǔ)音模型配上動(dòng)態(tài)畫(huà)面(Python3.10)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

批量生成,本地推理，人工智能聲音克隆框架PaddleSpeech本地批量克隆實(shí)踐(Python3.10)
云端煉丹固然是極好的，但不能否認(rèn)的是，成本要比本地高得多，同時(shí)考慮到深度學(xué)習(xí)的訓(xùn)練相對(duì)于推理來(lái)說(shuō)成本也更高，這主要是因?yàn)樗枰罅康臄?shù)據(jù)、計(jì)算資源和時(shí)間等資源，并且對(duì)超參數(shù)的調(diào)整也要求較高，更適合在云端進(jìn)行。在推理階段，模型的權(quán)重和參數(shù)不再調(diào)
2024年02月09日
瀏覽(26)
給大家推薦一首好聽(tīng)的流行音樂(lè)
歌名：豬豬俠譜曲：王巍填詞：王巍歌曲原唱：陳潔麗歌詞： l u l a lula l u l a 嚕啦嚕啦咧嚕啦嚕啦咧，嚕啦嚕啦咧嚕啦嚕啦咧，勇敢向前進(jìn)前進(jìn)有獎(jiǎng)品我要跑第一，要開(kāi)飛機(jī)要電視機(jī)要CD機(jī)要mp3，要冰淇淋要人民幣不要太貪心，聰明勇敢有力氣我真的羨慕我自己， l
2023年04月10日
瀏覽(25)
網(wǎng)站換域名，老域名權(quán)重值能轉(zhuǎn)到新網(wǎng)站嗎?
如果企業(yè)想更換域名，那么之前的老域名權(quán)重值會(huì)作廢嗎?老域名的權(quán)重值能轉(zhuǎn)移到新網(wǎng)站嗎? 老域名 1.老域名權(quán)重值能轉(zhuǎn)移到新網(wǎng)站嗎? 可以，在搜索蜘蛛看來(lái)，如果用優(yōu)質(zhì)老域名，舊域名的權(quán)重會(huì)疊加到新域名上，就能讓你在起跑線(xiàn)上贏得一定優(yōu)勢(shì)。但一定要看這個(gè)舊域名
2024年02月17日
瀏覽(16)
基于LSTM實(shí)現(xiàn)樂(lè)器聲音音頻識(shí)別
大家好，我是阿光。本專(zhuān)欄整理了《PyTorch深度學(xué)習(xí)項(xiàng)目實(shí)戰(zhàn)100例》，內(nèi)包含了各種不同的深度學(xué)習(xí)項(xiàng)目，包含項(xiàng)目原理以及源碼，每一個(gè)項(xiàng)目實(shí)例都附帶有完整的代碼+數(shù)據(jù)集。正在更新中~ ? ?? 我的項(xiàng)目環(huán)境：平臺(tái)：Windows10 語(yǔ)言環(huán)境：python3.7 編譯器：PyCharm PyTorch版本：
2023年04月20日
瀏覽(36)
【雕爺學(xué)編程】Arduino智能家居之基于聲音傳感器和手機(jī)通知的聲音警報(bào)系統(tǒng)
Arduino是一個(gè)開(kāi)放源碼的電子原型平臺(tái)，它可以讓你用簡(jiǎn)單的硬件和軟件來(lái)創(chuàng)建各種互動(dòng)的項(xiàng)目。Arduino的核心是一個(gè)微控制器板，它可以通過(guò)一系列的引腳來(lái)連接各種傳感器、執(zhí)行器、顯示器等外部設(shè)備。Arduino的編程是基于C/C++語(yǔ)言的，你可以使用Arduino IDE（集成開(kāi)發(fā)環(huán)境）來(lái)
2024年02月04日
瀏覽(28)
基于LabVIEW的聲音信號(hào)采集分析系統(tǒng)開(kāi)發(fā)
摘要：以美國(guó)國(guó)家儀器(NI)公司開(kāi)發(fā)的LabVIEW虛擬儀器為軟件開(kāi)發(fā)平臺(tái)，設(shè)計(jì)了一個(gè)可以同步實(shí)現(xiàn)聲音信號(hào)采集和分析的多功能模塊化軟件系統(tǒng)．借助LabVIEW圖形化軟件相應(yīng)的聲音讀取、寫(xiě)入和存儲(chǔ)函數(shù)實(shí)現(xiàn)對(duì)聲音信號(hào)的采集、存儲(chǔ)、時(shí)域分析和頻域分析，并實(shí)時(shí)顯示在工作前面
2024年01月17日
瀏覽(21)
原來(lái)Linux里也能打《ACM》？
本文，我們來(lái)介紹一下Linux中的ACM時(shí)間，不過(guò)呢此ACM非彼acm，讓我們一起來(lái)看看吧我們?cè)趯?xiě)Makefile的時(shí)候，經(jīng)常會(huì)遇到 make: \\\'xxx\\\' is up to date. 的問(wèn)題，很多同學(xué)都不知道是什么原因，本文我們就從這一點(diǎn)說(shuō)起當(dāng)我們?cè)凇緈ake】的時(shí)候，通常會(huì)執(zhí)行一些編譯命令然后生成可執(zhí)行文
2024年02月13日
瀏覽(15)
科大訊飛星火認(rèn)知大模型是真能打
5月6日，科大訊飛正式發(fā)布星火認(rèn)知大模型。先進(jìn)的技術(shù)，出色的表現(xiàn)，直擊產(chǎn)業(yè)痛點(diǎn)的商業(yè)應(yīng)用，讓人們?cè)俅握J(rèn)識(shí)了科大訊飛的強(qiáng)大。當(dāng)然，星火認(rèn)知大模型也是真能打。 01 火爆的大模型 2022年11月，人工智能公司OpenAI推出的生成式機(jī)器人ChatGPT發(fā)布后短時(shí)間便火遍全球，成
2024年02月05日
瀏覽(19)
12款A(yù)I代碼生成工具，都很能打
Anania 是一個(gè)機(jī)器人數(shù)據(jù)分析師，可以通過(guò)簡(jiǎn)單、自然的英語(yǔ)對(duì)話(huà)來(lái)分析您的數(shù)據(jù)。連接數(shù)據(jù)源并以簡(jiǎn)單的英語(yǔ)提問(wèn)，無(wú)需任何設(shè)置或配置。在幕后，Anania 正在使用一個(gè) AI 系統(tǒng)，該系統(tǒng)將文本轉(zhuǎn)換為 SQL 和 Python 代碼并執(zhí)行您的數(shù)據(jù)以獲得答案。由 GPT-3 提供支持的機(jī)器人數(shù)據(jù)
2024年02月06日
瀏覽(22)
基于Python監(jiān)測(cè)鍵盤(pán)輸入并發(fā)出聲音的坤音鍵盤(pán)
代碼和軟件在公眾號(hào)【走神研究所】發(fā)送【鍵盤(pán)】獲取。這是一款基于python的桌面小工具，能夠?qū)崟r(shí)顯示你敲擊鍵盤(pán)的按鍵，并且當(dāng)摁下“J”、“N”、“T”、“M”時(shí)會(huì)發(fā)出坤音。具體視頻演示和代碼原理在這里打開(kāi)程序，隨意摁下鍵盤(pán)，小坤坤就會(huì)張開(kāi)嘴巴，顯
2024年02月09日
瀏覽(19)

<input id="krxuc"></input>