国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<track id="05lmd"><abbr id="05lmd"><dfn id="05lmd"></dfn></abbr></track>

南洋才女,德藝雙馨,孫燕姿本尊回應(yīng)AI孫燕姿(基于Sadtalker/Python3.10)

2年前作者：劉悅的技術(shù)博客分類：Toy博客閱讀(21)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了南洋才女,德藝雙馨,孫燕姿本尊回應(yīng)AI孫燕姿(基于Sadtalker/Python3.10)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

孫燕姿果然不愧是孫燕姿，不愧為南洋理工大學(xué)的高材生，近日她在個(gè)人官方媒體博客上寫了一篇英文版的長文，正式回應(yīng)現(xiàn)在滿城風(fēng)雨的“AI孫燕姿”現(xiàn)象，流行天后展示了超人一等的智識(shí)水平，行文優(yōu)美，綿恒雋永，對(duì)AIGC藝術(shù)表現(xiàn)得極其克制，又相當(dāng)寬容，充滿了語言上的古典之美，表現(xiàn)出了“任彼如泰山壓頂，我只當(dāng)清風(fēng)拂面”的博大胸懷。

本次我們利用edge-tts和Sadtalker庫讓AI孫燕姿朗誦本尊的博文，讓流行天后念給你聽。

Sadtalker配置

之前我們?cè)?jīng)使用百度開源的PaddleGAN視覺效果模型中一個(gè)子模塊Wav2lip實(shí)現(xiàn)了人物口型與輸入的歌詞語音同步，但Wav2lip的問題是虛擬人物的動(dòng)態(tài)效果只能局限在嘴唇附近，事實(shí)上，音頻和不同面部動(dòng)作之間的連接是不同的，也就是說，雖然嘴唇運(yùn)動(dòng)與音頻的聯(lián)系最強(qiáng)，但可以通過不同的頭部姿勢和眨眼來反作用于音頻。

和Wav2lip相比，SadTaker是一種通過隱式3D系數(shù)調(diào)制的風(fēng)格化音頻驅(qū)動(dòng)Talking頭部視頻生成的庫，一方面，它從音頻中生成逼真的運(yùn)動(dòng)系數(shù)（例如，頭部姿勢、嘴唇運(yùn)動(dòng)和眨眼），并單獨(dú)學(xué)習(xí)每個(gè)運(yùn)動(dòng)以減少不確定性。對(duì)于表達(dá)，通過從的僅嘴唇運(yùn)動(dòng)系數(shù)和重建的渲染三維人臉上的感知損失（唇讀損失，面部landmark loss）中提取系數(shù)，設(shè)計(jì)了一種新的音頻到表達(dá)系數(shù)網(wǎng)絡(luò)。

對(duì)于程序化的頭部姿勢，通過學(xué)習(xí)給定姿勢的殘差，使用條件VAE來對(duì)多樣性和逼真的頭部運(yùn)動(dòng)進(jìn)行建模。在生成逼真的3DMM系數(shù)后，通過一種新穎的3D感知人臉渲染來驅(qū)動(dòng)源圖像。并且通過源和驅(qū)動(dòng)的無監(jiān)督3D關(guān)鍵點(diǎn)生成扭曲場，并扭曲參考圖像以生成最終視頻。

Sadtalker可以單獨(dú)配置，也可以作為Stable-Diffusion-Webui的插件而存在，這里推薦使用Stable-Diffusion插件的形式，因?yàn)檫@樣Stable-Diffusion和Sadtalker可以共用一套WebUI的界面，更方便將Stable-Diffusion生成的圖片做成動(dòng)態(tài)效果。

進(jìn)入到Stable-Diffusion的項(xiàng)目目錄：

cd stable-diffusion-webui

啟動(dòng)服務(wù)：

python3.10 webui.py

程序返回：

Python 3.10.11 (tags/v3.10.11:7d4cc5a, Apr  5 2023, 00:38:17) [MSC v.1929 64 bit (AMD64)]  
Version: v1.3.0  
Commit hash: 20ae71faa8ef035c31aa3a410b707d792c8203a3  
Installing requirements  
Launching Web UI with arguments: --xformers --opt-sdp-attention --api --lowvram  
Loading weights [b4d453442a] from D:\work\stable-diffusion-webui\models\Stable-diffusion\protogenV22Anime_protogenV22.safetensors  
load Sadtalker Checkpoints from D:\work\stable-diffusion-webui\extensions\SadTalker\checkpoints  
Creating model from config: D:\work\stable-diffusion-webui\configs\v1-inference.yaml  
LatentDiffusion: Running in eps-prediction mode  
DiffusionWrapper has 859.52 M params.  
Running on local URL:  http://127.0.0.1:7860

代表啟動(dòng)成功，隨后http://localhost:7860

選擇插件(Extensions)選項(xiàng)卡

點(diǎn)擊從url安裝，輸入插件地址：github.com/Winfredy/SadTalker

安裝成功后，重啟WebUI界面。

接著需要手動(dòng)下載相關(guān)的模型文件：

https://pan.baidu.com/s/1nXuVNd0exUl37ISwWqbFGA?pwd=sadt

隨后將模型文件放入項(xiàng)目的stable-diffusion-webui/extensions/SadTalker/checkpoints/目錄即可。

接著配置一下模型目錄的環(huán)境變量：

set SADTALKER_CHECKPOINTS=D:/stable-diffusion-webui/extensions/SadTalker/checkpoints/

至此，SadTalker就配置好了。

edge-tts音頻轉(zhuǎn)錄

之前的歌曲復(fù)刻是通過So-vits庫對(duì)原歌曲的音色進(jìn)行替換和預(yù)測，也就是說需要原版的歌曲作為基礎(chǔ)數(shù)據(jù)。但目前的場景顯然有別于歌曲替換，我們首先需要將文本轉(zhuǎn)換為語音，才能替換音色。

這里使用edge-tts庫進(jìn)行文本轉(zhuǎn)語音操作：

import asyncio  
  
import edge_tts  
  
TEXT = '''  
  
As my AI voice takes on a life of its own while I despair over my overhanging stomach and my children's every damn thing, I can't help but want to write something about it.  
  
My fans have officially switched sides and accepted that I am indeed 冷門歌手 while my AI persona is the current hot property. I mean really, how do you fight with someone who is putting out new albums in the time span of minutes.  
  
Whether it is ChatGPT or AI or whatever name you want to call it, this "thing" is now capable of mimicking and/or conjuring,  unique and complicated content by processing a gazillion chunks of information while piecing and putting together in a most coherent manner the task being asked at hand. Wait a minute, isn't that what humans do? The very task that we have always convinced ourselves; that the formation of thought or opinion is not replicable by robots, the very idea that this is beyond their league, is now the looming thing that will threaten thousands of human conjured jobs. Legal, medical, accountancy, and currently, singing a song.   
  
You will protest, well I can tell the difference, there is no emotion or variance in tone/breath or whatever technical jargon you can come up with. Sorry to say, I suspect that this would be a very short term response.  
  
Ironically, in no time at all, no human will be able to rise above that. No human will be able to have access to this amount of information AND make the right calls OR make the right mistakes (ok mayyyybe I'm jumping ahead). This new technology will be able to churn out what exactly EVERYTHING EVERYONE  needs. As indie or as warped or as psychotic as you can get, there's probably a unique content that could be created just for you. You are not special you are already predictable and also unfortunately malleable.  
  
At this point, I feel like a popcorn eater with the best seat in the theatre. (Sidenote: Quite possibly in this case no tech is able to predict what it's like to be me, except when this is published then ok it's free for all). It's like watching that movie that changed alot of our lives Everything Everywhere All At Once, except in this case, I don't think it will be the idea of love that will save the day.   
  
In this boundless sea of existence, where anything is possible, where nothing matters, I think it will be purity of thought, that being exactly who you are will be enough.   
  
With this I fare thee well.  
  
'''  
  
VOICE = "en-HK-YanNeural"  
OUTPUT_FILE = "./test_en1.mp3"  
  
  
async def _main() -> None:  
    communicate = edge_tts.Communicate(TEXT, VOICE)  
    await communicate.save(OUTPUT_FILE)  
  
  
if __name__ == "__main__":  
    asyncio.run(_main())

音頻使用英文版本的女聲：en-HK-YanNeural，關(guān)于edge-tts，請(qǐng)移步：口播神器,基于Edge,微軟TTS(text-to-speech)文字轉(zhuǎn)語音免費(fèi)開源庫edge-tts語音合成實(shí)踐(Python3.10)，這里不再贅述。

隨后再將音頻文件的音色替換為AI孫燕姿的音色即可：AI天后,在線飆歌,人工智能AI孫燕姿模型應(yīng)用實(shí)踐，復(fù)刻《遙遠(yuǎn)的歌》，原唱晴子(Python3.10)。

本地推理和爆顯存問題

準(zhǔn)備好生成的圖片以及音頻文件后，就可以在本地進(jìn)行推理操作了，訪問 localhost:7860

這里輸入?yún)?shù)選擇full，如此會(huì)保留整個(gè)圖片區(qū)域，否則只保留頭部部分。

生成效果：

SadTalker會(huì)根據(jù)音頻文件生成對(duì)應(yīng)的口型和表情。

這里需要注意的是，音頻文件只支持MP3或者wav。

除此以外，推理過程中Pytorch庫可能會(huì)報(bào)這個(gè)錯(cuò)誤：

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 6.00 GiB total capacity; 5.38 GiB already allocated; 0 bytes free; 5.38 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

這就是所謂的"爆顯存問題"。

一般情況下，是因?yàn)楫?dāng)前GPU的顯存不夠了所導(dǎo)致的，可以考慮縮小torch分片文件的體積：

set PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:60

如果音頻文件實(shí)在過大，也可以通過ffmpeg對(duì)音頻文件切片操作，分多次進(jìn)行推理：

ffmpeg -ss 00:00:00 -i test_en.wav -to 00:30:00 -c copy test_en_01.wav

藉此，就解決了推理過程中的爆顯存問題。

結(jié)語

和Wav2Lip相比，SadTalker(Stylized Audio-Driven Talking-head)提供了更加細(xì)微的面部運(yùn)動(dòng)細(xì)節(jié)（如眼睛眨動(dòng)）等等，可謂是細(xì)致入微，巨細(xì)靡遺，當(dāng)然隨之而來的是模型數(shù)量和推理成本以及推理時(shí)間的增加，但顯然，這些都是值得的。文章來源地址http://www.zghlxwxcb.cn/news/detail-474311.html

到了這里，關(guān)于南洋才女,德藝雙馨,孫燕姿本尊回應(yīng)AI孫燕姿(基于Sadtalker/Python3.10)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

AI孫燕姿爆火背后：語音轉(zhuǎn)換技術(shù)so-vits-svc
AIGC的風(fēng)最近終于吹到了語音生成領(lǐng)域。上面視頻中\(zhòng)\\"孫燕姿\\\"翻唱周杰倫的《七里香》，該歌是AI歌唱，并非孫燕姿本人。背后核心技術(shù)來自聲音轉(zhuǎn)換，voice convertion，而不是之前我們講過的聲音克隆，voice clone。語音轉(zhuǎn)換，voice convertion，簡稱VC。簡單來說，就是把一個(gè)人的聲音
2024年02月12日
瀏覽(25)
「AI 孫燕姿」翻唱華語樂壇歌曲爆紅全網(wǎng)，AI 翻唱將帶來哪些影響？是否會(huì)有版權(quán)等問題？
在某視頻平臺(tái)上，“AI孫燕姿”成了新網(wǎng)紅，它翻唱過周杰倫的《發(fā)如雪》、翻唱過郭頂?shù)摹端怯洝贰⒎^趙雷的《我記得》，受到了網(wǎng)友的追捧，甚至有網(wǎng)友宣布“這是2023年最火的聲音”。網(wǎng)上除了AI孫燕姿，還有AI周杰倫、AI王心凌、AI披頭士、AI德雷克，網(wǎng)友們樂此
2024年02月03日
瀏覽(15)
AI天后,在線飆歌,人工智能AI孫燕姿模型應(yīng)用實(shí)踐，復(fù)刻《遙遠(yuǎn)的歌》，原唱晴子(Python3.10)
忽如一夜春風(fēng)來，亞洲天后孫燕姿獨(dú)特而柔美的音色再度響徹華語樂壇，只不過這一次，不是因?yàn)樗隽诵聦］嫞侨斯ぶ悄蹵I技術(shù)對(duì)于孫燕姿音色的完美復(fù)刻，以大江灌浪之勢對(duì)華語歌壇諸多經(jīng)典作品進(jìn)行了翻唱，還原度令人咋舌，如何做到的? 本次我們借助基于Python3.
2024年02月03日
瀏覽(18)
保姆級(jí)教程！教你打造自己的AI孫燕姿；全程使用AI工具設(shè)計(jì)一款桌游；搭建基于LLM的客服系統(tǒng)的實(shí)踐 | ShowMeAI日?qǐng)?bào)
?? 日?qǐng)?bào)周刊合集 | ?? 生產(chǎn)力工具與行業(yè)應(yīng)用大全 | ?? 點(diǎn)贊關(guān)注評(píng)論拜托啦！王詠剛，創(chuàng)新工場CTO，技術(shù)撰稿人，有數(shù)個(gè)知名出版作品。他結(jié)合自己在AI領(lǐng)域投資、深度孵化和創(chuàng)業(yè)的豐富經(jīng)驗(yàn)，分享了自己對(duì)AI技術(shù)最新應(yīng)用場景的思考。第一部分圍繞GPT等通用大語言模型，
2024年02月06日
瀏覽(49)
AI孫燕姿？AI東雪蓮！—— 本地部署DDSP-SVC一鍵包，智能音頻切片，本地訓(xùn)練，模型推理，為你喜歡的角色訓(xùn)練AI語音模型小教程
目錄感謝B站UP羽毛布團(tuán) 演示視頻稻香——東雪蓮虛擬——東雪蓮反方向的鐘——東雪蓮晴天+龍卷風(fēng)——東雪蓮 ZOOD——東雪蓮 DDSP-SVC?3.0?(D3SP)?是什么？下載資源：解壓整合包準(zhǔn)備數(shù)據(jù)集智能音頻切片? 數(shù)據(jù)集準(zhǔn)備填寫訓(xùn)練設(shè)置和超參數(shù) ?開始訓(xùn)練推理模型羽毛布団
2024年02月06日
瀏覽(23)
北大才女如何看待AIGC？
點(diǎn)擊下方 ▼ ▼ ▼ ▼ 鏈接直達(dá)AIPaperPass?！ AIPaperPass - AI論文寫作指導(dǎo)平臺(tái) 公眾號(hào)原文 ▼ ▼ ▼ ▼ ：北大才女如何看待AIGC？ 2024快到啦！先預(yù)祝寶子們，新的一年學(xué)業(yè)有成、工作順利、諸事順心！ ????????小編最近有幸與一位北大畢業(yè)的才女簡單交流了AIGC相關(guān)問題，
2024年02月04日
瀏覽(16)
大模型集體失控！南洋理工新型攻擊，主流AI無一幸免
西風(fēng) 蕭簫發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI 業(yè)界最領(lǐng)先的大模型們，竟然集體“越獄”了！不止是GPT-4，就連平時(shí)不咋出錯(cuò)的Bard、Bing Chat也全線失控，有的要黑掉網(wǎng)站，有的甚至揚(yáng)言要設(shè)計(jì)惡意軟件入侵銀行系統(tǒng)：這并非危言聳聽，而是南洋理工大學(xué)等四所高校提出的一
2024年02月03日
瀏覽(21)
【計(jì)算機(jī)視覺 CV】常用的圖像（圖片）處理工具匯總【新加坡南洋理工】
OpenCV的全稱是 Intel Open Source Computer Vision Library for C++ ，官網(wǎng)： OpenCV官網(wǎng) Matlab提供的機(jī)器視覺工具箱，全稱是 Machine Vision Toolbox for Matlab ，官網(wǎng)： Matlab MV Toolbox官網(wǎng) Matlab和加州理工提供的相機(jī)校正工具箱，全稱是 Camera Calibration Toolbox for Matlab ，官網(wǎng)： CC Toolbox官網(wǎng) Matlab提供的
2024年04月15日
瀏覽(33)
【計(jì)算機(jī)網(wǎng)絡(luò)】【練習(xí)題】【新加坡南洋理工大學(xué)】【Computer Control Network】
說明：僅供學(xué)習(xí)使用。該題目描述一個(gè)網(wǎng)絡(luò)中傳播時(shí)延（Transmission Delay）的例子。題目如下：筆者第3問采用均值不等式求解。標(biāo)答中采用求導(dǎo)數(shù)的方法求極值。似乎均值不等式法的計(jì)算量略小。（題目中沒有給出連續(xù)性假設(shè)，標(biāo)答中給出了，見后）
2024年01月25日
瀏覽(17)
師承AI世界新星|7天獲新加坡南洋理工大學(xué)訪學(xué)邀請(qǐng)函
能夠拜師在“人工智能 10 大新星”名下，必定可以學(xué)習(xí)到前沿技術(shù)，受益良多，本案例中的 C 老師無疑就是這個(gè)幸運(yùn)兒。我們只用了 7 天時(shí)間就取得了這位 AI 新星導(dǎo)師的邀請(qǐng)函，最終 C 老師順利獲批 CSC ，如愿出國。 C 老師背景：申請(qǐng)類型： CSC訪學(xué) 工作背景：高校老師教
2024年02月16日
瀏覽(26)

<dd id="h87q7"></dd>