国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<address id="4awe1"></address>

<strong id="4awe1"><div id="4awe1"></div></strong>

小白也能聽懂的ai音聲制作入門教程了！??！

2年前作者：佚名涙分類：Toy博客閱讀(17)違法舉報

這篇具有很好參考價值的文章主要介紹了小白也能聽懂的ai音聲制作入門教程了?。?！。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

小白也能聽懂的ai音聲制作：低配置，易入門

最近看到網(wǎng)上有很多懶羊羊唱歌的視頻，略感興趣，于是就學習了一番，并選出來一個配置最低和最容易入門的項目教給大家，…(以后有空會寫其他的)

當當?。?！
音聲轉(zhuǎn)換項目DDSP的介紹和使用

ddsp-3.0是一款ai合成音頻的開源項目，與之前的sovits，rvc，diff-svc不同，DDSP在訓練推理速度和配置要求上都可以說是全面優(yōu)于前面幾個項目，并且訓練效果有sovits4.0的80~90%，效果還是很不錯的，只需要一張2G以上顯存的N卡，花上一兩個小時就可以訓練完成，大大降低了ai變聲門檻。

雖然ddsp4.0更新了，但實際體驗和3.0并未太大差別，而且由于網(wǎng)上還沒有大佬制作一鍵包，不利于小白入門，所以以3.0為首選項。

下面就介紹ddsp-3.0的用法，首先下載b站up主[羽毛布団]的整合包DDSP-SVC 3.0 一站式整合包使用教程 (qq.com)，該整合包使用圖形化界面進行訓練和推理，以及配備了urv5，au，自動切片工具等，老少皆宜，讓我們先感謝賽博佛祖！

下載完畢后解壓至電腦文件夾，先解壓urv5，按照提示，把urv5模型解壓到models文件夾，為以后處理數(shù)據(jù)集做準備

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

然后進入ddsp文件夾

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

下拉，點擊

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

啟動項目（注意，啟動時最好不要開梯子，不然以后可能會打不開）

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

預處理

進入這樣的界面，由于第一次進入需要先進行模型訓練，你需要事先準備半小時到2小時的干凈人聲（可以到b站搜原神任務語音數(shù)據(jù)集，有很多）拿來練手，點擊智能音頻切片，將你人聲所在文件夾目錄復制到第一個空位：

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

點擊文件夾目錄ctrl+c就能復制，選定自己想要輸出到的目錄，再點擊切片就可以自動把半小時的語音切成10~15秒的短音頻

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

訓練

接下來就可以開始訓練工作了

將你切好的音頻全部復制到ddsp的data/train/audio下

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

并挑出幾條效果較好的語音片段復制到

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

下，數(shù)據(jù)集中按訓練集：驗證集=100:1的比例挑選，經(jīng)測試，前者較少時，后者比例大些也可以，但不能超出太多，下一步，預處理配置可以自己選擇，都有提示

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

訓練設置和超參數(shù)盡量都不改，可以根據(jù)電腦配置適當更改批大?。?/p>

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

最后的fp32，fp16，bf16可以按下邊的來：

FP32/BF16/FP16 有什么差別

1. FP32（單精度浮點數(shù)）：它使用 32 位來表示一個浮點數(shù)，其中 1 位用于符號位，8 位用于
   指數(shù)部分，23 位用于尾數(shù)部分。FP32 提供了較高的精度和動態(tài)范圍，適用于大多數(shù)深度學
   習任務和一般計算需求。(除了慢一些沒啥不好的)
   2.BF16（BFloat16）：它使用 16 位來表示一個浮點數(shù)，其中 1 位用于符號位，8 位用于指數(shù)
   部分，7 位用于尾數(shù)部分。BF16 可以看作是 FP32 的一種截斷形式，減少了存儲空間和內(nèi)存
   帶寬的消耗，同時仍具備較高的動態(tài)范圍，適用于訓練和推理任務。(only Nvidia 30/40
   series)(相比 FP16 沒那么容易 NaN，同時又比 FP32 快，但是損失精度)
2. FP16（半精度浮點數(shù)）：它使用 16 位來表示一個浮點數(shù)，其中 1 位用于符號位，5 位用于
   指數(shù)部分，10 位用于尾數(shù)部分。FP16 相比于 FP32 和 BF16，減少了存儲空間和內(nèi)存帶寬的
   需求，但犧牲了精度和動態(tài)范圍。因此，F(xiàn)P16 通常用于對模型進行加速或壓縮時，例如在
   移動設備或低功耗設備上的推理過程中。(相比 FP32/BF16 更容易 NaN，但是精度比 BF16
   高，對比 FP32 也損失不多，理論上來說，30/40 系跑 BF16/FP16 運算速度一樣)
   PS:顯卡屬于哪一系列:
   A 開頭的屬于 Ampere 架構(gòu)，與 30 系同架構(gòu)，理解成 30 系就好，例:A5000,A100,A10。
   T 開頭的屬于 Turing 架構(gòu)，與 20 系同架構(gòu)，常見的就是 T4，理解成 20 系就好。
   V 開頭(或含 V)的屬于 Volta 架構(gòu)，僅出現(xiàn)在商用領域，接近 20 系，理解成不支持 int4 運算
   的 20 系就好，包含 V100,Titan V。
   P 開頭(或含 P)的屬于 pascal 架構(gòu)，與 10 系同架構(gòu)，常見的就是 P100,Titan Xp
   PS: 30/40 系建議優(yōu)先 BF16，尤其是 A100，盡量不要選 FP32
   20 系建議降低一點點 learningrate 然后選 FP16，因為比 FP32 快上不少(
   16 系選 FP32，因為 FP16 大概率炸（玄學
   10 系隨意，看心情

不想看沒關(guān)系，顯存小的默認就行，顯存大的選后兩個，

（測試3060-6g選后兩個在訓練時會卡主，自行選擇）

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

之后點擊從頭開始訓練，需要兩個模型都訓練，之后會大開兩個黑窗口，

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

點擊下方監(jiān)控訓練狀態(tài)可以查看訓練情況，對于ddsp模型，當顯示

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

最后趨于穩(wěn)定就可以收手了，如果線條亂跳就說明模型炸了，重新開始吧

后者擴散模型

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

如果坐標軸右側(cè)大致呈下降趨勢到底，就可以停了

主要是訓練ddsp模型，注意

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

不改設置時，每2000步才會保存一次存檔，每10000步保存一次存檔并刪除2000次的臨時存檔，所以我們停止訓練時，盡量選剛超過2000的倍數(shù)，停止后會把我們訓練的結(jié)果放到

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

下，這時我們就可以測試是否推理是否成功了

點擊推理頁：

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

推理

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

（注意：當我們開著梯子時，有時是無法找到配置文件的，關(guān)了梯子，并重新打開webui.bat?。。?/p>

下一步上傳推理的數(shù)據(jù)：（需要干凈無噪聲，并且只有單人聲，以自己訓練的模型為準）

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

這一頁設置按需更改，一般只用調(diào)第一個變調(diào)嗎，意思是

當模型為女聲，推理數(shù)據(jù)為男聲，需要升調(diào)，例如可以先升至12，看結(jié)果如果聲音很尖，說明高了，降調(diào)。同理推理數(shù)據(jù)為女聲可以先為0，看效果，如果聲音太尖，可以降為負數(shù)試試，如果聲音像男聲，可以調(diào)高；

當模型為男聲，推力數(shù)據(jù)為女聲，需要降調(diào)，降為12先看效果，同上；

再往下： ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

f0提取算法正常選第一個，提示都有，第四個算法更適合推低音‘相應閾值是為了應對數(shù)據(jù)集如果沒請干凈，可以拉高，將很低的聲音一刀切掉；采樣不要變；淺擴散步數(shù)越大，聲音越接近模型聲音，但時間也會成比例增加；正常100就不要變。加速倍數(shù)不變。

至此，對于單個訓練流程我們已經(jīng)走完了；

注意點

再提幾個注意點：

urv5的使用

如果是使用整合包自帶的urv5：

導入模型后使用 ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

該連招可以清除人聲和混響

需要處理兩次

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

第二次處理要更改輸入源；

但是，URV5有新版本了！?。]錯，你白學了，嘿嘿，URV5.6有了新的連招，相較于舊版本效果直線上升，具體可以看bfloat16的動態(tài)UVR5使用教程和最新連招 - 嗶哩嗶哩 (bilibili.com)，賽博佛祖，受小兒一拜！??！

提幾個要點，新模型是需要自己去下載的，點自帶的小扳手即使連了梯子也可能會不成功，如果實在找不到文中的幾個模型可以私信我：，下圖是最新連招，需要處理三次，效果杠杠滴！

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

制作好的模型以及更換模型

當制作好后，emp文件中會有目前使用模型的模型文件

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

在models_backup文件夾下也會有一份存檔

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

該存檔會把兩個模型分開存放，并且有時不會保存，還沒搞清楚什么時候會保存，最好不要相信自動存檔，

最好的做法是把訓練好的模型在該文件夾下新建文件夾并復制進去，以后用的時候直接復制到emp文件夾中。想要發(fā)給別人就壓縮emp文件夾發(fā)送就行了。

推理出的結(jié)果存放位置

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

在ddsp下output文件夾下，保存的是wav格式’

合成成品

進入au或者剪映，將推理出的wav和之前分離的背景wav一起放進去就可以合成啦，你還可以再用剪映添加背景圖片各種操作或者使用ae添加背景和特效。

小技巧

有時候不管怎么推我們的效果總是和預想的有些出入；

有時候一首歌前半段像，后半段又不像，歌詞平緩的時候像，高潮的時候又不像；

其實這是這首歌跨調(diào)太大，但是ai推理出的音樂只能在一個范圍內(nèi)的調(diào)變動，程序上目前只能等作者更新出識別歌曲變調(diào)功能，但是我們可以在推理時選幾個不同的變調(diào)，再用au把每首歌像的地方截到一起，操作起來還是很方便的。

12.7 更新
好久沒有玩了，學習繁忙阿！~！，不過之前發(fā)現(xiàn)的數(shù)據(jù)集問題還是提一嘴把，數(shù)據(jù)集影響了之后這個模型推理的所有東西，拿原神為例，數(shù)據(jù)只有語音，沒高音，沒低音，怎么辦呢，經(jīng)過我的深度探究，知道了幾種方法，不過較為好用的算是在未訓練前將部分數(shù)據(jù)集進行降調(diào)和升調(diào)處理，具體操作為在au中定義并收藏一個升調(diào)的方法，批量將語音進行升調(diào)和降調(diào)處理，要注意，不能太過頭，容易失真，具體網(wǎng)上搜吧

有什么想問的可以在評論區(qū)或者私信我，不定時更新；

######################################

參考：

羽毛布団的個人空間-羽毛布団個人主頁-嗶哩嗶哩視頻 (bilibili.com)

DDSP-SVC 3.0 一站式整合包使用教程 (qq.com)

UVR5使用教程和最新連招 - 嗶哩嗶哩 (bilibili.com)

https://github.com/yxlllc/DDSP-SVC文章來源地址http://www.zghlxwxcb.cn/news/detail-766728.html

到了這里，關(guān)于小白也能聽懂的ai音聲制作入門教程了?。。〉奈恼戮徒榻B完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

GPU加速02:超詳細Python Cuda零基礎入門教程，沒有顯卡也能學！
Python是當前最流行的編程語言，被廣泛應用在深度學習、金融建模、科學和工程計算上。作為一門解釋型語言，它運行速度慢也常常被用戶詬病。著名Python發(fā)行商Anaconda公司開發(fā)的Numba庫為程序員提供了Python版CPU和GPU編程工具，速度比原生Python快數(shù)十倍甚至更多。使用Numba進行
2024年02月02日
瀏覽(25)
GoogleTest從入門到入門，小白都能看懂的gtest詳細教程
單元測試項目管理和技術(shù)管理中做單元測試，衡量一個軟件是否正常的標準，良好的單元測試以及足夠多的覆蓋率，至少保證關(guān)鍵功能，關(guān)鍵業(yè)務的覆蓋率接近100%。 gtest是谷歌公司發(fā)布的一個跨平臺（Linux、Mac OS、Windows等）的C++單元測試框架，它提供了豐富的斷言、致命和
2024年02月07日
瀏覽(28)
零基礎學Python入門教程非常詳細(從小白到高級)
第一章-第五章（5.1-5.4）：簡介、配置與基礎知識第六章：判斷語句 Python它是一種直譯式，面向?qū)ο螅忉屖降哪_本語言。它和Java,C/C++,Go語言一樣都是高級語言，但由于它是解釋式語言，所以運行速度會比Java，C/C++等語言慢（雖說隔壁Go也是解釋式語言，但比它快很多）。不
2024年01月19日
瀏覽(20)
Android Studio入門級教程（詳細）【小白必看】[通俗易懂]
Android Studio如何使用本文主要講解一下Android Studio使用方法步驟： 1.建立項目首先點擊new——new project新建項目選擇想要創(chuàng)建的Android 的模板，建議選擇empty activity（空模板），然后next Name：給你的項目起一個名字 API level：選擇Android 虛擬機的版本，版本越低運行起來越快剩
2024年02月08日
瀏覽(26)
Python保姆級教程數(shù)據(jù)類型—新手小白入門必看系列
推薦使用壓縮軟件和殺毒軟件 7 - zip 使用火絨優(yōu)點：代碼說明沒注釋的代碼有注釋的代碼不讓解釋器執(zhí)行注釋的那句話單行注釋快捷鍵：ctrl + ？ \\\"\\\"\\\"\\\"\\\"\\\" （三個雙引號） 185730213551 什么是變量：可以改變的量計算機用來存貯數(shù)據(jù)的盒子，想用這個數(shù)據(jù)，就直接那盒子就好了
2024年02月16日
瀏覽(25)
安裝IDEA運行Java保姆級教程（java小白入門必備）
本文旨在為Java入門的同學介紹如何在自己電腦上運行Java程序： https://www.jetbrains.com/idea/download/#section=windows 運行Java程序的工具是 IDEA編譯器。下載編譯器：選擇社區(qū)版本（Community），可免費試用。點擊 Download 后等待三秒后即自動下載。將IDEA安裝包移至特定安裝包，例如我
2023年04月08日
瀏覽(93)
windows下cmake的小白級入門使用教程(hello world)
想學習cmake，基于慣性思維，想先跑通一個“hello world”的例子，奈何網(wǎng)上教程一大把，有用的教程破費功夫?qū)ふ?。大部分教程都沒有從新電腦(重裝系統(tǒng)后的電腦)的角度講述步驟。為了得到干凈的電腦環(huán)境，研究了一段時間VMware虛擬機，并寫了幾篇文章，感興趣的讀者可移步
2024年02月14日
瀏覽(25)
Suno教程篇：音樂小白也能使用Suno AI零門檻創(chuàng)作音樂？從此只聽AI寫的歌！
準備工作基礎使用歌曲風格提示詞參考親自去聽案例展示歌詞填入節(jié)奏調(diào)高歌詞結(jié)構(gòu) 從此只聽AI為我寫的歌！（本教程將會持續(xù)更新完善，歡迎收藏。） 1、準備好網(wǎng)絡環(huán)境。 2、訪問Suno AI的官方網(wǎng)站： https://app.suno.ai 3、注冊谷歌郵箱 / 微軟郵箱 / discord賬號登錄。
2024年04月16日
瀏覽(18)
Stable Diffusion 系列教程 - 3 模型下載和LORA模型的小白入門
首先，一個比較廣泛的模型下載地址為：Civitai Models | Discover Free Stable Diffusion Models 黃框是一些過濾器，比如checkpoints可以理解為比如把1.5版本的SD模型拷貝一份后交叉識別新的畫風或場景后得到的模型，可以單獨拿出來使用。 Hypernetwork和lora在特定場景下都非常好用。我們以
2024年02月03日
瀏覽(24)
Rocky Linux 9.0 版本小白入門下載安裝使用調(diào)優(yōu)超詳細教程
本期給大家?guī)淼氖莚ocky Linux 9.0 版本的下載安裝教程，首先rocky Linux 9.0版本是2022.7.14發(fā)布的，我剛發(fā)布第二天下載使用的，總體感覺比之前更好一些，例如壁紙、桌面環(huán)境等，然后就是軟件設施基礎準備好：VMware、XShell（可忽略，別的遠程軟件也可以），然后接下來我們就看
2024年02月05日
瀏覽(24)