国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

小白也能聽懂的ai音聲制作入門教程了!??!

這篇具有很好參考價值的文章主要介紹了小白也能聽懂的ai音聲制作入門教程了?。?!。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

小白也能聽懂的ai音聲制作:低配置,易入門

最近看到網(wǎng)上有很多懶羊羊唱歌的視頻,略感興趣,于是就學習了一番,并選出來一個配置最低和最容易入門的項目教給大家,…(以后有空會寫其他的)

當當?。?!
音聲轉(zhuǎn)換項目DDSP的介紹和使用

ddsp-3.0是一款ai合成音頻的開源項目,與之前的sovits,rvc,diff-svc不同,DDSP在訓練推理速度和配置要求上都可以說是全面優(yōu)于前面幾個項目,并且訓練效果有sovits4.0的80~90%,效果還是很不錯的,只需要一張2G以上顯存的N卡,花上一兩個小時就可以訓練完成,大大降低了ai變聲門檻。

雖然ddsp4.0更新了,但實際體驗和3.0并未太大差別,而且由于網(wǎng)上還沒有大佬制作一鍵包,不利于小白入門,所以以3.0為首選項。

下面就介紹ddsp-3.0的用法,首先下載b站up主[羽毛布団]的整合包DDSP-SVC 3.0 一站式整合包使用教程 (qq.com),該整合包使用圖形化界面進行訓練和推理,以及配備了urv5,au,自動切片工具等,老少皆宜,讓我們先感謝賽博佛祖!

下載完畢后解壓至電腦文件夾,先解壓urv5,按照提示,把urv5模型解壓到models文件夾,為以后處理數(shù)據(jù)集做準備

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

然后進入ddsp文件夾

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

下拉,點擊

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

啟動項目(注意,啟動時最好不要開梯子,不然以后可能會打不開)

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

預處理

進入這樣的界面,由于第一次進入需要先進行模型訓練,你需要事先準備半小時到2小時的干凈人聲(可以到b站搜原神任務語音數(shù)據(jù)集,有很多)拿來練手,點擊智能音頻切片,將你人聲所在文件夾目錄復制到第一個空位:

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

點擊文件夾目錄ctrl+c就能復制,選定自己想要輸出到的目錄,再點擊切片就可以自動把半小時的語音切成10~15秒的短音頻

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

訓練

接下來就可以開始訓練工作了

將你切好的音頻全部復制到ddsp的data/train/audio

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

并挑出幾條效果較好的語音片段復制到

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

下,數(shù)據(jù)集中按訓練集:驗證集=100:1的比例挑選,經(jīng)測試,前者較少時,后者比例大些也可以,但不能超出太多,下一步,預處理配置可以自己選擇,都有提示

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

訓練設置和超參數(shù)盡量都不改,可以根據(jù)電腦配置適當更改批大?。?/p>

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

最后的fp32,fp16,bf16可以按下邊的來:

  1. FP32/BF16/FP16 有什么差別
    
    1. FP32(單精度浮點數(shù)):它使用 32 位來表示一個浮點數(shù),其中 1 位用于符號位,8 位用于
       指數(shù)部分,23 位用于尾數(shù)部分。FP32 提供了較高的精度和動態(tài)范圍,適用于大多數(shù)深度學
       習任務和一般計算需求。(除了慢一些沒啥不好的)
       2.BF16(BFloat16):它使用 16 位來表示一個浮點數(shù),其中 1 位用于符號位,8 位用于指數(shù)
       部分,7 位用于尾數(shù)部分。BF16 可以看作是 FP32 的一種截斷形式,減少了存儲空間和內(nèi)存
       帶寬的消耗,同時仍具備較高的動態(tài)范圍,適用于訓練和推理任務。(only Nvidia 30/40
       series)(相比 FP16 沒那么容易 NaN,同時又比 FP32 快,但是損失精度)
    2. FP16(半精度浮點數(shù)):它使用 16 位來表示一個浮點數(shù),其中 1 位用于符號位,5 位用于
       指數(shù)部分,10 位用于尾數(shù)部分。FP16 相比于 FP32 和 BF16,減少了存儲空間和內(nèi)存帶寬的
       需求,但犧牲了精度和動態(tài)范圍。因此,F(xiàn)P16 通常用于對模型進行加速或壓縮時,例如在
       移動設備或低功耗設備上的推理過程中。(相比 FP32/BF16 更容易 NaN,但是精度比 BF16
       高,對比 FP32 也損失不多,理論上來說,30/40 系跑 BF16/FP16 運算速度一樣)
       PS:顯卡屬于哪一系列:
       A 開頭的屬于 Ampere 架構(gòu),與 30 系同架構(gòu),理解成 30 系就好,例:A5000,A100,A10。
       T 開頭的屬于 Turing 架構(gòu),與 20 系同架構(gòu),常見的就是 T4,理解成 20 系就好。
       V 開頭(或含 V)的屬于 Volta 架構(gòu),僅出現(xiàn)在商用領域,接近 20 系,理解成不支持 int4 運算
       的 20 系就好,包含 V100,Titan V。
       P 開頭(或含 P)的屬于 pascal 架構(gòu),與 10 系同架構(gòu),常見的就是 P100,Titan Xp
       PS: 30/40 系建議優(yōu)先 BF16,尤其是 A100,盡量不要選 FP32
       20 系建議降低一點點 learningrate 然后選 FP16,因為比 FP32 快上不少(
       16 系選 FP32,因為 FP16 大概率炸(玄學
       10 系隨意,看心情
    

    不想看沒關(guān)系,顯存小的默認就行,顯存大的選后兩個,

    (測試3060-6g選后兩個在訓練時會卡主,自行選擇)

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

之后點擊從頭開始訓練,需要兩個模型都訓練,之后會大開兩個黑窗口,

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

點擊下方監(jiān)控訓練狀態(tài)可以查看訓練情況,對于ddsp模型,當顯示

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

最后趨于穩(wěn)定就可以收手了,如果線條亂跳就說明模型炸了,重新開始吧

后者擴散模型

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

如果坐標軸右側(cè)大致呈下降趨勢到底,就可以停了

主要是訓練ddsp模型,注意

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

不改設置時,每2000步才會保存一次存檔,每10000步保存一次存檔并刪除2000次的臨時存檔,所以我們停止訓練時,盡量選剛超過2000的倍數(shù),停止后會把我們訓練的結(jié)果放到

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

下,這時我們就可以測試是否推理是否成功了

點擊推理頁:

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

推理

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

(注意:當我們開著梯子時,有時是無法找到配置文件的,關(guān)了梯子,并重新打開webui.bat?。。?/p>

下一步上傳推理的數(shù)據(jù):(需要干凈無噪聲,并且只有單人聲,以自己訓練的模型為準)

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

這一頁設置按需更改,一般只用調(diào)第一個變調(diào)嗎,意思是

當模型為女聲,推理數(shù)據(jù)為男聲,需要升調(diào),例如可以先升至12,看結(jié)果如果聲音很尖,說明高了,降調(diào)。同理推理數(shù)據(jù)為女聲可以先為0,看效果,如果聲音太尖,可以降為負數(shù)試試,如果聲音像男聲,可以調(diào)高;

當模型為男聲,推力數(shù)據(jù)為女聲,需要降調(diào),降為12先看效果,同上;

再往下:ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

f0提取算法正常選第一個,提示都有,第四個算法更適合推低音‘相應閾值是為了應對數(shù)據(jù)集如果沒請干凈,可以拉高,將很低的聲音一刀切掉;采樣不要變;淺擴散步數(shù)越大,聲音越接近模型聲音,但時間也會成比例增加;正常100就不要變。加速倍數(shù)不變。

至此,對于單個訓練流程我們已經(jīng)走完了;

注意點

再提幾個注意點:

urv5的使用

如果是使用整合包自帶的urv5:

導入模型后使用ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

該連招可以清除人聲和混響

需要處理兩次

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

第二次處理要更改輸入源;

但是,URV5有新版本了!?。]錯,你白學了,嘿嘿,URV5.6有了新的連招,相較于舊版本效果直線上升,具體可以看bfloat16的動態(tài)UVR5使用教程和最新連招 - 嗶哩嗶哩 (bilibili.com),賽博佛祖,受小兒一拜!??!

提幾個要點,新模型是需要自己去下載的,點自帶的小扳手即使連了梯子也可能會不成功,如果實在找不到文中的幾個模型可以私信我:,下圖是最新連招,需要處理三次,效果杠杠滴!

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

制作好的模型以及更換模型

當制作好后,emp文件中會有目前使用模型的模型文件

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

models_backup文件夾下也會有一份存檔

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

該存檔會把兩個模型分開存放,并且有時不會保存,還沒搞清楚什么時候會保存,最好不要相信自動存檔

最好的做法是把訓練好的模型在該文件夾下新建文件夾并復制進去,以后用的時候直接復制到emp文件夾中。想要發(fā)給別人就壓縮emp文件夾發(fā)送就行了。

推理出的結(jié)果存放位置

ai音聲擴散模型跑一次多久,筆記,python,人工智能,語音識別

在ddsp下output文件夾下,保存的是wav格式’

合成成品

進入au或者剪映,將推理出的wav和之前分離的背景wav一起放進去就可以合成啦,你還可以再用剪映添加背景圖片各種操作或者使用ae添加背景和特效。

小技巧

有時候不管怎么推我們的效果總是和預想的有些出入;

有時候一首歌前半段像,后半段又不像,歌詞平緩的時候像,高潮的時候又不像;

其實這是這首歌跨調(diào)太大,但是ai推理出的音樂只能在一個范圍內(nèi)的調(diào)變動,程序上目前只能等作者更新出識別歌曲變調(diào)功能,但是我們可以在推理時選幾個不同的變調(diào),再用au把每首歌像的地方截到一起,操作起來還是很方便的。

12.7 更新
好久沒有玩了,學習繁忙阿!~!,不過之前發(fā)現(xiàn)的數(shù)據(jù)集問題還是提一嘴把,數(shù)據(jù)集影響了之后這個模型推理的所有東西,拿原神為例,數(shù)據(jù)只有語音,沒高音,沒低音,怎么辦呢,經(jīng)過我的深度探究,知道了幾種方法,不過較為好用的算是在未訓練前將部分數(shù)據(jù)集進行降調(diào)和升調(diào)處理,具體操作為在au中定義并收藏一個升調(diào)的方法,批量將語音進行升調(diào)和降調(diào)處理,要注意,不能太過頭,容易失真,具體網(wǎng)上搜吧

有什么想問的可以在評論區(qū)或者私信我,不定時更新;

######################################

參考:

羽毛布団的個人空間-羽毛布団個人主頁-嗶哩嗶哩視頻 (bilibili.com)

DDSP-SVC 3.0 一站式整合包使用教程 (qq.com)

UVR5使用教程和最新連招 - 嗶哩嗶哩 (bilibili.com)

https://github.com/yxlllc/DDSP-SVC文章來源地址http://www.zghlxwxcb.cn/news/detail-766728.html

到了這里,關(guān)于小白也能聽懂的ai音聲制作入門教程了?。。〉奈恼戮徒榻B完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關(guān)文章

  • GPU加速02:超詳細Python Cuda零基礎入門教程,沒有顯卡也能學!

    GPU加速02:超詳細Python Cuda零基礎入門教程,沒有顯卡也能學!

    Python是當前最流行的編程語言,被廣泛應用在深度學習、金融建模、科學和工程計算上。作為一門解釋型語言,它運行速度慢也常常被用戶詬病。著名Python發(fā)行商Anaconda公司開發(fā)的Numba庫為程序員提供了Python版CPU和GPU編程工具,速度比原生Python快數(shù)十倍甚至更多。使用Numba進行

    2024年02月02日
    瀏覽(25)
  • GoogleTest從入門到入門,小白都能看懂的gtest詳細教程

    單元測試 項目管理和技術(shù)管理中做單元測試,衡量一個軟件是否正常的標準,良好的單元測試以及足夠多的覆蓋率,至少保證關(guān)鍵功能,關(guān)鍵業(yè)務的覆蓋率接近100%。 gtest是谷歌公司發(fā)布的一個跨平臺(Linux、Mac OS、Windows等)的C++單元測試框架,它提供了豐富的斷言、致命和

    2024年02月07日
    瀏覽(28)
  • 零基礎學Python入門教程非常詳細(從小白到高級)

    零基礎學Python入門教程非常詳細(從小白到高級)

    第一章-第五章(5.1-5.4):簡介、配置與基礎知識 第六章:判斷語句 Python它是一種直譯式,面向?qū)ο螅忉屖降哪_本語言。它和Java,C/C++,Go語言一樣都是高級語言,但由于它是解釋式語言,所以運行速度會比Java,C/C++等語言慢(雖說隔壁Go也是解釋式語言,但比它快很多)。不

    2024年01月19日
    瀏覽(20)
  • Android Studio入門級教程(詳細)【小白必看】[通俗易懂]

    Android Studio入門級教程(詳細)【小白必看】[通俗易懂]

    Android Studio如何使用 本文主要講解一下Android Studio使用方法 步驟: 1.建立項目 首先點擊new——new project新建項目 選擇想要創(chuàng)建的Android 的模板,建議選擇empty activity(空模板),然后next Name:給你的項目起一個名字 API level:選擇Android 虛擬機的版本,版本越低運行起來越快 剩

    2024年02月08日
    瀏覽(26)
  • Python保姆級教程 數(shù)據(jù)類型—新手小白入門必看系列

    推薦使用壓縮軟件和殺毒軟件 7 - zip 使用火絨 優(yōu)點: 代碼說明 沒注釋的代碼 有注釋的代碼 不讓解釋器執(zhí)行注釋的那句話 單行注釋快捷鍵:ctrl + ? \\\"\\\"\\\"\\\"\\\"\\\" (三個雙引號) 185730213551 什么是變量:可以改變的量 計算機用來存貯數(shù)據(jù)的盒子,想用這個數(shù)據(jù),就直接那盒子就好了

    2024年02月16日
    瀏覽(25)
  • 安裝IDEA運行Java保姆級教程(java小白入門必備)

    安裝IDEA運行Java保姆級教程(java小白入門必備)

    本文旨在為Java入門的同學介紹如何在自己電腦上運行Java程序: https://www.jetbrains.com/idea/download/#section=windows 運行Java程序的工具是 IDEA編譯器 。 下載編譯器:選擇社區(qū)版本(Community),可免費試用。點擊 Download 后等待三秒后即自動下載。 將IDEA安裝包移至特定安裝包,例如我

    2023年04月08日
    瀏覽(93)
  • windows下cmake的小白級入門使用教程(hello world)

    windows下cmake的小白級入門使用教程(hello world)

    想學習cmake,基于慣性思維,想先跑通一個“hello world”的例子,奈何網(wǎng)上教程一大把,有用的教程破費功夫?qū)ふ?。大部分教程都沒有從新電腦(重裝系統(tǒng)后的電腦)的角度講述步驟。 為了得到干凈的電腦環(huán)境,研究了一段時間VMware虛擬機,并寫了幾篇文章,感興趣的讀者可移步

    2024年02月14日
    瀏覽(25)
  • Suno教程篇:音樂小白也能使用Suno AI零門檻創(chuàng)作音樂?從此只聽AI寫的歌!

    Suno教程篇:音樂小白也能使用Suno AI零門檻創(chuàng)作音樂?從此只聽AI寫的歌!

    準備工作 基礎使用 歌曲風格 提示詞參考 親自去聽 案例展示 歌詞填入 節(jié)奏 調(diào)高 歌詞結(jié)構(gòu) 從此只聽AI為我寫的歌! (本教程將會持續(xù)更新完善,歡迎收藏。) 1、準備好網(wǎng)絡環(huán)境。 2、訪問Suno AI的官方網(wǎng)站: https://app.suno.ai 3、注冊谷歌郵箱 / 微軟郵箱 / discord賬號登錄。

    2024年04月16日
    瀏覽(18)
  • Stable Diffusion 系列教程 - 3 模型下載和LORA模型的小白入門

    Stable Diffusion 系列教程 - 3 模型下載和LORA模型的小白入門

    首先,一個比較廣泛的模型下載地址為:Civitai Models | Discover Free Stable Diffusion Models 黃框是一些過濾器,比如checkpoints可以理解為比如把1.5版本的SD模型拷貝一份后交叉識別新的畫風或場景后得到的模型,可以單獨拿出來使用。 Hypernetwork和lora在特定場景下都非常好用。我們以

    2024年02月03日
    瀏覽(24)
  • Rocky Linux 9.0 版本小白入門下載安裝使用調(diào)優(yōu)超詳細教程

    Rocky Linux 9.0 版本小白入門下載安裝使用調(diào)優(yōu)超詳細教程

    本期給大家?guī)淼氖莚ocky Linux 9.0 版本的下載安裝教程,首先rocky Linux 9.0版本是2022.7.14發(fā)布的,我剛發(fā)布第二天下載使用的,總體感覺比之前更好一些,例如壁紙、桌面環(huán)境等,然后就是軟件設施基礎準備好:VMware、XShell(可忽略,別的遠程軟件也可以),然后接下來我們就看

    2024年02月05日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包