目錄
一、前菜
1、Python選擇
2、pip源切換
3、ffmpeg配置問題
4、VSCode添加Jupyter擴展
?二、配置虛擬環(huán)境
1、下載源碼
方法一 直接下載源碼壓縮包
方法二 使用git
1)git加入鼠標右鍵
2)git clone源碼
2、VSCode出場
1)創(chuàng)建python虛擬環(huán)境
?2)安裝所需插件
A、沒有意外
B、若有意外
3)激活python虛擬環(huán)境
?4)安裝ipykernel
5) 安裝ipywidgets
6)下載checkpoints
3、操作模型
1)第一步
2)第二步?
3)第三步
4)第四步
5)第五步
?4、簡單講解
三、模型深度解析
一、前菜
開始之前,前菜是必備的,需要先設(shè)置好。
1、Python選擇
本項目使用的python版本是3.9版,因此,實操之前需要安裝python3.9.
這里簡單說明即可。
官網(wǎng)Python Release Python 3.9.0 | Python.orgDownload Python | Python.org,系統(tǒng)為Windows版,點擊如圖windowsPython Release Python 3.9.0 | Python.org
這里就不糾結(jié)了,直接3.9.0版本即可。?
?安裝時以管理員身份運行,選擇自定義安裝。以3.12.2為例,其實是一樣的。
注意勾選將python加入環(huán)境變量,就不需要手動添加環(huán)境變量了。
?另外,選擇自定義安裝位置。其他默認即可。
2、pip源切換
勾選顯示隱藏的項目
切到路徑C:\Users\whyafer\AppData\Roaming\pip,其中,whyafer為自己的電腦用戶名。記事本打開pip.ini文件,刪除原有的代碼,覆蓋如下代碼即可。
[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple
[install]
trusted-host=pypi.tuna.tsinghua.edu.cn
?這樣可以一勞永逸地解決安裝插件時網(wǎng)絡(luò)問題。
3、ffmpeg配置問題
使用的python虛擬環(huán)境會用到ffmpeg,但需要環(huán)境變量的配置。
官網(wǎng)Builds - CODEX FFMPEG @ gyan.dev下載6.1.1即可
選擇一個位置,解壓,然后打開環(huán)境變量設(shè)置。
按win鍵,輸入環(huán)境變量
雙擊系統(tǒng)變量,path?
?依次選擇
?點擊到ffmpeg解壓的bin文件夾下
?
確定即可
?按win鍵,cmd,輸入如下代碼
ffmpeg -version
說明配置完成。
若還是不行,則需要另外的操作。
配合創(chuàng)建的python虛擬環(huán)境使用。找到路徑:.venv\Lib\pydub\utils.py,找到which()函數(shù)下如下代碼
?下一行添加:路徑為自己解壓路徑。保存ctrl+s即可。
envdir_list.append(r'D:\pythonvenv\ffmpeg\ffmpeg-7.0-full_build\bin')
4、VSCode添加Jupyter擴展
點擊F1,選擇Extensions:Install Extensions
?輸入Jupyter搜索,安裝第一個即可,會自動安裝附帶擴展。
?二、配置虛擬環(huán)境
1、下載源碼
源碼地址:myshell-ai/OpenVoice: Instant voice cloning by MyShell. (github.com)
兩種方法
方法一 直接下載源碼壓縮包
建議使用此方法。如圖下載壓縮包,解壓到你新建的空白項目文件夾下即可。
方法二 使用git
如果你電腦里有g(shù)it,可以使用
首先,新建文件夾
在空文件夾下,右鍵鼠標選擇Git Bash Here,前提是你已經(jīng)將git加入鼠標右鍵了。如果沒有的話,請將git加入鼠標右鍵。
1)git加入鼠標右鍵
win+R,輸入regedit,打開注冊表,收起計算機項目
?在地址欄輸入如下代碼,回車enter
\HKEY_CLASSES_ROOT\Directory\Background
?在Background\shell下,新建項“Git Bash Here”,名稱隨意。然后,在新建項下,新建項“command",我是已經(jīng)新建好的。
?
?然后,點擊新建項"Git Bash Here",隨后注冊表右側(cè)空白處右鍵新建字符串值,命名為"Icon"。
還是在鼠標點擊"Git Bash Here"的情況下,即上圖1,雙擊右側(cè)默認項,值為”Git Bash Here",即顯示在鼠標右鍵的名稱。
?雙擊"Icon",值為"E:\software\Git\mingw64\share\git\git-for-windows.ico",為鼠標右鍵的圖標。
然后,鼠標點擊"commond",雙擊右側(cè)默認項,值為:"?E:\software\Git\git-bash.exe"
2)git clone源碼
在新建的空白項目文件夾下,右鍵鼠標,選擇"Git Bash Here",若沒有這個選擇,可能需要點擊"顯示更多選項",在控制臺輸入如下代碼,回車即可。
git clone https://github.com/myshell-ai/OpenVoice.git
?
2、VSCode出場
1)創(chuàng)建python虛擬環(huán)境
使用VSCode打開項目,按F1按鈕,選擇如圖選項,Python:Select Interpreter
?選擇新建虛擬環(huán)境
選擇"Venv"
?選擇3.9python
若沒有3.9python選項,選擇第一個"Enter interpreter path"
?點擊"Find",選到你按照python3.9的文件夾下的python.exe即可。
?2)安裝所需插件
A、沒有意外
正確切換pip源之后,一般是不會出現(xiàn)意外的。
選好python編譯器之后,勾選如圖項,然后點擊ok。過程需要些時間,耐心等待VSCode安裝完成。
?不要動,等待就好。
B、若有意外
如果你沒有勾選上一步,那么就需要手動操作安裝了。
此步驟在激活python虛擬環(huán)境的情況下,在控制臺,輸入代碼
pip install -r requirements.txt
3)激活python虛擬環(huán)境
選擇Terminal->New Terminal
?下方輸入代碼,回車enter即可。
.\.venv\Scripts\activate
?4)安裝ipykernel
激活虛擬環(huán)境的情況下,控制臺輸入代碼
pip install ipykernel
5) 安裝ipywidgets
激活虛擬環(huán)境的情況下,控制臺輸入代碼
pip install ipywidgets
6)下載checkpoints
網(wǎng)址:
https://myshell-public-repo-hosting.s3.amazonaws.com/checkpoints_1226.zip
直接下載壓縮包,解壓之后放在項目根目錄下。
?checkpoints包含中文ZH和英文EN兩種語言的模型處理文件。
3、操作模型
A、操作demo_part1.ipynb
點擊左側(cè)文件demo_part1.ipynb,然后點擊右側(cè)紅框部分選擇虛擬環(huán)境。
?選擇Python Environments
選擇我們創(chuàng)建的虛擬環(huán)境.venv?
注意:每次關(guān)閉項目或者demo_part1.ipynb文件,要依次重新執(zhí)行。每個都可多次點擊,以消除警告信息。
1)第一步
?點擊下面的三角按鈕
2)第二步?
點擊Initialization下的三角按鈕。
3)第三步
?執(zhí)行source_se,可省略。
4)第四步
執(zhí)行reference_speaker,可多點擊幾次,便不會出現(xiàn)問題。
5)第五步
執(zhí)行Inference,挑選一個執(zhí)行即可。默認情況下,選擇英文例子。
注意:運行英文代碼最好加一句,避免出錯中英文checkpoints不對應。
ckpt_base = 'checkpoints/base_speakers/EN'
第一個是默認英文例子。
第二個也是英文,修改了語氣與語速。
語氣speaker="whispering",其余可選friendly, cheerful, excited, sad, angry, terrified, shouting
語速speed=0.9,可嘗試自己。
語言language='English',為英文,切換中文為'Chinese’。
base_speaker_tts.tts(text, src_path, speaker='whispering', language='English', speed=0.9)
?第三個是中文,只有默認語氣。
B、操作demo_part2.ipynb?
這個要使用OPENAI_API_KEY,如果你有的話,那么,應該就不需要我來實操演示了,請根據(jù)demo_part2.ipynb說明操作即可。
?4、簡單講解
要使用的訓練語音為:
reference_speaker = 'resources/example_reference.mp3'
?更改自己的語音,將自己的語音文件,如"ky_kk.mp3",放在項目路徑resources文件夾下,注意,為mp3后綴文件。將example_reference更改為自己語音的名稱即可。剛更改好,最好重啟VSCode,以防報錯找不到文件。更改完畢,然后執(zhí)行這一步。
以中文為例?,但是中文不能選擇語氣,只有默認的。
?變量ckpt_base表示語音模仿對象語種模型處理的文件夾位置。中文ZH,英文則為EN。
ckpt_base = 'checkpoints/base_speakers/ZH'
?變量source_se用于模仿語音語調(diào)的提取訓練,區(qū)分中英文。中文為zh_default_se.pth,英文為en_default_se.pth。
source_se = torch.load(f'{ckpt_base}/zh_default_se.pth').to(device)
?變量save_path表示輸出的語音文件存檔位置,output_chinese.wav為輸出文件名,每次運行可更改,即可不斷生成不同語音文件。
save_path = f'{output_dir}/output_chinese.wav'
變量text表示要輸出的語音內(nèi)容。?
text = "今天天氣真好,我們一起出去吃飯吧。"
?變量src_path與變量save_path作用相同,使用語調(diào)為默認。默認音色輸出為tmp.wav。
src_path = f'{output_dir}/tmp.wav'
因此,對于輸出的語音文件,你有兩個選擇
output_chinese.wav和tmp.wav,隨自己選擇。文章來源:http://www.zghlxwxcb.cn/news/detail-855486.html
三、模型深度解析
敬請期待。文章來源地址http://www.zghlxwxcb.cn/news/detail-855486.html
到了這里,關(guān)于【開源語音項目OpenVoice](一)——實操演示的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!