本文主要是關(guān)于語音數(shù)據(jù)在處理過程中的一些腳本文件以及實(shí)例,所有代碼只需要更改所需處理的文件路徑,輸出路徑等,全部可運(yùn)行。
目錄
所需環(huán)境
方法1:將一整段音頻按時間批量切成一個一個音頻
方法2:將一整段音頻按語句停頓批量切成一個一個音頻
方法3:將一個文件夾內(nèi)的幾整段音頻批量切成一個一個音頻
3.1.數(shù)據(jù)格式:一個文件夾下的長幾分多的音頻(wav文件)按固定秒數(shù)切割
3.2.數(shù)據(jù)格式:一個文件夾下的長幾分多的音頻(mp3文件)按固定秒數(shù)切割
3.3.數(shù)據(jù)格式:一個文件夾下的長幾分多的音頻(wav文件)按語句停頓切割
擴(kuò)展
將pcm文件批量處理成wav文件
Linux下查詢文件夾中文件數(shù)量的方法
使用ls命令和wc命令
WAV格式文件詳解
所需環(huán)境
本文環(huán)境:Linux
pydub(安裝:pip3 install pydub)
ffmpeg(apt install ffmpeg)
方法1:將一整段音頻按時間批量切成一個一個音頻
數(shù)據(jù)格式:一個長三分五十秒的音頻
# split_wav_time.py
from pydub import AudioSegment
from pydub.utils import make_chunks
audio = AudioSegment.from_file("his_one/1.wav", "wav")
#size = 10000 #切割的毫秒數(shù) 10s=10000
size = 60000 #切割的毫秒數(shù) 60s=60000
chunks = make_chunks(audio, size) #將文件切割為60s一個
for i, chunk in enumerate(chunks):
chunk_name = "new-{0}.wav".format(i)
print(chunk_name)
chunk.export(chunk_name, format="wav")
運(yùn)行命令:
python split_wav_time.py
?結(jié)果:
方法2:將一整段音頻按語句停頓批量切成一個一個音頻
數(shù)據(jù)格式:一個長幾分多的音頻
利用split_on_silence(sound,min_silence_len, ? silence_thresh, ? ?keep_silence=400)函數(shù)
第一個參數(shù)為待分割音頻,第二個為多少秒“沒聲”代表沉默,第三個為分貝小于多少dBFS時代表沉默,第四個為為截出的每個音頻添加多少ms無聲
from pydub import AudioSegment
from pydub.silence import split_on_silence
sound = AudioSegment.from_mp3("his_one/1.wav")
loudness = sound.dBFS
#print(loudness)
chunks = split_on_silence(sound,
# must be silent for at least half a second,沉默半秒
min_silence_len=430,
# consider it silent if quieter than -16 dBFS
silence_thresh=-45,
keep_silence=400
)
print('Len:', len(chunks))
# 放棄長度小于2秒的錄音片段
for i in list(range(len(chunks)))[::-1]:
if len(chunks[i]) <= 2000 or len(chunks[i]) >= 10000:
chunks.pop(i)
print('取有效分段(大于2s小于10s):', len(chunks))
'''
for x in range(0,int(len(sound)/1000)):
print(x,sound[x*1000:(x+1)*1000].max_dBFS)
'''
for i, chunk in enumerate(chunks):
chunk.export("cutwav_{0}.wav".format(i), format="wav")
#print(i)
??結(jié)果:
方法3:將一個文件夾內(nèi)的幾整段音頻批量切成一個一個音頻
3.1.數(shù)據(jù)格式:一個文件夾下的長幾分多的音頻(wav文件)按固定秒數(shù)切割
from pydub import AudioSegment
from pydub.utils import make_chunks
import os, re
# # 循環(huán)目錄下所有文件
for each in os.listdir("/workspace/tts/PolyLangVITS/history"): #循環(huán)目錄
filename = re.findall(r"(.*?)\.wav", each) # 取出.wav后綴的文件名
print(each)
if each:
# filename[0] += '.wav'
# print(filename[0])
mp3 = AudioSegment.from_file('/workspace/tts/PolyLangVITS/history/{}'.format(each), "wav") # 打開mp3文件
# # # mp3[17*1000+500:].export(filename[0], format="mp3") #
size = 15000 # 切割的毫秒數(shù) 10s=10000
chunks = make_chunks(mp3, size) # 將文件切割為15s一塊
for i, chunk in enumerate(chunks):
chunk_name = "{}-{}.wav".format(each.split(".")[0],i)
print(chunk_name)
chunk.export('/workspace/tts/PolyLangVITS/preprodata/his_out/{}'.format(chunk_name), format="wav")
?結(jié)果
3.2.數(shù)據(jù)格式:一個文件夾下的長幾分多的音頻(mp3文件)按固定秒數(shù)切割
from pydub import AudioSegment
from pydub.utils import make_chunks
import os, re
# #
# # 循環(huán)目錄下所有文件
for each in os.listdir("D:/純音樂"): #循環(huán)目錄
filename = re.findall(r"(.*?)\.mp3", each) # 取出.mp3后綴的文件名
print(each)
if each:
# filename[0] += '.wav'
# print(filename[0])
mp3 = AudioSegment.from_file('D:/純音樂/{}'.format(each), "mp3") # 打開mp3文件
# # # mp3[17*1000+500:].export(filename[0], format="mp3") #
size = 15000 # 切割的毫秒數(shù) 10s=10000
chunks = make_chunks(mp3, size) # 將文件切割為15s一塊
for i, chunk in enumerate(chunks):
chunk_name = "{}-{}.mp3".format(each.split(".")[0],i)
print(chunk_name)
chunk.export('D:/純音樂分解/{}'.format(chunk_name), format="mp3")```
?3.3.數(shù)據(jù)格式:一個文件夾下的長幾分多的音頻(wav文件)按語句停頓切割
?
# @ Elena
# @ Date : 23.9.4
import os, re
from pydub import AudioSegment
from pydub.silence import split_on_silence
# # 循環(huán)目錄下所有文件
for each in os.listdir("/workspace/tts/PolyLangVITS/history"):
filename = re.findall(r"(.*?)\.wav", each) # 取出.wav后綴的文件名
print(each)
if each:
sound = AudioSegment.from_file('/workspace/tts/PolyLangVITS/history/{}'.format(each), "wav")
loudness = sound.dBFS
#print(loudness)
chunks = split_on_silence(sound,
# must be silent for at least half a second,沉默半秒
min_silence_len=430,
# consider it silent if quieter than -16 dBFS
silence_thresh=-45,
keep_silence=400
)
print('Len:', len(chunks))
# 放棄長度小于1秒的錄音片段
for i in list(range(len(chunks)))[::-1]:
if len(chunks[i]) <= 1000 or len(chunks[i]) >= 10000:
chunks.pop(i)
print('Len (1s~10s wav file):', len(chunks))
'''
for x in range(0,int(len(sound)/1000)):
print(x,sound[x*1000:(x+1)*1000].max_dBFS)
'''
for i, chunk in enumerate(chunks):
chunk_name = "{}-{}.wav".format(each.split(".")[0],i)
chunk.export("/workspace/tts/PolyLangVITS/preprodata/his_out/{}".format(chunk_name), format="wav")
#print(i)
結(jié)果
使用 file 查詢? wav
(WAV文件格式是Microsoft的RIFF規(guī)范的一個子集,用于存儲多媒體文件。WAV(RIFF)文件由若干個Chunk組成,分別為: RIFF WAVE Chunk,F(xiàn)ormat Chunk,F(xiàn)act Chunk(可選),Data Chunk。具體格式如下:)
擴(kuò)展
將pcm文件批量處理成wav文件
import wave
import os
filepath = "data/" # 添加路徑
filename = os.listdir(filepath) # 得到文件夾下的所有文件名稱
#f = wave.open(filepath + filename[1], 'rb')
#print(filename)
for i in range(len(filename)):
with open("data/"+failename[i], 'rb') as pcmfile:
pcmdata = pcmfile.read()
with wave.open("data/"+filename[i][:-3] + '.wav', 'wb') as wavfile:
wavfile.setparams((1, 2, 16000, 0, 'NONE', 'NONE'))
wavfile.writeframes(pcmdata)
Linux下查詢文件夾中文件數(shù)量的方法
使用ls
命令和wc
命令
使用ls
命令的-l
選項(xiàng)和管道操作符|
結(jié)合wc
命令來統(tǒng)計(jì)文件數(shù)量:
查詢當(dāng)前文件夾下帶有“wav”的文件數(shù)量
ls -l | grep "wav" | wc -l
?
WAV格式文件詳解
WAV文件格式是Microsoft的RIFF規(guī)范的一個子集,用于存儲多媒體文件。WAV(RIFF)文件由若干個Chunk組成,分別為: RIFF WAVE Chunk,F(xiàn)ormat Chunk,F(xiàn)act Chunk(可選),Data Chunk。具體格式如下:
音頻文件參數(shù)簡介
對于形如44100HZ 16bit stereo 或者 22050HZ 8bit mono參數(shù)描述的音頻文件,其蘊(yùn)含的文件參數(shù)包括:
采樣率:聲音信號在“?!鷶?shù)”轉(zhuǎn)換過程中單位時間內(nèi)采樣的次數(shù)。
采樣值(采樣精度):每一次采樣周期內(nèi)聲音模擬信號的積分值。
同時,每個采樣數(shù)據(jù)記錄的是振幅, 而采樣精度取決于儲存空間的大小。
對于單聲道(mono)文件,采樣數(shù)據(jù)為8位的短整數(shù),同時其采樣精度有:
1 字節(jié)(8bit) 只能記錄 256 個數(shù), 也就是只能將振幅劃分成 256 個等級;
2 字節(jié)(16bit) 可以細(xì)到 65536 個數(shù), 即為 CD 標(biāo)準(zhǔn);
4 字節(jié)(32bit) 能把振幅細(xì)分到 4294967296 個等級, 實(shí)在是沒必要了。
對于雙聲道立體聲(stereo)文件,每次采樣數(shù)據(jù)為一個16位的整數(shù)(int),且采樣是雙份的,也為單聲道文件的兩倍。采樣數(shù)據(jù)中高八位(左聲道)和低八位(右聲道)分別代表兩個聲道。文章來源:http://www.zghlxwxcb.cn/news/detail-715669.html
由于wav格式文件本質(zhì)上為音頻文件,即可根據(jù)文件的大小、采樣頻率和采樣大小估算文件的播放長度。
更多可查看Microsoft WAVE soundfile format (sapp.org)文章來源地址http://www.zghlxwxcb.cn/news/detail-715669.html
到了這里,關(guān)于Speech | 語音處理,分割一段音頻(python)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!