語(yǔ)音識(shí)別入門(mén)——常用軟件及python運(yùn)用

這篇具有很好參考價(jià)值的文章主要介紹了語(yǔ)音識(shí)別入門(mén)——常用軟件及python運(yùn)用。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

工具以及使用到的庫(kù)

ffmpeg
sox
audacity
pydub
scipy
librosa
pyAudioAnalysis
plotly

本文分為兩個(gè)部分：

P1：如何使用ffmpeg和sox處理音頻文件
P2：如何編程處理音頻文件并執(zhí)行基本處理

P1 處理語(yǔ)音數(shù)據(jù)——命令行方式

格式轉(zhuǎn)換

ffmpeg -i video.mkv audio.mp3

使用ffmpeg將輸入mkv文件轉(zhuǎn)為mp3文件

降采樣、通道轉(zhuǎn)換

ffmpeg -i audio.wav -ar 16000 -ac 1 audio_16K_mono.wav

ar:聲頻采樣率（audio rate）
ac：聲頻通道（audio channel）
此處是將原來(lái)44.1kHz的雙通道wav文件轉(zhuǎn)為單通道wav文件

獲取音頻信息

ffmpeg -i audio_16K_mono.wav

將得到

Input #0, wav, from ‘a(chǎn)udio_16K_mono.wav’:
Metadata:
encoder : Lavf57.71.100
Duration: 00:03:10.29, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 16000 Hz,
mono, s16, 256 kb/s

#0表示只有一個(gè)通道
encoder：為libavformat支持的一種容器
Duration：時(shí)長(zhǎng)
bitrate：比特率256kb/s，表示音頻每秒傳輸?shù)臄?shù)據(jù)量，高質(zhì)量音頻一般比較大
Stram：流
#0：0：?jiǎn)瓮ǖ?/li>
pcm_s16le:
- pcm(脈沖編碼調(diào)制，pulse-code modulation)
- signed integer 16：（16位有符號(hào)整型）格式采樣
- le表示小端（little endian），高位數(shù)據(jù)存地址高位，地位數(shù)據(jù)存地址地位，有如[1][0][0][0] / 0x0001。
mono：?jiǎn)瓮ǖ?/li>

小插曲

最近看到一道數(shù)據(jù)類(lèi)型題
題目：為什么float類(lèi)型 $\mathbf{(1e10+3.14)-1e10=0?}$
解題如下：
$\mathbf{1e10}$ 二進(jìn)制表示為：
$\mathbf{0010'0101'0100'0000'1011'1110'0100'0000'0000}$
或者表示為
$\mathbf{1.0010'1010'0000'0101'1111'0010'0000'0000'0_2*2^{33}}$

浮點(diǎn)數(shù)三要素：

首位：0表示正數(shù)，1表示負(fù)數(shù)
中間位，8位，為科學(xué)計(jì)數(shù)法指數(shù)部分，上例為33與偏置量（127）的和，此例為160，二進(jìn)制為1010’0000
尾部：23位，二進(jìn)制表示的小數(shù)部分的前23位，此例為0010’1010’0000’0101’1111’001
故 $\mathbf{1e10}$ 的浮點(diǎn)數(shù)為：
$\mathbf{0'1010'0000'0010'1010'0000'0101'1111'001}$
到此為止，可知舍去了科學(xué)計(jì)數(shù)法中小數(shù)部分的后10位

小數(shù)的二進(jìn)制表示兩個(gè)要素：

整數(shù)部分：正常表示，3.14整數(shù)部分為0011
小數(shù)部分：乘以2取整數(shù)部分，
- 0.14*2=0.28 取0
- 0.28*2=0.56 取0
- 0.56*2=1.12 取1
- 0.12*2=0.24 取0
- 0.24*2=0.48 取0
- 0.48*2=0.96 取0
- 0.96*2=1.92 取1
- …

3.14的二進(jìn)制表示為：
$\mathbf{11.0010001...}$
綜上， $\mathbf{1e10+3.14}$ 的二進(jìn)制表示為：
$\mathbf{1.0010'1010'0000'0101'1111'0010'0000'0001'1001’0001_2*2^{33}}$
轉(zhuǎn)為浮點(diǎn)數(shù)，為
$\mathbf{0'1010'0000'0010'1010'0000'0101'1111'001}$
與 $\mathbf{1e10}$ 一樣，故float類(lèi)型 $\mathbf{(1e10+3.14)-1e10}=0$

修剪音頻

ffmpeg -i audio.wav -ss 60 -t 20 audio_small.wav

i：輸入音頻audio.wav
ss: 截取起始秒
t：截取段時(shí)長(zhǎng)
audio_small.wav:輸出文件

串聯(lián)視頻

新建一個(gè)list_of_files_to_concat的txt文檔，內(nèi)容如下：

file 'file1.wav'
file 'file2.wav'
file 'file3.wav'

采用以下命令行，可將三個(gè)文件串聯(lián)輸出，編碼方式為復(fù)制

ffmpeg -f concat -i list_of_files_to_concat -c copy output.wav

分割視頻

以下命令行將輸入視頻分割為1s一個(gè)

ffmpeg -i output.wav -f segment -segment_time 1 -c copy out%05d.wav

交換聲道

ffmpeg -i stereo.wav -map_channel 0.0.1 -map_channel 0.0.0 stereo_inverted.wav

0.0.1輸入文件音頻流右聲道
0.0.0輸入文件音頻流左聲道

合并聲道

ffmpeg -i left.wav -i right.wav -filter_complex "[0:a][1:a]join=inputs=2:channel_layout=stereo[a]" -map "[a]" mix_channels.wav

filter_complex：復(fù)雜音頻濾波器圖
[0:a],[1:a]：第一個(gè)和第二個(gè)文件的音頻流
join=inputs=2：表示兩個(gè)輸入流混合
channel_layout=stereo：混合后輸出為立體聲
[a]：輸出音頻流標(biāo)簽
map ”[a]"：將‘[a]'標(biāo)簽的音頻流映射到輸出文件

分割立體聲音頻為左右單聲道文件

ffmpeg -i stereo.wav -map_channel 0.0.0 left.wav -map_channel 0.0.1 right.wav

map_channel 0.0.0:將左聲道映射到第一個(gè)輸出文件
map_channel 0.0.1:將右聲道映射到第二個(gè)輸出文件

將某個(gè)聲道靜音

ffmpeg -i stereo.wav -map_channel -1 -map_channel 0.0.1 muted.wav

map_channel -1:忽略某聲道
map_channel 0.0.1:將右聲道映射到輸出文件

音量調(diào)節(jié)

ffmpeg -i data/music_44100.wav -filter:a “volume=0.5” data/music_44100_volume_50.wav
ffmpeg -i data/music_44100.wav -filter:a “volume=2.0” data/music_44100_volume_200.wav

filter:a：使用音頻過(guò)濾器
“volume=0.5”：將音頻音量變?yōu)樵瓉?lái)一半
“volume=2”：將音頻音量變?yōu)樵瓉?lái)兩倍

圖1 原聲，半聲，倍聲(自上而下) 由圖1可知，二倍聲出現(xiàn)削波（失真）現(xiàn)象。

sox音量調(diào)節(jié)

sox -v 0.5 data/music_44100.wav data/music_44100_volume_50_sox.wav
sox -v 2.0 data/music_44100.wav data/music_44100_volume_200_sox.wav

$\text{sox -v n}$ 輸入文件路徑輸出文件路徑

v n:音量調(diào)節(jié)系數(shù)，n可理解為倍數(shù)。

P2 處理語(yǔ)音數(shù)據(jù)——編程方式

wav: scipy.io.wavfile
mp3:pydub

以數(shù)組形式加載音頻文件

# 以數(shù)組形式讀取wav和mp3
from pydub import AudioSegment
import numpy as np
from scipy.io import wavfile


# 用 scipy.io.wavfile 讀取wav文件
fs_wav, data_wav = wavfile.read("resampled.wav")

# 用 pydub 讀取mp3
audiofile = AudioSegment.from_file("resampled.mp3")
data_mp3 = np.array(audiofile.get_array_of_samples())
fs_mp3 = audiofile.frame_rate

print('Sq Error Between mp3 and wav data = {}'.
      format(((data_mp3 - data_wav)**2).sum()/len(data_wav)))
print('Signal Duration = {} seconds'.
      format(data_wav.shape[0] / fs_wav))

# 輸出,我使用ffmpeg將wav轉(zhuǎn)成MP3，比特率將為24kb
Sq Error Between mp3 and wav data = 3775.2859044790266
Signal Duration = 34.5513125 seconds

顯示左右聲道

import numpy as np
from scipy.io import wavfile
import matplotlib.pyplot as plt
fs,data=wavfile.read('resampled_double.wav')
time=np.arange(0,len(data))/fs
fig,axs=plt.subplots(2,1,figsize=(10,6),sharex=True)
axs[0].plot(time,data[:,0],label='Left Channel',color='blue')
axs[0].set_ylabel('Amplitude')
axs[0].legend()
axs[1].plot(time,data[:,1],label='Right Channel',color='orange')
axs[1].set_ylabel('Amplitute')
axs[1].set_xlabel('Time(seconds)')
axs[1].legend()
plt.suptitle("Stereo Audio Waveform")
plt.show()

python 語(yǔ)音分析工具,語(yǔ)音識(shí)別,python,人工智能

圖2 左右聲道展示

正則化

import matplotlib.pyplot as plt
from scipy.io import wavfile
import numpy as np
fs,data = wavfile.read("resampled_double.wav")
time=np.arange(0,len(data))/fs
plt.figure(figsize=(10,4))
plt.plot(time,data[:,0]/2^15)
plt.xlabel('Time(seconds)')
plt.ylabel('Amplitude')
plt.title('Stereo Audio Waveform')

python 語(yǔ)音分析工具,語(yǔ)音識(shí)別,python,人工智能

圖3 數(shù)據(jù)量化后的波形圖

修剪音頻

# 顯示2到4秒的波形
import numpy as np
import matplotlib.pyplot as plt
from scipy.io import wavfile
fs,data=wavfile.read('resampled_double.wav')
time=np.arange(0,len(data[2*fs:4*fs]))/fs
plt.figure(figsize=(10,4))
plt.plot(time,data[2*fs:4*fs])
plt.xlabel('Time/s')
plt.ylabel('Amplitude')
plt.title('Stereo Audio Waveform')
plt.show()

python 語(yǔ)音分析工具,語(yǔ)音識(shí)別,python,人工智能

圖4 剪輯后音頻波形

分割為固定大小

import numpy as np
from scipy.io import wavfile
import IPython
fs,signal=wavfile.read("resampled.wav")
segment_size_t=1
segment_size=segment_size_t*fs
segments=[signal[x:x+segment_size]for x in range(0,len(signal),segment_size)]
for i,s in enumerate(segments):
	if len(s)<segment_size:
		s=np.pad(s,(0,(segment_size-len(s))),'constant')		# 這里是為了每個(gè)clip都為1s
	wavfile.write(f"resampled_segment_{i}_{i+1}.wav",fs,s)
IPython.display.display(IPython.display.Audio("resampled_segment_34_35.wav"))

# 輸出，成功輸出35個(gè)1s的wav文件

簡(jiǎn)單算法——?jiǎng)h去無(wú)聲片段

import IPython
import matplotlib.pyplot as plt
import numpy as np
energies=[((s/2**15)**2).sum()/len(s) for s in segments]	# 防止溢出
thres=np.percentile(energies,20)
indices_of_segments_to_keep=(np.where(energies>thres)[0])
segments2=np.array(segments)[indices_of_segments_to_keep]
new_signal=np.concatenate(segments2)
wavfile.write("processed_new.wav",fs,new_signal.astype(np.int16))	# 轉(zhuǎn)成int
plt.figure(figsize=(10,6))
plt.plot(energies,label="Energies",color="red")
plt.plot(np.ones(len(energies))*thres,label="Thresholds",color="blue")
plt.title("Energies VS Thresholds")
plt.legend()
plt.show()
IPython.display.display(IPython.display.Audio("processed_new.wav"))
IPython.display.display(IPython.display.Audio("resampled.wav"))

python 語(yǔ)音分析工具,語(yǔ)音識(shí)別,python,人工智能

圖5 根據(jù)能量無(wú)聲片段的刪除及刪除后的時(shí)長(zhǎng)

往單聲道音頻中加入節(jié)拍

import numpy as np
import scipy.io.wavfile as wavfile
import librosa
import IPython
import matplotlib.pyplot as plt

# 加載文件并提取節(jié)奏和節(jié)拍：
[Fs, s] = wavfile.read('resampled.wav')
tempo, beats = librosa.beat.beat_track(y=s.astype('float'), sr=Fs, units="time")
beats -= 0.05

# 在每個(gè)節(jié)拍的第二個(gè)聲道上添加小的220Hz聲音
s = s.reshape(-1, 1)
s = np.array(np.concatenate((s, np.zeros(s.shape)), axis=1))
for ib, b in enumerate(beats):
    t = np.arange(0, 0.2, 1.0 / Fs)
    amp_mod = 0.2 / (np.sqrt(t)+0.2) - 0.2
    amp_mod[amp_mod < 0] = 0
    x = s.max() * np.cos(2 * np.pi * t * 220) * amp_mod
    s[int(Fs * b): int(Fs * b) + int(x.shape[0]), 1] = x.astype('int16')

# 寫(xiě)入一個(gè)wav文件，其中第二個(gè)聲道具有估計(jì)的節(jié)奏：
wavfile.write("tempo.wav", Fs, np.int16(s))

# 在筆記本中播放生成的文件：
IPython.display.display(IPython.display.Audio("tempo.wav"))

# 繪制波形圖
time = np.arange(0, len(s)) / Fs
fig, axs = plt.subplots(2, 1, figsize=(10, 6), sharex=True)
axs[0].plot(time, s[:, 0], label='左聲道', color='orange')
axs[0].set_ylabel('振幅')
axs[0].legend()
axs[1].plot(time, s[:, 1], label='右聲道', color='blue')
axs[1].set_xlabel("時(shí)間/秒")
axs[1].set_ylabel("振幅")
axs[1].legend()
plt.show()

python 語(yǔ)音分析工具,語(yǔ)音識(shí)別,python,人工智能

圖6 添加tempo的左右聲道及音頻

實(shí)時(shí)錄制以及頻率分析

# paura_lite:
# 一個(gè)超簡(jiǎn)單的命令行音頻錄制器，具有實(shí)時(shí)頻譜可視化

import numpy as np
import pyaudio
import struct
import scipy.fftpack as scp
import termplotlib as tpl
import os

# 獲取窗口尺寸
rows, columns = os.popen('stty size', 'r').read().split()

buff_size = 0.2          # 窗口大小（秒）
wanted_num_of_bins = 40  # 要顯示的頻率分量數(shù)量

# 初始化聲卡進(jìn)行錄制：
fs = 8000
pa = pyaudio.PyAudio()
stream = pa.open(format=pyaudio.paInt16, channels=1, rate=fs,
                 input=True, frames_per_buffer=int(fs * buff_size))

while 1:  # 對(duì)于每個(gè)錄制的窗口（直到按下Ctrl+C）
    # 獲取當(dāng)前塊并將其轉(zhuǎn)換為short整數(shù)列表，
    block = stream.read(int(fs * buff_size))
    format = "%dh" % (len(block) / 2)
    shorts = struct.unpack(format, block)

    # 然后進(jìn)行歸一化并轉(zhuǎn)換為numpy數(shù)組：
    x = np.double(list(shorts)) / (2**15)
    seg_len = len(x)

    # 獲取當(dāng)前窗口的總能量并計(jì)算歸一化因子
    # 用于可視化最大頻譜圖值
    energy = np.mean(x ** 2)
    max_energy = 0.02  # 條形設(shè)置為最大的能量
    max_width_from_energy = int((energy / max_energy) * int(columns)) + 1
    if max_width_from_energy > int(columns) - 10:
        max_width_from_energy = int(columns) - 10

    # 獲取FFT的幅度和相應(yīng)的頻率
    X = np.abs(scp.fft(x))[0:int(seg_len/2)]
    freqs = (np.arange(0, 1 + 1.0/len(X), 1.0 / len(X)) * fs / 2)

    # ... 并重新采樣為固定數(shù)量的頻率分量（用于可視化）
    wanted_step = (int(freqs.shape[0] / wanted_num_of_bins))
    freqs2 = freqs[0::wanted_step].astype('int')
    X2 = np.mean(X.reshape(-1, wanted_step), axis=1)

    # 將（頻率，F(xiàn)FT）作為水平直方圖繪制：
    fig = tpl.figure()
    fig.barh(X2, labels=[str(int(f)) + " Hz" for f in freqs2[0:-1]],
             show_vals=False, max_width=max_width_from_energy)
    fig.show()
    # 添加足夠多的新行以清除屏幕在下一次迭代中：
    print("\n" * (int(rows) - freqs2.shape[0] - 1))

python 語(yǔ)音分析工具,語(yǔ)音識(shí)別,python,人工智能文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-774390.html

圖7 實(shí)時(shí)錄制并獲取頻譜直方圖

到了這里，關(guān)于語(yǔ)音識(shí)別入門(mén)——常用軟件及python運(yùn)用的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Toy模板網(wǎng)

語(yǔ)音識(shí)別入門(mén)——常用軟件及python運(yùn)用

工具以及使用到的庫(kù)

P1 處理語(yǔ)音數(shù)據(jù)——命令行方式

格式轉(zhuǎn)換

降采樣、通道轉(zhuǎn)換

獲取音頻信息

小插曲

修剪音頻

串聯(lián)視頻

分割視頻

交換聲道

合并聲道

分割立體聲音頻為左右單聲道文件

將某個(gè)聲道靜音

音量調(diào)節(jié)

P2 處理語(yǔ)音數(shù)據(jù)——編程方式

以數(shù)組形式加載音頻文件

顯示左右聲道

正則化

修剪音頻

分割為固定大小

簡(jiǎn)單算法——?jiǎng)h去無(wú)聲片段

往單聲道音頻中加入節(jié)拍

實(shí)時(shí)錄制以及頻率分析

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

微信掃一掃打賞

支付寶掃一掃領(lǐng)取紅包，優(yōu)惠每天領(lǐng)

二維碼1

二維碼2

語(yǔ)音識(shí)別入門(mén)——常用軟件及python運(yùn)用

工具以及使用到的庫(kù)

P1 處理語(yǔ)音數(shù)據(jù)——命令行方式

格式轉(zhuǎn)換

降采樣、通道轉(zhuǎn)換

獲取音頻信息

小插曲

修剪音頻

串聯(lián)視頻

分割視頻

交換聲道

合并聲道

分割立體聲音頻為左右單聲道文件

將某個(gè)聲道靜音

音量調(diào)節(jié)

P2 處理語(yǔ)音數(shù)據(jù)——編程方式

以數(shù)組形式加載音頻文件

顯示左右聲道

正則化

修剪音頻

分割為固定大小

簡(jiǎn)單算法——?jiǎng)h去無(wú)聲片段

往單聲道音頻中加入節(jié)拍

實(shí)時(shí)錄制以及頻率分析

相關(guān)文章

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

微信掃一掃打賞

支付寶掃一掃領(lǐng)取紅包，優(yōu)惠每天領(lǐng)

二維碼1

二維碼2

降采樣、通道轉(zhuǎn)換

支付寶掃一掃領(lǐng)取紅包，優(yōu)惠每天領(lǐng)