国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

語(yǔ)音識(shí)別系列︱用python進(jìn)行音頻解析（一）

2年前作者：悟乙己分類：Toy博客閱讀(20)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了語(yǔ)音識(shí)別系列︱用python進(jìn)行音頻解析（一）。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

筆者最近在挑選開(kāi)源的語(yǔ)音識(shí)別模型，首要測(cè)試的是百度的paddlepaddle；
測(cè)試之前，肯定需要了解一下音頻解析的一些基本技術(shù)點(diǎn)，于是有此篇先導(dǎo)文章。

筆者看到的音頻解析主要有幾個(gè)：

soundfile
ffmpy
librosa

1 librosa

安裝代碼：

!pip install librosa  -i https://mirror.baidu.com/pypi/simple
!pip install soundfile  -i https://mirror.baidu.com/pypi/simple

參考文檔：librosa

1.1 音頻讀入

文檔位置：https://librosa.org/doc/latest/core.html#audio-loading

signal, sr = librosa.load(path, sr=None)

其中l(wèi)oad的參數(shù)包括：

librosa.load(path, *, sr=22050, mono=True, offset=0.0, duration=None, dtype=<class 'numpy.float32'>, res_type='kaiser_best')

其中sr = None，‘None’ 保留原始采樣頻率，設(shè)置其他采樣頻率會(huì)進(jìn)行重采樣，有點(diǎn)耗時(shí)
可以讀 .wav 和 .mp3；

1.2 音頻寫(xiě)出

在網(wǎng)絡(luò)上其他幾篇：python音頻采樣率轉(zhuǎn)換和 python 音頻文件采樣率轉(zhuǎn)換在導(dǎo)出音頻文件時(shí)候，會(huì)出現(xiàn)錯(cuò)誤，貼一下他們的代碼

代碼片段一：

def resample_rate(path,new_sample_rate = 16000):

    signal, sr = librosa.load(path, sr=None)
    wavfile = path.split('/')[-1]
    wavfile = wavfile.split('.')[0]
    file_name = wavfile + '_new.wav'
    new_signal = librosa.resample(signal, sr, new_sample_rate) # 
    librosa.output.write_wav(file_name, new_signal , new_sample_rate)

代碼片段二：

import librosa
import os

noise_name="/media/dfy/fc0b6513-c379-4548-b391-876575f1493f/home/dfy/PycharmProjects/noise_data/"
noise_name_list=os.listdir(noise_name)

for one_name in noise_name_list:

    data=librosa.load(noise_name+one_name,16000)
    librosa.output.write_wav(noise_name+one_name,data[0],16000,norm=False)

if __name__ == '__main__':
    pass

上述都是使用 librosa.output進(jìn)行導(dǎo)出，最新的librosa已經(jīng)摒棄了這個(gè)函數(shù)。出現(xiàn)報(bào)錯(cuò)：

AttributeError: module librosa has no attribute output No module named numba.decorators錯(cuò)誤解決

0.8.0版本的將output的api屏蔽掉了，所以要么就是librosa降低版本，比如到0.7.2，要么使用另外的方式。

于是來(lái)到官方文檔：librosa
推薦使用write的方式，是使用這個(gè)庫(kù)：PySoundFile

1.3 librosa 讀入 + PySoundFile寫(xiě)出

如果出現(xiàn)報(bào)錯(cuò)：

Input audio file has sample rate [44100], but decoder expects [16000]

就是音頻采樣比不對(duì)，需要修改一下。

筆者將1+2的開(kāi)源庫(kù)結(jié)合，微調(diào)了python音頻采樣率轉(zhuǎn)換和 python 音頻文件采樣率轉(zhuǎn)換，得到以下，切換音頻采樣頻率的函數(shù)：

import librosa
import os
import numpy as np
import soundfile as sf

def resample_rate(path,new_sample_rate = 16000):

    signal, sr = librosa.load(path, sr=None)
    wavfile = path.split('/')[-1]
    wavfile = wavfile.split('.')[0]
    file_name = wavfile + '_new.wav'
    new_signal = librosa.resample(signal, sr, new_sample_rate) # 
    #librosa.output.write_wav(file_name, new_signal , new_sample_rate) 
    sf.write(file_name, new_signal, new_sample_rate, subtype='PCM_24')
    print(f'{file_name} has download.')

# wav_file = 'video/xxx.wav'
resample_rate(wav_file,new_sample_rate = 16000)

改變?yōu)閟ample_rate 為16000的音頻文件

1.4 從其他庫(kù)轉(zhuǎn)為librosa格式

參考：https://librosa.org/doc/latest/generated/librosa.load.html#librosa.load

第一種：

# Load using an already open SoundFile object
import soundfile
sfo = soundfile.SoundFile(librosa.ex('brahms'))
y, sr = librosa.load(sfo)

第二種：

# Load using an already open audioread object
import audioread.ffdec  # Use ffmpeg decoder
aro = audioread.ffdec.FFmpegAudioFile(librosa.ex('brahms'))
y, sr = librosa.load(aro)

2 PySoundFile

python-soundfile是一個(gè)基于libsndfile、CFFI和NumPy的音頻庫(kù)。

可以直接使用函數(shù)read()和write()來(lái)讀寫(xiě)聲音文件。要按塊方式讀取聲音文件，請(qǐng)使用blocks()。另外，聲音文件也可以作為SoundFile對(duì)象打開(kāi)。

PySoundFile的官方文檔：readthedocs
下載：

!pip install soundfile  -i https://mirror.baidu.com/pypi/simple

2.1 讀入音頻

read files from zip compressed archives:

import zipfile as zf
import soundfile as sf
import io

with zf.ZipFile('test.zip') as myzip:
    with myzip.open('stereo_file.wav') as myfile:
        tmp = io.BytesIO(myfile.read())
        data, samplerate = sf.read(tmp)

Download and read from URL:

import soundfile as sf
import io
from six.moves.urllib.request import urlopen
url = "https://raw.githubusercontent.com/librosa/librosa/master/tests/data/test1_44100.wav"
data, samplerate = sf.read(io.BytesIO(urlopen(url).read()))

2.2 導(dǎo)出音頻

導(dǎo)出音頻的：

import numpy as np
import soundfile as sf

rate = 44100
data = np.random.uniform(-1, 1, size=(rate * 10, 2))

# Write out audio as 24bit PCM WAV
sf.write('stereo_file.wav', data, samplerate, subtype='PCM_24')

# Write out audio as 24bit Flac
sf.write('stereo_file.flac', data, samplerate, format='flac', subtype='PCM_24')

# Write out audio as 16bit OGG
sf.write('stereo_file.ogg', data, samplerate, format='ogg', subtype='vorbis')

3 ffmpy

Python 批量轉(zhuǎn)換視頻音頻采樣率（附代碼） | Python工具

下載：

pip install ffmpy -i https://pypi.douban.com/simple

具體代碼見(jiàn)原文，只截取其中一段：

def transfor(video_path: str, tmp_dir: str, result_dir: str):
    file_name = os.path.basename(video_path)
    base_name = file_name.split('.')[0]
    file_ext = file_name.split('.')[-1]
    ext = 'wav'
 
    audio_path = os.path.join(tmp_dir, '{}.{}'.format(base_name, ext))
    print('文件名:{}，提取音頻'.format(audio_path))
    ff = FFmpeg(
        inputs={
            video_path: None}, outputs={
            audio_path: '-f {} -vn -ac 1 -ar 16000 -y'.format('wav')})
    print(ff.cmd)
    ff.run()
 
    if os.path.exists(audio_path) is False:
        return None
 
    video_tmp_path = os.path.join(
        tmp_dir, '{}_1.{}'.format(
            base_name, file_ext))
    ff_video = FFmpeg(inputs={video_path: None},
                      outputs={video_tmp_path: '-an'})
    print(ff_video.cmd)
    ff_video.run()
 
    result_video_path = os.path.join(result_dir, file_name)
    ff_fuse = FFmpeg(inputs={video_tmp_path: None, audio_path: None}, outputs={
        result_video_path: '-map 0:v -map 1:a -c:v copy -c:a aac -shortest'})
    print(ff_fuse.cmd)
    ff_fuse.run()
    return result_video_path

4 AudioSegment / pydub

參考文章：
Python | 語(yǔ)音處理 | 用 librosa / AudioSegment / soundfile 讀取音頻文件的對(duì)比

另外一篇對(duì)pydub的參數(shù)介紹：
pydub簡(jiǎn)單介紹

官網(wǎng)地址：pydub

from pydub import AudioSegment #需要導(dǎo)入pydub三方庫(kù)，第一次使用需要安裝

audio_path = './data/example.mp3'

t = time.time()
song = AudioSegment.from_file(audio_path, format='mp3')
# print(len(song)) #時(shí)長(zhǎng)，單位：毫秒
# print(song.frame_rate) #采樣頻率，單位：赫茲
# print(song.sample_width) #量化位數(shù)，單位：字節(jié)
# print(song.channels) #聲道數(shù)，常見(jiàn)的MP3多是雙聲道的，聲道越多文件也會(huì)越大。
wav = np.array(song.get_array_of_samples())
sr = song.frame_rate
print(f"sr={sr}, len={len(wav)}, 耗時(shí): {time.time()-t}")
print(f"(min, max, mean) = ({wav.min()}, {wav.max()}, {wav.mean()})")
wav

輸出結(jié)果為：

sr=16000, len=64320, 耗時(shí): 0.04667925834655762
(min, max, mean) = (-872, 740, -0.6079446517412935)
array([ 1, -1, -2, ..., -1,  1, -2], dtype=int16)

5 paddleaudio

安裝：

! pip install paddleaudio -i https://mirror.baidu.com/pypi/simple

paddle官方封裝的一個(gè)，音頻基本操作應(yīng)該是librosa的庫(kù)
具體參考：
https://paddleaudio-doc.readthedocs.io/en/latest/index.html

import paddleaudio
audio_file = 'XXX.wav'
paddleaudio.load(audio_file, sr=None, mono=True, normal=False)

得出：

(array([-3.9100647e-04, -3.0159950e-05,  1.1110306e-04, ...,
         1.4603138e-04,  2.5625229e-03, -7.6780319e-03], dtype=float32),
 16000)

音頻數(shù)值 + 采樣率

6 音頻切分 - auditok

參考的是:【超簡(jiǎn)單】之基于PaddleSpeech搭建個(gè)人語(yǔ)音聽(tīng)寫(xiě)服務(wù)

!pip install auditok

切分原因上面交代過(guò)，因?yàn)镻addleSpeech識(shí)別最長(zhǎng)語(yǔ)音為50s，故需要切分，這里直接調(diào)用好了。

from paddlespeech.cli.asr.infer import ASRExecutor
import csv
import moviepy.editor as mp
import auditok
import os
import paddle
from paddlespeech.cli import ASRExecutor, TextExecutor
import soundfile
import librosa
import warnings

warnings.filterwarnings('ignore')

# 引入auditok庫(kù)
import auditok
# 輸入類別為audio
def qiefen(path, ty='audio', mmin_dur=1, mmax_dur=100000, mmax_silence=1, menergy_threshold=55):
    audio_file = path
    audio, audio_sample_rate = soundfile.read(
        audio_file, dtype="int16", always_2d=True)

    audio_regions = auditok.split(
        audio_file,
        min_dur=mmin_dur,  # minimum duration of a valid audio event in seconds
        max_dur=mmax_dur,  # maximum duration of an event
        # maximum duration of tolerated continuous silence within an event
        max_silence=mmax_silence,
        energy_threshold=menergy_threshold  # threshold of detection
    )

    for i, r in enumerate(audio_regions):
        # Regions returned by `split` have 'start' and 'end' metadata fields
        print(
            "Region {i}: {r.meta.start:.3f}s -- {r.meta.end:.3f}s".format(i=i, r=r))

        epath = ''
        file_pre = str(epath.join(audio_file.split('.')[0].split('/')[-1]))

        mk = 'change'
        if (os.path.exists(mk) == False):
            os.mkdir(mk)
        if (os.path.exists(mk + '/' + ty) == False):
            os.mkdir(mk + '/' + ty)
        if (os.path.exists(mk + '/' + ty + '/' + file_pre) == False):
            os.mkdir(mk + '/' + ty + '/' + file_pre)
        num = i
        # 為了取前三位數(shù)字排序
        s = '000000' + str(num)

        file_save = mk + '/' + ty + '/' + file_pre + '/' + \
                    s[-3:] + '-' + '{meta.start:.3f}-{meta.end:.3f}' + '.wav'
        filename = r.save(file_save)
        print("region saved as: {}".format(filename))
    return mk + '/' + ty + '/' + file_pre

其中核心的 auditok.split代碼，參數(shù)詳解在auditok.core.split ，其輸入的是音頻文件名，不能是音頻的data格式。

7 一個(gè)比較難解決的報(bào)錯(cuò)

AudioParameterError: Sample width must be one of: 1, 2 or 4 (bytes)

筆者在跑語(yǔ)音模型的識(shí)別遇到了以上的報(bào)錯(cuò)，
但是網(wǎng)上找了一圈，沒(méi)找到對(duì)的解決方案。
在快要放棄的時(shí)候，無(wú)意間看到AudioSegment庫(kù)的神奇功能。

Sample width是什么？
取樣量化位寬（sampwidth）

import wave
file ='asr_example.wav'
with wave.open(file) as fp:
    channels = fp.getnchannels()
    srate = fp.getframerate()
    swidth = fp.getsampwidth()
    data = fp.readframes(-1)
swidth,srate

通過(guò)wave可以查詢到一個(gè)音頻的比較重要的幾個(gè)參數(shù)。
分別為：

nchannels:聲道數(shù)
sampwidth:返回該實(shí)例每一幀的字節(jié)寬度。
framerate:采樣頻率
nframes:采樣點(diǎn)數(shù)

那遇到上述報(bào)錯(cuò)就需要重新調(diào)整，這里AudioSegment庫(kù)直接有

from pydub import AudioSegment


file_in ='asr_example.wav' # 輸入的音頻名稱
file_out = 'asr_example_3.wav'  # 輸出的音頻名稱

sound = AudioSegment.from_file(file_in)
sound = sound.set_frame_rate(48000)  # 可以修改音頻采樣率
sound = sound.set_sample_width(4) # 重新設(shè)置字節(jié)寬度
sound.export(file_out, format="wav")

以上就可以完美解決。

8 從網(wǎng)址URL下載音頻

幾種讀入方式：

8.1 soundfile

import soundfile as sf
def save_audio_func(video_url,save_samplerate = 16000):
    '''
    音頻導(dǎo)出
    '''
    save_name = video_url.split('/')[-1]

    data, samplerate = sf.read(io.BytesIO(urlopen(video_url).read()))
    # Write out audio as 24bit PCM WAV
    sf.write(save_name, data, save_samplerate, subtype='PCM_24')
    #print('')
    return save_name

讀入、讀出都是通過(guò)soundfile

9 如何讀取mp3

參考：https://blog.csdn.net/qq_37851620/article/details/127149729

soundfile.read：
只能讀 .wav ，不能讀 .mp3；
默認(rèn) dtype = ‘float64’，輸出為 (-1, 1) 之間的數(shù)據(jù) (做了 32768 歸一化)；修改為 dtype = ‘int16’，輸出為 (-215, 215-1) 之間；
保留原始采樣頻率。

librosa.load：
可以讀 .wav 和 .mp3；
輸出為 (-1, 1)；
sr=None 保留原始采樣頻率，設(shè)置其他采樣頻率會(huì)進(jìn)行重采樣，有點(diǎn)耗時(shí)；

pydub.AudioSegment.from_file:
可以讀 .wav 和 .mp3；
輸出為 (-215, 215-1)，手動(dòng)除以32768(=2**15)，可得到同2一樣的結(jié)果；
保留原始采樣頻率，重采樣可借助 librosa.resample。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-787066.html

到了這里，關(guān)于語(yǔ)音識(shí)別系列︱用python進(jìn)行音頻解析（一）的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

特征向量與語(yǔ)音識(shí)別：捕捉音頻數(shù)據(jù)的特點(diǎn)
語(yǔ)音識(shí)別(Speech Recognition)是一種自然語(yǔ)言處理技術(shù)，它旨在將人類語(yǔ)音信號(hào)轉(zhuǎn)換為文本。在過(guò)去的幾十年里，語(yǔ)音識(shí)別技術(shù)發(fā)展迅速，從早期的簡(jiǎn)單命令識(shí)別到現(xiàn)代的復(fù)雜語(yǔ)言理解系統(tǒng)。語(yǔ)音識(shí)別系統(tǒng)的核心技術(shù)是提取語(yǔ)音信號(hào)中的有用特征，以便于后續(xù)的語(yǔ)言處理和理解。
2024年03月09日
瀏覽(16)
小蝸語(yǔ)音工具1.9、文本,小說(shuō),字幕生成語(yǔ)音、多角色對(duì)話，語(yǔ)音識(shí)別、讀取音頻字幕
可以把正本小說(shuō)，生成字幕文件。不限制文件的大小 a、分割字符：默認(rèn)通過(guò)**，。！–：？“”** 來(lái)把內(nèi)容分割成一句一句的字幕，可以自定義 b、刪除符號(hào) ：默認(rèn)刪除【】=、等符號(hào)，刪除內(nèi)容里面的這些特殊符號(hào)并且替換為空格，可以自定義 c、刪除文字：第(. )章(
2024年02月10日
瀏覽(29)
【C#】Whisper 離線語(yǔ)音識(shí)別（微軟曉曉語(yǔ)音合成的音頻）（帶時(shí)間戳、srt字幕）...
語(yǔ)音合成語(yǔ)音識(shí)別用微軟語(yǔ)音合成功能生成xiaoxiao的語(yǔ)音。用Whisper離線識(shí)別合成的語(yǔ)音輸出srt字幕。一、語(yǔ)音合成參考這個(gè)網(wǎng)址：https://www.bilibili.com/read/cv19064633 合成的音頻：曉曉朗讀-溫柔二、Whisper 語(yǔ)音識(shí)別下載模型后放入程序目錄下：請(qǐng)注意，主要示例目前僅使用
2024年02月06日
瀏覽(27)
使用訊飛語(yǔ)音轉(zhuǎn)寫(xiě)API進(jìn)行音頻轉(zhuǎn)文字
參考官方文檔：語(yǔ)音轉(zhuǎn)寫(xiě)、語(yǔ)音轉(zhuǎn)寫(xiě)API文檔在運(yùn)行代碼之前需要前往訊飛開(kāi)放平臺(tái)注冊(cè)登錄，并完成實(shí)名認(rèn)證，可領(lǐng)取免費(fèi)試用時(shí)間。并且需要?jiǎng)?chuàng)建應(yīng)用，完成應(yīng)用的創(chuàng)建后，前去語(yǔ)音轉(zhuǎn)寫(xiě)頁(yè)面獲取APPID和SecretKey填入代碼中的appid和secret_key參數(shù) upload_file_path參數(shù)上傳的文件格
2024年02月17日
瀏覽(21)
音頻深度學(xué)習(xí)變得簡(jiǎn)單：自動(dòng)語(yǔ)音識(shí)別（ASR），它是如何工作的
????????在過(guò)去的幾年里，隨著Google Home，Amazon Echo，Siri，Cortana等的普及，語(yǔ)音助手已經(jīng)無(wú)處不在。這些是自動(dòng)語(yǔ)音識(shí)別（ASR）最著名的示例。此類應(yīng)用程序從某種語(yǔ)言的語(yǔ)音音頻剪輯開(kāi)始，并將說(shuō)出的單詞提取為文本。因此，它們也稱為語(yǔ)音轉(zhuǎn)文本算法。 ????????
2024年02月15日
瀏覽(21)
語(yǔ)音識(shí)別系列︱paddlespeech的開(kāi)源語(yǔ)音識(shí)別模型測(cè)試（三）
參考：語(yǔ)音識(shí)別系列︱用python進(jìn)行音頻解析（一）語(yǔ)音識(shí)別系列︱paddlehub的開(kāi)源語(yǔ)音識(shí)別模型測(cè)試（二）上一篇paddlehub是一些預(yù)訓(xùn)練模型，paddlespeech也有，所以本篇就是更新paddlespeech里面的模型。參考：PaddleSpeech 一鍵預(yù)測(cè)，快速上手Speech開(kāi)發(fā)任務(wù) PaddleSpeech 是 all-in-one 的語(yǔ)
2024年02月05日
瀏覽(21)
如何利用Matlab進(jìn)行語(yǔ)音識(shí)別與語(yǔ)音合成
引言： ????????語(yǔ)音識(shí)別與語(yǔ)音合成是現(xiàn)代人工智能技術(shù)中的重要應(yīng)用領(lǐng)域之一。隨著人們對(duì)自然語(yǔ)言處理和人機(jī)交互的需求越來(lái)越高，語(yǔ)音識(shí)別與語(yǔ)音合成在智能手機(jī)、智能助理和自動(dòng)駕駛等方面發(fā)揮著重要作用。本文將介紹如何利用Matlab進(jìn)行語(yǔ)音識(shí)別與語(yǔ)音合成，以
2024年02月02日
瀏覽(26)
使用Arduino開(kāi)發(fā)板進(jìn)行語(yǔ)音識(shí)別
語(yǔ)音識(shí)別技術(shù)在自動(dòng)化中非常有用，它不僅可以讓您免提控制設(shè)備，還可以提高系統(tǒng)的安全性。除了制造語(yǔ)音控制小工具外，語(yǔ)音識(shí)別還為患有各種殘疾的人們提供了重要幫助。在之前的帖子中，我們制作了基于Arduino的文本到語(yǔ)音（TTS）轉(zhuǎn)換器和語(yǔ)音控制燈?，F(xiàn)在，在本篇
2024年02月05日
瀏覽(16)
人工智能技術(shù)基礎(chǔ)系列之：語(yǔ)音識(shí)別與語(yǔ)音處理
作者：禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 語(yǔ)音識(shí)別（英語(yǔ)：Speech recognition）是一個(gè)廣義上的概念，泛指在不同場(chǎng)景、不同的條件下通過(guò)語(yǔ)言或口頭獲取信息并轉(zhuǎn)換成文字的能力。具體來(lái)說(shuō)，語(yǔ)音識(shí)別就是把人類的聲音或者說(shuō)話轉(zhuǎn)化成計(jì)算機(jī)可以理解的文字、數(shù)字信號(hào)。語(yǔ)音識(shí)別技術(shù)應(yīng)
2024年02月05日
瀏覽(101)
TensorFlow案例學(xué)習(xí)：使用 YAMNet 進(jìn)行遷移學(xué)習(xí)，對(duì)音頻進(jìn)行識(shí)別
上一篇文章 TensorFlow案例學(xué)習(xí)：簡(jiǎn)單的音頻識(shí)別我們簡(jiǎn)單學(xué)習(xí)了音頻識(shí)別。這次我們繼續(xù)學(xué)習(xí)如何使用成熟的語(yǔ)音分類模型來(lái)進(jìn)行遷移學(xué)習(xí) 官方教程：使用 YAMNet 進(jìn)行遷移學(xué)習(xí)，用于環(huán)境聲音分類模型下載地址（需要科學(xué)上網(wǎng)）： https://tfhub.dev/google/yamnet/1 YAMNet簡(jiǎn)介 YAMNet（
2024年02月03日
瀏覽(21)