国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

語(yǔ)音識(shí)別系列︱用python進(jìn)行音頻解析(一)

這篇具有很好參考價(jià)值的文章主要介紹了語(yǔ)音識(shí)別系列︱用python進(jìn)行音頻解析(一)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

筆者最近在挑選開(kāi)源的語(yǔ)音識(shí)別模型,首要測(cè)試的是百度的paddlepaddle;
測(cè)試之前,肯定需要了解一下音頻解析的一些基本技術(shù)點(diǎn),于是有此篇先導(dǎo)文章。

筆者看到的音頻解析主要有幾個(gè):

  • soundfile
  • ffmpy
  • librosa


1 librosa

安裝代碼:

!pip install librosa  -i https://mirror.baidu.com/pypi/simple
!pip install soundfile  -i https://mirror.baidu.com/pypi/simple

參考文檔:librosa

1.1 音頻讀入

文檔位置:https://librosa.org/doc/latest/core.html#audio-loading

signal, sr = librosa.load(path, sr=None)

其中l(wèi)oad的參數(shù)包括:

librosa.load(path, *, sr=22050, mono=True, offset=0.0, duration=None, dtype=<class 'numpy.float32'>, res_type='kaiser_best')

其中sr = None,‘None’ 保留原始采樣頻率,設(shè)置其他采樣頻率會(huì)進(jìn)行重采樣,有點(diǎn)耗時(shí)
可以讀 .wav 和 .mp3;

1.2 音頻寫(xiě)出

在網(wǎng)絡(luò)上其他幾篇:python音頻采樣率轉(zhuǎn)換 和 python 音頻文件采樣率轉(zhuǎn)換在導(dǎo)出音頻文件時(shí)候,會(huì)出現(xiàn)錯(cuò)誤,貼一下他們的代碼

代碼片段一:

def resample_rate(path,new_sample_rate = 16000):

    signal, sr = librosa.load(path, sr=None)
    wavfile = path.split('/')[-1]
    wavfile = wavfile.split('.')[0]
    file_name = wavfile + '_new.wav'
    new_signal = librosa.resample(signal, sr, new_sample_rate) # 
    librosa.output.write_wav(file_name, new_signal , new_sample_rate) 

代碼片段二:

import librosa
import os

noise_name="/media/dfy/fc0b6513-c379-4548-b391-876575f1493f/home/dfy/PycharmProjects/noise_data/"
noise_name_list=os.listdir(noise_name)

for one_name in noise_name_list:

    data=librosa.load(noise_name+one_name,16000)
    librosa.output.write_wav(noise_name+one_name,data[0],16000,norm=False)

if __name__ == '__main__':
    pass

上述都是使用 librosa.output進(jìn)行導(dǎo)出,最新的librosa已經(jīng)摒棄了這個(gè)函數(shù)。出現(xiàn)報(bào)錯(cuò):

AttributeError: module librosa has no attribute output No module named numba.decorators錯(cuò)誤解決

0.8.0版本的將output的api屏蔽掉了,所以要么就是librosa降低版本,比如到0.7.2,要么使用另外的方式。

于是來(lái)到官方文檔:librosa
推薦使用write的方式,是使用這個(gè)庫(kù):PySoundFile

1.3 librosa 讀入 + PySoundFile寫(xiě)出

如果出現(xiàn)報(bào)錯(cuò):

Input audio file has sample rate [44100], but decoder expects [16000]

就是音頻采樣比不對(duì),需要修改一下。

筆者將1+2的開(kāi)源庫(kù)結(jié)合,微調(diào)了python音頻采樣率轉(zhuǎn)換 和 python 音頻文件采樣率轉(zhuǎn)換,得到以下,切換音頻采樣頻率的函數(shù):

import librosa
import os
import numpy as np
import soundfile as sf

def resample_rate(path,new_sample_rate = 16000):

    signal, sr = librosa.load(path, sr=None)
    wavfile = path.split('/')[-1]
    wavfile = wavfile.split('.')[0]
    file_name = wavfile + '_new.wav'
    new_signal = librosa.resample(signal, sr, new_sample_rate) # 
    #librosa.output.write_wav(file_name, new_signal , new_sample_rate) 
    sf.write(file_name, new_signal, new_sample_rate, subtype='PCM_24')
    print(f'{file_name} has download.')

# wav_file = 'video/xxx.wav'
resample_rate(wav_file,new_sample_rate = 16000)

改變?yōu)閟ample_rate 為16000的音頻文件

1.4 從其他庫(kù)轉(zhuǎn)為librosa格式

參考:https://librosa.org/doc/latest/generated/librosa.load.html#librosa.load

第一種:

# Load using an already open SoundFile object
import soundfile
sfo = soundfile.SoundFile(librosa.ex('brahms'))
y, sr = librosa.load(sfo)

第二種:

# Load using an already open audioread object
import audioread.ffdec  # Use ffmpeg decoder
aro = audioread.ffdec.FFmpegAudioFile(librosa.ex('brahms'))
y, sr = librosa.load(aro)

2 PySoundFile

python-soundfile是一個(gè)基于libsndfile、CFFI和NumPy的音頻庫(kù)。

可以直接使用函數(shù)read()和write()來(lái)讀寫(xiě)聲音文件。要按塊方式讀取聲音文件,請(qǐng)使用blocks()。另外,聲音文件也可以作為SoundFile對(duì)象打開(kāi)。

PySoundFile的官方文檔:readthedocs
下載:

!pip install soundfile  -i https://mirror.baidu.com/pypi/simple

2.1 讀入音頻

read files from zip compressed archives:

import zipfile as zf
import soundfile as sf
import io

with zf.ZipFile('test.zip') as myzip:
    with myzip.open('stereo_file.wav') as myfile:
        tmp = io.BytesIO(myfile.read())
        data, samplerate = sf.read(tmp)

Download and read from URL:

import soundfile as sf
import io
from six.moves.urllib.request import urlopen
url = "https://raw.githubusercontent.com/librosa/librosa/master/tests/data/test1_44100.wav"
data, samplerate = sf.read(io.BytesIO(urlopen(url).read()))

2.2 導(dǎo)出音頻

導(dǎo)出音頻的:

import numpy as np
import soundfile as sf

rate = 44100
data = np.random.uniform(-1, 1, size=(rate * 10, 2))

# Write out audio as 24bit PCM WAV
sf.write('stereo_file.wav', data, samplerate, subtype='PCM_24')

# Write out audio as 24bit Flac
sf.write('stereo_file.flac', data, samplerate, format='flac', subtype='PCM_24')

# Write out audio as 16bit OGG
sf.write('stereo_file.ogg', data, samplerate, format='ogg', subtype='vorbis')

3 ffmpy

Python 批量轉(zhuǎn)換視頻音頻采樣率(附代碼) | Python工具

下載:

pip install ffmpy -i https://pypi.douban.com/simple

具體代碼見(jiàn)原文,只截取其中一段:

def transfor(video_path: str, tmp_dir: str, result_dir: str):
    file_name = os.path.basename(video_path)
    base_name = file_name.split('.')[0]
    file_ext = file_name.split('.')[-1]
    ext = 'wav'
 
    audio_path = os.path.join(tmp_dir, '{}.{}'.format(base_name, ext))
    print('文件名:{},提取音頻'.format(audio_path))
    ff = FFmpeg(
        inputs={
            video_path: None}, outputs={
            audio_path: '-f {} -vn -ac 1 -ar 16000 -y'.format('wav')})
    print(ff.cmd)
    ff.run()
 
    if os.path.exists(audio_path) is False:
        return None
 
    video_tmp_path = os.path.join(
        tmp_dir, '{}_1.{}'.format(
            base_name, file_ext))
    ff_video = FFmpeg(inputs={video_path: None},
                      outputs={video_tmp_path: '-an'})
    print(ff_video.cmd)
    ff_video.run()
 
    result_video_path = os.path.join(result_dir, file_name)
    ff_fuse = FFmpeg(inputs={video_tmp_path: None, audio_path: None}, outputs={
        result_video_path: '-map 0:v -map 1:a -c:v copy -c:a aac -shortest'})
    print(ff_fuse.cmd)
    ff_fuse.run()
    return result_video_path

4 AudioSegment / pydub

參考文章:
Python | 語(yǔ)音處理 | 用 librosa / AudioSegment / soundfile 讀取音頻文件的對(duì)比

另外一篇對(duì)pydub的參數(shù)介紹:
pydub簡(jiǎn)單介紹

官網(wǎng)地址:pydub

from pydub import AudioSegment #需要導(dǎo)入pydub三方庫(kù),第一次使用需要安裝

audio_path = './data/example.mp3'

t = time.time()
song = AudioSegment.from_file(audio_path, format='mp3')
# print(len(song)) #時(shí)長(zhǎng),單位:毫秒
# print(song.frame_rate) #采樣頻率,單位:赫茲
# print(song.sample_width) #量化位數(shù),單位:字節(jié)
# print(song.channels) #聲道數(shù),常見(jiàn)的MP3多是雙聲道的,聲道越多文件也會(huì)越大。
wav = np.array(song.get_array_of_samples())
sr = song.frame_rate
print(f"sr={sr}, len={len(wav)}, 耗時(shí): {time.time()-t}")
print(f"(min, max, mean) = ({wav.min()}, {wav.max()}, {wav.mean()})")
wav

輸出結(jié)果為:

sr=16000, len=64320, 耗時(shí): 0.04667925834655762
(min, max, mean) = (-872, 740, -0.6079446517412935)
array([ 1, -1, -2, ..., -1,  1, -2], dtype=int16)


5 paddleaudio

安裝:

! pip install paddleaudio -i https://mirror.baidu.com/pypi/simple

paddle官方封裝的一個(gè),音頻基本操作應(yīng)該是librosa的庫(kù)
具體參考:
https://paddleaudio-doc.readthedocs.io/en/latest/index.html

import paddleaudio
audio_file = 'XXX.wav'
paddleaudio.load(audio_file, sr=None, mono=True, normal=False)

得出:

(array([-3.9100647e-04, -3.0159950e-05,  1.1110306e-04, ...,
         1.4603138e-04,  2.5625229e-03, -7.6780319e-03], dtype=float32),
 16000)

音頻數(shù)值 + 采樣率

6 音頻切分 - auditok

參考的是:【超簡(jiǎn)單】之基于PaddleSpeech搭建個(gè)人語(yǔ)音聽(tīng)寫(xiě)服務(wù)

!pip install auditok

切分原因上面交代過(guò),因?yàn)镻addleSpeech識(shí)別最長(zhǎng)語(yǔ)音為50s,故需要切分,這里直接調(diào)用好了。

from paddlespeech.cli.asr.infer import ASRExecutor
import csv
import moviepy.editor as mp
import auditok
import os
import paddle
from paddlespeech.cli import ASRExecutor, TextExecutor
import soundfile
import librosa
import warnings

warnings.filterwarnings('ignore')

# 引入auditok庫(kù)
import auditok
# 輸入類別為audio
def qiefen(path, ty='audio', mmin_dur=1, mmax_dur=100000, mmax_silence=1, menergy_threshold=55):
    audio_file = path
    audio, audio_sample_rate = soundfile.read(
        audio_file, dtype="int16", always_2d=True)

    audio_regions = auditok.split(
        audio_file,
        min_dur=mmin_dur,  # minimum duration of a valid audio event in seconds
        max_dur=mmax_dur,  # maximum duration of an event
        # maximum duration of tolerated continuous silence within an event
        max_silence=mmax_silence,
        energy_threshold=menergy_threshold  # threshold of detection
    )

    for i, r in enumerate(audio_regions):
        # Regions returned by `split` have 'start' and 'end' metadata fields
        print(
            "Region {i}: {r.meta.start:.3f}s -- {r.meta.end:.3f}s".format(i=i, r=r))

        epath = ''
        file_pre = str(epath.join(audio_file.split('.')[0].split('/')[-1]))

        mk = 'change'
        if (os.path.exists(mk) == False):
            os.mkdir(mk)
        if (os.path.exists(mk + '/' + ty) == False):
            os.mkdir(mk + '/' + ty)
        if (os.path.exists(mk + '/' + ty + '/' + file_pre) == False):
            os.mkdir(mk + '/' + ty + '/' + file_pre)
        num = i
        # 為了取前三位數(shù)字排序
        s = '000000' + str(num)

        file_save = mk + '/' + ty + '/' + file_pre + '/' + \
                    s[-3:] + '-' + '{meta.start:.3f}-{meta.end:.3f}' + '.wav'
        filename = r.save(file_save)
        print("region saved as: {}".format(filename))
    return mk + '/' + ty + '/' + file_pre

其中核心的 auditok.split代碼,參數(shù)詳解在auditok.core.split ,其輸入的是音頻文件名,不能是音頻的data格式。


7 一個(gè)比較難解決的報(bào)錯(cuò)

AudioParameterError: Sample width must be one of: 1, 2 or 4 (bytes)

筆者在跑語(yǔ)音模型的識(shí)別遇到了以上的報(bào)錯(cuò),
但是網(wǎng)上找了一圈,沒(méi)找到對(duì)的解決方案。
在快要放棄的時(shí)候,無(wú)意間看到AudioSegment庫(kù)的神奇功能。

Sample width是什么?
取樣量化位寬(sampwidth)

import wave
file ='asr_example.wav'
with wave.open(file) as fp:
    channels = fp.getnchannels()
    srate = fp.getframerate()
    swidth = fp.getsampwidth()
    data = fp.readframes(-1)
swidth,srate

通過(guò)wave可以查詢到一個(gè)音頻的比較重要的幾個(gè)參數(shù)。
分別為:

  • nchannels:聲道數(shù)
  • sampwidth:返回該實(shí)例每一幀的字節(jié)寬度。
  • framerate:采樣頻率
  • nframes:采樣點(diǎn)數(shù)

那遇到上述報(bào)錯(cuò)就需要重新調(diào)整,這里AudioSegment庫(kù)直接有

from pydub import AudioSegment


file_in ='asr_example.wav' # 輸入的音頻名稱
file_out = 'asr_example_3.wav'  # 輸出的音頻名稱

sound = AudioSegment.from_file(file_in)
sound = sound.set_frame_rate(48000)  # 可以修改音頻采樣率
sound = sound.set_sample_width(4) # 重新設(shè)置字節(jié)寬度
sound.export(file_out, format="wav")

以上就可以完美解決。

8 從網(wǎng)址URL下載音頻

幾種讀入方式:

8.1 soundfile

import soundfile as sf
def save_audio_func(video_url,save_samplerate = 16000):
    '''
    音頻導(dǎo)出
    '''
    save_name = video_url.split('/')[-1]

    data, samplerate = sf.read(io.BytesIO(urlopen(video_url).read()))
    # Write out audio as 24bit PCM WAV
    sf.write(save_name, data, save_samplerate, subtype='PCM_24')
    #print('')
    return save_name

讀入、讀出都是通過(guò)soundfile


9 如何讀取mp3

參考:https://blog.csdn.net/qq_37851620/article/details/127149729

soundfile.read:
只能讀 .wav ,不能讀 .mp3;
默認(rèn) dtype = ‘float64’,輸出為 (-1, 1) 之間的數(shù)據(jù) (做了 32768 歸一化);修改為 dtype = ‘int16’,輸出為 (-215, 215-1) 之間;
保留原始采樣頻率。

librosa.load:
可以讀 .wav 和 .mp3;
輸出為 (-1, 1);
sr=None 保留原始采樣頻率,設(shè)置其他采樣頻率會(huì)進(jìn)行重采樣,有點(diǎn)耗時(shí);

pydub.AudioSegment.from_file:
可以讀 .wav 和 .mp3;
輸出為 (-215, 215-1),手動(dòng)除以32768(=2**15),可得到同2一樣的結(jié)果;
保留原始采樣頻率,重采樣可借助 librosa.resample。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-787066.html

到了這里,關(guān)于語(yǔ)音識(shí)別系列︱用python進(jìn)行音頻解析(一)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 特征向量與語(yǔ)音識(shí)別:捕捉音頻數(shù)據(jù)的特點(diǎn)

    語(yǔ)音識(shí)別(Speech Recognition)是一種自然語(yǔ)言處理技術(shù),它旨在將人類語(yǔ)音信號(hào)轉(zhuǎn)換為文本。在過(guò)去的幾十年里,語(yǔ)音識(shí)別技術(shù)發(fā)展迅速,從早期的簡(jiǎn)單命令識(shí)別到現(xiàn)代的復(fù)雜語(yǔ)言理解系統(tǒng)。語(yǔ)音識(shí)別系統(tǒng)的核心技術(shù)是提取語(yǔ)音信號(hào)中的有用特征,以便于后續(xù)的語(yǔ)言處理和理解。

    2024年03月09日
    瀏覽(16)
  • 小蝸語(yǔ)音工具1.9、文本,小說(shuō),字幕生成語(yǔ)音、多角色對(duì)話,語(yǔ)音識(shí)別、讀取音頻字幕

    小蝸語(yǔ)音工具1.9、文本,小說(shuō),字幕生成語(yǔ)音、多角色對(duì)話,語(yǔ)音識(shí)別、讀取音頻字幕

    可以把正本小說(shuō),生成字幕文件。不限制文件的大小 a、 分割字符 :默認(rèn)通過(guò)**,。!–:?“”** 來(lái)把內(nèi)容分割成一句一句的字幕,可以自定義 b、 刪除符號(hào) :默認(rèn)刪除【】=、等符號(hào),刪除內(nèi)容里面的這些特殊符號(hào)并且替換為空格,可以自定義 c、 刪除文字 : 第(. )章(

    2024年02月10日
    瀏覽(29)
  • 【C#】Whisper 離線語(yǔ)音識(shí)別(微軟曉曉語(yǔ)音合成的音頻)(帶時(shí)間戳、srt字幕)...

    【C#】Whisper 離線語(yǔ)音識(shí)別(微軟曉曉語(yǔ)音合成的音頻)(帶時(shí)間戳、srt字幕)...

    語(yǔ)音合成語(yǔ)音識(shí)別 用微軟語(yǔ)音合成功能生成xiaoxiao的語(yǔ)音。 用Whisper離線識(shí)別合成的語(yǔ)音輸出srt字幕。 一、語(yǔ)音合成 參考這個(gè)網(wǎng)址:https://www.bilibili.com/read/cv19064633 合成的音頻:曉曉朗讀-溫柔 二、Whisper 語(yǔ)音識(shí)別 下載模型后放入程序目錄下: 請(qǐng)注意,主要示例目前僅使用

    2024年02月06日
    瀏覽(27)
  • 使用訊飛語(yǔ)音轉(zhuǎn)寫(xiě)API進(jìn)行音頻轉(zhuǎn)文字

    參考官方文檔:語(yǔ)音轉(zhuǎn)寫(xiě)、語(yǔ)音轉(zhuǎn)寫(xiě)API文檔 在運(yùn)行代碼之前需要前往訊飛開(kāi)放平臺(tái)注冊(cè)登錄,并完成實(shí)名認(rèn)證,可領(lǐng)取免費(fèi)試用時(shí)間。 并且需要?jiǎng)?chuàng)建應(yīng)用,完成應(yīng)用的創(chuàng)建后,前去語(yǔ)音轉(zhuǎn)寫(xiě)頁(yè)面獲取APPID和SecretKey填入代碼中的appid和secret_key參數(shù) upload_file_path參數(shù)上傳的文件格

    2024年02月17日
    瀏覽(21)
  • 音頻深度學(xué)習(xí)變得簡(jiǎn)單:自動(dòng)語(yǔ)音識(shí)別 (ASR),它是如何工作的

    ????????在過(guò)去的幾年里,隨著Google Home,Amazon Echo,Siri,Cortana等的普及,語(yǔ)音助手已經(jīng)無(wú)處不在。這些是自動(dòng)語(yǔ)音識(shí)別 (ASR) 最著名的示例。此類應(yīng)用程序從某種語(yǔ)言的語(yǔ)音音頻剪輯開(kāi)始,并將說(shuō)出的單詞提取為文本。因此,它們也稱為語(yǔ)音轉(zhuǎn)文本算法。 ????????

    2024年02月15日
    瀏覽(21)
  • 語(yǔ)音識(shí)別系列︱paddlespeech的開(kāi)源語(yǔ)音識(shí)別模型測(cè)試(三)

    語(yǔ)音識(shí)別系列︱paddlespeech的開(kāi)源語(yǔ)音識(shí)別模型測(cè)試(三)

    參考: 語(yǔ)音識(shí)別系列︱用python進(jìn)行音頻解析(一) 語(yǔ)音識(shí)別系列︱paddlehub的開(kāi)源語(yǔ)音識(shí)別模型測(cè)試(二) 上一篇paddlehub是一些預(yù)訓(xùn)練模型,paddlespeech也有,所以本篇就是更新paddlespeech里面的模型。 參考:PaddleSpeech 一鍵預(yù)測(cè),快速上手Speech開(kāi)發(fā)任務(wù) PaddleSpeech 是 all-in-one 的語(yǔ)

    2024年02月05日
    瀏覽(21)
  • 如何利用Matlab進(jìn)行語(yǔ)音識(shí)別與語(yǔ)音合成

    引言: ????????語(yǔ)音識(shí)別與語(yǔ)音合成是現(xiàn)代人工智能技術(shù)中的重要應(yīng)用領(lǐng)域之一。隨著人們對(duì)自然語(yǔ)言處理和人機(jī)交互的需求越來(lái)越高,語(yǔ)音識(shí)別與語(yǔ)音合成在智能手機(jī)、智能助理和自動(dòng)駕駛等方面發(fā)揮著重要作用。本文將介紹如何利用Matlab進(jìn)行語(yǔ)音識(shí)別與語(yǔ)音合成,以

    2024年02月02日
    瀏覽(26)
  • 使用Arduino開(kāi)發(fā)板進(jìn)行語(yǔ)音識(shí)別

    使用Arduino開(kāi)發(fā)板進(jìn)行語(yǔ)音識(shí)別

    語(yǔ)音識(shí)別技術(shù)在自動(dòng)化中非常有用,它不僅可以讓您免提控制設(shè)備,還可以提高系統(tǒng)的安全性。除了制造語(yǔ)音控制小工具外,語(yǔ)音識(shí)別還為患有各種殘疾的人們提供了重要幫助。 在之前的帖子中,我們制作了基于Arduino的文本到語(yǔ)音(TTS)轉(zhuǎn)換器和語(yǔ)音控制燈?,F(xiàn)在,在本篇

    2024年02月05日
    瀏覽(16)
  • 人工智能技術(shù)基礎(chǔ)系列之:語(yǔ)音識(shí)別與語(yǔ)音處理

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 語(yǔ)音識(shí)別(英語(yǔ):Speech recognition)是一個(gè)廣義上的概念,泛指在不同場(chǎng)景、不同的條件下通過(guò)語(yǔ)言或口頭獲取信息并轉(zhuǎn)換成文字的能力。具體來(lái)說(shuō),語(yǔ)音識(shí)別就是把人類的聲音或者說(shuō)話轉(zhuǎn)化成計(jì)算機(jī)可以理解的文字、數(shù)字信號(hào)。語(yǔ)音識(shí)別技術(shù)應(yīng)

    2024年02月05日
    瀏覽(101)
  • TensorFlow案例學(xué)習(xí):使用 YAMNet 進(jìn)行遷移學(xué)習(xí),對(duì)音頻進(jìn)行識(shí)別

    TensorFlow案例學(xué)習(xí):使用 YAMNet 進(jìn)行遷移學(xué)習(xí),對(duì)音頻進(jìn)行識(shí)別

    上一篇文章 TensorFlow案例學(xué)習(xí):簡(jiǎn)單的音頻識(shí)別 我們簡(jiǎn)單學(xué)習(xí)了音頻識(shí)別。這次我們繼續(xù)學(xué)習(xí)如何使用成熟的語(yǔ)音分類模型來(lái)進(jìn)行遷移學(xué)習(xí) 官方教程: 使用 YAMNet 進(jìn)行遷移學(xué)習(xí),用于環(huán)境聲音分類 模型下載地址(需要科學(xué)上網(wǎng)): https://tfhub.dev/google/yamnet/1 YAMNet簡(jiǎn)介 YAMNet(

    2024年02月03日
    瀏覽(21)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包