国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【小沐學(xué)Python】Python實(shí)現(xiàn)語(yǔ)音識(shí)別（Whisper）

2年前作者：愛(ài)看書的小沐分類：Toy博客閱讀(1049)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【小沐學(xué)Python】Python實(shí)現(xiàn)語(yǔ)音識(shí)別（Whisper）。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

1、簡(jiǎn)介

https://github.com/openai/whisper
【小沐學(xué)Python】Python實(shí)現(xiàn)語(yǔ)音識(shí)別（Whisper）,Python,AI,python,語(yǔ)音識(shí)別,whisper,pytorch,ffmpeg,ai,AI編程

1.1 whisper簡(jiǎn)介

Whisper 是一種通用的語(yǔ)音識(shí)別模型。它是在包含各種音頻的大型數(shù)據(jù)集上訓(xùn)練的，也是一個(gè)多任務(wù)模型，可以執(zhí)行多語(yǔ)言語(yǔ)音識(shí)別、語(yǔ)音翻譯和語(yǔ)言識(shí)別。

【小沐學(xué)Python】Python實(shí)現(xiàn)語(yǔ)音識(shí)別（Whisper）,Python,AI,python,語(yǔ)音識(shí)別,whisper,pytorch,ffmpeg,ai,AI編程
Open AI在2022年9月21日開(kāi)源了號(hào)稱其英文語(yǔ)音辨識(shí)能力已達(dá)到人類水準(zhǔn)的Whisper神經(jīng)網(wǎng)絡(luò)，且它亦支持其它98種語(yǔ)言的自動(dòng)語(yǔ)音辨識(shí)。 Whisper系統(tǒng)所提供的自動(dòng)語(yǔ)音辨識(shí)（Automatic Speech Recognition，ASR）模型是被訓(xùn)練來(lái)運(yùn)行語(yǔ)音辨識(shí)與翻譯任務(wù)的，它們能將各種語(yǔ)言的語(yǔ)音變成文本，也能將這些文本翻譯成英文。

1.2 whisper模型

以下是可用模型的名稱及其相對(duì)于大型模型的近似內(nèi)存要求和推理速度;實(shí)際速度可能因許多因素而異，包括可用的硬件。

Size	Parameters	English-only model	Multilingual model	Required VRAM	Relative speed
tiny	39 M	tiny.en	tiny	~1 GB	~32x
base	74 M	base.en	base	~1 GB	~16x
small	244 M	small.en	smal	l ~2 GB	~6x
medium	769 M	medium.en	medium	~5 GB	~2x
large	1550 M	N/A	large	~10 GB	1x

它自動(dòng)下載的模型緩存，如下：
【小沐學(xué)Python】Python實(shí)現(xiàn)語(yǔ)音識(shí)別（Whisper）,Python,AI,python,語(yǔ)音識(shí)別,whisper,pytorch,ffmpeg,ai,AI編程

2、安裝

2.1 whisper

pip install -U openai-whisper
# pip install git+https://github.com/openai/whisper.git 
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
pip install zhconv
pip3 install wheel

pip3 install torch torchvision torchaudio
# 注：沒(méi)科學(xué)上網(wǎng)會(huì)下載有可能很慢，可以替換成國(guó)內(nèi)鏡像加快下載速度
pip3 install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple

【小沐學(xué)Python】Python實(shí)現(xiàn)語(yǔ)音識(shí)別（Whisper）,Python,AI,python,語(yǔ)音識(shí)別,whisper,pytorch,ffmpeg,ai,AI編程

2.2 pytorch

https://pytorch.org/
選擇的是穩(wěn)定版，windows系統(tǒng)，pip安裝方式，python語(yǔ)言、cpu版本的軟件。
【小沐學(xué)Python】Python實(shí)現(xiàn)語(yǔ)音識(shí)別（Whisper）,Python,AI,python,語(yǔ)音識(shí)別,whisper,pytorch,ffmpeg,ai,AI編程

pip3 install torch torchvision torchaudio

2.3 ffmpeg

https://github.com/BtbN/FFmpeg-Builds/releases
【小沐學(xué)Python】Python實(shí)現(xiàn)語(yǔ)音識(shí)別（Whisper）,Python,AI,python,語(yǔ)音識(shí)別,whisper,pytorch,ffmpeg,ai,AI編程
解壓后，找到bin文件夾下的“ffmpeg.exe”，將它復(fù)制到一個(gè)文件夾中，假設(shè)這個(gè)文件夾的路徑是"D:\software\ffmpeg"，然后將"D:/software/ffmpeg"添加到系統(tǒng)環(huán)境變量PATH。

3、測(cè)試

3.1 命令測(cè)試

whisper audio.mp3

【小沐學(xué)Python】Python實(shí)現(xiàn)語(yǔ)音識(shí)別（Whisper）,Python,AI,python,語(yǔ)音識(shí)別,whisper,pytorch,ffmpeg,ai,AI編程
以上whisper audio.mp3的命令形式是最簡(jiǎn)單的一種，它默認(rèn)使用的是small模式的模型轉(zhuǎn)寫，我們還可以使用更高等級(jí)的模型來(lái)提高正確率。比如：

whisper audio.mp3 --model medium
whisper japanese.wav --language Japanese
whisper chinese.mp4 --language Chinese --task translate
whisper audio.flac audio.mp3 audio.wav --model medium
whisper output.wav --model medium  --language Chinese

同時(shí)默認(rèn)會(huì)生成5個(gè)文件，文件名和你的源文件一樣，但擴(kuò)展名分別是：.json、.srt、.tsv、.txt、.vtt。除了普通文本，也可以直接生成電影字幕，還可以調(diào)json格式做開(kāi)發(fā)處理。
【小沐學(xué)Python】Python實(shí)現(xiàn)語(yǔ)音識(shí)別（Whisper）,Python,AI,python,語(yǔ)音識(shí)別,whisper,pytorch,ffmpeg,ai,AI編程
常用參數(shù)如下：

--task： 指定轉(zhuǎn)錄方式，默認(rèn)使用 --task transcribe 轉(zhuǎn)錄模式，--task translate 則為 翻譯模式，目前只支持翻譯成英文。
--model：指定使用模型，默認(rèn)使用 --model small，Whisper 還有 英文專用模型，就是在名稱后加上 .en，這樣速度更快。
--language：指定轉(zhuǎn)錄語(yǔ)言，默認(rèn)會(huì)截取 30 秒來(lái)判斷語(yǔ)種，但最好指定為某種語(yǔ)言，比如指定中文是 --language Chinese。
--device：指定硬件加速，默認(rèn)使用 auto 自動(dòng)選擇，--device cuda 則為顯卡，cpu 就是 CPU， mps 為蘋果 M1 芯片。
--output_format：指定字幕文件的生成格式，txt,vtt,srt,tsv,json,all，指定多個(gè)可以用大括號(hào){}包裹，不設(shè)置默認(rèn)all。
-- output_dir： 指定字幕文件的輸出目錄，不設(shè)置默認(rèn)輸出到當(dāng)前目錄下。
--fp16：默認(rèn)True，使用16位浮點(diǎn)數(shù)進(jìn)行計(jì)算，可以在一定程度上減少計(jì)算和存儲(chǔ)開(kāi)銷，可能存在精度丟失，筆者CPU不支持，會(huì)出現(xiàn)下述警告，指定它為False就不會(huì)出現(xiàn)了，即采用32位浮點(diǎn)數(shù)進(jìn)行計(jì)算。

【小沐學(xué)Python】Python實(shí)現(xiàn)語(yǔ)音識(shí)別（Whisper）,Python,AI,python,語(yǔ)音識(shí)別,whisper,pytorch,ffmpeg,ai,AI編程

3.2 代碼測(cè)試：識(shí)別聲音文件

import whisper

if __name__ == '__main__':
    model = whisper.load_model("tiny")
    result = model.transcribe("audio.mp3", fp16=False, language="Chinese")
    print(result["text"])

【小沐學(xué)Python】Python實(shí)現(xiàn)語(yǔ)音識(shí)別（Whisper）,Python,AI,python,語(yǔ)音識(shí)別,whisper,pytorch,ffmpeg,ai,AI編程

3.3 代碼測(cè)試：實(shí)時(shí)錄音識(shí)別

import whisper
import zhconv
import wave  # 使用wave庫(kù)可讀、寫wav類型的音頻文件
import pyaudio  # 使用pyaudio庫(kù)可以進(jìn)行錄音，播放，生成wav文件


def record(time):  # 錄音程序
    # 定義數(shù)據(jù)流塊
    CHUNK = 1024  # 音頻幀率（也就是每次讀取的數(shù)據(jù)是多少，默認(rèn)1024）
    FORMAT = pyaudio.paInt16  # 采樣時(shí)生成wav文件正常格式
    CHANNELS = 1  # 音軌數(shù)（每條音軌定義了該條音軌的屬性,如音軌的音色、音色庫(kù)、通道數(shù)、輸入/輸出端口、音量等。可以多個(gè)音軌，不唯一）
    RATE = 16000  # 采樣率（即每秒采樣多少數(shù)據(jù)）
    RECORD_SECONDS = time  # 錄音時(shí)間
    WAVE_OUTPUT_FILENAME = "./output.wav"  # 保存音頻路徑
    p = pyaudio.PyAudio()  # 創(chuàng)建PyAudio對(duì)象
    stream = p.open(format=FORMAT,  # 采樣生成wav文件的正常格式
                    channels=CHANNELS,  # 音軌數(shù)
                    rate=RATE,  # 采樣率
                    input=True,  # Ture代表這是一條輸入流，F(xiàn)alse代表這不是輸入流
                    frames_per_buffer=CHUNK)  # 每個(gè)緩沖多少幀
    print("* recording")  # 開(kāi)始錄音標(biāo)志
    frames = []  # 定義frames為一個(gè)空列表
    for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):  # 計(jì)算要讀多少次，每秒的采樣率/每次讀多少數(shù)據(jù)*錄音時(shí)間=需要讀多少次
        data = stream.read(CHUNK)  # 每次讀chunk個(gè)數(shù)據(jù)
        frames.append(data)  # 將讀出的數(shù)據(jù)保存到列表中
    print("* done recording")  # 結(jié)束錄音標(biāo)志

    stream.stop_stream()  # 停止輸入流
    stream.close()  # 關(guān)閉輸入流
    p.terminate()  # 終止pyaudio

    wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')  # 以’wb‘二進(jìn)制流寫的方式打開(kāi)一個(gè)文件
    wf.setnchannels(CHANNELS)  # 設(shè)置音軌數(shù)
    wf.setsampwidth(p.get_sample_size(FORMAT))  # 設(shè)置采樣點(diǎn)數(shù)據(jù)的格式，和FOMART保持一致
    wf.setframerate(RATE)  # 設(shè)置采樣率與RATE要一致
    wf.writeframes(b''.join(frames))  # 將聲音數(shù)據(jù)寫入文件
    wf.close()  # 數(shù)據(jù)流保存完，關(guān)閉文件


if __name__ == '__main__':
    model = whisper.load_model("tiny")
    record(3)  # 定義錄音時(shí)間，單位/s
    result = model.transcribe("output.wav",language='Chinese',fp16 = True)
    s = result["text"]
    s1 = zhconv.convert(s, 'zh-cn')
    print(s1)

4、工具

4.1 WhisperDesktop

https://github.com/Const-me/Whisper

OpenAI 的 Whisper 自動(dòng)語(yǔ)音識(shí)別（ASR）模型的高性能 GPGPU 推理
This project is a Windows port of the whisper.cpp implementation.
Which in turn is a C++ port of OpenAI’s Whisper automatic speech recognition (ASR) model.

下載 WhisperDesktop 后，點(diǎn)擊運(yùn)行，然后加載模型文件，最后選擇文件即可進(jìn)行轉(zhuǎn)錄。由于支持 GPU 硬解，轉(zhuǎn)錄速度非常的快。
【小沐學(xué)Python】Python實(shí)現(xiàn)語(yǔ)音識(shí)別（Whisper）,Python,AI,python,語(yǔ)音識(shí)別,whisper,pytorch,ffmpeg,ai,AI編程

4.2 Buzz

https://github.com/chidiwilliams/buzz

Buzz 在您的個(gè)人計(jì)算機(jī)上離線轉(zhuǎn)錄和翻譯音頻。由 OpenAI 的 Whisper 提供支持。

另一款基于 Whisper 的圖形化軟件是 Buzz，相比 WhipserDesktop，Buzz 支持 Windows、macOS、Linux。
【小沐學(xué)Python】Python實(shí)現(xiàn)語(yǔ)音識(shí)別（Whisper）,Python,AI,python,語(yǔ)音識(shí)別,whisper,pytorch,ffmpeg,ai,AI編程

安裝如下：

（1）PyPI:

pip install buzz-captions
python -m buzz

（2）Windows:

Download and run the file in the releases page…exe‘
【小沐學(xué)Python】Python實(shí)現(xiàn)語(yǔ)音識(shí)別（Whisper）,Python,AI,python,語(yǔ)音識(shí)別,whisper,pytorch,ffmpeg,ai,AI編程
Buzz 的安裝包體積稍大，同時(shí) Buzz 使用的是 .pt 后綴名的模型文件，運(yùn)行后軟件會(huì)自動(dòng)下載模型文件。

但最好是提前下好模型文件，然后放在指定的位置。

Mac：~/.cache/whisper
Windows：C:\Users\<你的用戶名>\.cache\whisper

但 Buzz 使用的是 CPU 軟解，目前還不支持 GPU 硬解。

4.3 Whisper-WebUI

https://github.com/jhj0517/Whisper-WebUI
基于 Gradio 的 Whisper 瀏覽器界面。你可以把它當(dāng)作一個(gè)簡(jiǎn)單的字幕生成器！

【小沐學(xué)Python】Python實(shí)現(xiàn)語(yǔ)音識(shí)別（Whisper）,Python,AI,python,語(yǔ)音識(shí)別,whisper,pytorch,ffmpeg,ai,AI編程
To run Whisper, you need to have , version 3.8 ~ 3.10 and .gitpythonFFmpeg

git : https://git-scm.com/downloads
python : https://www.python.org/downloads/
FFmpeg : https://ffmpeg.org/download.html

結(jié)語(yǔ)

如果您覺(jué)得該方法或代碼有一點(diǎn)點(diǎn)用處，可以給作者點(diǎn)個(gè)贊，或打賞杯咖啡；╮(￣▽￣)╭
如果您感覺(jué)方法或代碼不咋地//(ㄒoㄒ)//，就在評(píng)論處留言，作者繼續(xù)改進(jìn)；o_O???
如果您需要相關(guān)功能的代碼定制化開(kāi)發(fā)，可以留言私信作者；(????)
感謝各位大佬童鞋們的支持！( ′ ▽′ )? ( ′ ▽′)っ?。?！文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-760042.html

到了這里，關(guān)于【小沐學(xué)Python】Python實(shí)現(xiàn)語(yǔ)音識(shí)別（Whisper）的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【小沐學(xué)Python】Python實(shí)現(xiàn)Web服務(wù)器（Flask打包部署上線）
??基于Python的Web服務(wù)器系列相關(guān)文章編寫如下??： ??【W(wǎng)eb開(kāi)發(fā)】Python實(shí)現(xiàn)Web服務(wù)器（Flask快速入門）?? ??【W(wǎng)eb開(kāi)發(fā)】Python實(shí)現(xiàn)Web服務(wù)器（Flask案例測(cè)試）?? ??【W(wǎng)eb開(kāi)發(fā)】Python實(shí)現(xiàn)Web服務(wù)器（Flask部署上線）?? ??【W(wǎng)eb開(kāi)發(fā)】Python實(shí)現(xiàn)Web服務(wù)器（Tornado入門）?? ??【W(wǎng)eb開(kāi)
2024年02月12日
瀏覽(92)
【小沐學(xué)NLP】Python實(shí)現(xiàn)聊天機(jī)器人（微軟小冰）
??NLP開(kāi)發(fā)系列相關(guān)文章編寫如下??： 1 ??【小沐學(xué)NLP】Python實(shí)現(xiàn)詞云圖?? 2 ??【小沐學(xué)NLP】Python實(shí)現(xiàn)圖片文字識(shí)別?? 3 ??【小沐學(xué)NLP】Python實(shí)現(xiàn)中文、英文分詞?? 4 ??【小沐學(xué)NLP】Python實(shí)現(xiàn)聊天機(jī)器人（ELIZA））?? 5 ??【小沐學(xué)NLP】Python實(shí)現(xiàn)聊天機(jī)器人（ALICE）?? 6
2024年02月05日
瀏覽(95)
【小沐學(xué)Python】Python實(shí)現(xiàn)在線電子書（Sphinx + readthedocs + github + Markdown）
Sphinx 是一個(gè) 文檔生成器，您也可以把它看成一種工具，它可以將一組純文本源文件轉(zhuǎn)換成各種輸出格式，并且自動(dòng)生成交叉引用、索引等。也就是說(shuō)，如果您的目錄包含一堆 reStructuredText 或 Markdown 文檔，那么 Sphinx 就能生成一系列HTML文件，PDF文件（通過(guò)LaTeX），手冊(cè)頁(yè)等。
2024年02月10日
瀏覽(90)
【小沐學(xué)Python】Python實(shí)現(xiàn)在線電子書制作（Sphinx + readthedocs + github + Markdown）
Sphinx 是一個(gè) 文檔生成器，您也可以把它看成一種工具，它可以將一組純文本源文件轉(zhuǎn)換成各種輸出格式，并且自動(dòng)生成交叉引用、索引等。也就是說(shuō)，如果您的目錄包含一堆 reStructuredText 或 Markdown 文檔，那么 Sphinx 就能生成一系列HTML文件，PDF文件（通過(guò)LaTeX），手冊(cè)頁(yè)等。
2024年02月13日
瀏覽(94)
【小沐學(xué)NLP】Python實(shí)現(xiàn)聊天機(jī)器人（Selenium、七嘴八舌）
??NLP開(kāi)發(fā)系列相關(guān)文章編寫如下??： 1 ??【小沐學(xué)NLP】Python實(shí)現(xiàn)詞云圖?? 2 ??【小沐學(xué)NLP】Python實(shí)現(xiàn)圖片文字識(shí)別?? 3 ??【小沐學(xué)NLP】Python實(shí)現(xiàn)中文、英文分詞?? 4 ??【小沐學(xué)NLP】Python實(shí)現(xiàn)聊天機(jī)器人（ELIZA））?? 5 ??【小沐學(xué)NLP】Python實(shí)現(xiàn)聊天機(jī)器人（ALICE）?? 6
2024年02月08日
瀏覽(101)
【小沐學(xué)Python】Python實(shí)現(xiàn)Web服務(wù)器（Flask框架擴(kuò)展：Flask-Admin）
flask作為一個(gè)微框架，F(xiàn)lask 允許您以很少的開(kāi)銷構(gòu)建 Web 服務(wù)。它為您（設(shè)計(jì)師）提供了自由，以適合您的方式實(shí)施您的項(xiàng)目特定應(yīng)用。一個(gè)最小的 Flask 應(yīng)用如下: Flask-Admin是一個(gè)batteries-included，易于使用的Flask擴(kuò)展，可讓您向 Flask 應(yīng)用程序添加管理界面。它的靈感來(lái)自 d
2024年02月02日
瀏覽(100)
【小沐學(xué)NLP】Python實(shí)現(xiàn)聊天機(jī)器人（微軟Azure機(jī)器人服務(wù)）
??NLP開(kāi)發(fā)系列相關(guān)文章編寫如下??： 1 ??【小沐學(xué)NLP】Python實(shí)現(xiàn)詞云圖?? 2 ??【小沐學(xué)NLP】Python實(shí)現(xiàn)圖片文字識(shí)別?? 3 ??【小沐學(xué)NLP】Python實(shí)現(xiàn)中文、英文分詞?? 4 ??【小沐學(xué)NLP】Python實(shí)現(xiàn)聊天機(jī)器人（ELIZA））?? 5 ??【小沐學(xué)NLP】Python實(shí)現(xiàn)聊天機(jī)器人（ALICE）?? 6
2024年02月12日
瀏覽(98)
python語(yǔ)音識(shí)別whisper
一、背景最近想提取一些視頻的字幕，語(yǔ)音文案，研究了一波二、whisper語(yǔ)音識(shí)別 Whisper 是一種通用的語(yǔ)音識(shí)別模型。它在不同音頻的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練，也是一個(gè)多任務(wù)模型，可以執(zhí)行多語(yǔ)言語(yǔ)音識(shí)別以及語(yǔ)音翻譯和語(yǔ)言識(shí)別。 stable-ts在 OpenAI 的 Whisper 之上修改并添加
2024年02月05日
瀏覽(86)
【小沐學(xué)NLP】Python實(shí)現(xiàn)TF-IDF算法（nltk、sklearn、jieba）
TF-IDF（term frequency–inverse document frequency）是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF是詞頻(Term Frequency)，IDF是逆文本頻率指數(shù)(Inverse Document Frequency)。 TF-IDF是一種統(tǒng)計(jì)方法，用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨
2024年02月03日
瀏覽(92)
OpenAI Whisper 語(yǔ)音識(shí)別 API 模型使用 | python 語(yǔ)音識(shí)別
OpenAI 除了 ChatGPT 的 GPT3.5 API 更新之外，又推出了一個(gè) Whisper 的語(yǔ)音識(shí)別模型。支持96種語(yǔ)言。 Python 安裝 openai 庫(kù)后，把需要翻譯的音頻目錄放進(jìn)去，運(yùn)行程序即可生成音頻對(duì)應(yīng)的文字。以上。
2024年02月16日
瀏覽(93)

<menuitem id="lizid"></menuitem>

<rp id="lizid"></rp>