国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python語音識別whisper

2年前作者：風(fēng)華浪浪分類：Toy博客閱讀(86)違法舉報

這篇具有很好參考價值的文章主要介紹了python語音識別whisper。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

一、背景

最近想提取一些視頻的字幕，語音文案，研究了一波

二、whisper語音識別

Whisper 是一種通用的語音識別模型。它在不同音頻的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練，也是一個多任務(wù)模型，可以執(zhí)行多語言語音識別以及語音翻譯和語言識別。
stable-ts在 OpenAI 的 Whisper 之上修改并添加了更大的破解代碼發(fā)布，生成更準(zhǔn)確的階段時間切換，并在無須額外推介的情況下獲得申領(lǐng)

安裝

pip install  openai-whisper
pip install  stable-ts

Size	Parameters	English-only model	Multilingual model	Required VRAM	Relative speed
tiny	39 M	tiny.en	tiny	~1 GB	~32x
base	74 M	base.en	base	~1 GB	~16x
small	244 M	small.en	small	~2 GB	~6x
medium	769 M	medium.en	medium	~5 GB	~2x
large	1550 M	N/A	large	~10 GB	1x

三、示例

模型越大，越精確，相應(yīng)話費的時間越長
自帶語言識別功能，language最好加上，下面歌曲識別為英語，加后為中文
stable_whisper 是 whisper 進(jìn)化版即 python的這個包stable-ts

import whisper
import stable_whisper as whisper

class WhisperTranscriber(object):

    def __init__(self, model_name):
        self.model = whisper.load_model(model_name)

    def whisper_transcribe(self, audio_path):
        audio = self.model.transcribe(audio_path, fp16=False, language='Chinese')
        return audio['text']

if __name__ == '__main__':

    transcriber = WhisperTranscriber("base")
    text = transcriber.whisper_transcribe("257853511.mp3")
    print(text)

可能是伴奏聲音過大，你猜出來這是什么歌了嗎？ python語音識別whisper stable_whisper 別的用法、生成字幕

import stable_whisper
model = stable_whisper.load_model('base')
results = model.transcribe('257853511.mp3', fp16=False, language='Chinese')
stable_whisper.results_to_sentence_srt(results, 'audio')
stable_whisper.results_to_sentence_word_ass(results, 'audio.ass')

四、封裝工具

buzz https://github.com/chidiwilliams/buzz文章來源地址http://www.zghlxwxcb.cn/news/detail-448541.html

如果遇到簡繁轉(zhuǎn)換可以石下面
pip install zhconv

zh-cn 大陸簡體
zh-hant 繁體

from zhconv import convert     
convert('Python是一種動態(tài)的、面向?qū)ο蟮哪_本語言', 'zh-hant')
'Python是一種動態(tài)的、面向?qū)ο蟮哪_本語言'

到了這里，關(guān)于python語音識別whisper的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

Whisper對于中文語音識別與轉(zhuǎn)寫中文文本優(yōu)化的實踐(Python3.10)
阿里的FunAsr對Whisper中文領(lǐng)域的轉(zhuǎn)寫能力造成了一定的挑戰(zhàn)，但實際上，Whisper的使用者完全可以針對中文的語音做一些優(yōu)化的措施，換句話說，Whisper的“默認(rèn)”形態(tài)可能在中文領(lǐng)域斗不過FunAsr，但是經(jīng)過中文特殊優(yōu)化的Whisper就未必了。 Whisper經(jīng)常被人詬病的一點是對中文語音
2024年01月25日
瀏覽(18)
【語音識別入門】特征提?。≒ython完整代碼）
1.1數(shù)字信號處理基礎(chǔ) 在科學(xué)和工程中遇到的大多數(shù)信號都是連續(xù)模擬信號，例如電壓隨著時間變化，一天中溫度的變化等等，而計算機(jī)智能處理離散的信號，因此必須對這些連續(xù)的模擬信號進(jìn)行轉(zhuǎn)化。通過采樣–量化來轉(zhuǎn)換成數(shù)字信號。以正弦波為例： x ( t ) = s i n ( 2 Π
2024年01月17日
瀏覽(22)
【開源工具】使用Whisper提取視頻、語音的字幕
運行 WhisperDesktop.exe , 啟動后加載模型“l(fā)oad model，please wait…”,等待其將模型加載到內(nèi)存。 2.1 下載模型剛開始是沒有模型的，需要到Hugging Face 2 的倉庫里面下載模型并配置相關(guān)路徑 2.1.1 進(jìn)入Hugging Face 2 的倉庫點擊 ggerganov/whisper.cpp 進(jìn)入Hugging Face倉庫 2.1.2 選擇需要下載的模型
2024年02月09日
瀏覽(84)
【開源工具】使用Whisper將提取視頻、語音的字幕
運行 WhisperDesktop.exe , 啟動后加載模型“l(fā)oad model，please wait…”,等待其將模型加載到內(nèi)存。 2.1 下載模型剛開始是沒有模型的，需要到Hugging Face 2 的倉庫里面下載模型并配置相關(guān)路徑 2.1.1 進(jìn)入Hugging Face 2 的倉庫點擊 ggerganov/whisper.cpp 進(jìn)入Hugging Face倉庫 2.1.2 選擇需要下載的模型
2024年02月08日
瀏覽(94)
一鍵智能視頻語音轉(zhuǎn)文本——基于PaddlePaddle語音識別與Python輕松提取視頻語音并生成文案
如今進(jìn)行入自媒體行業(yè)的人越來越多，短視頻也逐漸成為了主流，但好多時候是想如何把視頻里面的語音轉(zhuǎn)成文字，比如，錄制會議視頻后，做會議紀(jì)要；比如，網(wǎng)課教程視頻，想要做筆記；比如，需要提取視頻中文案使用；比如，需要給視頻加個字幕;這時候，只要把視頻轉(zhuǎn)
2024年02月08日
瀏覽(23)
語音識別whisper
Whisper是一個通用的語音識別模型，它使用了大量的多語言和多任務(wù)的監(jiān)督數(shù)據(jù)來訓(xùn)練，能夠在英語語音識別上達(dá)到接近人類水平的魯棒性和準(zhǔn)確性1。Whisper還可以進(jìn)行多語言語音識別、語音翻譯和語言識別等任務(wù)2。Whisper的架構(gòu)是一個簡單的端到端方法，采用了編碼器-解碼器
2024年02月12日
瀏覽(19)
語音識別 - ASR whisper
目錄 1. 簡單介紹 2.?代碼調(diào)用 Introducing Whisper https://openai.com/blog/whisper/ OpenAI 的開源自動語音識別神經(jīng)網(wǎng)絡(luò) whisper 安裝 Python 調(diào)用
2024年02月12日
瀏覽(22)
Whisper 語音識別模型
Whisper 語音識別模型 Whisper 是一種通用的語音識別模型。它是在包含各種音頻的大型數(shù)據(jù)集上訓(xùn)練的，也是一個可以執(zhí)行多語言語音識別、語音翻譯和語言識別的多任務(wù)模型。開源項目地址：https://github.com/openai/whisper Whisper 語音識別模型 Transformer 序列到序列模型針對各種語音
2024年02月16日
瀏覽(25)
【語音識別】OpenAI whisper
目錄 1. 簡單介紹 2.?代碼調(diào)用 Introducing Whisper https://openai.com/blog/whisper/ OpenAI 的開源自動語音識別神經(jīng)網(wǎng)絡(luò) whisper 安裝 Python 調(diào)用
2024年02月13日
瀏覽(90)
探索Whisper語音識別
問題一：python多版本切換背景：有了anaconda環(huán)境 ?還有一個c盤的不知道什么東西我準(zhǔn)備下載一個python3.9.9 去官網(wǎng) 然后安裝，安裝之前一定要把原來的python卸載干凈。 ?3.9.9安裝不上，我用3.10 切換的話，就是去環(huán)境變量里面改變位置 ?最后發(fā)現(xiàn)直接用anaconda也可以，python3.8也
2024年02月09日
瀏覽(17)