国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python語音識別whisper

這篇具有很好參考價值的文章主要介紹了python語音識別whisper。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

一、背景

最近想提取一些視頻的字幕,語音文案,研究了一波

二、whisper語音識別

Whisper 是一種通用的語音識別模型。它在不同音頻的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練,也是一個多任務(wù)模型,可以執(zhí)行多語言語音識別以及語音翻譯和語言識別。
stable-ts在 OpenAI 的 Whisper 之上修改并添加了更大的破解代碼發(fā)布,生成更準(zhǔn)確的階段時間切換,并在無須額外推介的情況下獲得申領(lǐng)

  • 安裝
    pip install  openai-whisper
    pip install  stable-ts
    
  • Size Parameters English-only model Multilingual model Required VRAM Relative speed
    tiny 39 M tiny.en tiny ~1 GB ~32x
    base 74 M base.en base ~1 GB ~16x
    small 244 M small.en small ~2 GB ~6x
    medium 769 M medium.en medium ~5 GB ~2x
    large 1550 M N/A large ~10 GB 1x
三、示例

模型越大,越精確,相應(yīng)話費的時間越長
自帶語言識別功能,language最好加上,下面歌曲識別為英語,加后為中文
stable_whisper 是 whisper 進(jìn)化版 即 python的這個包stable-ts

import whisper
import stable_whisper as whisper

class WhisperTranscriber(object):

    def __init__(self, model_name):
        self.model = whisper.load_model(model_name)

    def whisper_transcribe(self, audio_path):
        audio = self.model.transcribe(audio_path, fp16=False, language='Chinese')
        return audio['text']

if __name__ == '__main__':

    transcriber = WhisperTranscriber("base")
    text = transcriber.whisper_transcribe("257853511.mp3")
    print(text)

可能是伴奏聲音過大,你猜出來這是什么歌了嗎?python語音識別whisperstable_whisper 別的用法、生成字幕

import stable_whisper
model = stable_whisper.load_model('base')
results = model.transcribe('257853511.mp3', fp16=False, language='Chinese')
stable_whisper.results_to_sentence_srt(results, 'audio')
stable_whisper.results_to_sentence_word_ass(results, 'audio.ass')
四、封裝工具

buzz https://github.com/chidiwilliams/buzz文章來源地址http://www.zghlxwxcb.cn/news/detail-448541.html

如果遇到簡繁轉(zhuǎn)換可以石下面
pip install zhconv

zh-cn 大陸簡體
zh-hant 繁體

from zhconv import convert     
convert('Python是一種動態(tài)的、面向?qū)ο蟮哪_本語言', 'zh-hant')
'Python是一種動態(tài)的、面向?qū)ο蟮哪_本語言'

到了這里,關(guān)于python語音識別whisper的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Whisper對于中文語音識別與轉(zhuǎn)寫中文文本優(yōu)化的實踐(Python3.10)

    Whisper對于中文語音識別與轉(zhuǎn)寫中文文本優(yōu)化的實踐(Python3.10)

    阿里的FunAsr對Whisper中文領(lǐng)域的轉(zhuǎn)寫能力造成了一定的挑戰(zhàn),但實際上,Whisper的使用者完全可以針對中文的語音做一些優(yōu)化的措施,換句話說,Whisper的“默認(rèn)”形態(tài)可能在中文領(lǐng)域斗不過FunAsr,但是經(jīng)過中文特殊優(yōu)化的Whisper就未必了。 Whisper經(jīng)常被人詬病的一點是對中文語音

    2024年01月25日
    瀏覽(18)
  • 【語音識別入門】特征提?。≒ython完整代碼)

    【語音識別入門】特征提?。≒ython完整代碼)

    1.1數(shù)字信號處理基礎(chǔ) 在科學(xué)和工程中遇到的大多數(shù)信號都是連續(xù)模擬信號,例如電壓隨著時間變化,一天中溫度的變化等等,而計算機(jī)智能處理離散的信號,因此必須對這些連續(xù)的模擬信號進(jìn)行轉(zhuǎn)化。通過 采樣–量化 來轉(zhuǎn)換成數(shù)字信號。 以 正弦波 為例: x ( t ) = s i n ( 2 Π

    2024年01月17日
    瀏覽(22)
  • 【開源工具】使用Whisper提取視頻、語音的字幕

    【開源工具】使用Whisper提取視頻、語音的字幕

    運行 WhisperDesktop.exe , 啟動后加載模型“l(fā)oad model,please wait…”,等待其將模型加載到內(nèi)存。 2.1 下載模型 剛開始是沒有模型的,需要到Hugging Face 2 的倉庫里面下載模型并配置相關(guān)路徑 2.1.1 進(jìn)入Hugging Face 2 的倉庫 點擊 ggerganov/whisper.cpp 進(jìn)入Hugging Face倉庫 2.1.2 選擇需要下載的模型

    2024年02月09日
    瀏覽(84)
  • 【開源工具】使用Whisper將提取視頻、語音的字幕

    【開源工具】使用Whisper將提取視頻、語音的字幕

    運行 WhisperDesktop.exe , 啟動后加載模型“l(fā)oad model,please wait…”,等待其將模型加載到內(nèi)存。 2.1 下載模型 剛開始是沒有模型的,需要到Hugging Face 2 的倉庫里面下載模型并配置相關(guān)路徑 2.1.1 進(jìn)入Hugging Face 2 的倉庫 點擊 ggerganov/whisper.cpp 進(jìn)入Hugging Face倉庫 2.1.2 選擇需要下載的模型

    2024年02月08日
    瀏覽(94)
  • 一鍵智能視頻語音轉(zhuǎn)文本——基于PaddlePaddle語音識別與Python輕松提取視頻語音并生成文案

    一鍵智能視頻語音轉(zhuǎn)文本——基于PaddlePaddle語音識別與Python輕松提取視頻語音并生成文案

    如今進(jìn)行入自媒體行業(yè)的人越來越多,短視頻也逐漸成為了主流,但好多時候是想如何把視頻里面的語音轉(zhuǎn)成文字,比如,錄制會議視頻后,做會議紀(jì)要;比如,網(wǎng)課教程視頻,想要做筆記;比如,需要提取視頻中文案使用;比如,需要給視頻加個字幕;這時候,只要把視頻轉(zhuǎn)

    2024年02月08日
    瀏覽(23)
  • 語音識別whisper

    Whisper是一個通用的語音識別模型,它使用了大量的多語言和多任務(wù)的監(jiān)督數(shù)據(jù)來訓(xùn)練,能夠在英語語音識別上達(dá)到接近人類水平的魯棒性和準(zhǔn)確性1。Whisper還可以進(jìn)行多語言語音識別、語音翻譯和語言識別等任務(wù)2。Whisper的架構(gòu)是一個簡單的端到端方法,采用了編碼器-解碼器

    2024年02月12日
    瀏覽(19)
  • 語音識別 - ASR whisper

    語音識別 - ASR whisper

    目錄 1. 簡單介紹 2.?代碼調(diào)用 Introducing Whisper https://openai.com/blog/whisper/ OpenAI 的開源自動語音識別神經(jīng)網(wǎng)絡(luò) whisper 安裝 Python 調(diào)用

    2024年02月12日
    瀏覽(22)
  • Whisper 語音識別模型

    Whisper 語音識別模型 Whisper 是一種通用的語音識別模型。它是在包含各種音頻的大型數(shù)據(jù)集上訓(xùn)練的,也是一個可以執(zhí)行多語言語音識別、語音翻譯和語言識別的多任務(wù)模型。 開源項目地址:https://github.com/openai/whisper Whisper 語音識別模型 Transformer 序列到序列模型針對各種語音

    2024年02月16日
    瀏覽(25)
  • 【語音識別】OpenAI whisper

    【語音識別】OpenAI whisper

    目錄 1. 簡單介紹 2.?代碼調(diào)用 Introducing Whisper https://openai.com/blog/whisper/ OpenAI 的開源自動語音識別神經(jīng)網(wǎng)絡(luò) whisper 安裝 Python 調(diào)用

    2024年02月13日
    瀏覽(90)
  • 探索Whisper語音識別

    探索Whisper語音識別

    問題一:python多版本切換 背景:有了anaconda環(huán)境 ?還有一個c盤的不知道什么東西 我準(zhǔn)備下載一個python3.9.9 去官網(wǎng) 然后安裝,安裝之前一定要把原來的python卸載干凈。 ?3.9.9安裝不上,我用3.10 切換的話,就是去環(huán)境變量里面改變位置 ?最后發(fā)現(xiàn)直接用anaconda也可以,python3.8也

    2024年02月09日
    瀏覽(17)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包