国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python_視頻中語音識別轉(zhuǎn)出文本

這篇具有很好參考價值的文章主要介紹了python_視頻中語音識別轉(zhuǎn)出文本。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

注意:沒有“stepladder”的同學(xué)建議不要看啦

目錄

1. 安裝需要的包

2. 視頻轉(zhuǎn)音頻

3. 對音頻進(jìn)行切割

4. 對視頻進(jìn)行切割

5. 從音頻中識別出文本

5.1 使用離線方法

5.2 使用在線方法

5.3 兩種方法比較

6. 用到的包下載


1. 安裝需要的包

1.1 安裝SpeechRecognition包

pip install SpeechRecognition

1.2 安裝 PockSphinx包

在線裝總是失敗,采用本地安裝

https://www.lfd.uci.edu/~gohlke/pythonlibs/#pocketsphinx

本機(jī)該項(xiàng)目是python3.7的環(huán)境所以選擇37

python_視頻中語音識別轉(zhuǎn)出文本

執(zhí)行本地安裝

python_視頻中語音識別轉(zhuǎn)出文本

下載語言包

SpeechRecognition · PyPI

?python_視頻中語音識別轉(zhuǎn)出文本

?speech_recognition/pocketsphinx.rst at master · Uberi/speech_recognition · GitHub

python_視頻中語音識別轉(zhuǎn)出文本

?python_視頻中語音識別轉(zhuǎn)出文本

?python_視頻中語音識別轉(zhuǎn)出文本

?將下載后的文件復(fù)制到pocketsphinx的語言包目錄下

python_視頻中語音識別轉(zhuǎn)出文本

?解壓后如上圖,將這個zh-CN文件夾復(fù)制到你自己python環(huán)境所在的目錄下

python_視頻中語音識別轉(zhuǎn)出文本

1.3 安裝moviepy

pip install moviepy?

1.4 安裝pydub

pip install pydub

2. 視頻轉(zhuǎn)音頻

from moviepy.editor import AudioFileClip
from moviepy.video.io.VideoFileClip import VideoFileClip
from pydub import AudioSegment
from pydub.utils import make_chunks
import speech_recognition as sr

# 導(dǎo)入視頻,提取音頻并保存
def video_2_audio():
    # 導(dǎo)入視頻
    one_audio_clip = AudioFileClip('D:/temp002/000.mp4')
    # 提取音頻并保存
    one_audio_clip.write_audiofile('D:/temp002/000.wav')
    pass

本例中運(yùn)行的000.mp4文件大約有35分鐘,這個提取音頻的過程挺慢的,用了好幾分鐘,為便于甄別最終效果,我對原始文件進(jìn)行了切割,只對某一部分做處理?

3. 對音頻進(jìn)行切割

def segment_audio():
    pre_save_dir = r'D:/temp002/000_a/'
    audio_file = r'D:/temp002/000.wav'
    audio = AudioSegment.from_file(audio_file,'wav')
    size = 30000 # 切割的毫秒數(shù)

    chunks = make_chunks(audio,size) # 30s一個片段

    for i,chunk in enumerate(chunks):
        # chunk是切割好的文件
        chunk_name = "v_{0}.wav".format(i)
        print(chunk_name)
        chunk.export(pre_save_dir+chunk_name,format='wav')
        pass
    pass

將音頻文件按30秒的時長進(jìn)行切割

python_視頻中語音識別轉(zhuǎn)出文本?

?

4. 對視頻進(jìn)行切割

# 切割視頻
def segment_video():
    pre_save_dir = r'D:/temp002/000_v/'
    video_file = r'D:/temp002/000.mp4'
    source_video = VideoFileClip(video_file)
    video = source_video.subclip(0,30)
    video.write_videofile(pre_save_dir+'0_v.mp4')
    pass

視頻切割耗費(fèi)的時間比較長,我只切割出前30秒

python_視頻中語音識別轉(zhuǎn)出文本?

5. 從音頻中識別出文本

5.1 使用離線方法

def voice_to_text_local():
    audio_file = 'D:/temp002/000/v_0.wav'
    r = sr.Recognizer()
    with sr.AudioFile(audio_file) as source:
        audio = r.record(source)

    res_txt = r.recognize_sphinx(audio,language='zh-CN')
    print(len(res_txt))
    print(res_txt)

識別出的結(jié)果:

長度:241
地 調(diào) 降 耗 這里是 獨(dú)裁 堡 市 選出 本期 士兵 是 中國 版 拉 紐 股 復(fù) 牌 系列 的 第四 期 市 地 縣 也 使我們 中國 上市 公司 里 漲幅 最大 的 一批 公司 為 家 樂 福 看 他們 上市 以來 的 股價 走勢 和 經(jīng)濟(jì)部 的 最終 目的是 在 邵 氏 公司 的 年報(bào) 里 尋找 確定 新的 投資 機(jī)會 本期 我們 付款 的 公司 說 它 稱為 是 我們 先 看 上海 同 為 四 上司 以來 的 股價 走勢 泰國 衛(wèi)生 二零零零年 在 兒孫 交 所 上市

結(jié)果非常糟糕。。。?

5.2 使用在線方法

附加說明pycharm設(shè)置代理ip方法

File->Settings->System Settings->Http Proxy

python_視頻中語音識別轉(zhuǎn)出文本

?填上ip和端口

以下回歸正題:

def voice_to_text():
    audio_file = 'D:/temp002/000/v_0.wav'
    r = sr.Recognizer()
    with sr.AudioFile(audio_file) as source:
        audio = r.record(source)

    res_txt = r.recognize_google(audio,language='zh-cn')
    print(len(res_txt))
    print(res_txt)

識別出的結(jié)果:

長度:149
大家好這里是獨(dú)裁暴雪選股本期視頻是中國百大牛股護(hù)盤系列的第4集這個系列是以我們中國上市公司里漲幅最大的一批公司為樣本復(fù)盤他們上市以來的股價走勢和經(jīng)濟(jì)路到最終的目的是在上市公司的年報(bào)里尋找確定性的投資機(jī)會本期我們付款的公司是海康威視我們先看一下??低暽鲜幸詠淼墓蓛r走勢排行為是2010年在深交所上市

?還不錯

5.3 兩種方法比較

人工識別的結(jié)果:

大家好這里是讀財(cái)報(bào)學(xué)選股本期視頻是中國百大牛股復(fù)盤系列的第4集這個系列是以我們中國上市公司里漲幅最大的一批公司為樣本復(fù)盤他們上市以來的股價走勢和經(jīng)濟(jì)情況,最終的目的是在上市公司的年報(bào)里尋找確定性的投資機(jī)會,本期我們復(fù)盤的公司是海康威視我們先看一下??低暽鲜幸詠淼墓蓛r走勢,??低曉?010年在深交所上市

比較兩種方法:

本地方法獲得的結(jié)果基本不可用;在線的方法沒有出太多差錯

6. 用到的包下載

鏈接:https://pan.baidu.com/s/1tDO3mNAqraBpbSnjqv6idQ?
提取碼:zpjk文章來源地址http://www.zghlxwxcb.cn/news/detail-401709.html

到了這里,關(guān)于python_視頻中語音識別轉(zhuǎn)出文本的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 開源(離線)中文語音識別ASR(語音轉(zhuǎn)文本)工具整理

    開源(離線)中文語音識別ASR(語音轉(zhuǎn)文本)工具整理 Open AI在2022年9月21日開源了號稱其英文語音辨識能力已達(dá)到人類水準(zhǔn)的Whisper神經(jīng)網(wǎng)絡(luò),且它亦支持其它98種語言的自動語音辨識。 Whisper系統(tǒng)所提供的自動語音辨識(Automatic Speech Recognition,ASR)模型是被訓(xùn)練來運(yùn)行語音辨識與翻

    2024年02月13日
    瀏覽(102)
  • 免費(fèi)的語音識別 API:簡單實(shí)現(xiàn)語音轉(zhuǎn)文本功能

    語音識別技術(shù)在現(xiàn)代信息處理和人機(jī)交互中扮演著重要角色。如果您正在尋找免費(fèi)的語音識別 API,那么您來對地方了!本文將向您介紹一個簡單的方法來實(shí)現(xiàn)語音轉(zhuǎn)文本的功能,并提供相應(yīng)的源代碼供參考。 首先,您需要使用 Python 編程語言來實(shí)現(xiàn)這個功能。Python 提供了許

    2024年02月03日
    瀏覽(14)
  • 小程序中使用微信同聲傳譯插件實(shí)現(xiàn)語音識別、語音合成、文本翻譯功能----語音識別(一)

    小程序中使用微信同聲傳譯插件實(shí)現(xiàn)語音識別、語音合成、文本翻譯功能----語音識別(一)

    官方文檔鏈接:https://mp.weixin.qq.com/wxopen/plugindevdoc?appid=wx069ba97219f66d99token=370941954lang=zh_CN#- 要使用插件需要先在小程序管理后臺的 設(shè)置-第三方設(shè)置-插件管理 中添加插件,目前該插件僅認(rèn)證后的小程序。 提供語音的實(shí)時流式識別能力,通過獲取全局唯一的語音識別管理器rec

    2024年01月19日
    瀏覽(113)
  • C#使用whisper.net實(shí)現(xiàn)語音識別(語音轉(zhuǎn)文本)

    C#使用whisper.net實(shí)現(xiàn)語音識別(語音轉(zhuǎn)文本)

    目錄 介紹 效果 輸出信息? 項(xiàng)目 代碼 下載? github地址:https://github.com/sandrohanea/whisper.net Whisper.net. Speech to text made simple using Whisper Models 模型下載地址:https://huggingface.co/sandrohanea/whisper.net/tree/main/classic whisper_init_from_file_no_state: loading model from \\\'ggml-small.bin\\\' whisper_model_load: loading

    2024年02月05日
    瀏覽(23)
  • win10 語音文本識別加入Kangkang

    以下內(nèi)容保存為.reg文件,導(dǎo)入注冊表。 Windows Registry Editor Version 5.00 [HKEY_LOCAL_MACHINESOFTWAREMicrosoftSpeechVoicesTokensTTS_MS_ZH-CN_KANGKANG_11.0] @=“Microsoft Kangkang Desktop - Chinese (Simplified)” “804”=“Microsoft Kangkang Desktop - Chinese (Simplified)” “CLSID”=“{179F3D56-1B0B-42B2-A962-59B7EF59FE1B}” “

    2024年02月05日
    瀏覽(20)
  • 注意力機(jī)制與語音識別:未來的聲音處理技術(shù)

    語音識別技術(shù)是人工智能領(lǐng)域的一個重要分支,它涉及到自然語言處理、信號處理、機(jī)器學(xué)習(xí)等多個領(lǐng)域的知識。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,語音識別技術(shù)也得到了巨大的發(fā)展,特別是注意力機(jī)制的出現(xiàn),它為語音識別技術(shù)提供了一種更加有效的解決方案。 在這篇文章中,我

    2024年04月14日
    瀏覽(24)
  • 小程序中使用微信同聲傳譯插件實(shí)現(xiàn)語音識別、語音合成、文本翻譯功能----文本翻譯(三)

    小程序中使用微信同聲傳譯插件實(shí)現(xiàn)語音識別、語音合成、文本翻譯功能----文本翻譯(三)

    官方文檔鏈接:https://mp.weixin.qq.com/wxopen/plugindevdoc?appid=wx069ba97219f66d99token=370941954lang=zh_CN#- 要使用插件需要先在小程序管理后臺的 設(shè)置-第三方設(shè)置-插件管理 中添加插件,目前該插件僅認(rèn)證后的小程序。 文本翻譯目前支持的語言有 zh_CN(中國大陸) en_US(英語)。 參數(shù)說明:

    2024年01月18日
    瀏覽(99)
  • 小蝸語音工具1.9、文本,小說,字幕生成語音、多角色對話,語音識別、讀取音頻字幕

    小蝸語音工具1.9、文本,小說,字幕生成語音、多角色對話,語音識別、讀取音頻字幕

    可以把正本小說,生成字幕文件。不限制文件的大小 a、 分割字符 :默認(rèn)通過**,。!–:?“”** 來把內(nèi)容分割成一句一句的字幕,可以自定義 b、 刪除符號 :默認(rèn)刪除【】=、等符號,刪除內(nèi)容里面的這些特殊符號并且替換為空格,可以自定義 c、 刪除文字 : 第(. )章(

    2024年02月10日
    瀏覽(29)
  • 小程序中使用微信同聲傳譯插件實(shí)現(xiàn)語音識別、語音合成、文本翻譯功能----語音合成(二)

    小程序中使用微信同聲傳譯插件實(shí)現(xiàn)語音識別、語音合成、文本翻譯功能----語音合成(二)

    官方文檔鏈接:https://mp.weixin.qq.com/wxopen/plugindevdoc?appid=wx069ba97219f66d99token=370941954lang=zh_CN#- 要使用插件需要先在小程序管理后臺的 設(shè)置-第三方設(shè)置-插件管理 中添加插件,目前該插件僅認(rèn)證后的小程序。 語音合成支持的語言有 zh_CN(中國大陸),en_US(英文)。 參數(shù)說明: 1、

    2024年01月16日
    瀏覽(302)
  • Whisper JAX 語音識別本地部署 whisperX 語音識別本地部署視頻教程

    https://nlpcloud.com/zh/how-to-install-and-deploy-whisper-the-best-open-source-alternative-to-google-speech-to-text.html whisper-jax最詳細(xì)的安裝教程 | 一個號稱比whisper快70倍的語音識別項(xiàng)目 | 免費(fèi)開源的語音識別項(xiàng)目 whisperX 語音識別本地部署_JoeManba的博客-CSDN博客 GitHub - sanchit-gandhi/whisper-jax: JAX implement

    2024年02月16日
    瀏覽(55)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包