国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<del id="kueh2"><form id="kueh2"></form></del>

一鍵智能視頻語音轉(zhuǎn)文本——基于PaddlePaddle語音識別與Python輕松提取視頻語音并生成文案

2年前作者：知來者逆分類：Toy博客閱讀(22)違法舉報

這篇具有很好參考價值的文章主要介紹了一鍵智能視頻語音轉(zhuǎn)文本——基于PaddlePaddle語音識別與Python輕松提取視頻語音并生成文案。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

前言

如今進行入自媒體行業(yè)的人越來越多，短視頻也逐漸成為了主流，但好多時候是想如何把視頻里面的語音轉(zhuǎn)成文字，比如，錄制會議視頻后，做會議紀要；比如，網(wǎng)課教程視頻，想要做筆記；比如，需要提取視頻中文案使用；比如，需要給視頻加個字幕;這時候，只要把視頻轉(zhuǎn)文字就好。
對于不是視頻編輯專業(yè)人員，處理起來還是比較麻煩的，但網(wǎng)上也有好多可以用的小工具，這些工具大多數(shù)都標榜有自己技術(shù)和模型，但都是在線模型或者使用過一段時間之后就無法再使用了，這些工具實際上都是基于一些大公司提供的接口衍生出來的AI工具，使用效果也不錯。但在處理的過程中，處理的文件要上傳到大公司的服務器進行處理，這里可能會涉及到一些數(shù)據(jù)的安全問題。這些數(shù)據(jù)很大一部分有可能會涉及到數(shù)據(jù)泄露與安全的問題。
這個項目的核心算法是基于PaddlePaddle的語音識別加Python實現(xiàn)，使用的模型可以有自己訓練，支持本地部署，支持GPU與CPU推理兩種文案，可以處理短語音識別、長語音識別、實現(xiàn)輸入的語音識別。

一、視頻語音提取

想要把視頻里面的語音進行識別，首先要對視頻里面的語音進行提取，提取視頻里的語音有很多用辦法,可以借助視頻編輯軟件（如Adobe Premiere Pro、Final Cut Pro）中提取音頻軌道，然后將其導出為音頻文件。也可以借助工具如FFmpeg或者moviepy，通過命令行將視頻中的音頻提取出來。
這里使用moviepy對視頻里面的語音進行提取,MoviePy是一個功能豐富的Python模塊，專為視頻編輯而設(shè)計。使用MoviePy，可以輕松執(zhí)行各種基本視頻操作，如視頻剪輯、視頻拼接、標題插入等。此外，它還支持視頻合成和高級視頻處理，甚至可以添加自定義高級特效。這個模塊可以讀寫絕大多數(shù)常見的視頻格式，包括GIF。無論使用的是Mac、Windows還是Linux系統(tǒng)，MoviePy都能無縫運行，可以在不同平臺上使用它。
MoviePy與FFmpeg環(huán)境安裝：

pip install moviepy
pip install ffmpeg

因為使用moviepy提取出視頻里面的音軌的比特率不是16000，不能直接輸入到語音識別模型里面，這里還要借助FFmpeg的命來把音頻采樣率轉(zhuǎn)成16000
一鍵智能視頻語音轉(zhuǎn)文本——基于PaddlePaddle語音識別與Python輕松提取視頻語音并生成文案,智能視頻處理,人工智能,Python,視頻處理,語音識別,視頻轉(zhuǎn)文字,視頻編輯,paddlepaddle
提取音軌：

def video_to_audio(video_path,audio_path):
    video = VideoFileClip(video_path)
    audio = video.audio
    audio_temp = "temp.wav"

    if os.path.exists(audio_path):
        os.remove(audio_temp)

    audio.write_audiofile(audio_temp)
    audio.close()

    if os.path.exists(audio_path):
        os.remove(audio_path)
    cmd = "ffmpeg -i " + audio_temp + " -ac 1 -ar 16000 " + audio_path
    subprocess.run(cmd,shell=True)

一鍵智能視頻語音轉(zhuǎn)文本——基于PaddlePaddle語音識別與Python輕松提取視頻語音并生成文案,智能視頻處理,人工智能,Python,視頻處理,語音識別,視頻轉(zhuǎn)文字,視頻編輯,paddlepaddle

二、語音識別

1.PaddleSpeech語音識別

PaddleSpeech是一款由飛漿開源全能的語音算法工具箱，其中包含多種領(lǐng)先國際水平的語音算法與預訓練模型。它提供了多種語音處理工具和預訓練模型供用戶選擇，支持語音識別、語音合成、聲音分類、聲紋識別、標點恢復、語音翻譯等多種功能。在這里可以找到基于PaddleSpeech精品項目與訓練教程：https://aistudio.baidu.com/projectdetail/4692119?contributionType=1

語音識別(Automatic Speech Recognition, ASR) 是一項從一段音頻中提取出語言文字內(nèi)容的任務。
一鍵智能視頻語音轉(zhuǎn)文本——基于PaddlePaddle語音識別與Python輕松提取視頻語音并生成文案,智能視頻處理,人工智能,Python,視頻處理,語音識別,視頻轉(zhuǎn)文字,視頻編輯,paddlepaddle
目前 Transformer 和 Conformer 是語音識別領(lǐng)域的主流模型，關(guān)于這方面的教程可以看飛漿官方發(fā)的課程：飛槳PaddleSpeech語音技術(shù)課程

2.環(huán)境依賴安裝

我當前的環(huán)境是win10，GPU是N卡3060，使用cuda 11.8,cudnn 8.5,為了之后方便封裝，使用conda來安裝環(huán)境，如果沒有GPU，也可以裝cpu版本：

conda create -n video_to_txt python=3.8
python -m pip install paddlepaddle-gpu==2.5.1 -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 模型下載

可以從官方git上下載到合適自己的模型：https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/README_cn.md
轉(zhuǎn)換模型：

import argparse
import functools

from ppasr.trainer import PPASRTrainer
from ppasr.utils.utils import add_arguments, print_arguments

parser = argparse.ArgumentParser(description=__doc__)
add_arg = functools.partial(add_arguments, argparser=parser)
add_arg('configs',          str,   'models/csfw/configs/conformer.yml',    '配置文件')
add_arg("use_gpu",          bool,  True,                       '是否使用GPU評估模型')
add_arg("save_quant",       bool,  False,                      '是否保存量化模型')
add_arg('save_model',       str,   'models',                  '模型保存的路徑')
add_arg('resume_model',     str,   'models/csfw/models', '準備導出的模型路徑')
args = parser.parse_args()
print_arguments(args=args)


# 獲取訓練器
trainer = PPASRTrainer(configs=args.configs, use_gpu=args.use_gpu)

# 導出預測模型
trainer.export(save_model_path=args.save_model,
               resume_model=args.resume_model,
               save_quant=args.save_quant)

4.語音識別

使用模型進行短語音識別：

 def predict(self,
                audio_data,
                use_pun=False,
                is_itn=False,
                sample_rate=16000):
        # 加載音頻文件，并進行預處理
        audio_segment = self._load_audio(audio_data=audio_data, sample_rate=sample_rate)
        audio_feature = self._audio_featurizer.featurize(audio_segment)
        input_data = np.array(audio_feature).astype(np.float32)[np.newaxis, :]
        audio_len = np.array([input_data.shape[1]]).astype(np.int64)

        # 運行predictor
        output_data = self.predictor.predict(input_data, audio_len)[0]

        # 解碼
        score, text = self.decode(output_data=output_data, use_pun=use_pun, is_itn=is_itn)
        result = {
   'text': text, 'score': score}
        return result

看看識別結(jié)果，是全部整成一塊，并沒有短句與加標點符號：
一鍵智能視頻語音轉(zhuǎn)文本——基于PaddlePaddle語音識別與Python輕松提取視頻語音并生成文案,智能視頻處理,人工智能,Python,視頻處理,語音識別,視頻轉(zhuǎn)文字,視頻編輯,paddlepaddle

5.斷句與標點符號

可以基于飛漿的ERNIE訓練標點行號模型:
一鍵智能視頻語音轉(zhuǎn)文本——基于PaddlePaddle語音識別與Python輕松提取視頻語音并生成文案,智能視頻處理,人工智能,Python,視頻處理,語音識別,視頻轉(zhuǎn)文字,視頻編輯,paddlepaddle
添加標點符號代碼：文章來源地址http://www.zghlxwxcb.cn/news/detail-720518.html

import json
import os
import re

import numpy as np
import paddle.inference as paddle_infer
from paddlenlp.transformers import ErnieTokenizer
from ppasr.utils.logger import setup_logger

logger

到了這里，關(guān)于一鍵智能視頻語音轉(zhuǎn)文本——基于PaddlePaddle語音識別與Python輕松提取視頻語音并生成文案的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務器費用

[畢設(shè)]基于STM32的語音識別智能藍牙音箱設(shè)計
（源程序+原理圖+PCB+設(shè)計說明書+PPT）原理圖：Altium Designer 程序編譯器：keil4/keil 5 編程語言：C語言設(shè)計編號：Y002 本設(shè)計制作了以藍牙接收模塊，語音識別和STM32單片機為核心的藍牙音箱。實現(xiàn)的具體要求如下： 1.語音識別：采用基于自動語音識別技術(shù)的LD3320語音識別方案
2023年04月21日
瀏覽(20)
基于百度語音識別API智能語音識別和字幕推薦系統(tǒng)——深度學習算法應用（含全部工程源碼）+測試數(shù)據(jù)集
本項目基于百度語音識別API，結(jié)合了語音識別、視頻轉(zhuǎn)換音頻識別以及語句停頓分割識別等多種技術(shù)，從而實現(xiàn)了高效的視頻字幕生成。首先，我們采用百度語音識別API，通過對語音內(nèi)容進行分析，將音頻轉(zhuǎn)換成文本。這個步驟使得我們能夠從語音中提取出有意義的文本信息
2024年02月13日
瀏覽(27)
構(gòu)建基于AWSLambda的人工智能應用：語音識別、圖像識別和自然語言處理
作者：禪與計算機程序設(shè)計藝術(shù) 在人工智能領(lǐng)域，用大數(shù)據(jù)、機器學習等方法來解決復雜的問題，已經(jīng)成為越來越多企業(yè)和開發(fā)者關(guān)注的問題。但是，如何把這些方法落地到生產(chǎn)環(huán)境中，仍然是一個難題。隨著云計算平臺的廣泛普及，AWS Lambda作為一項服務正在成為各個公司
2024年02月09日
瀏覽(36)
英文視頻添加中英雙語字幕（基于Whisper語音識別和Google翻譯）
可以參考以下博客的內(nèi)容講顯卡驅(qū)動，CUDA和cudnn的安裝比較詳細，我建議能用GPU加速就盡量使用，Whisper速度有點慢如何在你的電腦上完成whisper的簡單部署_Wayne_WX的博客-CSDN博客? Windows使用whisper前需要進行的一些環(huán)境配置 https://blog.csdn.net/m0_52156129/article/details/129263703 我的f
2024年02月09日
瀏覽(29)
AI智能語音識別模塊（二）——基于Arduino的語音控制MP3播放器
在前面一篇文章里我們對AI智能語音識別模塊進行了介紹，并對離線語音模組下載固件的過程進行了一個簡單描述，不知道大家還記不記得，這篇文章也是鴿了好久，，本文將用這個語音控制模塊結(jié)合前面介紹的DFPlayer Mini MP3模塊來做一個有趣的應用，在上一期文章中，我們只
2024年02月03日
瀏覽(29)
基于STM32和LD3320的智能語音識別柔光臺燈設(shè)計
畢業(yè)設(shè)計：（源程序+原理圖+PCB+設(shè)計說明書+PPT）原理圖：Altium Designer 程序編譯器：keil4/keil 5 編程語言：C語言設(shè)計編號：Y001 資料下載鏈接課題主要研究語音識別、按鍵識別、PWM波調(diào)節(jié)亮度、OLED屏幕顯示四個模塊，目前市面上語音識別的臺燈大多僅是控制燈的亮滅，采用
2023年04月10日
瀏覽(18)
兩分鐘克隆你的聲音，支持替換電影和視頻里面的聲音，免費使用支持docker一鍵部署，集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注
兩分鐘克隆你的聲音，支持替換電影和視頻里面的聲音，免費使用支持docker一鍵部署，集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注。查看我們的介紹視頻 demo video 中國地區(qū)用戶可使用 AutoDL 云端鏡像進行體驗：https://www.codewithgpu.com/i/RVC-
2024年02月20日
瀏覽(28)
畢業(yè)設(shè)計——基于ESP32的智能家居系統(tǒng)(語音識別、APP控制)
多種控制方式 ① 語音控制 ②APP控制 ③本地按鍵控制 ESP32嵌入式單片機實戰(zhàn)項目演示 ?這一個基于esp32c3的智能家居控制系統(tǒng)，能實現(xiàn)語音、app和按鍵控制。有手動和自動兩種模式，自動模式下會根據(jù)當前的光照強度控制燈的亮滅，當溫濕度達到設(shè)定值之后報警器會響。而且
2024年04月25日
瀏覽(443)
基于單片機的語音識別智能垃圾桶垃圾分類的設(shè)計與實現(xiàn)
???????功能介紹以51單片機作為主控系統(tǒng)；液晶顯示當前信息和狀態(tài)；通過語音識別模塊對當前垃圾種類進行語音識別；? 通過蜂鳴器進行聲光報警提醒垃圾桶已滿；采用舵機控制垃圾桶打開關(guān)閉；超聲波檢測當前垃圾桶滿溢程度；整個電路以5v供電; ?電路圖 ? 源代
2024年02月13日
瀏覽(26)
畢業(yè)設(shè)計——基于STM32的智能家具系統(tǒng)(語音識別控制、步進電機、舵機)
智能家具系統(tǒng)分為兩個不同版本系列： ①系列一：手機app遠程控制、遠程檢測溫濕度顯示在app，(云平臺)?。。。? ? ? ? ? ? ? ? ? ?https://blog.csdn.net/m0_59113542/article/details/123737710 ②系列二：語音識別控制-------本文章硬件采購鏈接：步進電機及相關(guān)驅(qū)動 ULN2003步進電機驅(qū)動
2024年02月05日
瀏覽(159)

<b id="m9yec"><abbr id="m9yec"></abbr></b>

<tfoot id="m9yec"></tfoot>

<acronym id="m9yec"></acronym>