国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【開源工具】使用Whisper將提取視頻、語音的字幕

這篇具有很好參考價值的文章主要介紹了【開源工具】使用Whisper將提取視頻、語音的字幕。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

一、語音轉(zhuǎn)字幕操作步驟

1、下載安裝包Assets\WhisperDesktop.zip1

2、加載模型

運(yùn)行WhisperDesktop.exe,
啟動后加載模型“l(fā)oad model,please wait…”,等待其將模型加載到內(nèi)存。

2.1 下載模型

剛開始是沒有模型的,需要到Hugging Face2的倉庫里面下載模型并配置相關(guān)路徑

2.1.1 進(jìn)入Hugging Face2的倉庫

點(diǎn)擊ggerganov/whisper.cpp進(jìn)入Hugging Face倉庫

2.1.2 選擇需要下載的模型

在Hugging Face倉庫,選擇Files and versions,選擇以下兩種模型:

  • ggml-large.bin
  • ggml-medium.bin
    【開源工具】使用Whisper將提取視頻、語音的字幕
2.1.3 配置模型路徑

在Load Whisper Model 頁,Model Path選擇好模型的路徑D:\WhisperDestop\ggml-whisper.bin,點(diǎn)擊OK,等待其將模型加載到內(nèi)存。

3、語音轉(zhuǎn)字幕

在Transcribe Audio File頁面:

  1. Language:Chinese(視頻或語音說話使用的語種)
  2. Translate: (把識別出來的文本給翻譯成英文輸出)
  3. Transcribe File:C:\xxx.mp4(選擇你要提取字幕的視頻、音頻等)
  4. Output Format:SubRip subtitles(輸出格式)
    • None:
    • Text file:純文本
    • Text with timestamps
    • SubRip subtitles:字幕(標(biāo)準(zhǔn)的字幕格式 時段+文字)
      可以將后綴改為.srt格式,這樣的文件可以直接拖放到剪輯軟件里面,他會自動給你排列好,像這樣的字幕是不需要咱們來對時間的
    • WebVTT subtitles

4、實(shí)時語言轉(zhuǎn)錄功能

開啟實(shí)時語言轉(zhuǎn)錄之后,你對它說話的話,他會自動把你說的話轉(zhuǎn)換成文字并記錄下來

二、相關(guān)簡介3

特點(diǎn)

  • 基于DirectCompute的供應(yīng)商無關(guān)GPGPU;該技術(shù)的另一個名稱是“Direct3D 11中的計算著色器”

  • 簡單的C++實(shí)現(xiàn),除了基本的操作系統(tǒng)組件之外沒有運(yùn)行時依賴項

  • OpenAI的實(shí)現(xiàn)快得多。
    在我的臺式電腦上,使用GeForce 1080Ti GPU,中等型號,用PyTorchCUDA轉(zhuǎn)錄3:24分鐘的語音需要45秒,但我的實(shí)現(xiàn)和DirectCompute只需要19秒。
    有趣的是:這是9.63 GB的運(yùn)行時依賴項,而Whisper.dll431 KB

  • 混合F16/F32精度:自D3D v10.0版本起,Windows需要支持R16_FLOAT緩沖區(qū)

  • 內(nèi)置性能探查器,用于測量單個計算著色器的執(zhí)行時間

  • 內(nèi)存使用率低

  • 用于音頻處理的Media Foundation支持大多數(shù)音頻和視頻格式(Ogg Vorbis除外),以及大多數(shù)在Windows上工作的音頻捕獲設(shè)備(一些專業(yè)設(shè)備除外,它們只實(shí)現(xiàn)ASIO API)。

  • 用于音頻捕獲的語音活動檢測。
    該實(shí)現(xiàn)基于Mohammad MoattarMahdi Homayoonpoor 2009年的文章“一種簡單但高效的實(shí)時語音活動檢測算法”。

  • 易于使用的COM型API。nuget上提供了慣用的C#包裝。1.10版引入了對PowerShell 5.1的腳本支持,這是Windows上預(yù)裝的舊版本“Windows PowerShell”。

  • 可用的預(yù)構(gòu)建二進(jìn)制文件

唯一支持的平臺是64位 Windows
應(yīng)該在Windows 8.1或更新版本上工作,但我只在Windows 10上測試過。
該庫需要一個支持Direct3D 11.0GPU,在2023年,它的意思只是“任何硬件GPU”。最新的不支持D3D 11.0GPU2011年的Intel Sandy Bridge。

CPU方面,庫需要AVX1F16C支持。

開發(fā)人員指南

構(gòu)建說明

  1. 克隆此存儲庫

  2. Visual Studio 2022中打開WhisperCpp.sln。我使用的是免費(fèi)軟件社區(qū)版,版本17.4.4

  3. 切換到Release 配置

  4. 在解決方案的Tools子文件夾中生成并運(yùn)行CompressShaders C#項目。要運(yùn)行該項目,請在visual studio中右鍵單擊“設(shè)置為啟動項目”,然后在VS的主菜單中單擊“調(diào)試/啟動而不調(diào)試”。成功完成后,您應(yīng)該會看到一個控制臺窗口,其中有一行如下所示:
    壓縮的46個計算著色器,123.5 kb->18.0 kb

5.構(gòu)建Whisper項目以獲得本機(jī)DLL,或用于C#包裝器和nuget包的WhisperNet或示例。

其他注意事項

如果你要在使用Visual C++2022或更新版本構(gòu)建的軟件中使用該庫,你可能會以.msm合并模塊或vc_redist.x64.exe二進(jìn)制文件的形式重新分發(fā)Visual C++運(yùn)行時DLL。

如果你這樣做,右鍵單擊Whisper項目、屬性、C/C++、代碼生成,將“Runtime Library”設(shè)置從Multi-threaded (/MT)切換到Multi-threaded DLL (/MD),然后重建:二進(jìn)制文件將變得更小。

該庫包括RenderDoc GPU調(diào)試器集成。
RenderDoc啟動程序時,按住F12鍵以捕獲計算調(diào)用。

如果要調(diào)試HLSL著色器,請使用DLL的調(diào)試構(gòu)建,其中包括著色器的調(diào)試構(gòu)建。您將在調(diào)試器中獲得更好的用戶體驗。
該存儲庫包括許多僅用于開發(fā)的代碼:耦合替代模型實(shí)現(xiàn)、一些計算著色器的兼容FP64版本、調(diào)試跟蹤和比較跟蹤的工具等。

這些東西被預(yù)處理器宏constexpr標(biāo)志禁用了,我希望保留在這里沒問題。

績效說明

我在辦公地點(diǎn)選擇了幾款GPU進(jìn)行有限的測試。

具體來說,我已經(jīng)為英偉達(dá) 1080Ti、Ryzen 7 5700G內(nèi)部的Radeon Vega 8Ryzen 5 5600U內(nèi)部的Radeon Vega 7進(jìn)行了優(yōu)化。

總結(jié)如下。

英偉達(dá)為大型型號提供了5.8的相對速度,為中型型號提供了10.6的相對速度。

AMD Ryzen 5 5600U APU為中型型號提供了約2.2的相對速度。不太好,但仍然比實(shí)時快得多。

我也在英偉達(dá) 1650上測試過:比1080Ti慢,但很好,比實(shí)時快得多。

我還測試了酷睿i7-3612QM內(nèi)部的Intel HD Graphics 4000,中等型號的相對速度為0.14,小型型號為0.44。這比實(shí)時慢得多,但我很高興發(fā)現(xiàn)我的軟件即使在2012年推出的集成移動GPU上也能工作。

我不確定離散AMD GPU或集成Intel GPU的性能是否理想,它們沒有專門針對它們進(jìn)行優(yōu)化。
理想情況下,它們可能需要兩個最昂貴的計算著色器(mulMatTiled.hlslmulMatByRowTiled.hlsl)的稍微不同的構(gòu)建。
也許還有其他調(diào)整,比如Whisper/D3D/device.h頭文件中的useReshapedMatMul()值。

我不知道如何衡量,但我有一種感覺,瓶頸是內(nèi)存,而不是計算。
黑客新聞上有人測試了3060Ti,即帶有GDDR6內(nèi)存的版本。與1080Ti相比,該GPU具有1.3倍FP32 FLOPS,但具有0.92倍VRAM帶寬。該應(yīng)用程序在3060Ti上慢了約10%。

進(jìn)一步優(yōu)化

我只花了幾天時間優(yōu)化這些著色器的性能。
也許可以做得更好,以下是一些想法。

  • 與FP32相比,Radeon Vega或nVidia 1650等較新的GPU具有更高的FP16性能,但我的計算著色器僅使用FP32數(shù)據(jù)類型。
    一半的細(xì)致,兩倍的樂趣

  • 在當(dāng)前版本中,F(xiàn)P16張量使用著色器資源視圖向上轉(zhuǎn)換加載的值,使用無序訪問視圖向下轉(zhuǎn)換存儲的值。
    切換到字節(jié)地址緩沖區(qū),加載/存儲完整的4字節(jié)值,并使用f16t32/f32-tof16內(nèi)部函數(shù)在HLSL中進(jìn)行上變頻/下變頻可能是個好主意。

  • 在當(dāng)前版本中,所有著色器都是脫機(jī)編譯的,Whisper.dll包含DXBC字節(jié)碼。
    HLSL編譯器D3DCompiler_47.dll是一個操作系統(tǒng)組件,速度非??臁τ诎嘿F的計算著色器,最好提供HLSL而不是DXBC,并在啟動時使用宏的特定于環(huán)境的值進(jìn)行編譯。

  • 將整個東西從D3D11升級到D3D12可能是個好主意。
    較新的API更難使用,但它包含了D3D11沒有的潛在有用功能:wave intrinsic和explicit FP16.。

缺少的功能

未實(shí)現(xiàn)自動語言檢測。
在當(dāng)前版本中,實(shí)時音頻捕獲的延遲很高。
具體而言,根據(jù)語音檢測,該數(shù)字約為5-10秒。
至少在我的測試中,當(dāng)我提供的音頻片段太短時,模型并不滿意。

我已經(jīng)增加了延遲并結(jié)束了這一天,但理想情況下,這需要一個更好的解決方案來優(yōu)化用戶體驗。

結(jié)尾語

在我看來,這是一個無償?shù)臉I(yè)余項目,我在2022-23年的寒假里完成了。

代碼可能有一些bug。

軟件是“原封不動”提供的,沒有任何形式的擔(dān)保。

感謝Georgi Gerganov實(shí)現(xiàn)了whisper.cpp以及GGML二進(jìn)制格式的模型。

我不會編寫Python程序,也對ML生態(tài)系統(tǒng)一無所知。

如果沒有一個好的C++參考實(shí)現(xiàn)來測試我的版本,我甚至不會啟動這個項目。

whisper.cpp項目有一個例子,它使用相同的GGML實(shí)現(xiàn)來運(yùn)行另一個OpenAI的模型GPT-2。

用這個項目中已經(jīng)實(shí)現(xiàn)的計算著色器和相關(guān)基礎(chǔ)設(shè)施來支持ML模型應(yīng)該不難。

如果你覺得這很有用,如果你考慮向“Come Back Alive”基金會捐款,我將不勝感激。


  1. http://github.xiaoc.cn/Const-me/Whisper/releases/tag/1.11.0 ??

  2. https://www.huggingface.co/ggerganov/whisper.cpp ?? ??

  3. http://github.xiaoc.cn/Const-me/Whisper ??文章來源地址http://www.zghlxwxcb.cn/news/detail-483177.html

到了這里,關(guān)于【開源工具】使用Whisper將提取視頻、語音的字幕的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 基于whisper和whisperx的語音視頻和字幕對齊

    創(chuàng)建py310虛擬環(huán)境,需要安裝Anaconda的Python環(huán)境。 Python初學(xué)者在不同系統(tǒng)上安裝Python的保姆級指引 Win10+Python3.9+GPU版pytorch環(huán)境搭建最簡流程 Python虛擬環(huán)境的安裝和使用 還需要提前安裝FFmpeg用于音頻操作,并添加到環(huán)境變量中。 創(chuàng)建一個名稱為 whisper 的虛擬環(huán)境。 激活虛擬環(huán)

    2024年02月16日
    瀏覽(68)
  • 英文視頻添加中英雙語字幕(基于Whisper語音識別和Google翻譯)

    英文視頻添加中英雙語字幕(基于Whisper語音識別和Google翻譯)

    可以參考以下博客的內(nèi)容講顯卡驅(qū)動,CUDA和cudnn的安裝比較詳細(xì),我建議能用GPU加速就盡量使用,Whisper速度有點(diǎn)慢 如何在你的電腦上完成whisper的簡單部署_Wayne_WX的博客-CSDN博客? Windows使用whisper前需要進(jìn)行的一些環(huán)境配置 https://blog.csdn.net/m0_52156129/article/details/129263703 我的f

    2024年02月09日
    瀏覽(29)
  • whisper實(shí)踐--基于whisper+pyqt5開發(fā)的語音識別翻譯生成字幕工具

    whisper實(shí)踐--基于whisper+pyqt5開發(fā)的語音識別翻譯生成字幕工具

    大家新年快樂,事業(yè)生活蒸蒸日上,解封的第一個年,想必大家都回家過年,好好陪陪家人了吧,這篇文章也是我在老家碼的,還記得上篇我?guī)Т蠹一玖私饬藈hisper,相信大家對whisper是什么,怎么安裝whisper,以及使用都有了一個認(rèn)識,這次作為新年第一篇文章,我將介紹一

    2024年02月01日
    瀏覽(27)
  • 基于Whisper語音識別的實(shí)時視頻字幕生成 (一): 流式顯示視頻幀和音頻幀

    基于Whisper語音識別的實(shí)時視頻字幕生成 (一): 流式顯示視頻幀和音頻幀

    Whistream(微流)是基于Whisper語音識別的的在線字幕生成工具,支持rtsp/rtmp/mp4等視頻流在線語音識別 whishow(微秀)是python實(shí)現(xiàn)的在線音視頻流播放器,支持rtsp/rtmp/mp4等流式輸入,也是whistream的前端。python實(shí)現(xiàn)原理如下: (1) SPROCESS.run() 的三個子線程負(fù)責(zé):緩存流數(shù)據(jù),處理音

    2024年04月13日
    瀏覽(96)
  • Windows 下融合使用開源組件進(jìn)行視頻內(nèi)容分析,shotcut ,autocut 剪輯 whisper智能化編輯雙語字幕等

    下面以這個黃仁勛訪談視頻為例簡要介紹分析的步驟 https://youtu.be/lXLBTBBil2U https://github.com/openai/whisper 提升: 安裝如果需要在conda 中使用 ffmpeg 的話,也是可以直接用 conda install ffmpeg https://github.com/openai/whisper/discussions/1172 We are thrilled to introduce Subper (https://subtitlewhisper.com), a f

    2024年04月09日
    瀏覽(39)
  • 《AI上字幕》基于openAI研發(fā)的whisper模型,語音(視頻)一鍵轉(zhuǎn)文本/字幕/帶時間軸/支持多語言/自帶翻譯《桌面版教程》

    《AI上字幕》基于openAI研發(fā)的whisper模型,語音(視頻)一鍵轉(zhuǎn)文本/字幕/帶時間軸/支持多語言/自帶翻譯《桌面版教程》

    OpenAI的chatGPT非?;鸨?,其實(shí)OpenAI旗下的另一個模型實(shí)力也十分強(qiáng)大,它就是開源免費(fèi)的Whisper語音轉(zhuǎn)文本模型,目前為止它是較為頂尖的語音轉(zhuǎn)文本模型 當(dāng)前github上也有許多出色的開發(fā)者根據(jù)此模型開發(fā)出桌面版語音轉(zhuǎn)文字應(yīng)用。較為出色的分別是Buzz和WhisperDesktop 支持將多種

    2023年04月19日
    瀏覽(24)
  • github開源推薦,基于whisper的字幕生成和字幕翻譯工具——再也沒有看不懂的片啦

    github開源推薦,基于whisper的字幕生成和字幕翻譯工具——再也沒有看不懂的片啦

    GitHub - qinL-cdy/auto_ai_subtitle github上開源的一款字幕生成和字幕翻譯的整合工具,可以根據(jù)視頻中提取到的音頻來轉(zhuǎn)換成字幕,再根據(jù)需要將字幕進(jìn)行翻譯,基于whisper 1)安裝ffmpeg 安裝ffmpeg的教程比較多,就不詳細(xì)介紹了,Windows上安裝完成后記得添加環(huán)境變量,最后在cmd中輸入

    2024年02月13日
    瀏覽(60)
  • 【whisper】在python中調(diào)用whisper提取字幕或翻譯字幕到文本

    最近在做視頻處理相關(guān)的業(yè)務(wù)。其中有需要將視頻提取字幕的需求,在我們實(shí)現(xiàn)過程中分為兩步:先將音頻分離,然后就用到了whisper來進(jìn)行語音識別或者翻譯。本文將詳細(xì)介紹一下whisper的基本使用以及在python中調(diào)用whisper的兩種方式。 whisper 是一款用于語音識別的開源庫,支

    2024年02月05日
    瀏覽(29)
  • 不到百行代碼,使用Whisper進(jìn)行視頻字幕生成。

    ??最近在學(xué)習(xí)視頻剪輯的時候,希望找一款軟件進(jìn)行翻譯;發(fā)現(xiàn)大多數(shù)是調(diào)用某云的Api進(jìn)行翻譯。通過查詢資料,打算使用Whisper進(jìn)行本地視頻語音的識別,然后進(jìn)行字幕文件的編輯(srt),最后通過ffmpeg添加到視頻中。 ??Whisper 是 OpenAI 構(gòu)建的通用語音識別模型。它于 2

    2024年03月19日
    瀏覽(25)
  • 【whisper】在python中調(diào)用whisper提取字幕或翻譯字幕到文本_python whisper

    【whisper】在python中調(diào)用whisper提取字幕或翻譯字幕到文本_python whisper

    whisper 是一款用于語音識別的開源庫,支持多種語言,其中包括中文。在本篇文章中,我們將介紹如何安裝 whisper 以及如何使用它來識別中文字幕。 首先,我們需要安裝 whisper。根據(jù)操作系統(tǒng),可以按照以下步驟進(jìn)行安裝: 對于 Windows 用戶,可以從 whisper 的 GitHub 頁面 (https

    2024年02月20日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包