国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【開源工具】使用Whisper將提取視頻、語音的字幕

2年前作者：少莫千華分類：Toy博客閱讀(93)違法舉報

這篇具有很好參考價值的文章主要介紹了【開源工具】使用Whisper將提取視頻、語音的字幕。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

一、語音轉(zhuǎn)字幕操作步驟

1、下載安裝包Assets\WhisperDesktop.zip1

2、加載模型

運(yùn)行WhisperDesktop.exe,
啟動后加載模型“l(fā)oad model，please wait…”,等待其將模型加載到內(nèi)存。

2.1 下載模型

剛開始是沒有模型的，需要到Hugging Face²的倉庫里面下載模型并配置相關(guān)路徑

2.1.1 進(jìn)入Hugging Face²的倉庫

點(diǎn)擊ggerganov/whisper.cpp進(jìn)入Hugging Face倉庫

2.1.2 選擇需要下載的模型

在Hugging Face倉庫，選擇Files and versions，選擇以下兩種模型：

ggml-large.bin
ggml-medium.bin

2.1.3 配置模型路徑

在Load Whisper Model 頁，Model Path選擇好模型的路徑D:\WhisperDestop\ggml-whisper.bin，點(diǎn)擊OK,等待其將模型加載到內(nèi)存。

3、語音轉(zhuǎn)字幕

在Transcribe Audio File頁面：

Language：Chinese(視頻或語音說話使用的語種)
Translate: √（把識別出來的文本給翻譯成英文輸出）
Transcribe File:C:\xxx.mp4(選擇你要提取字幕的視頻、音頻等)
Output Format:SubRip subtitles(輸出格式)
- None：
- Text file：純文本
- Text with timestamps
- SubRip subtitles：字幕（標(biāo)準(zhǔn)的字幕格式時段+文字）
  可以將后綴改為.srt格式，這樣的文件可以直接拖放到剪輯軟件里面，他會自動給你排列好，像這樣的字幕是不需要咱們來對時間的
- WebVTT subtitles

4、實(shí)時語言轉(zhuǎn)錄功能

開啟實(shí)時語言轉(zhuǎn)錄之后，你對它說話的話，他會自動把你說的話轉(zhuǎn)換成文字并記錄下來

二、相關(guān)簡介3

特點(diǎn)

基于DirectCompute的供應(yīng)商無關(guān)GPGPU；該技術(shù)的另一個名稱是“Direct3D 11中的計算著色器”
簡單的C++實(shí)現(xiàn)，除了基本的操作系統(tǒng)組件之外沒有運(yùn)行時依賴項
比OpenAI的實(shí)現(xiàn)快得多。
在我的臺式電腦上，使用GeForce 1080Ti GPU，中等型號，用PyTorch和CUDA轉(zhuǎn)錄3:24分鐘的語音需要45秒，但我的實(shí)現(xiàn)和DirectCompute只需要19秒。
有趣的是：這是9.63 GB的運(yùn)行時依賴項，而Whisper.dll是431 KB
混合F16/F32精度：自D3D v10.0版本起，Windows需要支持R16_FLOAT緩沖區(qū)
內(nèi)置性能探查器，用于測量單個計算著色器的執(zhí)行時間
內(nèi)存使用率低
用于音頻處理的Media Foundation支持大多數(shù)音頻和視頻格式（Ogg Vorbis除外），以及大多數(shù)在Windows上工作的音頻捕獲設(shè)備（一些專業(yè)設(shè)備除外，它們只實(shí)現(xiàn)ASIO API）。
用于音頻捕獲的語音活動檢測。
該實(shí)現(xiàn)基于Mohammad Moattar和Mahdi Homayoonpoor 2009年的文章“一種簡單但高效的實(shí)時語音活動檢測算法”。
易于使用的COM型API。nuget上提供了慣用的C#包裝。1.10版引入了對PowerShell 5.1的腳本支持，這是Windows上預(yù)裝的舊版本“Windows PowerShell”。
可用的預(yù)構(gòu)建二進(jìn)制文件

唯一支持的平臺是64位 Windows。
應(yīng)該在Windows 8.1或更新版本上工作，但我只在Windows 10上測試過。
該庫需要一個支持Direct3D 11.0的GPU，在2023年，它的意思只是“任何硬件GPU”。最新的不支持D3D 11.0的GPU是2011年的Intel Sandy Bridge。

在CPU方面，庫需要AVX1和F16C支持。

開發(fā)人員指南

構(gòu)建說明

克隆此存儲庫
在Visual Studio 2022中打開WhisperCpp.sln。我使用的是免費(fèi)軟件社區(qū)版，版本17.4.4。
切換到Release 配置
在解決方案的Tools子文件夾中生成并運(yùn)行CompressShaders C#項目。要運(yùn)行該項目，請在visual studio中右鍵單擊“設(shè)置為啟動項目”，然后在VS的主菜單中單擊“調(diào)試/啟動而不調(diào)試”。成功完成后，您應(yīng)該會看到一個控制臺窗口，其中有一行如下所示：
壓縮的46個計算著色器，123.5 kb->18.0 kb

5.構(gòu)建Whisper項目以獲得本機(jī)DLL，或用于C#包裝器和nuget包的WhisperNet或示例。

其他注意事項

如果你要在使用Visual C++2022或更新版本構(gòu)建的軟件中使用該庫，你可能會以.msm合并模塊或vc_redist.x64.exe二進(jìn)制文件的形式重新分發(fā)Visual C++運(yùn)行時DLL。

如果你這樣做，右鍵單擊Whisper項目、屬性、C/C++、代碼生成，將“Runtime Library”設(shè)置從Multi-threaded (/MT)切換到Multi-threaded DLL (/MD)，然后重建：二進(jìn)制文件將變得更小。

該庫包括RenderDoc GPU調(diào)試器集成。
從RenderDoc啟動程序時，按住F12鍵以捕獲計算調(diào)用。

如果要調(diào)試HLSL著色器，請使用DLL的調(diào)試構(gòu)建，其中包括著色器的調(diào)試構(gòu)建。您將在調(diào)試器中獲得更好的用戶體驗。
該存儲庫包括許多僅用于開發(fā)的代碼：耦合替代模型實(shí)現(xiàn)、一些計算著色器的兼容FP64版本、調(diào)試跟蹤和比較跟蹤的工具等。

這些東西被預(yù)處理器宏或constexpr標(biāo)志禁用了，我希望保留在這里沒問題。

績效說明

我在辦公地點(diǎn)選擇了幾款GPU進(jìn)行有限的測試。

具體來說，我已經(jīng)為英偉達(dá) 1080Ti、Ryzen 7 5700G內(nèi)部的Radeon Vega 8和Ryzen 5 5600U內(nèi)部的Radeon Vega 7進(jìn)行了優(yōu)化。

總結(jié)如下。

英偉達(dá)為大型型號提供了5.8的相對速度，為中型型號提供了10.6的相對速度。

AMD Ryzen 5 5600U APU為中型型號提供了約2.2的相對速度。不太好，但仍然比實(shí)時快得多。

我也在英偉達(dá) 1650上測試過：比1080Ti慢，但很好，比實(shí)時快得多。

我還測試了酷睿i7-3612QM內(nèi)部的Intel HD Graphics 4000，中等型號的相對速度為0.14，小型型號為0.44。這比實(shí)時慢得多，但我很高興發(fā)現(xiàn)我的軟件即使在2012年推出的集成移動GPU上也能工作。

我不確定離散AMD GPU或集成Intel GPU的性能是否理想，它們沒有專門針對它們進(jìn)行優(yōu)化。
理想情況下，它們可能需要兩個最昂貴的計算著色器（mulMatTiled.hlsl和mulMatByRowTiled.hlsl）的稍微不同的構(gòu)建。
也許還有其他調(diào)整，比如Whisper/D3D/device.h頭文件中的useReshapedMatMul()值。

我不知道如何衡量，但我有一種感覺，瓶頸是內(nèi)存，而不是計算。
黑客新聞上有人測試了3060Ti，即帶有GDDR6內(nèi)存的版本。與1080Ti相比，該GPU具有1.3倍FP32 FLOPS，但具有0.92倍VRAM帶寬。該應(yīng)用程序在3060Ti上慢了約10%。

進(jìn)一步優(yōu)化

我只花了幾天時間優(yōu)化這些著色器的性能。
也許可以做得更好，以下是一些想法。

與FP32相比，Radeon Vega或nVidia 1650等較新的GPU具有更高的FP16性能，但我的計算著色器僅使用FP32數(shù)據(jù)類型。
一半的細(xì)致，兩倍的樂趣
在當(dāng)前版本中，F(xiàn)P16張量使用著色器資源視圖向上轉(zhuǎn)換加載的值，使用無序訪問視圖向下轉(zhuǎn)換存儲的值。
切換到字節(jié)地址緩沖區(qū)，加載/存儲完整的4字節(jié)值，并使用f16t32/f32-tof16內(nèi)部函數(shù)在HLSL中進(jìn)行上變頻/下變頻可能是個好主意。
在當(dāng)前版本中，所有著色器都是脫機(jī)編譯的，Whisper.dll包含DXBC字節(jié)碼。
HLSL編譯器D3DCompiler_47.dll是一個操作系統(tǒng)組件，速度非?？臁τ诎嘿F的計算著色器，最好提供HLSL而不是DXBC，并在啟動時使用宏的特定于環(huán)境的值進(jìn)行編譯。
將整個東西從D3D11升級到D3D12可能是個好主意。
較新的API更難使用，但它包含了D3D11沒有的潛在有用功能：wave intrinsic和explicit FP16.。

缺少的功能

未實(shí)現(xiàn)自動語言檢測。
在當(dāng)前版本中，實(shí)時音頻捕獲的延遲很高。
具體而言，根據(jù)語音檢測，該數(shù)字約為5-10秒。
至少在我的測試中，當(dāng)我提供的音頻片段太短時，模型并不滿意。

我已經(jīng)增加了延遲并結(jié)束了這一天，但理想情況下，這需要一個更好的解決方案來優(yōu)化用戶體驗。

結(jié)尾語

在我看來，這是一個無償?shù)臉I(yè)余項目，我在2022-23年的寒假里完成了。

代碼可能有一些bug。

軟件是“原封不動”提供的，沒有任何形式的擔(dān)保。

感謝Georgi Gerganov實(shí)現(xiàn)了whisper.cpp以及GGML二進(jìn)制格式的模型。

我不會編寫Python程序，也對ML生態(tài)系統(tǒng)一無所知。

如果沒有一個好的C++參考實(shí)現(xiàn)來測試我的版本，我甚至不會啟動這個項目。

whisper.cpp項目有一個例子，它使用相同的GGML實(shí)現(xiàn)來運(yùn)行另一個OpenAI的模型GPT-2。

用這個項目中已經(jīng)實(shí)現(xiàn)的計算著色器和相關(guān)基礎(chǔ)設(shè)施來支持ML模型應(yīng)該不難。

如果你覺得這很有用，如果你考慮向“Come Back Alive”基金會捐款，我將不勝感激。

http://github.xiaoc.cn/Const-me/Whisper/releases/tag/1.11.0 ??
https://www.huggingface.co/ggerganov/whisper.cpp ?? ??
http://github.xiaoc.cn/Const-me/Whisper ??文章來源地址http://www.zghlxwxcb.cn/news/detail-483177.html

到了這里，關(guān)于【開源工具】使用Whisper將提取視頻、語音的字幕的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

基于whisper和whisperx的語音視頻和字幕對齊
創(chuàng)建py310虛擬環(huán)境，需要安裝Anaconda的Python環(huán)境。 Python初學(xué)者在不同系統(tǒng)上安裝Python的保姆級指引 Win10+Python3.9+GPU版pytorch環(huán)境搭建最簡流程 Python虛擬環(huán)境的安裝和使用還需要提前安裝FFmpeg用于音頻操作，并添加到環(huán)境變量中。創(chuàng)建一個名稱為 whisper 的虛擬環(huán)境。激活虛擬環(huán)
2024年02月16日
瀏覽(68)
英文視頻添加中英雙語字幕（基于Whisper語音識別和Google翻譯）
可以參考以下博客的內(nèi)容講顯卡驅(qū)動，CUDA和cudnn的安裝比較詳細(xì)，我建議能用GPU加速就盡量使用，Whisper速度有點(diǎn)慢如何在你的電腦上完成whisper的簡單部署_Wayne_WX的博客-CSDN博客? Windows使用whisper前需要進(jìn)行的一些環(huán)境配置 https://blog.csdn.net/m0_52156129/article/details/129263703 我的f
2024年02月09日
瀏覽(29)
whisper實(shí)踐--基于whisper+pyqt5開發(fā)的語音識別翻譯生成字幕工具
大家新年快樂，事業(yè)生活蒸蒸日上，解封的第一個年，想必大家都回家過年，好好陪陪家人了吧，這篇文章也是我在老家碼的，還記得上篇我?guī)Т蠹一玖私饬藈hisper，相信大家對whisper是什么，怎么安裝whisper，以及使用都有了一個認(rèn)識，這次作為新年第一篇文章，我將介紹一
2024年02月01日
瀏覽(27)
基于Whisper語音識別的實(shí)時視頻字幕生成 (一): 流式顯示視頻幀和音頻幀
Whistream（微流）是基于Whisper語音識別的的在線字幕生成工具，支持rtsp/rtmp/mp4等視頻流在線語音識別 whishow（微秀）是python實(shí)現(xiàn)的在線音視頻流播放器，支持rtsp/rtmp/mp4等流式輸入，也是whistream的前端。python實(shí)現(xiàn)原理如下： (1) SPROCESS.run() 的三個子線程負(fù)責(zé)：緩存流數(shù)據(jù)，處理音
2024年04月13日
瀏覽(96)
Windows 下融合使用開源組件進(jìn)行視頻內(nèi)容分析，shotcut ，autocut 剪輯 whisper智能化編輯雙語字幕等
下面以這個黃仁勛訪談視頻為例簡要介紹分析的步驟 https://youtu.be/lXLBTBBil2U https://github.com/openai/whisper 提升：安裝如果需要在conda 中使用 ffmpeg 的話，也是可以直接用 conda install ffmpeg https://github.com/openai/whisper/discussions/1172 We are thrilled to introduce Subper (https://subtitlewhisper.com), a f
2024年04月09日
瀏覽(39)
《AI上字幕》基于openAI研發(fā)的whisper模型，語音（視頻）一鍵轉(zhuǎn)文本/字幕/帶時間軸/支持多語言/自帶翻譯《桌面版教程》
OpenAI的chatGPT非?；鸨?，其實(shí)OpenAI旗下的另一個模型實(shí)力也十分強(qiáng)大，它就是開源免費(fèi)的Whisper語音轉(zhuǎn)文本模型，目前為止它是較為頂尖的語音轉(zhuǎn)文本模型當(dāng)前github上也有許多出色的開發(fā)者根據(jù)此模型開發(fā)出桌面版語音轉(zhuǎn)文字應(yīng)用。較為出色的分別是Buzz和WhisperDesktop 支持將多種
2023年04月19日
瀏覽(24)
github開源推薦，基于whisper的字幕生成和字幕翻譯工具——再也沒有看不懂的片啦
GitHub - qinL-cdy/auto_ai_subtitle github上開源的一款字幕生成和字幕翻譯的整合工具，可以根據(jù)視頻中提取到的音頻來轉(zhuǎn)換成字幕，再根據(jù)需要將字幕進(jìn)行翻譯，基于whisper 1）安裝ffmpeg 安裝ffmpeg的教程比較多，就不詳細(xì)介紹了，Windows上安裝完成后記得添加環(huán)境變量，最后在cmd中輸入
2024年02月13日
瀏覽(60)
【whisper】在python中調(diào)用whisper提取字幕或翻譯字幕到文本
最近在做視頻處理相關(guān)的業(yè)務(wù)。其中有需要將視頻提取字幕的需求，在我們實(shí)現(xiàn)過程中分為兩步：先將音頻分離，然后就用到了whisper來進(jìn)行語音識別或者翻譯。本文將詳細(xì)介紹一下whisper的基本使用以及在python中調(diào)用whisper的兩種方式。 whisper 是一款用于語音識別的開源庫，支
2024年02月05日
瀏覽(29)
不到百行代碼，使用Whisper進(jìn)行視頻字幕生成。
??最近在學(xué)習(xí)視頻剪輯的時候，希望找一款軟件進(jìn)行翻譯；發(fā)現(xiàn)大多數(shù)是調(diào)用某云的Api進(jìn)行翻譯。通過查詢資料,打算使用Whisper進(jìn)行本地視頻語音的識別，然后進(jìn)行字幕文件的編輯（srt），最后通過ffmpeg添加到視頻中。 ??Whisper 是 OpenAI 構(gòu)建的通用語音識別模型。它于 2
2024年03月19日
瀏覽(25)
【whisper】在python中調(diào)用whisper提取字幕或翻譯字幕到文本_python whisper
whisper 是一款用于語音識別的開源庫，支持多種語言，其中包括中文。在本篇文章中，我們將介紹如何安裝 whisper 以及如何使用它來識別中文字幕。首先，我們需要安裝 whisper。根據(jù)操作系統(tǒng)，可以按照以下步驟進(jìn)行安裝：對于 Windows 用戶，可以從 whisper 的 GitHub 頁面 (https
2024年02月20日
瀏覽(21)