項目簡介
一個通過Whisper模型將YouTube播放列表中的視頻轉(zhuǎn)換成高質(zhì)量文字稿的項目。
這個基于 Python 的工具旨在將 YouTube 視頻和播放列表轉(zhuǎn)錄為文本。它集成了多種技術(shù),例如用于轉(zhuǎn)錄的 Fast-Whisper、用于自然語言處理的 SpaCy 以及用于 GPU 加速的 CUDA,旨在高效處理視頻內(nèi)容。該腳本能夠處理單個視頻和整個播放列表,輸出準(zhǔn)確的文字記錄和元數(shù)據(jù)。項目核心內(nèi)容:
1、YouTube下載:使用pytube下載YouTube視頻或播放列表的音頻。
2、音頻轉(zhuǎn)錄:利用faster_whisper.WhisperModel將音頻轉(zhuǎn)換成文字。
3、NLP處理:可選地整合SpaCy,用于改進句子分割,提高文字稿的可讀性和結(jié)構(gòu)。
4、CUDA加速:實現(xiàn)CUDA支持,用于兼容硬件的處理速度提升。
這個工具適用于內(nèi)容分析、輔助創(chuàng)建視頻字幕和封閉字幕、教育目的以及視頻內(nèi)容的存檔和檢索。
功能概述
核心組件
-
YouTube 下載:使用 pytube 從 YouTube 視頻或播放列表下載音頻。
-
音頻轉(zhuǎn)錄:利用 faster_whisper.WhisperModel 將音頻轉(zhuǎn)換為文本。該模型是 OpenAI 的 Whisper 的變體,旨在提高速度和準(zhǔn)確性。
-
NLP 處理:可以選擇集成 SpaCy 以進行復(fù)雜的句子分割,從而增強轉(zhuǎn)錄本的可讀性和結(jié)構(gòu)。
-
CUDA 加速:實現(xiàn)對 GPU 利用率的 CUDA 支持,提高兼容硬件的處理速度。
詳細(xì)工作流程
-
初始化:
-
該腳本首先根據(jù) convert_single_video 標(biāo)志確定是處理單個視頻還是播放列表。
-
它設(shè)置必要的目錄來存儲下載的音頻、文字記錄和元數(shù)據(jù)。
-
-
環(huán)境配置:
-
將 CUDA Toolkit 路徑添加到系統(tǒng)環(huán)境以供 GPU 使用。
-
根據(jù) CPU 核心數(shù)配置用于轉(zhuǎn)錄的工作線程數(shù)量。
-
-
視頻處理:
-
對于播放列表中的每個視頻或單個視頻,腳本都會下載音頻。
-
它確保每個音頻文件的唯一命名以避免覆蓋。
-
-
轉(zhuǎn)錄:
-
音頻文件被傳遞到 WhisperModel 進行轉(zhuǎn)錄。
-
如果可用,該腳本會處理 GPU 加速,否則默認(rèn)為 CPU。
-
使用 SpaCy 或基于自定義正則表達式的拆分器將轉(zhuǎn)錄結(jié)果拆分為句子。
-
-
元數(shù)據(jù)生成:
-
除了腳本之外,腳本還會生成元數(shù)據(jù),包括每個片段的時間戳和置信度分?jǐn)?shù)。
-
-
輸出:
-
記錄以純文本、CSV 和 JSON 格式保存,提供原始記錄和結(jié)構(gòu)化元數(shù)據(jù)。
-
-
顯示/讀?。?/p>
-
為了使文字記錄更易于閱讀,提供了一個 html 文件 transcript_reader.html ,它可以進一步清理并提供“閱讀器模式”,您可以在其中選擇字體、文本大小、文本寬度和切換深色模式。只需在瀏覽器中打開此 html 文件,然后粘貼 generated_transcript_combined_texts 文件夾中生成的文件之一的轉(zhuǎn)錄文本即可。
-
|
---|
實際操作的屏幕截圖 |
|
|
---|---|
將成績單文本粘貼到成績單閱讀器 HTML 文件中 | 使用深色模式和 Cambria 字體的閱讀器 |
項目鏈接
https://github.com/Dicklesworthstone/bulk_transcribe_youtube_videos_from_playlist文章來源地址http://www.zghlxwxcb.cn/news/detail-755124.html
到了這里,關(guān)于通過Whisper模型將YouTube播放列表中的視頻轉(zhuǎn)換成高質(zhì)量文字稿的項目的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!