国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

如何在矩池云上安裝語音識別模型 Whisper

這篇具有很好參考價值的文章主要介紹了如何在矩池云上安裝語音識別模型 Whisper。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

如何在矩池云上安裝語音識別模型 Whisper

Whisper 是 OpenAI 近期開源的一個語音識別的模型,研究人員基于 680,000 小時的標記音頻數(shù)據(jù)進行訓練,它同時也是一個多任務模型,可以進行多語言語音識別以及語音翻譯任務,可以將語音音頻轉錄為所講語言的文本,以及翻譯成英語文本。

查看論文:https://cdn.openai.com/papers/whisper.pdf
開源代碼:https://github.com/openai/whisper

Whisper 的訓練數(shù)據(jù)中65%為英語音頻和相匹配的轉錄文本,大約18%為非英語音頻和英語轉錄文本,17% 為非英語音頻和相應語言的轉錄文本。非英語的數(shù)據(jù)中包含了98種不同的語言,而某一特定語言中的性能與所采用這一語言的訓練的數(shù)據(jù)量直接相關,如在英語語音的識別中,模型已接近人類水平的魯棒性和準確性。

矩池云安裝 Whisper 過程

環(huán)境配置&租用機器

在 Whisper 的 Setup 中,我們可以看到所需要的都是Python 3.9.9 PyTorch1.10.1,同時也兼容更新的版本。

如何在矩池云上安裝語音識別模型 Whisper

打開矩池云-主機市場,在此我們選中 K80 進行嘗試,根據(jù) Setup 可以選擇Pytorch 1.12系統(tǒng)鏡像,點擊下單。

如何在矩池云上安裝語音識別模型 Whisper

運行后,點擊 JupyterLab,進而“點擊打開”。

如何在矩池云上安裝語音識別模型 Whisper

下載代碼&模型

進入頁面后,點擊 Terminal

如何在矩池云上安裝語音識別模型 Whisper

打開 Terminal 后,輸入以下代碼

pip install git+https://github.com/openai/whisper.git 

如下

如何在矩池云上安裝語音識別模型 Whisper

安裝成功后,頁面提示 successfully installed…

如何在矩池云上安裝語音識別模型 Whisper

如果系統(tǒng)中沒有安裝過 ffmpeg,還需輸入以下內容進行安裝

sudo apt update && sudo apt install ffmpeg

安裝過程中會提示 是否繼續(xù),輸入 y ,回車即可

如何在矩池云上安裝語音識別模型 Whisper

安裝完成后,狀態(tài)如下

如何在矩池云上安裝語音識別模型 Whisper

使用 Whisper 進行轉錄

準備文件

方法1: 通過矩池云網(wǎng)盤客戶端上傳文件

打開網(wǎng)盤客戶端,可以點擊上傳,選擇文件,或者直接將文件拖拽到客戶端界面。

如何在矩池云上安裝語音識別模型 Whisper

方法2:通過 JupyterLab 上傳文件

在頁面上點擊,進入到/mnt,可以直接將音頻文件在此進行上傳。(此處我們自建了一個文件夾,大家可以根據(jù)需要來進行操作)

如何在矩池云上安裝語音識別模型 Whisper

進行轉錄/翻譯

Whisper 在默認條件下,輸入音頻是進行轉錄的
我們以轉錄為例子,在左側文件夾,復制文件路徑,

如何在矩池云上安裝語音識別模型 Whisper

輸入 whisper 路徑如下

whisper mnt/int/QA2.wav

在不對其他項目進行設定的情況下,系統(tǒng)會自動檢測語言,進而進行轉錄,

如何在矩池云上安裝語音識別模型 Whisper

以吳恩達 Andrew Ng 和 AI 科學家Christine Payne 的一次訪談 的音頻轉錄為例,系統(tǒng)將自動生成時間軸和文字內容,如下。

如何在矩池云上安裝語音識別模型 Whisper

同時,在默認文件夾還會生成 srt txt vtt三種格式的文件,以方便使用者在不同情境下調用,指定文件夾也可以通過指令 --output_dir 進行指定。

如何在矩池云上安裝語音識別模型 Whisper

針對于多個文件,處理方式為直接將多個文件路徑放置于 whisper 之后,即可逐個進行處理。

如何在矩池云上安裝語音識別模型 Whisper

參數(shù)解析

Whisper 指定運行參數(shù)方式為:whisper 音頻路徑 --具體任務。
在 whisper 中,更多可運行參數(shù)如下:

參數(shù)名 描述 默認值
[–model {tiny.en,tiny,base.en,base,small.en,small,medium.en,medium,large}] –model 模型類型 從小到大的不同模型,分別為tiny.en,tiny,base.en,base,small.en,small,medium.en,medium,large
[–model_dir MODEL_DIR] 存儲模型文件的路徑 ~/.cache/whisper
[–device DEVICE] 使用Pytorch的設備(CPU or GPU) CUDA
[–output_dir OUTPUT_DIR] – output_dir 保存輸出的路徑 None
[–verbose VERBOSE] 是否打印過程和debug信息 True
[–task {transcribe,translate}] [–task {transcribe,translate}] --task 任務:是否執(zhí)行 X->X 語音識別 (‘transcribe’) 或 X->英文翻譯 (‘translate’) transcribe
[–language {af,am,ar,as,az,ba,be,bg,bn,bo,br,bs,ca,cs,cy,da,de,el,en,es,et,eu,fa,fi,fo,fr,gl,gu,ha,haw,hi,hr,ht,hu,hy,id,is,it,iw,ja,jw,ka,kk,km,kn,ko,la,lb,ln,lo,lt,lv,mg,mi,mk,ml,mn,mr,ms,mt,my,ne,nl,nn,no,oc,pa,pl,ps,pt,ro,ru,sa,sd,si,sk,sl,sn,so,sq,sr,su,sv,sw,ta,te,tg,th,tk,tl,tr,tt,uk,ur,uz,vi,yi,yo,zh,Afrikaans,Albanian,Amharic,Arabic,Armenian,Assamese,Azerbaijani,Bashkir,Basque,Belarusian,Bengali,Bosnian,Breton,Bulgarian,Burmese,Castilian,Catalan,Chinese,Croatian,Czech,Danish,Dutch,English,Estonian,Faroese,Finnish,Flemish,French,Galician,Georgian,German,Greek,Gujarati,Haitian,Haitian Creole,Hausa,Hawaiian,Hebrew,Hindi,Hungarian,Icelandic,Indonesian,Italian,Japanese,Javanese,Kannada,Kazakh,Khmer,Korean,Lao,Latin,Latvian,Letzeburgesch,Lingala,Lithuanian,Luxembourgish,Macedonian,Malagasy,Malay,Malayalam,Maltese,Maori,Marathi,Moldavian,Moldovan,Mongolian,Myanmar,Nepali,Norwegian,Nynorsk,Occitan,Panjabi,Pashto,Persian,Polish,Portuguese,Punjabi,Pushto,Romanian,Russian,Sanskrit,Serbian,Shona,Sindhi,Sinhala,Sinhalese,Slovak,Slovenian,Somali,Spanish,Sundanese,Swahili,Swedish,Tagalog,Tajik,Tamil,Tatar,Telugu,Thai,Tibetan,Turkish,Turkmen,Ukrainian,Urdu,Uzbek,Valencian,Vietnamese,Welsh,Yiddish,Yoruba}]
–language 語言:原音頻中使用的語言
[–temperature TEMPERATURE] –temperature 溫度參數(shù):文章使用的是基于溫度系數(shù)的采樣,這個參數(shù)就是采樣的溫度系數(shù)
[–best_of BEST_OF] 在溫度非0時的抽樣使用的候選詞數(shù) 5
[–beam_size BEAM_SIZE] beam搜索中的beam數(shù)據(jù)的數(shù)目,僅在溫度為0時可用 5
[–patience PATIENCE] beam解碼是使用的可選耐性系數(shù)
optional patience value to use in beam decoding, as in https://arxiv.org/abs/2204.05424, the default (1.0) is equivalent to conventional beam search (default: None)
None
[–length_penalty LENGTH_PENALTY] – length_penalty 懲罰系數(shù):用于正則化的 optional token length penalty coefficient (alpha) as in https://arxiv.org/abs/1609.08144, uses simple length normalization by default (default: None)
可選的懲罰系數(shù) α \alpha α
None
[–suppress_tokens SUPPRESS_TOKENS] 采樣期間要抑制的token ID的逗號分隔列表;“-1”時將抑制大多數(shù)特殊字符(常用標點符號除外) -1
[–initial_prompt INITIAL_PROMPT] 可選文本,作為第一個窗口的提示。 None
[–condition_on_previous_text CONDITION_ON_PREVIOUS_TEXT] –condition_on_previous_text 先前文本使用狀況:如果為 True,則提供模型的先前輸出作為下一個窗口的提示; 禁用可能會使文本跨窗口不一致,但模型變得不太容易陷入故障
[–fp16 FP16] 在fp16中進行推理 True
[–temperature_increment_on_fallback TEMPERATURE_INCREMENT_ON_FALLBACK] –temperature_increment_on_fallback 回退溫度系數(shù):當解碼未能滿足以下任一閾值時的回退增加的溫度 0.2
[–compression_ratio_threshold COMPRESSION_RATIO_THRESHOLD] compression_ratio_threshold 壓縮率閾值:如果gzip壓縮比高于這個值,則認為解碼失敗 2.4
[–logprob_threshold LOGPROB_THRESHOLD] 如果平均對數(shù)概率低于此值,則將解碼視為失敗 -1.0
[–no_speech_threshold NO_SPEECH_THRESHOLD] –no_speech_threshold 靜音閾值:如果 <|nospeech|> 標記的概率高于此值,并且解碼由于“l(fā)ogprob_threshold”而失敗,則將該段視為靜音 0.6
[–threads THREADS] 使用Pytorch CPU做推理時,使用的CPU線程數(shù) 0
保存環(huán)境,下次直接調用鏡像

如果使用比較順利,希望下次可以直接啟動已經(jīng)安裝好的 Whisper 的鏡像,可以在此處“保存到個人環(huán)境”,如果是團隊共享,則可以“保存到團隊環(huán)境”

如何在矩池云上安裝語音識別模型 Whisper

如果已經(jīng)矩池云微信公眾號上綁定過賬戶,則在手機上同時會收到保存環(huán)境成功的提醒。

如何在矩池云上安裝語音識別模型 Whisper

保存環(huán)境后,下次使用該環(huán)境,可以直接在“我的環(huán)境”中迅速打開,無需再重復進行上一次的設置

如何在矩池云上安裝語音識別模型 Whisper

優(yōu)勢和局限性

我們針對一段在 CVPR 2022 會議上一段技術音頻同時使用 Youtube 生成的字幕與 Whisper 生成的字幕進行了比對。

句子完整性更好

Whisper 能按照speaker語氣停頓斷句,斷句后有的甚至影響了精準性 vs 不破壞句子完整性,保持原話輪、原語義群;

如何在矩池云上安裝語音識別模型 Whisper

精準度更高

Whisper 在精準度上確實比較高,比如如下這個例子。

如何在矩池云上安裝語音識別模型 Whisper

這種精準度,同時體現(xiàn)在弱語氣/低語調的插入語/狀語的處理結果更優(yōu),如下。

如何在矩池云上安裝語音識別模型 Whisper

在數(shù)字方面,精準度似乎也更勝一籌。

如何在矩池云上安裝語音識別模型 Whisper

更重要的是,我們發(fā)現(xiàn)一些專業(yè)術語的轉錄方面,Whisper 也呈現(xiàn)出更精準的狀態(tài)。

如何在矩池云上安裝語音識別模型 Whisper

當然,以上并具有統(tǒng)計學意義,只是我們在做嘗試的時候發(fā)現(xiàn)的一些 Whisper 優(yōu)秀之處。

局限性

當然,Whisper 也有其局限性,我們也匯集了一些如下情形。

1、目前 Whisper 模型只能對語音識別后,轉換為對應語言的文本,或將其翻譯為英語,則意味著在翻譯這一層面,最終無法實現(xiàn)由英語轉換為其他語言,在這一方面,其他模型在多語言方面可能去的了更多的進展;

如何在矩池云上安裝語音識別模型 Whisper
2、在實時性方面,Whisper 模型本身不支持即使轉錄的功能,但是官方認為其速度和規(guī)??梢灾С謱崟r轉譯,但仍需在此基礎上進行二次開發(fā);
3、如輸入的音頻中為多語言混合,Whisper 對于這種情景也暫無解決方案;
4、此外,對于環(huán)境音比較嘈雜的情況(比如有噪音,或者有背景音樂),如不設定具體的 temperature ,有一定可能轉錄結果會有所不同,所以如有這種情況可以進行設置,關于 Temperature 的一些信息可以參考https://algowriting.medium.com/gpt-3-temperature-setting-101-41200ff0d0be。文章來源地址http://www.zghlxwxcb.cn/news/detail-507556.html

到了這里,關于如何在矩池云上安裝語音識別模型 Whisper的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 矩池云上使用nvidia-smi命令教程

    矩池云上使用nvidia-smi命令教程

    nvidia-smi全稱是NVIDIA System Management Interface ,它是一個基于NVIDIA Management Library(NVML)構建的命令行實用工具,旨在幫助管理和監(jiān)控NVIDIA GPU設備。 接下來我介紹一下,用nvidia-smi命令來查詢機器GPU使用情況的相關內容。? 我以上圖的查詢內容為例,已經(jīng)復制出來了,如下, 我們來

    2024年02月16日
    瀏覽(16)
  • 如何在GPU服務器(如AutoDL,矩池云)上運行GUI程序

    如何在GPU服務器(如AutoDL,矩池云)上運行GUI程序

    最近在搞算法和設計GUI系統(tǒng)的時候遇到了問題,因為自己的算力不夠,所以租用的GPU服務器,由于需要設計一個GUI平臺,但是服務器不支持圖形界面,按照租用服務器的幫助文檔以及客服的解答,終于實現(xiàn)了在服務器上運行GUI程序,在這里分享一下踩過的坑和方法步驟。 Au

    2024年02月05日
    瀏覽(46)
  • 使用矩池云 Docker 虛擬機安裝VNC、Conda、Python及CUDA

    矩池云虛擬機支持 Docker 使用,但是由于虛擬機目前不支持啟動時傳遞環(huán)境變量來設置VNC、Jupyterlab 連接密碼,所以我們沒有創(chuàng)建相關基礎鏡像(設置固定密碼容易泄漏),下面給大家介紹手動安裝使用 VNC、Jupyterlab、CUDA等步驟,以便支持使用 OpenGL 等功能的使用,開啟更完善

    2024年03月25日
    瀏覽(19)
  • 使用pipreqs生成requirements文件,并在服務器(矩池云)上通過requirements文件安裝環(huán)境采坑記錄

    使用pipreqs生成requirements文件,并在服務器(矩池云)上通過requirements文件安裝環(huán)境采坑記錄

    今天用requirements文件想在服務器上安裝環(huán)境,遇到了許多的坑,在這里記錄一下,有需要的朋友可以看看這里有沒有記錄你存在的問題。 報錯內容: ERROR: Could not install packages due to an OSError: [Errno 2] No such file or directory: \\\'/home/ktietz/src/ci/alabaster 161192154452/work! 在網(wǎng)上看到的方法:

    2024年01月24日
    瀏覽(19)
  • 【新手入門】矩池云使用指南

    【新手入門】矩池云使用指南

    矩池云按使用時間收費,是一款性價比較高的服務器平臺,下面根據(jù)個人經(jīng)驗介紹第一次如何使用矩池云服務器。 鏈接: https://www.matpool.com 記得關注公眾號領5個算力豆,用于新手體驗 等待一分鐘左右,頁面出現(xiàn)jupyterlab鏈接 此時代碼自動運行。注意第一次使用需要下載包 代

    2024年02月09日
    瀏覽(34)
  • 【矩池云】YOLOv3~YOLOv5訓練紅外小目標數(shù)據(jù)集

    【矩池云】YOLOv3~YOLOv5訓練紅外小目標數(shù)據(jù)集

    數(shù)據(jù)集下載地址:https://github.com/YimianDai/sirst 參考鏈接:https://github.com/pprp/voc2007_for_yolo_torch 1.1 檢測圖片及其xml文件 1.2 劃分訓練集 1.3?轉為txt標簽 1.4 構造數(shù)據(jù)集 最終數(shù)據(jù)集格式如下: 根據(jù)以上數(shù)據(jù)集 需要單獨構建一個datasets文件夾,存放標簽和圖像,具體格式如下: 可以

    2024年02月08日
    瀏覽(48)
  • 必看新手教程!一篇就夠!pycharm鏈接云服務器--yolov5 yolov7訓練自己的數(shù)據(jù)集(矩池云)

    必看新手教程!一篇就夠!pycharm鏈接云服務器--yolov5 yolov7訓練自己的數(shù)據(jù)集(矩池云)

    趁著寒假期間稍微嘗試跑了一下yolov5和yolov7的代碼,由于自己用的筆記本沒有獨顯,臺式機雖有獨顯但用起來并不順利,所以選擇了租云服務器的方式,選擇的平臺是矩池云(價格合理,操作便捷) 需要特別指出的是,如果需要用pycharm鏈接云服務器訓練,必須要使用pycharm的

    2024年02月03日
    瀏覽(26)
  • 自動語音識別模型whisper安裝和初探

    自動語音識別模型whisper安裝和初探

    whisper是OpenAI 最近發(fā)布的語音識別模型。OpenAI 通過從網(wǎng)絡上收集了 68 萬小時的多語言(98 種語言)和多任務(multitask)監(jiān)督數(shù)據(jù)對 Whisper 進行了訓練,whisper可以執(zhí)行多語言語音識別、語音翻譯和語言識別。 1.CMD命令窗口建立名為whisper的虛擬環(huán)境: 注意:whisper要求python版本

    2023年04月18日
    瀏覽(43)
  • 集成學習與模型融合:如何提高語音識別準確率

    語音識別技術是人工智能領域的一個重要研究方向,它涉及到自然語言處理、信號處理、機器學習等多個領域的知識。隨著大數(shù)據(jù)時代的到來,語音識別技術的發(fā)展也受益于大量的數(shù)據(jù)和高性能計算資源的支持。然而,面對復雜多樣的語音數(shù)據(jù),傳統(tǒng)的單模型方法已經(jīng)不能滿

    2024年02月20日
    瀏覽(99)
  • OpenAI開源語音識別模型Whisper在Windows系統(tǒng)的安裝詳細過程

    OpenAI開源語音識別模型Whisper在Windows系統(tǒng)的安裝詳細過程

    Python的安裝很簡單,點擊這里進行下載。 安裝完成之后,輸入python -V可以看到版本信息,說明已經(jīng)安裝成功了。 如果輸入python -V命令沒有看到上面的這樣的信息,要么是安裝失敗,要么是安裝好之后沒有自動配置環(huán)境變量,如何配置環(huán)境變量可以從網(wǎng)上搜索。 Python的具體安

    2024年02月08日
    瀏覽(90)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包