国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

通過Python的speech_recognition庫將音頻文件轉為文字

2年前作者：空空star分類：Toy博客閱讀(27)違法舉報

這篇具有很好參考價值的文章主要介紹了通過Python的speech_recognition庫將音頻文件轉為文字。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

前言

大家好，我是空空star，本篇給大家分享一下通過Python的speech_recognition庫將音頻文件轉為文字。
上一篇已經介紹了相關的庫speech_recognition。

通過Python的speech_recognition庫將音頻文件轉為文字

Python-語音轉文字相關庫介紹

一、音頻準備

這里我們通過gTTS先生成一段音頻，gTTS相關的介紹可以看博主之前寫的博客。

通過Python的gtts庫將文字轉為音頻

from gtts import gTTS
local = '/Users/kkstar/Downloads/video/'
text = '大家好，我是空空star，本篇給大家分享一下音頻轉文字，這是通過speech_recognition轉換的文字。'
language = "zh-cn"
tts = gTTS(text=text, lang=language)
tts.save(local+"audio_gtts_0509.mp3")

二、音頻聲音

音頻轉文字_0509

三、格式轉換

mp3轉為wav。
這里不能只改后綴，需要用音頻轉換工具轉換下。
audio_gtts_0509.mp3->audio_gtts_0509.wav

四、音頻轉文字

1.引入庫

import speech_recognition as sr

2.定義音頻路徑

local = '/Users/kkstar/Downloads/video/'

3.創(chuàng)建一個Recognizer對象

r = sr.Recognizer()

4.打開音頻文件，將音頻文件讀入Recognizer對象

音頻文件必須是wav的格式

# 打開音頻文件
with sr.AudioFile(local+'audio_gtts_0509.wav') as source:
    # 將音頻文件讀入Recognizer對象
    audio = r.record(source)

5.嘗試使用Google Web API將語音轉換為文字

try:
text = r.recognize_google(audio, language=‘zh-CN’)
print(‘轉換結果：’, text)
except sr.UnknownValueError:
print(‘無法識別語音’)
except sr.RequestError as e:
print(‘無法連接到Google Web API. {0}’.format(e))

6.轉換結果

轉換結果：大家好我是空空Store本篇給大家分享一下音頻轉文字這是通過Keep下劃線recognition轉換的文字
Process finished with exit code 0

總結

recognize_google： recognize_google() 是Google提供的一種語音識別API，可以識別音頻文件或麥克風錄制的語音，并將其轉換為文本。在Python中，可以使用SpeechRecognition庫中的recognize_google()方法來調用該API。文章來源地址http://www.zghlxwxcb.cn/news/detail-439172.html

到了這里，關于通過Python的speech_recognition庫將音頻文件轉為文字的文章就介紹完了。如果您還想了解更多內容，請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網！

本文來自互聯(lián)網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

基于深度學習的語音識別（Deep Learning-based Speech Recognition）
隨著科技的快速發(fā)展，人工智能領域取得了巨大的進步。其中，深度學習算法以其強大的自學能力，逐漸應用于各個領域，并取得了顯著的成果。在語音識別領域，基于深度學習的技術也已經成為了一種主流方法，極大地推動了語音識別技術的發(fā)展。本文將從深度學習算法的
2024年02月04日
瀏覽(88)
python 通過opencv及face_recognition識別人臉
效果：使用Python的cv2庫和face_recognition庫來進行人臉檢測和比對的 0是代表一樣認為是同一人。代碼：
2024年02月03日
瀏覽(20)
通過python如何實現(xiàn)視頻提取音頻，并將音頻轉文本
大致思路：（1）使用moviepy庫中的VideoFileClip類讀取視頻文件，并將其轉換為音頻文件；（2）使用pydub庫中的splitonsilence函數(shù)將音頻文件分割成多個音頻片段，以便進行語音識別；（3）使用SpeechRecognition庫中的Recognizer類進行語音識別，并將識別結果寫入文本文件中注意：將
2024年02月05日
瀏覽(31)
Python OCR 使用easyocr庫將圖片中的文章提取出來
EasyOCR是一個開源的Python庫，專注于提供易用而準確的文字識別功能。它基于深度學習技術，使用了一種端到端的方法，能夠在多種語言和字體下進行穩(wěn)定的識別。希望能寫一些簡單的教程和案例分享給需要的人 Python 3.10.12 系統(tǒng)： ubuntu 22.04 接下來我分享如何使用Python的easy
2024年02月11日
瀏覽(28)
【Microsoft Azure 的1024種玩法】五十五.Azure speech service之通過JavaScript快速實現(xiàn)文本轉換為語音
文本轉語音可使用語音合成標記語言 (SSML) 將輸入文本轉換為類似人類的合成語音，本篇文檔主要介紹了如何通過JavaScript 的語音SDK實現(xiàn)文本轉換為語音的實踐操作【Microsoft Azure 的1024種玩法】一.一分鐘快速上手搭建寶塔管理面板【Microsoft Azure 的1024種玩法】二.基于Azure云平
2024年02月09日
瀏覽(28)
python：基于GeoPandas和GeoViews庫將GEDI激光高程數(shù)據(jù)映射到交互式地圖
作者：CSDN @ _養(yǎng)樂多_ 本文將介紹 GEDI（Global Ecosystem Dynamics Investigation）激光雷達數(shù)據(jù)某數(shù)據(jù)點波形數(shù)據(jù)提取，并繪制圖表，添加其他圖表元素并使圖表具有交互性。在本文中，我們將探索如何打開、讀取和處理GEDI數(shù)據(jù)，并利用地理信息處理庫GeoPandas和地理空間數(shù)據(jù)可視化庫
2024年02月15日
瀏覽(33)
python實現(xiàn)人臉識別（face_recognition）
1、介紹本項目是世界上最強大、簡潔的人臉識別庫，你可以使用Python和命令行工具提取、識別、操作人臉。本項目的人臉識別是基于業(yè)內領先的C++開源庫dlib中的深度學習模型，用Labeled Faces in the Wild人臉數(shù)據(jù)集進行測試，有高達99.38%的準確率。但對小孩和亞洲人臉的識別準
2024年02月02日
瀏覽(27)
Python語音合成-第三方庫(gTTs/pyttsx3/speech)橫評(內附使用代碼)
由于項目需要, 我需要將文字轉換為語音 , 那么第一步就要進行調研語音合成（text to speech）,簡稱TTS 。是將文字轉化為語音的一種技術，是讓計算機模擬人類的嘴巴，通過不同的音色說出想表達的內容, 是人機對話的一部分。 TTS可以通過神經網絡的設計，把文字智能地轉化
2024年02月04日
瀏覽(22)
基于深度學習的手寫數(shù)字識別項目GUI（Deep Learning Project – Handwritten Digit Recognition using Python）
一步一步教你建立手寫數(shù)字識別項目，需要源文件的請可直接跳轉下邊的鏈接：All project 在本文中，我們將使用MNIST數(shù)據(jù)集實現(xiàn)一個手寫數(shù)字識別應用程序。我們將使用一種特殊類型的深度神經網絡，即卷積神經網絡。最后，我們將構建一個GUI，您可以在其中繪制數(shù)字并立即
2024年02月11日
瀏覽(21)
口播神器,基于Edge,微軟TTS(text-to-speech)文字轉語音免費開源庫edge-tts實踐(Python3.10)
不能否認，微軟Azure在TTS(text-to-speech文字轉語音)這個人工智能細分領域的影響力是統(tǒng)治級的，一如ChatGPT在NLP領域的隨心所欲，予取予求。君不見幾乎所有的抖音營銷號口播均采用微軟的語音合成技術，其影響力由此可見一斑，僅有的白璧微瑕之處就是價格略高，雖然國內也可
2024年02月02日
瀏覽(27)