1、音頻的基本概念
??音頻是一種模擬信號(hào),它是由聲波轉(zhuǎn)化而來的電信號(hào)。聲波是通過氣體、液體或固體傳播的機(jī)械波,代表了聲音的震動(dòng)。在錄制過程中,聲音被轉(zhuǎn)換成電信號(hào),然后被儲(chǔ)存在數(shù)字格式中。
2、聲音的三要素
??聲音的三要素是頻率、振幅和波形
??頻率是指聲波的振動(dòng)次數(shù),通常使用赫茲(Hz
)來表示。人類能夠聽到的聲音的頻率范圍是20Hz
到20kHz
。頻率越高,聲音越尖銳;頻率越低,聲音越低沉。
??振幅是指聲波的振動(dòng)幅度,也就是聲音的響度或音量。振幅越大,聲音越響亮;振幅越小,聲音越微弱。
??波形是指聲波的形狀。不同的聲波形狀會(huì)對(duì)聲音的音色產(chǎn)生影響。例如,正弦波是一種最簡單的波形,它產(chǎn)生的聲音音色清晰、純正;而復(fù)雜波形則產(chǎn)生的聲音音色更具有豐富性和復(fù)雜性。
??在數(shù)字音頻領(lǐng)域,頻率、振幅和波形被轉(zhuǎn)化為數(shù)字信號(hào),然后存儲(chǔ)和傳輸。對(duì)于數(shù)字音頻,頻率通常表示采樣率,振幅表示采樣精度,波形則是由采樣數(shù)據(jù)重建出來的。
3、聲音的本質(zhì)
??聲音的本質(zhì)包括音調(diào)、音量和音色。
??音調(diào)是指聲音的高低、頻率。較高的頻率產(chǎn)生的聲音音調(diào)更高,較低的頻率產(chǎn)生的聲音音調(diào)更低。例如,鋼琴和小提琴演奏同樣的音符,由于它們頻率不同,所以發(fā)出的聲音音調(diào)也不同。
??音量是指聲音的響度、強(qiáng)弱。通常使用分貝(dB
)衡量聲音的音量大小。人類能夠聽到的聲音范圍是0dB
到140dB
,其中0dB
表示最小聽力閾值,而140dB
表示極度嘈雜的聲音。音量的大小與振幅相關(guān),振幅越大,聲音就越響亮。
??音色是指聲音的特征,它決定了聲音的品質(zhì)和風(fēng)格。每個(gè)樂器的音色都是獨(dú)特的,這也是為何我們可以輕松地區(qū)分小提琴和鋼琴的聲音。音色的不同源于聲波的波形特征,這種特征被稱為諧波。不同的諧波組合形成了不同的音色。
4、奈奎斯特采樣定律
??奈奎斯特采樣定律,也稱為奈氏定理,指在進(jìn)行模擬/數(shù)字信號(hào)的轉(zhuǎn)換過程中,當(dāng)采樣頻率fs.max
大于信號(hào)中最高頻率fmax
的2倍時(shí)(fs.max>2fmax
),采樣之后的數(shù)字信號(hào)完整地保留了原始信號(hào)中的信息,一般實(shí)際應(yīng)用中保證采樣頻率為信號(hào)最高頻率的2.56~4
倍;采樣定理又稱奈奎斯特定理。
??奈奎斯特采樣定律的表達(dá)式為:Fs > 2 × Fm
??其中,Fs
為采樣頻率,Fm
為信號(hào)中最高能達(dá)到的頻率。比如,一個(gè)信號(hào)最高頻率為10kHz
,那么采樣頻率需要大于20kHz
,才能保證信號(hào)能夠被準(zhǔn)確地重建。如果采樣率低于奈奎斯特采樣定律所要求的最小值,信號(hào)就會(huì)發(fā)生混疊失真現(xiàn)象,即信號(hào)的高頻部分被混淆到了低頻部分,導(dǎo)致信號(hào)質(zhì)量下降。
5、采樣和采樣率
??在數(shù)字音頻中,采樣是將模擬音頻信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)的過程。模擬音頻信號(hào)是連續(xù)時(shí)間變化的信號(hào),而數(shù)字信號(hào)則是離散時(shí)間的抽樣信號(hào)。具體來說,采樣將連續(xù)的音頻波形在一定時(shí)間間隔內(nèi)進(jìn)行離散化,將其轉(zhuǎn)化為一系列數(shù)字值。
??采樣率是指數(shù)字音頻信號(hào)中的采樣數(shù)量,通常以每秒采樣次數(shù)(Hz或kHz)來表示。它表示將連續(xù)時(shí)間的音頻信號(hào)離散化成數(shù)字信號(hào)的速率。采樣率越高,數(shù)字音頻數(shù)據(jù)就越精確,音質(zhì)也越好,但同時(shí)文件也越大。常見的采樣率包括44.1kHz
、48kHz
、96kHz
等。
??例如,CD
音質(zhì)的采樣率為44.1kHz
,表示每秒鐘錄制了44100
個(gè)采樣點(diǎn)來描述聲波。在數(shù)字音頻中,采樣的精度也會(huì)影響到音頻的質(zhì)量,通常使用位深度(比特?cái)?shù))來描述。CD
音質(zhì)的采樣精度為16 bits
,表示每個(gè)采樣點(diǎn)使用16
比特來表示。
6、采樣數(shù)和采樣位數(shù)
??采樣數(shù)指的是每秒鐘對(duì)模擬信號(hào)進(jìn)行采樣的次數(shù),它決定了數(shù)字音頻信號(hào)的頻率范圍,常見的采樣數(shù)有44.1kHz、48kHz、96kHz
等。
采樣位數(shù)指的是每個(gè)采樣點(diǎn)對(duì)應(yīng)的二進(jìn)制數(shù)的位數(shù),它決定了數(shù)字音頻信號(hào)的動(dòng)態(tài)范圍和信噪比。通常,采樣位數(shù)越高,數(shù)字音頻信號(hào)的信噪比就會(huì)越高,可以表達(dá)更廣泛的音頻強(qiáng)度范圍。常見的采樣位數(shù)有8
位、16
位、24
位、32
位等。
??通道數(shù)指的是數(shù)字音頻信號(hào)中的聲道數(shù)。常見的通道數(shù)有單聲道(mono
)和雙聲道(stereo
),還有多聲道,如5.1
聲道、7.1
聲道等。多聲道可以通過在不同的聲道中播放不同的音頻信號(hào)來實(shí)現(xiàn)更加立體的音效。
??需要注意的是,采樣數(shù)、采樣位數(shù)和通道數(shù)三者共同決定了數(shù)字音頻信號(hào)的質(zhì)量和大小。采樣率和采樣位數(shù)越高、通道數(shù)越多,音頻文件的體積就越大,音質(zhì)也會(huì)越好。因此,在實(shí)際應(yīng)用中需要根據(jù)需求來選擇采樣率、采樣位數(shù)和通道數(shù)。
7、量化
??量化是指將連續(xù)的模擬信號(hào)轉(zhuǎn)換成離散的數(shù)字信號(hào)的過程。在數(shù)字信號(hào)處理中,量化是將采樣后的連續(xù)信號(hào)按照一定的準(zhǔn)則映射到離散標(biāo)準(zhǔn)值集合中的過程,其中,這些標(biāo)準(zhǔn)值形成一個(gè)有限制的數(shù)字集合。這些數(shù)字集合就是存儲(chǔ)數(shù)字信號(hào)所用的碼字,它們代表了信號(hào)的離散取值。
??量化的過程是通過量化器來實(shí)現(xiàn)的,量化器將采樣信號(hào)中的每個(gè)樣本映射為最接近的數(shù)字信號(hào)的取值。數(shù)字信號(hào)的每個(gè)碼字都是用二進(jìn)制編碼表示的。一般來說,采樣精度越高,量化器刻度越小,數(shù)字信號(hào)的準(zhǔn)確度就越高,質(zhì)量也越好。
??量化過程中,由于原始的模擬信號(hào)的取值范圍很大,而二進(jìn)制編碼能表示的數(shù)字范圍相對(duì)較小,因此,在量化過程中難免會(huì)出現(xiàn)誤差。這種誤差叫做量化誤差,它是原始模擬信號(hào)與離散化數(shù)字信號(hào)之間的差值。在數(shù)字音頻中,這種誤差會(huì)對(duì)音質(zhì)造成一定的影響。
8、比特率(碼率)
??比特率是指數(shù)字音頻數(shù)據(jù)的傳輸速率,通常使用比特每秒(bps
)來衡量。它表示單位時(shí)間內(nèi)傳輸?shù)臄?shù)據(jù)量,也叫作數(shù)據(jù)傳輸速率。比特率越高,音頻質(zhì)量越好,但文件大小也越大。
??在數(shù)字音頻領(lǐng)域中,比特率通常表示為kbps
(千比特每秒)或者Mbps
(兆比特每秒)。例如,128kbps
的MP3
音頻表示每秒傳輸128
千比特的音頻數(shù)據(jù)。高清音頻通常需要更高的比特率,否則會(huì)因壓縮損失而影響音質(zhì)。
??不同的數(shù)字音頻格式使用不同的比特率。例如,MP3
音頻的標(biāo)準(zhǔn)比特率通常為128kbps
或者192kbps
,而Apple Lossless
和FLAC
等無損音頻格式則需要更高的比特率以保證音頻質(zhì)量??傊忍芈适菙?shù)字音頻的一個(gè)重要指標(biāo),它直接影響到音頻的質(zhì)量和存儲(chǔ)空間。
9、響度和強(qiáng)度
??響度和強(qiáng)度都是聲音的感知特性,但它們描述的是不同的方面:
??響度是人類主觀感受到的聲音強(qiáng)度,用分貝(dB
)表示。通常,人們對(duì)于聽覺上的相同強(qiáng)度,低頻和高頻聲音的響度是不同的。響度與聲音的物理特性、頻率、振幅等都有關(guān)系。相同的振幅,低頻聲音的響度要高于高頻聲音的響度。相同的頻率,振幅更大的聲音響度更高,但人類對(duì)于高強(qiáng)度聲音的響度感受不如低強(qiáng)度聲音強(qiáng)烈。
??強(qiáng)度是聲波能量傳遞的測量值,表示單位時(shí)間內(nèi)通過單位面積的能量。強(qiáng)度與聲音源的振幅成正比,與聲音的傳播距離的平方成反比。強(qiáng)度同樣也可用分貝表示。它是聲波在空氣中傳播帶來的物理現(xiàn)象,與人類聽覺感知不同。
10、編碼
??每個(gè)量化值都是一個(gè)樣本,將所有這些樣本進(jìn)行存儲(chǔ)的過程稱為編碼。
??在音視頻領(lǐng)域中,編碼是指將音頻信號(hào)或視頻信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),以便于在數(shù)字系統(tǒng)中儲(chǔ)存、傳輸、處理和回放。音頻編碼主要包括有損編碼和無損編碼兩種方式。有損音頻編碼可以壓縮數(shù)據(jù)的大小,但會(huì)丟失一些信息,比如MP3、AAC、WMA
等。無損音頻編碼則可以達(dá)到無失真的壓縮,數(shù)據(jù)大小相對(duì)較大,比如FLAC、ALAC
等。視頻編碼也存在有損和無損兩種編碼方式,但更多是有損編碼。常用的有損視頻編碼標(biāo)準(zhǔn)有MPEG-1、MPEG-2、MPEG-4、H.264/AVC、H.265/HEVC
等,其中H.264/AVC
和H.265/HEVC
是目前應(yīng)用最廣泛的兩種視頻編碼標(biāo)準(zhǔn)。視頻編碼主要使用了運(yùn)動(dòng)估計(jì)、變換編碼、量化和熵編碼等技術(shù)來對(duì)視頻進(jìn)行壓縮編碼。
通常所說的音頻裸數(shù)據(jù)格式就是脈沖編碼調(diào)制(
PCM
)數(shù)據(jù)。PCM是一種用于數(shù)字音頻編碼的標(biāo)準(zhǔn)方法,它將模擬音頻信號(hào)進(jìn)行采樣,并將每個(gè)采樣值量化為離散的數(shù)字值。這些數(shù)字值表示音頻信號(hào)在每個(gè)采樣點(diǎn)上的振幅,然后以二進(jìn)制形式存儲(chǔ)。PCM
數(shù)據(jù)是一種常見的音頻數(shù)據(jù)格式,它可以通過將數(shù)字值轉(zhuǎn)換為模擬信號(hào)來恢復(fù)原始的音頻信號(hào)。
11、音頻幀
??音頻幀是指一段連續(xù)的音頻數(shù)據(jù),包含多個(gè)采樣點(diǎn)。通常音頻幀的長度與采樣率和采樣位數(shù)有關(guān)。
12、音頻文件大小的計(jì)算
??文件大小 = 采樣率 * 錄音時(shí)間 * 采樣位數(shù) / 8 * 通道數(shù)
總結(jié)
??本文概述了音頻的基本概念,如頻率、振幅、采樣等。并詳細(xì)介紹了數(shù)字音頻處理中的一些重要概念,如采樣率、采樣位數(shù)、量化、編碼等。后續(xù)我會(huì)繼續(xù)跟進(jìn)的。
??為了方便交流,我創(chuàng)建了一個(gè)后端和音視頻技術(shù)的qq群,群號(hào):333138957(可以掃下面的碼加群)。
??如果你對(duì)音視頻和后端開發(fā)感興趣,歡迎加入我們進(jìn)行深入交流。共同學(xué)習(xí),攜手推進(jìn)行業(yè)發(fā)展!
qq群:文章來源:http://www.zghlxwxcb.cn/news/detail-861442.html
微信群:文章來源地址http://www.zghlxwxcb.cn/news/detail-861442.html
到了這里,關(guān)于音視頻學(xué)習(xí)—音視頻理論基礎(chǔ)(2)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!