為什么音頻采樣率通常是44.1kHz?CD為何是44.1KHz采樣率?
小朋友英語(yǔ)學(xué)習(xí)的培訓(xùn)教材中附送了一張音頻CD,作者在鼓搗這張CD的時(shí)候,忽然一個(gè)問題冒了出來(lái):為什么CD采用了44.1KHz的采樣率?為什么不是48KHz?畢竟48這個(gè)數(shù)字看起來(lái)整齊的多。為此作者做了一番搜索和研究,分享給感興趣的朋友。
聲音的基本概念
首先介紹一些常見的音頻概念。大家知道人耳能聽到聲音,是因?yàn)槁曇粼谝粼刺幃a(chǎn)生后,對(duì)空氣產(chǎn)生了一系列忽強(qiáng)忽弱的壓力,這種壓力的變化(振動(dòng))可以被人耳內(nèi)部的耳膜感受到,然后經(jīng)由各種神經(jīng)細(xì)胞,匯總到大腦中形成聲音的感覺。
有時(shí)候這種壓力比想象的要大的多,它不僅可以驅(qū)動(dòng)薄薄的耳膜,當(dāng)強(qiáng)度足夠大時(shí),甚至可以吹動(dòng)人的頭發(fā)和衣服。參加過(guò)室外音樂節(jié)的朋友,如果碰巧在現(xiàn)場(chǎng)比較靠近喇叭的地方,應(yīng)該有切身的體會(huì)。人耳能聽到的這種壓力振動(dòng)的范圍大概在20Hz到20KHz,Hz即赫茲,即每秒鐘振動(dòng)發(fā)生的次數(shù)。
除了耳道,身體的其它一些部分也可以感受到聲音的振動(dòng),例如骨傳導(dǎo)耳機(jī)就是繞過(guò)了耳膜,利用頭部骨骼來(lái)傳遞聲音的振動(dòng)。
(骨傳導(dǎo)原理。圖片來(lái)自網(wǎng)絡(luò))
音頻信號(hào)的采樣
因?yàn)槁曇舯举|(zhì)上是一個(gè)連續(xù)的模擬信號(hào),當(dāng)聲音被記錄下來(lái),尤其是數(shù)字化記錄時(shí),就涉及到采樣率和采樣精度這兩個(gè)概念。工科的朋友們可能對(duì)奈奎斯特采樣定理比較熟悉,就是對(duì)聲音信號(hào)做采樣時(shí),采樣頻率一定要大于聲音信號(hào)最高頻率的兩倍。一個(gè)通用的聲音記錄系統(tǒng),當(dāng)然需要應(yīng)對(duì)聲音的大范圍頻率,即20KHz聲音需要的采樣頻率至少是40KHz,考慮到后續(xù)的各種傳輸、處理過(guò)程帶來(lái)的損失,采樣頻率一般會(huì)高于40KHz。
(數(shù)字化的440Hz正弦波,采樣頻率8KHz,采樣精度8bit)
采樣頻率
常用的采樣頻率大概分三個(gè)系列,分別以8KHz、12KHz、11.025KHz
為基準(zhǔn)。由此衍生出來(lái)的采樣頻率就有三個(gè)系列。
?8K、16K、32K、64K、128K?12K、24K、48K、96K、192K?11.025K、22.05K、44.1K、88.2K
采樣精度
如果說(shuō)采樣頻率對(duì)應(yīng)的是時(shí)間維度上對(duì)于聲音的采樣,那么采樣精度就是對(duì)應(yīng)的幅度維度。它把采樣系統(tǒng)所支持的幅度范圍分成若干間隔,然后用一個(gè)數(shù)字來(lái)代表每一個(gè)間隔對(duì)應(yīng)的幅度值。當(dāng)某一個(gè)時(shí)刻的聲音幅度落在某個(gè)間隔時(shí),就用這一間隔的數(shù)字來(lái)代表這個(gè)聲音在這個(gè)時(shí)刻的幅度。
采樣精度,通常有8bit、16bit、24bit、32bit
這幾種。
音頻通道
還有一個(gè)概念就是聲音通道數(shù)量,常見的就是兩個(gè)聲道,一左一右。家庭影院聲道數(shù)量更豐富一些,一般不大于十個(gè)。在電影院中,通常會(huì)更多,有幾十個(gè)聲道。所以在電影院中聲音復(fù)現(xiàn)的更為真實(shí),配合電影畫面使得觀眾有身臨其境的感覺。每個(gè)聲道一般都對(duì)應(yīng)錄制時(shí)的一個(gè)麥克風(fēng),當(dāng)然有些聲道也可以后期合成。
音頻編碼
采樣完成后,通常還有個(gè)編碼的過(guò)程。最直觀的編碼就是PCM格式了,它是一種有正有負(fù)的數(shù)字表示方式,以衡量特定時(shí)刻的聲音幅度。正、負(fù)其實(shí)是相對(duì)的概念,都是相對(duì)于數(shù)字零所對(duì)應(yīng)的幅度而言。
音頻存儲(chǔ)
上面是聲音數(shù)字化記錄的一些參數(shù),那么這些數(shù)字化的記錄如何存放?數(shù)字記錄生成的文件有好多種,在Windows平臺(tái),最直觀就是wav文件了。相比大家熟悉的MP3格式文件,wav直接保存的就是PCM編碼的聲音幅度信息,而采樣頻率、采樣精度以及聲音通道數(shù)目,就在wav文件頭中標(biāo)明。這樣當(dāng)一個(gè)播放器播放wav文件的時(shí)候,它首先讀取文件頭,了解這個(gè)聲音的采樣率、采樣精度、聲道數(shù)目,就可以恢復(fù)出正確的聲音了。
為什么是44.1KHz
日常生活中大家都接觸過(guò)CD,記得在2000年前后,當(dāng)時(shí)MP3還未普及,大家聽音樂、歌曲還是主要靠購(gòu)買CD。CD一般來(lái)說(shuō)是Compact Disc Digital Audio的簡(jiǎn)稱,翻譯成中文大概是緊湊型數(shù)字音頻盤的意思。最初由飛利浦和索尼在上個(gè)世紀(jì)80年代初以紅書(Red Book)的形式聯(lián)合發(fā)布,在1987年被標(biāo)準(zhǔn)化組織IEC接納為正式標(biāo)準(zhǔn),編號(hào)為IEC 60908
。這個(gè)標(biāo)準(zhǔn)最近一次修訂是在1999年。飛利浦和索尼出版了一系列以顏色命名的標(biāo)準(zhǔn),全部都是關(guān)于Compact Disc的,紅書(Red Book)就是其中描述數(shù)字音頻CD的一本。
(CD Logo、CD盤面、早期的CD唱機(jī)、放大的CD表面紋路)
IEC 60908
整個(gè)標(biāo)準(zhǔn)還是挺繁雜的,我們只關(guān)注其中的編碼部分。簡(jiǎn)單來(lái)說(shuō),存放于CD中的音頻編碼標(biāo)準(zhǔn)就是聲音通道數(shù)為2
、采樣精度16bit
、編碼格式為線性PCM
、采樣率固定是44.1KHz
。
(適用于CD的音頻標(biāo)準(zhǔn)IEC60908)
原因一:PCM Adaptor和視頻制式
在紅書(Red Book)發(fā)布之前的1970年代,還存在著一種錄音設(shè)備叫做PCM適配器
。顧名思義,它把模擬的音頻信號(hào)轉(zhuǎn)換成數(shù)字的PCM編碼
,并提供錄制到視頻存儲(chǔ)設(shè)備上的接口。
為什么音頻和視頻攪和在一起?因?yàn)楫?dāng)時(shí)已有的音頻存儲(chǔ)設(shè)備帶寬不夠大,不足以提供16位的PCM數(shù)字音頻的存取帶寬,這個(gè)帶寬大概在1M~1.5M bit/s
,這在當(dāng)時(shí)是一個(gè)相當(dāng)“高”的帶寬,只有視頻存儲(chǔ)設(shè)備才有如此高的存取能力。PCM適配器把音頻數(shù)據(jù)按特定的視頻格式打包,從而可以借助于已有的“高帶寬”視頻存儲(chǔ)設(shè)備實(shí)現(xiàn)音頻數(shù)據(jù)的存取。
(Sony PCM-F1:PCM Adaptor)
好吧,回憶一下文章開頭的問題:為什么CD
的采樣率是44.1KHz
?
到這里,已經(jīng)非常接近問題的答案了。那就是——
任何新事物都要尊重傳統(tǒng)的力量。
具體到這個(gè)問題,就是音頻CD
的采樣率沿用了PCM適配器
的采樣率,而PCM適配器的采樣率還要能夠兼容視頻存儲(chǔ)設(shè)備的特定要求,以便利用當(dāng)時(shí)已有的視頻存取設(shè)備來(lái)存取其中的音頻數(shù)據(jù)。
當(dāng)時(shí)大量存在的視頻存儲(chǔ)設(shè)備主要支持兩種視頻制式,一種是25幀制式(稱為CCIR 625/50
,也叫PAL
),一種是30幀制式(稱為EIAN 525/60
,也叫NTSC
)。當(dāng)時(shí)世界上有電視普及的國(guó)家按這兩種制式分為兩個(gè)陣營(yíng)。
首先看30幀(即60場(chǎng))制式,這種制式的一幀中,可利用來(lái)錄制音頻的視頻行最多能有490行
,分到每一場(chǎng)(Field)就有245行
。在每一視頻行可以平均存儲(chǔ)3
個(gè)音頻采樣點(diǎn),那么音頻出現(xiàn)的頻率就是60*245*3 = 44100
。這就是44.1KHz
采樣率的由來(lái)的原因之一。
同樣在25幀(即50場(chǎng))制式中,最大可利用的行數(shù)是588行
,分到每一場(chǎng)有294
行,同樣每一行存放3
個(gè)音頻采樣點(diǎn),那么音頻采樣率就是50*294*3 = 44100
。
這樣44.1KHz
的音頻采樣率可以保證對(duì)兩種視頻制式的最大限度兼容。
原因二:Prime Numbers
還有一種解釋說(shuō)明采用44100Hz
的原因是,44100
可以分解成2、3、5、7
四個(gè)最小連續(xù)質(zhì)數(shù)的平方的乘積。聽起來(lái)有些神秘主義的傾向,作者推測(cè)這些質(zhì)數(shù)因子有助于系統(tǒng)實(shí)現(xiàn)時(shí)的頻率合成。
(神秘?cái)?shù)字44100可分解為質(zhì)數(shù)平方積)
原因三:Symphony No. 9 (Beethoven)
還有一種更為傳奇的說(shuō)法,就是最初的CD設(shè)計(jì)團(tuán)隊(duì)發(fā)現(xiàn),如果用48KHz
的采樣率的話,一張CD放不下74分鐘版
的貝多芬第九交響曲。而采用稍小的44.1KHz
,則剛好可以放下。作者感覺這種說(shuō)法有點(diǎn)兒太傳奇太浪漫了,信不信由您。
(貝多芬第九交響曲手稿)
好了,看到這里,想必您對(duì)CD
為何采用44.1KHz
的音頻采樣率已經(jīng)有了一些了解。可以看出,任何一項(xiàng)新技術(shù)的發(fā)明和發(fā)展,都離不開對(duì)已有技術(shù)的依賴、消化和繼承。任何創(chuàng)新都不是憑空從頭腦中誕生的,而是一步一步腳踏實(shí)地的走出來(lái)的。這是作者在這個(gè)問題的探索中獲得的一點(diǎn)點(diǎn)感悟,與諸君分享