专栏/一文看懂音频原理

一文看懂音频原理

2018-12-27 23:26--阅读 · --喜欢 · --评论
粉丝:111文章:7

笔者博客:mwhitelab.com

笔者公众号:技术杂学铺

前言

笔者最近正好在做和声音处理有关的项目,突然对音频数字化感兴趣,想了解一下基本原理。可网上文章知识都很散、排版也不美观。因此笔者便决定自己写一篇文章,整合一下数字音频的基本知识。

本篇博客为面向大众的科普性文章。涉及声音原理、音频文件属性、音频格式等方面。预计阅读时间为10分钟。

1.何为声音

中学物理中我们知道,声音是物体振动产生的声波。声音通过介质(空气、固体、液体)传入到人耳中,带动听小骨振动,经过一系列的神经信号传递后,被人所感知。

声音是一种波。物体振动时会使介质(如空气)产生疏密变化,从而形成疏密相见的纵波。

既然声音是波,那么我们就可以用图的形式来表示它。

给定空间中某一点,该点的空气疏密随时间的变化如下:

波形图

下图是一个正弦波,其周期为0.002s,频率为500HZ。

该声音很像视频中的“消音”处理。

频率(音调):声音1秒内周期性变化的次数

人耳的听觉范围在20Hz-20kHz。 低频的声音沉闷厚重,高频的声音尖锐刺耳。 高于 20kHz的声音为超声波。

振幅(响度):声音的大小

有的时候,我们用分贝(dB)形容声音大小。值得注意的是,dB是一个比值,是一个数值,没有任何单位标注。(功率强度之比的对数的10倍)

2.声音采集与存储

采样,指把时间域或空间域的连续量转化成离散量的过程 。

对声音的采样常用麦克风等设备将声音信号转换成电信号,再用模/数转换器将电信号转换成一串用1和0表示的二进制数字(数字信号)。

我们每秒对声音采样上万次,获得上万个按照时间顺序排列的二进制数字。于是,我们就将连续变化不断的声音转化成了计算机可储存并识别的二进制数字。

如win10的关机音效:

该声音由84700个不同的数字组成。 其中的一段数字如下:(二进制数字已转换为十进制)

… 413, 263, 137, 15, -124, -253, -369, -463, -511, -545, -587, -632, -678, -701, -687, -659, -623, -579, -539, -473, -380, -282, -162, -35, 78, 211, 341, 430, 499, 548, 551, …

如果用图像的形式表示该音频,则图像如下:(横轴是时间,纵轴为振幅,两个图像分别代表左右声道。由于声音频率较大,所以在图像中的信号不是“正弦”,而是实心的。)

2.1 采样频率

采样频率指录音设备在一秒钟内对声音信号的采样次数。采样频率越高,声音的还原就越真实越自然。

目前主流的采样频率有22.05KHz、44.1KHz、48KHz三种。

22.05 KHz为FM广播的声音品质,44.1KHz为理论上的CD声音品质。48KHz为人耳可辨别的最高采样频率。

直观理解:一段连续的声音如下

一段声音

我们等间隔地对其采样

最终,我们真正采样到的音频如下

如下图可见,采样频率越高,我们获得的声音品质越好。

2.2 量化位数

我们不可能获得所有时间下声音的强度,因此声音是等时间间隔、离散采样的。同样,采样获得的数据不可能无限的精确,如数字为63.2222222….,这无法在计算机中储存。因此,采样获得的数据同样也是离散的。

量化位数是音频文件的另一个参数。量化位数越大,声音的质量越高。常用的量化位数有8位、16位和32位。

量化位数指用几位二进制数来存储采样获得的数据。量化位数为8即指用8位二进制数来存储数据,如00010111

还是之前的例子,有一段正弦声波,假设量化位数为3,即存储的数据只有000/001/010/011/100/101/110/111这8种可能。

现在,还是等距离采样,不过采样的点只能落在最近的红线上。

此时,每个点纵坐标的取值只有二的三次方,即只有8中可能。

由下图可见,量化位数越大,声音效果越好。

另外值得注意的是,不同量化位数存储的数据不可直接比较。

如4位量化位数存储的1111,其十进制是15,8位量化位数存储的10000000,其十进制是64。不是因为64>15,所以后者对应的声音比前者大。而是应该二者分别除以其总取值范围后在比较。

前者对应的声音比后者大。

2.3 声道数

声道分为单声道与双声道。

单声道即为左右耳听到的声音相同。

双声道两耳听到的信息不同。相同的声音时间、采样频率和比特率的情况下,双声道文件的存储空间是单声道的两倍。但其会给人空间感,游戏和电影中常采用双声道,可达到“听声辨位”的效果。

示例声音如下:


3.音频格式

常见的音频格式有WAV,MP3,ACC等

3.1 WAV音频格式

WAV是微软开发的音频格式,支持音频压缩 ,但其常用来存放未经压缩的无损音频。由于未压缩,文件尺寸往往比较大,多用于存储简短的声音片段。

3.2 MP3音频格式

MP3是一种音频文件的有损压缩技术,用来大幅度地降低音频数据量。其可在没有明显声音品质受损的情况下,将音频文件压缩成其原文件的十分之一甚至是十二分之一。

3.3 AAC音频格式

相对于MP3,AAC格式的音质更佳,文件更小。可压缩至原文件的十八分之一。

3.4 其他

  • APE 无损压缩,可将文件压缩为原来的一半

  • FLAC 无损压缩

4. 额外资料

  • 使用python实现对WAV音频文件的处理

    https://wizardforcel.gitbooks.io/hyry-studio-scipy/content/17.html


投诉或建议
推荐文章
更多精彩内容
《Whale Studio 键圈联播》
观众朋友们,晚上好!今天是4月1日星期六,农历二月十一,欢迎收看今日的《Whale Studio 键圈联播》,我是你们的主持人鲸鱼。喷水群:646595696键圈无小事,今日《Whale Studio 键圈联播》节目的主要内容如下:键盘区【本日晚九点】RH65套件 群号:772081648配列:65%结构:top角度:5度尺寸:键盘长度374mm/ 宽度126mm/ 前高21.5mm/ 后高30.5mm重量:1.8公斤定位板:标配开槽fr4沉金定位板 (仅支持钢板卫星轴/不支持分裂空格/不支持7回)额外选
《日·键圈时刻表》佐亚LMK81 无线三模 铝合金75套件 VERTEX ARC/弧 60 现货团
专栏消息仅供参考,不是产品推荐,上车前请谨慎考虑,请大家根据自身情况选择购买,理性消费网罗键盘套件及配件消息,每晚8点,不见不散,我是爱莹宝 排名不分先后,如果有更多键盘信息或者发现我发的信息有问题可以私聊我,我好及时整改,麻烦大家了。顶置区一、腹灵&凯华联名定 BOX生椰拿铁静音轴 3.7元 BOX生椰拿铁轴是一款基于BOX轴第三代静音技术上定制的一款线性静音轴体,不仅静音效果极佳而且手感如拿铁般入口丝滑,搭配上导光柱,轴体透光性更强。预售最快下周五发货链接:https://m.tb.cn/h.UI71
YOGA Pro 2023提前泄密!联想YOGA Pro 9i高能本抢先解读
如今联想小新家族已经全面上市,但对一些追求更高品质感的用户来说,哪怕是小新Pro系列也差点劲儿。如果你预算充裕,不妨期待一下联想YOGA 2023家族。按照惯例,YOGA家族普遍拥有更精致的工艺,更高素质的触控屏幕,在体验层面更趋完美。如今YOGA 2023已经在国外抢先上市,在国行版发布之前,咱们也能提前一览新机的芳容了。今天咱们先将目光锁定在定位高端的YOGA Pro 9i身上,包含16英寸和14.5英寸两个版本。国内对应的型号,应该就是YOGA Pro 14S 2023和YOGA Pro 16S 2
评论