模拟波形处理时只要保真度高就万事大吉。而数字信号本身的保真度是没什么问题的,不过人类听的和看的都是模拟信号,所以,第一步就必须把模拟信号变换成数字信号。当把时间和幅度都连续变化的模拟信号变成两者都离散的数字量时,如何保真就从根本上决定了最后信号的质量。
要在时间变化方向上保真,取样点要密,取样频率应该高。在幅度取值上要保真,分得就应该尽量细,量化比特率要高。但不管多密多细总还是与模拟波形有差距,总要丢掉一些信息,这也算是一种“压缩”吧,只要压缩掉的是人听不到的声音问题就不大。
CD音频格式取样率为44.1kHz,量化率为16bit,主要依据就是人类听力的频率范围被认为只有20Hz到20kHz,动态范围虽有120dB,但是非线性的,实际有96dB就够了。
这一假定有两个方面的问题,1.是不是丢掉了人实际上能感觉到的声音,更确切些是人类能感觉到的信息,不一定只能从耳朵进入人脑。也就是保真度够不够;2.是否混有不必要或人实际上感觉不到的信息,即传送和存储的比特数还是多了。
前者推动了CD播放机的高倍取样和再量化,人为补入一些近似的信息,如这两年的HDCD,超级CD和音频DVD等,从音源上就增加信息的音频新格式。
后者实际上发展得更早,模拟时代电话传送时就压缩掉了5kHz以上、100Hz以下的频率成分,但并不影响语言信息和个人特征的传送。数字音频出现后,音频压缩技术更是全面开花,一步步向高压缩、高保真的方向迈进。就在这一两年内,实验室中的各种成果都纷纷走向市场,硕果累累。
如果音质一样,压缩式音频肯定比PCM编码的音频更加吸引人,它在存储和传送方面都大为有利,占用比特数少,节省载体空间,就可考虑采用价格相对贵的优质载体。现在音乐软件的载体主要是磁带和光盘,因为磁光载体每比特的单价十分廉价,几乎可以不用考虑成本。但从录入、读取以及编辑等角度看,EPROM、SRAM和快闪存储器等IC存储器肯定更方便灵活,而且完全不再需要磁光机电组件(这可是录放机中,最娇气、最短命,又最能把产品质量拉开档次的部分),可实现全面电气读取写入。
压缩式信号传输也快捷。CD信号的音频数据率为44.1k×16×2≈1.4Mbps,即1秒钟内必须送完1.4兆个比特脉冲,才能恢复出左、右声道各1秒的音乐。(实际上,由于纠错码的加入,光盘上出来的EFM信号的传输比特率达4.3218Mbps。)若用256kbps的传输系统来传送或通信,要收5秒钟数据,才能恢复出1秒钟音乐,根本无法实现实时通讯。如果将声音的数据率压缩到10kbps,那么同样的传输系统就可以同时传送25路声音,接收端还能与发送端同步对话。
所以,音频压缩技术在通讯和多声道伴音领域里受到高度重视。
音频数据压缩粗分为波形压缩、分析合成和混合压缩三类。
一、 波形频谱压缩编码法
原理是依据人类的听觉心理,从原始取样数据中压缩掉冗余的成分,即去掉听不到的频率分量,还原后的声音基本上保持原样。由于这种压缩的保真度高,目前AV系统中的音频压缩都采取这类方案。附表是已在采用的这类压缩的要点。
附表所列的数据率为典型数据率,放音质量能满足要求,基本上与CD音质相当,也有低于表列数据率的格式,但对音质有影响。
每个声道一秒钟声音数据在64kbit以上,数据量仍旧是太大了点。若录立体声音乐74分钟,载体存储空间要56Mbit,以IC固态存储器现阶段的价格,还是贵了。将芯片做成固态录音机,由于省去了磁光机械,整体价格还可能被民用接受。若单独做成IC唱片就太离谱了。
二、 分析合成编码法
这种方法是在分析发音机理的基础上用电学模型和电气参数来模拟发音器官,从而使需要的数据量很少,压缩率非常高。分析时从语音中提取共振峰、声道参数等声音信息。还原时,也用这些参数及电模型来模拟出波形。压缩率在1.2kbps~9.6kbps之间。
国内用得较多的是LPC线性预测编码方式,原理见图一。
《银屏笙歌》印象
声音被模拟成声源和声道两个部分构成。声源为噪声和脉冲两种,声道相当于一个滤波器,气管口腔形状不同相当于声道滤波器的参数不同,最后就生成不同声音。
分析合成方法数据量小,但计算量很大。由于声音从发声模型出发,不是从波形出发仿真,保真难度大,目前的保真度还很差。例如,某人说了一句话,分析出参数再由参数合成的声音,能听出这段话的字句就合格了,听起来不是机器语言,即自然度好一些已相当不错了,要能听出谁在说话就不容易。现在的应用还停留在语音的传送和合成上,不少电话局声讯台给出的就是这种声音。
要用于消费类音频产品还要走一段路,但前景非常好,现在语音水平上的固态录音机已进入民用领域。
三、混合编码压缩法
所谓混合编码方式就是介于上述两者之间的方法。当波形编码的比特率每声道低于16kbps后,音质下降很快。而分析合成法由于机理本身就是一种模拟,比特率上升到10kbps以上后再上升音质也没有多少改善。所以,两者结合的混合编码法就被消费类电子公司开发出来。
图二是松下去年9月推出的一款一小时IC固态录音机RR-DR60的声音编码原理。
首先将声音分成5~20ms一帧,进行短时频谱分析,再从音源样板的码书中取来合适的码字,两者结合得到记录数据。还原的时候,将音源码字和记录数据经预测合成滤波器产生声音信号。音源码字是靠输入声音信号和由记录数据合成的声音信号的误差来决定,放大器的增益也靠这一误差来调整。
混合编码方式音频数据率在4~10kpbs之间,数据处理比波形编码要复杂,但能获得良好的音质。松下这一款fs=6kHz,量化率8bit,音频数据率才4kpbs,是为迎合日益高涨的固态影音机的需求开发的。固态存储器为16Mbit快闪存储器。
图三
三类不同出发点的压缩式音频中,能用于音乐信号的目前还只有波形压缩,但数据率还是偏高。从图三研究结果表明,低比特率的音乐信号编码中,混合压缩前景最好。总之低比特音频数据肯定是音频编码的一大方向。象BP机一样小的录音机,象邮票那样小的唱片,全靠它了。
附录:名词解释
ATRAC (Adaptive Transform Acoustic Coding)——自适应声学变换编码
PASC(Precision Adaptive Sub-band Coding)——精密自适应分频编码
Twin VQ(Transform domain Weighted interleave Vector Quantigation)——变域加权交织矢量量化
MDCT(Modified Discrete Cosine Transform)——改进型高散余弦变换
AAC(Advanced Audio Coding)——高等音频编码
DAB(Digital Audio Broadcasting)——数字音频广播(欧洲)
ATV(Advanced Telivesion)——高等电视(美国)
注:中文解释供参考,正式译文以将来的统一译法为准。
转载本站内容请标明来源和作者,本站转载内容均标明作者和出处,如有遗漏请联系本站及时处理!
为承办好相关论坛重点相关工作,原定云展会顺延!
创新云展会,2023年BAE北京国际音乐音响展相约2024年,在线恭候!
点击进入报名领取礼物>>