新闻详情

MPEG音频编***:从mp3到xHE-AAC

日期:2019-12-10 17:08
浏览次数:654
摘要:

 

    音频编***是现代媒体系统的基础核心之一。没有音频编***,就不会有现在的数字广播、流媒体服务及音乐发行。靠前同时也仍是*主流的MPEG音频编***是于1998年面市的mp3。此后,Fraunhofer IIS和其他ISO-MPEG成员参与者开发并制定了多个音频编***。 每个MPEG音频编***已经或将会改变我们消费媒体的方式。本文介绍了MPEG音频编***及其应用,并展现现代音频编码方案*成功的创建者Fraunhofer IIS。

   MPEG L3: mp3

    mp3彻底改变了音乐产业,也改变了消费者购买和享受音乐的方式。mp3目前仍然是音乐发行的主要格式,因为mp3文件可以在任何设备上随时随地播放。mp3技术于上世纪80年代末开始开发,1995年,随着以 “.mp3”为后缀的文件的诞生,该技术达到了顶峰。同年,Fraunhofer IIS推出了**个mp3播放器的硬件原型。该文件后缀mp3很快成为 “MPEG Layer 3”标准名称的替称,但是直到三年后,即1998年,**款mp3播放器才投放市场。

    mp3是一种感知型音频编***,这类编***基于人类听觉系统的感知模型。这些模型描述了人耳能够感知以及无法感知的音频信号元素,无论听众的耳朵是否经受过训练。通过分析音频信号,mp3和其他感知型音频编***确认了以上事实,即音质各指标可按人耳的感知优先排序,并在*终音频文件中精细的表现出来。因此,如果比特率(即至少192 kbps)选择得当,听众则无法辨别mp3文件与源文件之间的差别。

    不仅mp3基于感知模型,目前大部分的MPEG系列的音频编***也能够明智的利用人类听觉系统,来降低数据速率和文件大小。AAC系列的音频编***也不例外。

   AAC系列

    AAC-LC

    在市场大规模采用mp3之前,MPEG就已开发另一款音频编***。目的是在显著降低数据速率的同时实现与mp3同样高品质的音频质量。自此,开启了研发序幕,从1994年的AAC ,至2012年的扩展型HE-AAC。整个编***系列序幕。

    1994年,根据MPEG-2格式制定了首款新型AAC编***,命名为上等音频编码(Advanced Audio Coding,AAC)。根据mp3和其他编***砖利的开发经验,AT&T、Dolby、Fraunhofer IIS以及Sony等主要参与者从头开始设计一款*先进的新型音频编***。通过增加感知噪声建模(Perceptual Noise Shaping,PNS)、频带复制(Spectral Band Replication,SBR),以及参数立体声编码(Parametric Stereo,PS)等工具,将MPEG-2 AAC编***扩展至MPEG-4标准。

    基本的MPEG-4 AAC配置被称为AAC-LC(低复杂性)的配置。它能提供“水晶般”的音频质量。在音频编码域中,“水晶般”音频的编码信号虽然在数学上与源文件有差异,但即便是拥有“金耳朵”的听力专家也无法辨别其与源文件的区别。因此,AAC-LC可以满足广播公司*高的音频质量要求。立体声AAC-LC比特率通常为128-192 kbps,5.1多声道AAC-LC比特率为320 kbps,两种AAC均以立声道进行编码。AAC-LC是目前*灵活的音频编***之一,采样率从8 kHz到192 kHz,每声道的比特率高达256 kbps,并支持48声道。该配置*杰出的应用就是Apple iTunes,并已用于日本ISDB数字电视标准。

图1: MPEG AAC音频编***系列概览


   HE-AAC 和 HE-AACv2

    MPEG-4“高效配置(High Efficiency Profile, HE-AAC)”结合了MPEG-4 AAC-LC和参量频谱复制(Spectral Band Replication,SBR)工具,从而可以进一步降低总比特率,同时保持出色的音频质量。当立体声信号的比特率低于128 kbps时,HE-AAC与同音频质量的AAC-LC相比,比特率降低了30%。对于HE-AAC,低音频频谱使用AAC-LC进行编码,高频谱通过SBR工具编码。频谱复制是一种参数方法,可使用该频谱的高低重新创建该信号的整个音频频谱。为了进一步降低比特率,AAC-LC编码使用总信号50%的采样进行低频率编码。HE-AAC立体声所用的典型数据速率为48-64kbps,HE-AAC 5.1多声道的典型数据速率为160 kbps。同AAC-LC一样,HE-AAC支持8至 192kHz的采样率、高达48个声道以及音频特定的元数据。

图2: HE-AAC编码器***工作原理


    “高效AAC v2配置(HE-AACv2)”在HE-AAC基础上添加了参数声音(Parametric Sound,PS)工具。HE-AACv2 应用参数进行立体声信号编码,并进一步降低了比特率。参数声音编码器不是发送两个声道,而是从立体声信号中提取参数,在***侧重建立体声信号,然后生成一个HE-AAC编码的单声道混音。参数数据与频谱数据在AAC比特流的辅助数据字段中传输。***解码单声道信号,参数***重建立体声。对于立体声来说,采用参数数据传输HE-AAC编码的单声道信号比传输双声道 、HE-AAC编码信号的效率更高。对于立体声信号来说,HE-AACv2典型比特率为24至32 kbps。
图3: HE-AAC v2编码器***工作原理

    目前,AAC和HE-AAC得到广泛应用。尤其是在互联网应用中, AAC和HE-AAC是mp3之外主要的音频编***。

    HE-AACv2广泛地应用于*先进的电视广播系统。它是DVB工具箱的组成部分,还是*近推出了第二代地面电视指定的编***,应用在西班牙、英国、法国、爱尔兰、瑞典、奥地利、意大利、丹麦、芬兰和挪威等国家。在巴西和南美洲的大多数国家,HE-AAC是地面电视广播的唯壹指定音频编***。此外,HE-AAC也是智能电视中的一个指定部件。例如,它是欧洲混合广播宽带电视(Hybrid Broadcast Broadband TV,HbbTV)数据服务的指定编***。因此,所有高清电视接收器设备,如目前欧洲和南美洲销售的电视机和机顶盒,都支持HE-AAC。所有主要广播编码器厂商很早之前便将HE-AAC部署到他们的设备中。当然,HE-AACv2支持所有相关的广播元数据。

    HE-AAC是主流音频流媒体编***。所有主要的流媒体平台都支持HE-AAC,包括Flash、Silverlight、Windows Media Player、Winamp以及iTunes。Mac OS X和Windows等操作系统中都有HE-AAC, iOS、Android、Windows Phone、Symbian及BlackBerry等手机系统也是如此。

    目前,苹果HLS、微软Smooth Streaming及Adobe Dynamic Streaming等成熟的http适配流媒体系统也基于AAC系列编***。

    HE-AACv2还是消费电子领域内流媒体标准的一个重要部分,在Open IPTV Forum、ATIS、HbbTV和DLNA等电子领域发挥着不可或缺的作用。因此,几乎所有的数字电视、蓝光播放器、机顶盒和游戏机都支持该编***。HE-AACv2的广泛支持使它成为内容提供商选择的*佳编***。因此,Pandora、Aupeo、Hulu以及BBC iPlayer等大多数网络广播都基于HE-AACv2。

    MPEG Surround

    MPEG Surround技术可以看作是参数立体声原理从立体声到多声道的扩展。不同于参数立体声工具,MPEG Surround在比特率和质量方面更具扩展性。MPEG Surround可与AAC系列编***相结合,提供更高的编码效率。MPEG Surround的另一个优势是它能够反向兼容立体声信号。比特流始终包含AAC编码核心立体声信号和MPEG Surround这两个元素。立体声***可以提取核心立体声信号,并对其进行解码,而支持MPEG Surround的***可重建整个多声道音频信号。这样,就可以通过平价或传统的立体声接收器或多声道接收器在混合信号接收器中使用MPEG Surround,而无需同时播放立体声和多声道信号。

图4: MPEG Surround编解码组合

   低延迟音频编***: AAC-LD、AAC-ELD和AAC-ELDv2

    MPEG编***不仅广泛应用于广播、流媒体和音乐发行中,还用于通信应用。AAC系列通信编***在高品质会议和视频电话系统中尤其受欢迎,因为它们帮助服务提供商和运营商提供全高清的语音服务。全高清语音是通信系统能够实现的*高音频质量。传统的窄带电话仅能传输*高 3.5 kHz的音频带宽,而全高清语音系统则能传输从14 kHz到人耳能听到的全部音频频谱。通过这种方法,全高清语音通话听起来像与同一房间的人交谈那样清晰。AAC系列的全高清语音编***包括低延迟 AAC (Low Delay AAC,AAC-LD)、增强型低延迟 AAC (Enhanced Low Delay AAC,AAC-ELD)以及增强型低延迟AACv2 (AAC-ELDv2)。

    AAC-LD是高品质视频会议的行业标准,可提供全带宽、低延迟的音频编码。它具有仅20毫秒的算法延迟,同时为所有类型的音频信号提供良好的压缩率和高声质。

    AAC-ELD是AAC-LD的增强型版本,结合了MPEG-4 AAC-LD和频谱复制。 AAC-ELD也是所有要求在24 kbps低数据速率下拥有全音频带宽的延迟敏感型应用的*佳选择。

    AAC-LD和AAC-ELD目前已经用于专业及消费级视频会议应用,例如,苹果的FaceTime应用就是基于AAC-ELD。

    AAC-ELDv2是卓越的AAC-ELD音频编***的*新扩展。AAC-ELDv2结合了AAC-ELD优化延迟参数多声道编码的优势这种方法只允许传输一个单声道及其他信息,而不是两个独立的声道。

    扩展型HE-AAC

    AAC系列的*新成员是扩展型HE-AAC。2012 年年初,MPEG标准化刚刚完成。扩展型HE-AAC显著提高了音乐和语音的音频质量,尤其是在8 kbps等极低的比特率下,并与HE-AAC流兼容。新的编***将两个先前分离的通用音频编码和语音编码结合在一起,具备了现有的语音和音乐编***的优势。HE-AACv2音频编***添加了一套新的编码工具后,扩展型HE-AAC的性能大大超过了专用语音和通用音频编码方案,弥补了二者的不足,为所有信号类型提供一致的高品质音频。

    结语

    无论是娱乐还是通信应用,MPEG音频编***用于所有*先进的消费电子、IT和通信设备中。从上世纪90年代末开始出现的mp3起,MPEG音频编***的发展从未间断过。mp3及其后续产品AAC在消费领域广为人知,对于HE-AAC或AAC-ELD等在后台运行的其他MPEG编***,只有专业人士才有所了解,但大部分人在日常生活中都在使用这些编***,例如,观看互联网视频或使用Apple FaceTime打电话。Fraunhofer IIS在每个音频编***的开发和市场推广方面都起到了重要作用。

粤公网安备 44030602001455号