DXOMark是如何评价音频质量的

868 阅读9分钟
原文链接: mp.weixin.qq.com
智能大屏手机刚刚普及的时候,屏幕尺寸是消费者选购手机时最关注的因素。近年来,各大厂商走火入魔一般地在相机方向发力,于是拍照功能又成了消费者主要关注的因素之一。 然而,随着自媒体与vlog的兴起,越来越多的用户开始使用手机录制、观看音视频内容,可以预见,手机音频质量的重要性未来将会大大增加。

10月份,著名的相机与手机影像评测机构DXOMark官网上线了手机音频质量评价标准与结果。尽管近年来DXOMark常被调侃为“被充值的评测机构”,但我认为这依然不影响他的总体权威性(要不为啥各大厂家都喜欢给他们“充值”,而不是给国内这一大票评测媒体?)。下面我们来看看DXOMark是如何制定音频质量评价标准,又是如何进行质量评价的,想必其中一定有值得我们学习的地方。


总体评价方法与环境

DXOMark的手机音频质量评价分为两个大类:播放质量与录音质量。对于每一个大类,又包含各种评价指标,将各个指标的评价结果加权汇总后即得到当前大类的总体评分。评价方法则包含客观质量评价和主观质量评价两部分。在客观评价中,依据频谱图,以及声级计等设备给出的结果进行评分。在主观评价中,依据有多年经验的声学专家所给出的主观感知结果进行评分。

虽然DXOMark没有明说,但我们大胆猜测这些声学专家应该很多都有“金耳朵”认证

测试环境分为两部分:消音室和听音室。

在消音室中,声波反射被完全杜绝,外界噪音也被完全隔离开。测试播放质量时,在消音室中用麦克风记录手机播放结果;测试录音质量时,还会在消音室中放置额外的扬声器来模拟各种真实用户使用场景。

在听音室中,环绕被测设备和人员放置有数个扬声器。这些扬声器的布局被精心设计过,从而可以几乎完全重现真实用户使用场景,比如繁忙的大街或安静的书房。在听音室中,既可以对单一设备进行评价,也可以同时比较多台设备的音频质量。

根据DXOMark的介绍,他们会先用多个麦克风以特定的布局录制真实用户场景的环境音,然后在听音室中将扬声器依照相同的布局放置,从而实现对真实场景的重现。


播放质量评价

在不同的使用场景下,用户所关注的播放质量因素有所不同。举个例子,在玩吃鸡这样的射击游戏时,用户更关注游戏枪声或其他音效的空间感,因为更好的空间感有助于玩家定位声音的方向。而在手机上看电影或听音乐时,其他质量因素则可能对用户体验产生更大的影响。

再比如,当用户听歌时,他们一般会竖屏握持手机,这又与玩游戏时横屏握持的使用场景有很大区别,相应的影响因素也不同。举个例子,当用户观看网络主播的视频时,往往更关注人物说话的声音,这又与听歌时的关注点会有所区别。

基于此,DXOMark设计的播放质量评价指标包含以下几个维度:音色、空间感、力度、音量和音损。同时,这些评价维度根据不同的使用场景会有不同的权重值(不过DXOMark没有公布具体的权重值)。

音色

音色乍一听是很玄学的东西。DXOMark对良好音色的定义则是:设备应该能在特定场景下呈现符合用户期望的正确频率输出。比如前面提过的网络主播视频的例子,如果设备能够在此时正确地呈现出用户想要的人声(对应于中频部分),那么我们就说设备在这一场景下的音色是优秀的。

这给我们的启示是:设备的音效应该能够根据当前内容进行自适应的调整。

空间感

良好的空间感可以让音频播放输出更具有立体性。营造声音的空间感主要是基于心理声学建模技术实现的,因此,DXOMark对声音空间感的评价也主要是依赖主观感知评价来完成的。空间感这一评价维度又包含有几个子维度,如下:

  1. 广度(wideness):评价设备将声音感受区域扩大的能力。

2. 均衡度(balance):评价设备上多个扬声器之间的平衡度。

3. 距离(distance):评价感知的声音传递到用户的距离范围,也就是在不同的使用场景下,用户要距离扬声器多远才能正常地听到声音输出。

4. 可定位性(localizability):评价设备在呈现整个声场时,能否保持特定声音来自特定位置的能力。

力度(dynamics)

力度是指音频中起音的强度、低音的准确度以及给人的冲击力。对这一指标的评价也都是基于主观感知完成的。同时,DXOMark还会测量音频力度随输出音量变化的情况。

音量

与空间感和力度的评价完全依赖于主观感知所不同,对音量的评价会部分依赖于对扬声器声压级的客观测量与评价,具体来说,会测量最大音量、最小音量以及音量的一致性指标(用户对音量的感知变化应该与音量级别的变化保持一致)。除了客观评价外,音量的评价也需要主观感知评价的参与。

音损(artifacts)

对音损的评价同样是由主观和客观评价综合完成的,其中客观评价主要是通过观察频谱图来实现的(在频谱图上可以轻松地发现各类异常的音损)。音损分为两种:

1. 频域音损(spectral artifacts):与不必要的频率有关。 在特定振幅下,声音可能会产生失真并且产生不必要的频率,一般在大音量时容易发生。

2. 时域音损(temporal artifacts):暂时性的音损,常常表现为声音的突然增大或减小。


录音质量评价

智能手机常见的麦克风配置为三个:两个用于后置摄像头,一个用于前置摄像头。同时,这些麦克风一般都是全向性的,会收录到设备四周所有的声音。这些声音中既包含嘈杂的背景声,也包含声源的反射,优秀的设备必须能够应付各类复杂、恶劣的声学环境。

手机录音的用户使用场景丝毫不比播放场景简单,比如会有

  • 在嘈杂的街道上录制包含对话的视频,此时评判的是设备麦克风收录各个声音的情况,以及对环境噪音的抑制能力

  • 用前置摄像头录制自拍视频,与前一场景类似,此时评判的是设备从周围环境中辨识出主体声音的能力

  • 在音量大、低音强劲的演唱会现场录制视频,此时评判的是设备重现音量与低音、并且不发生明显失真的能力

  • 录制古典音乐会,与前一场景不同,此时评判的则是设备重现空间感的能力

  • 录制多人会议,此时设备需要从多个方向上录制好几个声音,评判的是设备收录各个声音的情况,以及抑制环境噪声的能力

因此,和播放质量评价类似,DXOMark设计的录音质量评价指标包含以下几个维度:音色、空间感、力度、音量、音损和背景音,并且这些评价维度也会根据不同的使用场景有不同的权重值。

音色

DXOMark会测量录音音频的低频、中频、高频和它们之间的总体平衡性。

空间感

空间感的定义与播放质量评价中一样,不过在录音质量评价中,所关注的空间感子维度多了一个“方向性”,它评估设备根据声音来源与用户场景处理声级的能力。比如在录制视频时,设备正面和背面的声音都必须以适当的声级录制下来,这样在回放时才能体现原始声源的位置与声级。

音量

评测设备无论在什么输入声级下都以适当音量录制音频的能力。

力度

同播放质量的定义。

音损

录制质量中的音损指标主要是指“闭塞音损(occlusion artifacts)”,它是指用户在录音时的手机握持方式可能会影响录制质量,而优秀的设备会专门对此加以改进。

背景音

又称环境音,它包含两个子维度:

1.方向性:依据使用场景的不同,背景音可能是适宜的,也可能是应该去掉的。但是在录音声场方向性很强的情况下(比如录制自拍视频),DXOMark会评测主体的声音是否清晰以及背景有无噪音。

2.背景音损:背景音也有自己的音损指标,用户不希望在回放时听到来自背景的异常声音。


结语

说到音频质量,大家总觉得是玄学,但是DXOMark向我们展示了如何通过制定较为科学的评价指标体系与方法,将音频质量评价结果进行量化,这其中的很多细节都值得参考,也可以作为实践中的指导。

即便总有人会说这是为了赚钱,但我觉得这种赚钱方式不丢人,甚至是值得大加赞赏的,如果有更多组织敢于设计、公布自家的评价指标与方法,不也正推进了行业的进步,也可以更好地对消费者进行教育吗?

refer: https://www.dxomark.com/introducing-the-dxomark-audio-test-protocol/

扫码关注公众号【音视频开发进阶】,一起学习多媒体音视频开发~~~

喜欢就点个 「在看」吧  ▽