一、背景
二、评价方式综述
1、主观评价
1) 优点:主观测试是音频评价的黄金准则,最符合人的实际听感。
2) 缺点:主观评测费时费力,测试者太少、测试者不规范等都会带来测试误差;
3) 常用方法:AB-TEST, MUSHAR
2、客观打分
1) 缺点:不能够完全符合人的听觉感知,存在听感好打分低的情况;
2) 优点:方便测试和开发人员,快速验证语音的相对质量,方便日常工作,提升开发 和测试效率;
3) 常用方案:有参考(POLQA, PESQ, VISQOL)和无参考(ITU-TP.1201传统方法 和 MOSNET的AI打分)
二、打分维度和一致性对比
1、打分维度:
结论:Visqol支持对时间帧和频率轴的各个频带进行打分(如下图所示),并且支持16khz和48khz;pesq只有最后的评分结果,拿不到时间和频率的细节打分,并且仅支持8kh和16khz打分;Mosnet为无参考打分;
2、一致性对比:
结论:visqol和polqa的一致性更高, pesq颗粒度不够, mosnet(AI无参考模型)表现最差;
注:SMD48和SMD49,SMD50和SMD51,SMD271和SMD272这三对音频各对的音源相同,并且每对的后者都针对前者做了过认证优化。
三、visqol可信度测评
从一些常见维度对语音进行损伤,测试visqol是否符合听感判断。
1、音量的影响:
结论:音量差异影响不大,但是当降低-18db开始分数降低;
2、混响的影响:
结论:混响音响较大,加入混响分数就开始降低,但是混响大小影响有规律
3、噪音的影响:
结论:噪音影响很大,加入噪音分数就明显降低,但是不同信噪比变化有规律
4、频带缺失的影响
结论:频带缺失影响打分较大,但是不同的频带模型还是能够匹配降低不同的分值;
四、总结
visqol和polqa有较高的一致性(可能有幸存者偏差,但是拿到的数据是我们过认证的随机音频),visqol也存在和听感不符合的打分,例如加入轻微混响和噪音都会对打分有影响;但是混响和噪音的影响随着RT60和SNR的变化是有规律的,如果在降噪和混响模型的测试,也具相对意义,可以进行研发的自测;
参考文献:
1、 https://github.com/google/visqol
2、Objective Measure of Perceptual Audio Quality