Speech | 人工智能中语音质量评估方法详解及代码

本文主要讲解人工智能中语音合成,语音转换,语音克隆等生成语音的一些质量评估方法~

目录

1.语音质量评测方法

主观评价方法

1.1.MOS

1.2.CMOS 

1.3.ABX Test

1.4.MUSHRA(MUltiple Stimuli with Hidden Reference and Anchor)

客观评价方法

1.5.MCD

1.6.PESQ(Perceptual Evaluation of Speech Quality)

1.7.STOI(Short-Time Objective Intelligibility)

1.8.LLR(Log Likelihood Ratio)

2.在语音任务中的使用【详细代码】

2.1.MOS计算

2.2.使用MCD进行计算

2.3.STOI

3.测试总结

3.1.在MCD测试中总结

3.2.在STIO测试中总结

【扩展】

使用MCD值,求均值和方差,画出直方图


1.语音质量评测方法

  • 主观方法:MOS、CMOS、ABX Test、MUSHRA、PESQ
  • 客观方法:MCD、STOI、F0 RMSE、F0 MSE、 E MSE、Dur MSE、 mel loss、

主观评价方法

1.1.MOS

MOS 是一种主观评价方法,通过被试听众对合成语音的主观打分来评估语音合成的质量。 

 官网:P.800.1 : Mean opinion score (MOS) terminology (itu.int)

如果平均主观评价值MOS是4或者更高,被认为是比较好的语音质量,而若平均MOS低于3.6,则表示大部分接听者不能满意这个语音质量。

音频级别MOS值评价标准
4.0~5.0很好,听得清楚;延迟小,交流流畅
3.5~4.0稍差,听得清楚;延迟小,交流欠流畅,有点杂音
3.0~3.5还可以,听不太清;有一定延迟,可以交流
1.5~3.0勉强,听不太清;延迟较大,交流需要重复多遍
0~1.5极差,听不懂;延迟大,交流不通畅

一般MOS应为4或者更高,这可以被认为是比较好的语音质量,若MOS低于3.6,则表示大部分被测不太满意这个语音质量。 

MOS测试一般要求:

  • 足够多样化的样本(即试听者和句子数量)以确保结果在统计上的显著;
  • 控制每个试听者的实验环境和设备保持一致;
  • 每个试听者遵循同样的评估标准。
     

1.2.CMOS 

comparative mean opinion score的缩写,naturalspeech论文中提出的相关概念,通过采用“平均意见分”(Mean Opinion Score, MOS)来衡量 TTS 质量,因为MOS 对于区分声音质量的差异不是非常敏感,只是对两个系统的每条句子单独打分,没有两两互相比较。而 CMOS(Comparative MOS)在评测过程中可以对两个系统的句子两两对比并排打分,并且使用七分制来衡量差异,所以对质量差异更加敏感。

1.3.ABX Test

ABX测试是一种常用的主观评估方法,用于比较两个声音样本中哪一个更接近于第三个参考样本。参与者在三次听觉对比中选择A或B与X相匹配。这种测试常用于评估音频编解码器、语音合成系统等的效果。

1.4.MUSHRA(MUltiple Stimuli with Hidden Reference and Anchor)

MUSHRA是一种主观评估方法,用于比较多个音频样本(被评估的)与隐藏的参考音频样本。评估者需要对参考音频和每个样本进行评分,以确定哪个样本最接近参考音频。

客观评价方法

1.5.MCD

论文题目:Mel-cepstral distance measure for objective speech quality assessment

论文地址:Mel-cepstral distance measure for objective speech quality assessment | IEEE Conference Publication | IEEE Xplore

Github:MattShannon/mcd: Mel cepstral distortion (MCD) computations in python. (github.com)

梅尔倒谱畸变 (MCD) 是衡量两个序列的不同程度的量度 梅尔·塞普斯特拉(Mel Cepstra)是用于评估参数语音合成系统的质量, 包括统计参数语音合成系统,其想法是 合成的 mel 倒谱序列和天然的 mel 倒谱序列之间的 MCD 越小, 合成语音更接近于再现自然语音。 它绝不是评估合成质量的完美指标语音,但通常与其他指标结合使用是一个有用的指标。

MCD的计算方法如下:

  • 提取MFCCs:首先,从合成语音和目标语音中提取MFCCs。这涉及将语音信号转换为频谱表示,然后应用梅尔滤波器组并使用倒谱分析获得MFCC系数。

  • 计算距离:接下来,通过比较合成语音和目标语音之间的MFCC系数来计算距离。通常使用欧几里得距离(Euclidean distance)或动态时间规整(Dynamic Time Warping,DTW)等方法来衡量两个语音信号之间的相似性或差异。

  • 求取平均值:对所有帧(或时间段)的距离进行平均,得到整个语音信号的MCD分数。MCD分数越低表示合成语音和目标语音之间的差异越小,质量越高。

MCD 是衡量语音合成质量的一种常用指标,但它只是梅尔倒谱系数之间的距离度量,不能完全代表语音合成的质量。在使用 MCD 时需要注意,它是一种客观评价指标,还需要结合其他指标和主观评价来全面评估语音合成系统的性能。

 但研究发现,它与人们主观感受到的音质的相关性并不够强。在我看到的几乎所有论文中,没有使用此方法·

在MCD(Mel Cepstral Distortion)的计算过程中,三种模式(plain、dtw、dtw_sl)表示了不同的计算方式,主要体现在计算梅尔倒谱距离时的方法上:

Plain(普通模式)

  • 这种模式下的 MCD 计算是基于梅尔倒谱系数的直接欧氏距离。它是最简单、直接的计算方式,没有额外的变换或校正。

DTW(动态时间规整)

  • 动态时间规整是一种通过比较两个序列的相似性的方法,在MCD中,使用DTW来对齐两个序列,以最小化它们之间的距离。它允许序列在时间轴上有一定程度的弹性对齐,可以处理一些在时间上略微错位的情况。

DTW_SL(DTW with Straight-line Constraint,带直线约束的DTW)

  • 这种模式下的DTW在进行对齐时,增加了直线约束。这意味着对齐过程中的路径是在不太影响整体相似性的情况下,尽量保持直线,从而减少了可能不必要的弯曲和错位。

1.6.PESQ(Perceptual Evaluation of Speech Quality)

PESQ是一种客观评估方法,用于测量语音质量。它计算原始语音和经过处理(压缩、编码等)的语音之间的差异,以提供语音质量的分数。这个指标常用于衡量语音编解码器或通信系统的性能。

1.7.STOI(Short-Time Objective Intelligibility)

STOI 是用于测量语音清晰度和可懂度的客观评价方法,特别适用于测量语音合成的可懂度和识别率。

STOI(Short-Time Objective Intelligibility)是一种用于测量语音信号质量的客观评估指标。它旨在衡量清晰度和可懂度之间的相关性,是一种针对语音信号的质量评估方法。

STOI 主要通过比较原始语音和失真/噪声语音之间的频谱相关性来评估语音信号的可懂度。它的核心思想是,在人耳感知语音时,大脑会对频谱相关性进行敏感的处理。因此,STOI利用了频谱之间的相关性来估计语音信号的清晰度和可懂度。

这个方法的一般步骤如下:

  1. 短时傅立叶变换(STFT):语音信号被分成短时间段,并进行STFT,将信号转换成频谱形式。
  2. 频谱相关性计算:对原始语音和失真/噪声语音的频谱进行相关性计算。通常是通过计算频谱帧之间的相似度来衡量。
  3. 相关性平均:计算所有频谱帧的相关性,并求得平均值,作为整个信号的STOI评分。

STOI的结果介于0到1之间,数值越接近1表示语音信号的可懂度越高,越接近0表示可懂度较低。

这个评价方法在语音信号的音质、清晰度和可懂度方面提供了一种定量的评估,通常用于语音信号处理领域,特别是在语音增强、降噪、编解码和语音合成等应用中,可以帮助评估算法的效果。

1.8.LLR(Log Likelihood Ratio)

用于评估模型生成的语音是否属于给定的语音分布。

2.在语音任务中的使用【详细代码】

  • 语音合成

  • 语音转换

  • 语音克隆

语音合成中常使用的主要是MOS和CMOS,但是因为主观性比较大,差异可能也比较大~

2.1.MOS计算


import math
import numpy as np
import pandas as pd
from scipy.linalg import solve
from scipy.stats import tdef calc_mos(data_path: str):'''计算MOS,数据格式:MxN,M个句子,N个试听人,data_path为MOS得分文件,内容都是数字,为每个试听的得分:param data_path::return:'''data = pd.read_csv(data_path)mu = np.mean(data.values)var_uw = (data.std(axis=1) ** 2).mean()var_su = (data.std(axis=0) ** 2).mean()mos_data = np.asarray([x for x in data.values.flatten() if not math.isnan(x)])var_swu = mos_data.std() ** 2x = np.asarray([[0, 1, 1], [1, 0, 1], [1, 1, 1]])y = np.asarray([var_uw, var_su, var_swu])[var_s, var_w, var_u] = solve(x, y)M = min(data.count(axis=0))N = min(data.count(axis=1))var_mu = var_s / M + var_w / N + var_u / (M * N)df = min(M, N) - 1  # 可以不减1t_interval = t.ppf(0.975, df, loc=0, scale=1)  # t分布的97.5%置信区间临界值interval = t_interval * np.sqrt(var_mu)print('{} 的MOS95%的置信区间为:{} +—{} '.format(data_path, round(float(mu), 3), round(interval, 3)))if __name__ == '__main__':data_path = ''calc_mos(data_path)

2.2.使用MCD进行计算

单语音对比

from pymcd.mcd import Calculate_MCD# instance of MCD class
# three different modes "plain", "dtw" and "dtw_sl" for the above three MCD metrics
mcd_toolbox = Calculate_MCD(MCD_mode="plain")# two inputs w.r.t. reference (ground-truth) and synthesized speeches, respectively
# 同样的元语音和生成语音对比
mcd_value = mcd_toolbox.calculate_mcd("1.wav", "gen_1.wav")
print(mcd_value)

批量

from pymcd.mcd import Calculate_MCD
import os
import numpy as npdef batch_calculate_mcd(original_folder, generated_folder):mcd_toolbox = Calculate_MCD(MCD_mode="dtw")mcd_values = []# 获取文件夹中的文件列表,并按照文件名排序original_files = sorted(os.listdir(original_folder))generated_files = sorted(os.listdir(generated_folder))# 逐对比较语音文件for orig_file, gen_file in zip(original_files, generated_files):orig_path = os.path.join(original_folder, orig_file)gen_path = os.path.join(generated_folder, gen_file)# 进行MCD值的计算mcd_value = mcd_toolbox.calculate_mcd(orig_path, gen_path)print(f"MCD value for {orig_file} and {gen_file}: {mcd_value}")mcd_values.append(mcd_value)# 计算均值和方差mean_mcd = np.mean(mcd_values)variance_mcd = np.var(mcd_values)print(f"Mean MCD value: {mean_mcd}")print(f"Variance of MCD values: {variance_mcd}")original_folder_path = './original_data'
generated_folder_path = './gen_data'batch_calculate_mcd(original_folder_path, generated_folder_path)

 

2.3.STOI

单语音对比

# pip install scipy numpyimport numpy as np
from scipy.io import wavfile
from scipy.signal import stftdef stoi(x, y, fs):win_len = int(fs * 0.025)  # 窗长为25mshop_len = int(fs * 0.010) # 窗移为10ms_, _, Pxo = stft(x, fs=fs, nperseg=win_len, noverlap=hop_len)_, _, Pyo = stft(y, fs=fs, nperseg=win_len, noverlap=hop_len)# 计算时间频率上的STOIstoi_values = []for i in range(Pxo.shape[1]):Pxo_i = np.abs(Pxo[:, i])Pyo_i = np.abs(Pyo[:, i])Rxy = np.sum(Pxo_i * Pyo_i) / np.sqrt(np.sum(Pxo_i ** 2) * np.sum(Pyo_i ** 2))stoi_values.append(Rxy)return np.mean(stoi_values)# 读取原始语音和生成语音
rate_orig, orig_audio = wavfile.read('original_data/1.wav')
rate_gen, gen_audio = wavfile.read('gen_data/gen_1.wav')if rate_orig != rate_gen:print("If the sampling rate of the original audio and the generated audio are different, please adjust the sampling rate of the generated audio to the sampling rate of the original audio.")# 计算STOI值
stoi_value = stoi(orig_audio, gen_audio, rate_orig)
print("stoi value:", stoi_value)

 批量对比

import os
import numpy as np
from scipy.io import wavfile
from scipy.signal import stftdef stoi(x, y, fs):win_len = int(fs * 0.025)  # 窗长为25mshop_len = int(fs * 0.010)  # 窗移为10ms_, _, Pxo = stft(x, fs=fs, nperseg=win_len, noverlap=hop_len)_, _, Pyo = stft(y, fs=fs, nperseg=win_len, noverlap=hop_len)stoi_values = []for i in range(Pxo.shape[1]):Pxo_i = np.abs(Pxo[:, i])Pyo_i = np.abs(Pyo[:, i])# 计算频谱之间的相关性Rxy = np.sum(Pxo_i * Pyo_i) / np.sqrt(np.sum(Pxo_i ** 2) * np.sum(Pyo_i ** 2))stoi_values.append(Rxy)return np.mean(stoi_values)def calculate_stoi_for_files(original_folder, generated_folder):original_files = os.listdir(original_folder)generated_files = os.listdir(generated_folder)for orig_file, gen_file in zip(original_files, generated_files):orig_path = os.path.join(original_folder, orig_file)gen_path = os.path.join(generated_folder, gen_file)rate_orig, orig_audio = wavfile.read(orig_path)rate_gen, gen_audio = wavfile.read(gen_path)# 调整采样率...# 如果需要的话,进行采样率调整...# 计算STOI值stoi_value = stoi(orig_audio, gen_audio, rate_orig)print(f"STOI值 - {orig_file} vs {gen_file}: {stoi_value}")# 原始语音和生成语音文件夹路径
original_folder_path = 'path_to_original_audio_folder'
generated_folder_path = 'path_to_generated_audio_folder'# 计算STOI值
calculate_stoi_for_files(original_folder_path, generated_folder_path)

3.测试总结

3.1.在MCD测试中总结

模式为plain,测试了同一个说话人的三个不同语音语句,结果如下

 而模式为dtw时

 第一个为真实生成,其他三个为不同语句,由此可见MCD的值并不能完全代表语音生成结果的还坏!

3.2.在STIO测试中总结

数据对比时,容易出现nan和index索引问题,

【扩展】

使用MCD值,求均值和方差,画出直方图

# pip install matplotlib seabornimport matplotlib.pyplot as plt
import seaborn as sns
import numpy as np# 语音和对应的数值
speeches = ['1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18,','19', '20']
#data = np.random.rand(10, 10) 
data = [5,8,7,6,8,4,10,7,9,6,7,5,6,8,10,11,8,10,9,8]  # 与每个语音对应的数值# 计算均值和方差
mean_value = np.mean(data)
variance_value = np.var(data)# 创建直方图
plt.figure(figsize=(10, 6))  # 设置图的大小
x = np.arange(len(speeches))  # 使用语音的索引作为x轴
plt.bar(x, data, color='skyblue', edgecolor='black')  # 绘制直方图,设置颜色和边缘颜色
plt.xlabel('Speeches')  # x轴标签
plt.ylabel('Value')  # y轴标签
plt.title('Values for Each Speech')  # 设置标题# 设置x轴标签为语音名称
plt.xticks(x, speeches)# 显示均值和方差
plt.axhline(mean_value, color='red', linestyle='--', label=f'Mean: {mean_value:.2f}')  # 添加均值线
plt.axhline(mean_value + np.sqrt(variance_value), color='green', linestyle=':', label='Std Dev')  # 上方标准差线
plt.axhline(mean_value - np.sqrt(variance_value), color='green', linestyle=':', label='_nolegend_')  # 下方标准差线plt.grid(axis='y')  # 只在y轴上显示网格线
plt.legend()  # 显示图例
plt.tight_layout()  # 调整布局
plt.show()  # 显示图表

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/233314.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker一键极速安装Nacos,并配置数据库!

1 部署方式 1.1 DockerHub javaedgeJavaEdgedeMac-mini ~ % docker run --name nacos \ -e MODEstandalone \ -e JVM_XMS128m \ -e JVM_XMX128m \ -e JVM_XMN64m \ -e JVM_MS64m \ -e JVM_MMS64m \ -p 8848:8848 \ -d nacos/nacos-server:v2.2.3 a624c64a1a25ad2d15908a67316d…

AI实景无人直播项目:开启自动直播新时代,一部手机即可实现增长

在当今社会,直播已经成为了人们日常生活中不可或缺的一部分。无论是商家推广产品、明星互动粉丝还是普通人分享生活,直播已经渗透到了各行各业。然而,传统直播方式存在着一些不足之处,如需现场主持人操作、高昂的费用等。近年来&a…

密码学(二)

文章目录 前言一、Certificate Authorities二、Key Agreement Protocols 前言 本文来自 Intel SGX Explained 请参考:密码学(一) 一、Certificate Authorities 非对称密钥密码学中的公钥和私钥假设每个参与方都拥有其他参与方的正确公钥。…

【管理篇 / 恢复】❀ 07. macOS下用命令刷新固件 ❀ FortiGate 防火墙

【简介】随着苹果电脑的普及,很多管理员都会通过苹果电脑对飞塔防火墙进行管理。当防火墙需要命令状态下刷新固件时,在macOS下用命令刷新固件,将会是一个小小的挑战。 首先是硬件的连接,USB配置线的USB一头,接入MAC的U…

抖音在线查权重系统源码,附带查询接口

抖音权重在线查询只需输入抖音主页链接,即可查询作品情况。 搭建教程 上传源码并解压 修改数据库“bygoukai.sql” 修改“config.php” 如需修改水印请修改第40行 如需修改限制次数,请修改第156行 访问域名user.php即可查看访问用户,停…

走近阿里巴巴 揭秘阿里文化之旅

一、【项目背景】 看过去:从18人到近3万人,从50万起家,到市值接近5000亿美元,20年间,阿里步步为营,缔造互联网神话。 看发展:阿里将B系纳入新一轮的核心战略,志在打造世界第五大经…

1389 蓝桥杯 二分查找数组元素 简单

1389 蓝桥杯 二分查找数组元素 简单 //C风格解法1&#xff0c;lower_bound(),通过率100% //利用二分查找的方法在有序的数组中查找&#xff0c;左闭右开 #include <bits/stdc.h> using namespace std;int main(){int data[200];for(int i 0 ; i < 200 ; i) data[i] …

Linux基础知识点-(七-线程)

目录 一、线程和进程 1.1 线程的基本概念 1.2 线程的优缺点 二、创建线程 2.1 pthread_create() - 创建线程函数 三、线程属性 3.1 pthread_attr_t类型 3.2 phread_t类型 四、线程退出 4.1 pthread_exit() 4.2 pthread_join() 4.3 pthread_detach() 一、线程和进…

PyTorch|构建自己的卷积神经网络--池化操作

在卷积神经网络中&#xff0c;一般在卷积层后&#xff0c;我们往往进行池化操作。实现池化操作很简单&#xff0c;pytorch中早已有相应的实现。 nn.MaxPool2d(kernel_size ,stride ) 这种池化叫做最大池化。 最大池化原理很简单&#xff0c;就是一个filter以一定的stride在原…

数据库内核那些事|细说PolarDB优化器查询变换:IN-List变换

导读 数据库的查询优化器是整个系统的"大脑"&#xff0c;一条SQL语句执行是否高效在不同的优化决策下可能会产生几个数量级的性能差异&#xff0c;因此优化器也是数据库系统中最为核心的组件和竞争力之一。阿里云瑶池旗下的云原生数据库PolarDB MySQL版作为领先的云…

golang生成12个月

// GetMonthTimeCycle 获取月份周期 // 参数 year 年份 func GetMonthTimeCycle(year int) (*[]TimeCycle, error) {var yearstart time.Timevar start time.Timevar end time.Timevar no intvar name stringvar loc, err time.LoadLocation("Local")if err ! nil {…

CentOs搭建Kafka集群

Centos7搭建Kafka集群 一、集群规划二、环境准备三、安装kafka集群1、下载kafka安装包2、解压3、配置环境变量4、编辑配置文件①修改broker.id②配置kafka运行日志路径③配置Zookeeper集群地址 5、启动集群6、测试kafka①、创建topic②、查看当前服务器中的所有topic③、生产者…

MySQL复习汇总(图书管理系统)

MySQL图书管理系统&#xff08;49-94&#xff09;源码_71.备份book数据库到e盘的mybook.sql文件(备份文件中要求包含建库命令)-CSDN博客 CROSS JOIN&#xff1a;交叉连接&#xff08;笛卡尔积&#xff09; -- 1、 创建一个名称为book的数据库。 -- 2、 打开book数据库…

文件夹重命名:如何一键完成简体中文文件夹名到繁体中文的批量转换

随着科技的发展&#xff0c;人类越来越依赖计算机和电子设备进行文件管理。在这个过程中&#xff0c;经常会遇到要将简体中文文件夹名转换为繁体中文的情况。这有助于统一文件名的格式&#xff0c;也能提高文件的可读性和检索性。那如何一键完成简体中文文件夹名到繁体中文的批…

建筑模板每平方价格怎么算?

在建筑行业中&#xff0c;建筑模板是一种常用的辅助材料&#xff0c;主要用于浇筑混凝土时形成所需的结构形状。了解建筑模板的定价方式对于预算控制和成本估算至关重要。本文将详细介绍建筑模板每平方米价格的计算方法。 1. 建筑模板的类型和特点建筑模板的种类繁多&#xff0…

YogaPro 16s 安装Ubuntu23.04 教程

一、 制作启动盘 官网下载Ubuntu23.04镜像&#xff0c;安装rufus软件&#xff0c;按照下图设置相应格式&#xff0c;然后点击开始即可 二、 磁盘空间分配 流程&#xff1a; 此电脑右键管理 -> 选择磁盘管理 -> 选中D盘 -> 压缩卷 -> 选择需压缩的内存即可 三、…

“火火的”动态(myBlink of csdn)

集结我的人气Blink索引列表&#xff0c;Python脚本自动生成于2024年01月06日。 生成本篇笔记Html超文本的Python脚本源码地址&#xff1a;https://blog.csdn.net/m0_57158496/article/details/135415239#codes (本笔记适合初通Python&#xff0c;熟悉六大基本数据类型(str字符串…

原子操作类原理剖析

UC包提供了一系列的原子性操作类&#xff0c;这些类都是使用非阻塞算法CAS实现的&#xff0c;相比使用锁实现原子性操作这在性能上有很大提高。 由于原子性操作类的原理都大致相同&#xff0c;所以只讲解最简单的AtomicLong类的实现原理以及JDK8中新增的LongAdder和LongAccumu…

Django 10 表单

表单的使用流程 1. 定义 1. terminal 输入 django-admin startapp the_14回车 2. tutorial子文件夹 settings.py INSTALLED_APPS 中括号添加 "the_14", INSTALLED_APPS [django.contrib.admin,django.contrib.auth,django.contrib.contenttypes,django.contrib…