VoxCeleb 说话人识别挑战

VoxCeleb 说话人识别挑战

VoxSRC 消息:

2020 VoxCeleb Speaker Recognition Challenge (VoxSRC) 将联合 Interspeech 国际会议于 2020 年 10 月 30 日在上海举办。

文章目录

  • VoxCeleb 说话人识别挑战
    • 摘要
    • VoxSRC
    • 度量学习与编码器
    • 高维度数据可视化 TSNE
    • 深度学习平台 NSML
    • 参考文献:

摘要

“Speaker recognition in the wild” 是一项非常具有挑战性的任务,需要面对语音中各种不确定性,例如复杂的噪声、不同程度的背景音、短促的笑声等情况。针对这一问题,可以在 VoxSRC 提供的语料及其各种模型的实验结果,寻找合适的语音段编码器,设计合理的度量学习模型,分析造成性能降低的数据因素,都将成为提升识别性能的潜在解决方案。本文就 VoxSRC 提供的实验结果和相关的论文进行归纳、总结与展望。

VoxSRC

2020 VoxCeleb Speaker Recognition Challenge (VoxSRC) 旨在研究现有的说话人识别方法对来自 “in the wild” 语音数据的识别效果。这次挑战提供了来自 YouTube 名人访问视频的语音语料。相对传统的电话、麦克风语音,这类数据集包含更多的干扰与不确定性。

此次挑战分为 3 项任务,分别是:

  1. 特定训练数据的说话人确认监督任务(Fixed-Full):VoxCeleb2 dev 数据集作为训练数据;
  2. 训练数据不受限的说话人确认监督任务(Open-Full):训练数据可以使用 VoxSRC 测试数据以外的任意数据集;
  3. 特定训练数据说话人确认自监督任务(Fixed-Self):VoxCeleb2 dev 数据集作为训练数据,但无法使用说话人的标签,但可以使用除此以外的其它标签,例如跨模态的视觉帧,但无法使用任意模态的预训练模型。

竞赛举办方为任务 1 与 2 提供了说话人确认监督学习的基准,为任务 3 提供了说话人确认自监督学习的基准。

根据 3 个任务场景,不难看出主办方对于竞赛的想法,针对固定的评估数据:

  1. 针对任务 1,训练集是固定的,该任务旨在设计最佳的学习算法
  2. 针对任务 2,训练集是开放的,该任务除了设计合理的学习算法,还需要选择能够提高评估数据性能的训练数据,因此,该任务旨在跨领域的知识迁移
  3. 针对任务 3,训练集是固定的,无说话人标签,存在跨域标签,该任务旨在跨任务的知识迁移

根据对 3 个任务的分析,可以发现三个任务是依次递进、逐渐复杂的。为了解决这些问题,学习方法的设计、迁移学习方法、跨领域/任务的方法会有利于改善这些问题。

度量学习与编码器

论文 Exploring the Encoding Layer and Loss Function in End-to-End Speaker and Language Recognition System 讨论了几种(段层次)编码器和几种损失函数对说话人识别性能的影响,其中编码器包含 temporal average pooling (TAP)、self-attentive pooling (SAP) 和 learnable dictionary encoding (LDE),损失函数包含 Softmax、Center 和 augular softmax (ASoftmax),并将这些编码器和损失函数整合到端到端模型中,评估算法在 VoxCeleb1 数据集上的效果。以 Cosine 作为评分函数,性能(低于 4.90% EER)的排名分别是:

LDE-ASoftmax (4.56) > TAP-Center (4.75) > SAP-ASoftmax (4.90)。

论文 In defence of metric learning for speaker recognition 讨论了多种损失函数(包含分类损失和度量学习)对 CNN 学习算法的影响,并在 VoxCeleb 数据集上分别评估 VGG-M-40 模型和 Thin ResNet-34 模型的性能,该评估方式与 VoxSRC 任务 1 (Fixed-Full) 一致,其中损失函数包含:

  1. 分类目标:Softmax、AM-Softmax (CosFace) 和 AAM-Softmax (ArcFace);
  2. 度量学习目标:Triplet、Prototypical、Generalised end-to-end (GE2E) 和 Angular Prototypical。

10 × 10 10 \times 10 10×10 对的 ∥ ⋅ ∥ \Vert\cdot\Vert 的平均值作为评分函数,不同损失函数的性能(仅考虑 Thin ResNet-34,因为这里 VGG-M-40 性能较差)排名分别是:

分类目标:AAM-Softmax (2.36) > AM-Softmax (2.40) > Softmax (5.82)

度量学习目标:Angular Prototypical (2.21) > Prototypical (2.34) > GE2E (2.52) > Triplet (2.53)

分类目标中,相比较 AM-Softmax,AAM-Softmax 对算法参数更加敏感,从在 2.36 ~ 10.55 的波动;对比分类损失,度量学习能够更实现更优的性能。

从数据集上看,VoxCeleb2 作为训练数据,对于 VoxCeleb1 的提升效果非常明显,即从 4.56% EER 改善到 2.21% EER,50% 的提升量,可以猜想:数据集的补充,有利于学习算法的改进

高维度数据可视化 TSNE

说话人的特征表示,在解释性上,仍然存在很大的障碍,很多时候,很难了解学习到的说话人特征是怎么样的。2008 年发布的 TSNE 可视化方法,提供了一种高维数据转化为低维流形的方法,为说话人表示提供了一种可行的可视化方案。

TSNE 提供了一种高维特征距离投影为低维特征距离的方法,采用了基于概率的模型来刻画数据点上的距离,其学习过程类似一种数据合成的迭代方法,可以大胆地想象:如果直接将这类方法引入说话人建模,能够改善说话人特征的解释性。

考虑到这类方法的实用性,笔者寻找了 sklearn 关于 TSNE 的实现,它提供了一个手写数字的案例:

from time import time
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import offsetbox
from sklearn import manifold, datasets, discriminant_analysis# Prepare digits dataset
digits = datasets.load_digits(n_class=6)
X = digits.data
y = digits.target
n_samples, n_features = X.shape
n_neighbors = 30# Scale and visualize the embedding vectors
def plot_embedding(X, title=None, sub_num=111):x_min, x_max = np.min(X, 0), np.max(X, 0)X = (X - x_min) / (x_max - x_min)# plt.figure()ax = plt.subplot(sub_num)for i in range(X.shape[0]):plt.text(X[i, 0], X[i, 1], str(y[i]),color=plt.cm.Set1(y[i] / 10.),fontdict={'weight': 'bold', 'size': 9})if hasattr(offsetbox, 'AnnotationBbox'):# only print thumbnails with matplotlib > 1.0shown_images = np.array([[1., 1.]])  # just something bigfor i in range(X.shape[0]):dist = np.sum((X[i] - shown_images) ** 2, 1)if np.min(dist) < 4e-3:# don't show points that are too closecontinueshown_images = np.r_[shown_images, [X[i]]]imagebox = offsetbox.AnnotationBbox(offsetbox.OffsetImage(digits.images[i], cmap=plt.cm.gray_r),X[i])ax.add_artist(imagebox)plt.xticks([]), plt.yticks([])if title is not None:plt.title(title)# Plot images of the digits
print("Showing selected digits")
n_img_per_row = 20
img = np.zeros((10 * n_img_per_row, 10 * n_img_per_row))
for i in range(n_img_per_row):ix = 10 * i + 1for j in range(n_img_per_row):iy = 10 * j + 1img[ix:ix + 8, iy:iy + 8] = X[i * n_img_per_row + j].reshape((8, 8))
plt.figure(figsize=(12, 10))
plt.subplot(2,2,1)
plt.imshow(img, cmap=plt.cm.binary)
plt.xticks([])
plt.yticks([])
plt.title('A selection from the 64-dimensional digits dataset')# t-SNE embedding of the digits dataset
print("Computing t-SNE embedding")
tsne = manifold.TSNE(n_components=2, init='pca', random_state=0)
t0 = time()
X_tsne = tsne.fit_transform(X)
plot_embedding(X_tsne,"t-SNE embedding of the digits (time %.2fs)" %(time() - t0), sub_num=222)# Projection on to the first 2 linear discriminant components
print("Computing Linear Discriminant Analysis projection")
X2 = X.copy()
X2.flat[::X.shape[1] + 1] += 0.01  # Make X invertible
t0 = time()
X_lda = discriminant_analysis.LinearDiscriminantAnalysis(n_components=2).fit_transform(X2, y)
plot_embedding(X_lda,"Linear Discriminant projection of the digits (time %.2fs)" %(time() - t0), sub_num=223)# Isomap projection of the digits dataset
print("Computing Isomap projection")
t0 = time()
X_iso = manifold.Isomap(n_neighbors, n_components=2).fit_transform(X)
plot_embedding(X_iso,"Isomap projection of the digits (time %.2fs)" %(time() - t0), sub_num=224)print("0 and 1 are Red.\n2 is Blue.\n3 is Green.\n4 is Purple.\n5 is Orange.")
plt.tight_layout()
plt.savefig('t-SNE.png')
t-SNE

深度学习平台 NSML

VoxSRC 采用了韩国 NSML 平台,这个平台提供了研究者很多自动化的功能,使开发者可以更专注模型的设计。这与深度学习平台的开发需求是非常吻合的。在国内,也有非常多的深度学习竞赛拥有这这类平台,例如阿里云、腾讯云、百度云、京东云、华为云、ucloud 云。

尽管笔者在单机上的深度学习平台上有所尝试,但是高门槛成为了平台建设的主要困难,这些困难包含技术上的,和设计思路上的。这方面非常希望有读者愿意加入到笔者到团队中来,一起研究。

参考文献:

  1. VoxCeleb Speaker Recognition Challenge (VoxSRC): Chung, J.S., Huh, J., Mun, S., Lee, M., Heo, H.S., Choe, S., Ham, C., Jung, S., Lee, B.-J., Han, I., 2020. In defence of metric learning for speaker recognition. arXiv Prepr. arXiv2003.11982.
  2. 编码器与损失函数对说话人/语音识别的讨论: Cai, W., Chen, J., Li, M., 2018. Exploring the Encoding Layer and Loss Function in End-to-End Speaker and Language Recognition System, in: Odyssey 2018 The Speaker and Language Recognition Workshop. ISCA, Les Sables d’Olonne, France, pp. 74–81. https://doi.org/10.21437/odyssey.2018-11
  3. 高维数据可视化 TSNE: Van Der Maaten, L., Hinton, G., 2008. Visualizing data using t-SNE. J. Mach. Learn. Res. 9, 2579–2625.
  4. 深度学习平台: Sung, N., Kim, M., Jo, H., Yang, Y., Kim, J., Lausen, L., Kim, Y., Lee, G., Kwak, D.-H., Ha, J.-W., Kim, S., 2017. NSML: A Machine Learning Platform That Enables You to Focus on Your Models. CoRR arXiv prep.

作者:王瑞 同济大学 计算机系博士研究生

邮箱:rwang@tongji.edu.cn

CSDN:https://blog.csdn.net/i_love_home

Github:https://github.com/mechanicalsea

如果大家有兴趣参加 2020 VoxSRC 竞赛,欢迎一起交流~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26113.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI大佬不满ChatGPT:亟待完善ChatGPT的道德护栏

编&#xff5c;泽南、陈萍 译&#xff5c;机器之心 源&#xff5c;garymarcus.substack ChatGPT 让死对头 Yann LeCun 和 Gary Marcus 达成了空前一致。 ChatGPT 的技术上个星期被微软装上必应搜索&#xff0c;击败谷歌&#xff0c;创造新时代的时候似乎已经到来了。然而随着…

Phind-面向程序员的AI聊天对话机器人

ChatGPT在国内没开放&#xff0c;很多人注册不了。导致了很多人走illegal渠道获取账号密码。这样是不对的。 今天介绍一款面向程序员的ai聊天机器人Phind&#xff0c;ta目前可以不用注册直接使用、免费、也不用梯子。 &#xff08;且用且珍惜&#xff0c;不知道之后会不会跟Cop…

python miio 连接小米网关_智能家居沟通不再难,小米米家智能多模网关发布,三种协议全支持...

智能家居产品面世很多年了&#xff0c;从期待中的红火到现在的不温不火&#xff0c;其中一个重要的原因就在于各个产品使用不同的协议。不用厂商根据不同的考量&#xff0c;有的选择了Zigbe协议&#xff0c;有的选了WiFi&#xff0c;而有的则选择了蓝牙。这样的后果就是家里有几…

端到端智能音箱

&#x1f680; 优质资源分享 &#x1f680; 学习路线指引&#xff08;点击解锁&#xff09;知识定位人群定位&#x1f9e1; Python实战微信订餐小程序 &#x1f9e1;进阶级本课程是python flask微信小程序的完美结合&#xff0c;从项目搭建到腾讯云部署上线&#xff0c;打造一…

【Netty】八、Netty实现Netty+http+websocket聊天室案例

Nettyhttpwebsocket聊天室案例 一、实现流程二、实现效果三、实现代码ChatServerHttpHandlerWebSocktHandlerChatMessageProcessor 一、实现流程 本案例可以 掌握netty对http协议的处理&#xff1b;掌握netty对websocket协议的处理&#xff1b; 1、浏览器地址栏输入netty服务器…

小米AI音箱发布,但它哪里不对?

今天&#xff08;7 月 26 日&#xff09;上午九点&#xff0c;小米智能产品部&#xff0c;小米探索实验室总经理唐沐发了条微博&#xff0c;“今天发布会有个 one more thing&#xff0c;猜对了我抽送一台。”评论区几乎清一色的“智能语音音箱”&#xff0c;唐沐清一色地回应“…

仿作小米商城页面

历时一周半的时间&#xff0c;终于在我的不懈努力下&#xff0c;完成了小米商城页面的静态仿作。真的&#xff0c;这个过程我觉得极其漫长&#xff0c;到最后也不敢相信自己能够完成。因为自己距上一次html和css的学习已经有好久了。好多好多的知识都已经忘记了&#xff0c;以至…

小米商城界面

效果图 分为三部分 一&#xff1a;css 1.content ul { list-style: none; }h1, h2, h3, h4, h5, h6 { margin: 0; padding: 0; font-weight: normal; }/*大导航下面的六个小css块样式*/ .content-picli_1 li { width: 33%; height: 60px; color: #ccc; font-si…

AI一分钟 | 小米发布小爱音箱mini,169元;天猫汽车无人贩卖机大楼落地,刷脸可购车试驾

2018 区块链技术及应用峰会(BTA)中国 倒计时 3 天 2018&#xff0c;想要follow最火的区块链技术&#xff1f;你还差一场严谨纯粹的技术交流会——2018区块链技术及应用峰会(BTA)中国将于2018年3月30-31日登陆北京喜来登长城饭店。追求专业性&#xff1f;你要的这里全都有&#…

天猫精灵方糖AI智能音箱拆解报告

天猫精灵方糖AI智能音箱拆解报告 前言拆解总结 前言 天猫精灵方糖AI智能音箱可以设闹钟、讲故事、听音乐、语音控制智能家电、购物等多种功能。机身尺寸134 mm65 mm59mm&#xff0c;重265g。有三种颜色&#xff1a;白色、魔岩灰、烈焰红&#xff0c;小编听说这是李剑叶加入阿里…

homeassistant 接入小米温湿度计2

方法可能有很多种&#xff0c;但是我只用这种方法介入成功了 环境&#xff1a; - 香橙派&#xff08;自带蓝牙&#xff0c;树莓派应该也可以&#xff09; - 小米温湿度计2 - 网站&#xff1a;Telink Flasher v4.7 、 Telink Flasher (atc1441.github.io) - 固件&#xff1…

5款主流智能音箱入门款测评:苹果小米华为天猫小度,谁的表现更胜一筹?

智能音箱那么多&#xff0c;究竟谁更好&#xff1f;要说智能行不行&#xff0c;就让它们各自吵。纵观各个智能家居生态&#xff0c;智能音箱几乎都是作为智能家居交互入口的必备产品之一。除了可以播放音乐&#xff0c;这个音箱本体的功能以外&#xff0c;内置网关是智能家居中…

智汀如何连接小米智能音箱?

本文将给大伙盘点那些通过第三方平台&#xff0c;来语音控制HomeKit设备&#xff0c;如小米智能音箱。 仅用唤醒词“小爱同学”唤醒小米智能音箱&#xff0c;这时可以听到音箱应答&#xff0c;然后再说“打开/关闭设备名称”的语音指令即可&#xff1b;比如&#xff1a;“小爱同…

小爱音箱 电脑 麦克风_颜值音质皆出色,还有丰富功能,小米小爱音箱体验

近日小米有两款新品智能音箱正式上市&#xff0c;分别是小米小爱音箱以及小米小爱音箱Pro&#xff0c;其中后者除了配色不同外还多了红外模块&#xff0c;支持通过语音以及APP对传统家电进行操控&#xff0c;其他方面两款产品完全一致。因此假如你不需要操控传统家电的话&#…

用了这么多年苹果手机,居然才发现桌面图标可以这样快速转移

苹果手机因为ios系统备受人喜爱&#xff0c;当然我们安卓也不差。每次我把一大堆图标换到另一页的时候&#xff0c;都是一个一个移动&#xff0c;太麻烦了。今天才发现原来可以群移。下面我们来分享一下苹果手机怎么把一堆桌面图标搬到另一页的操作方法。 首先&#xff0c;轻长…

Mac新手需要知道的显示桌面的快捷方式

在桌面上打开了太多的应用窗口&#xff0c;想要返回桌面时&#xff0c;一个一个的缩小窗口是非常麻烦的&#xff0c;这时候就需要用到显示桌面的快捷方法啦。下面小编就来给大家介绍几种 Mac上显示桌面的快捷方法&#xff0c;Mac显示桌面的快捷方式&#xff0c;我个人还是觉得蛮…

iOS App桌面图标和名称

1、App桌面图标如下图&#xff1a; 2、App桌面名称如下图&#xff1a; OK&#xff01;祝您生活愉快&#xff01; 要是对您有用&#xff0c;问好&#xff0c;谢谢。

iOS 换了AppIcon后切换回桌面总是先显示之前旧图标再显示新图标问题

问题描述&#xff1a; APP换了Assets.xcassets里面的AppIcon&#xff0c;从图1.png换到图2.png之后,在使用HOME切回桌面总是图1先显示一下之后会换回图2。 系统环境&#xff1a;MAC 10.15 开发环境&#xff1a;xcode 11.1 排除问题 &#xff1a;尝试清空AppIcon以及检索项目内所…

适用于iOS的远程桌面软件

全球远程桌面软件市场最近达到19.2亿美元&#xff0c;表明使用任意设备实现随处远程控制越来越受欢迎。 近年来&#xff0c;企业的运营方式发生了重大改变&#xff0c;远程桌面软件已成为广泛使用的解决方案。Splashtop 是目前最好用的远程桌面工具之一&#xff0c;安全可靠且…

Mac显示桌面的快捷方式

很多朋友不太清楚苹果Mac怎么快速显示桌面,而有的时候在桌面上打开了太多的应用窗口,想要返回桌面时,一个一个的缩小窗口是非常麻烦的,这时候就需要用到显示桌面的快捷方法啦。下面小编就来给大家介绍几种 Mac上显示桌面的快捷方法吧。方法一:通过快捷键显示桌面 1、系统自…