报名进行中 | ISCSLP2024 对话语音克隆挑战赛(CoVoC)

晴数智慧(Magic Data)联合西北工业大学音频语音与语言处理研究组(ASLP@NPU)、新加坡资讯通讯研究院(I2R)、深圳大数据研究院(SRIBD)、香港中文大学(深圳)等多家单位在2024年中文口语语言处理国际会议(ISCSLP2024)上推出对话语音克隆挑战赛(Conversational Voice Clone Challenge — CoVoC),在开源1万小时的WenetSpeech4TTS数据集和180小时的普通话自然对话语音数据的基础上,参加赛事将获得100小时的高质量对话数据。快来报名参赛吧!

背景

文语转换(TTS)旨在生成听起来尽可能自然且类似人类的语音。随着语音合成技术的飞速发展,合成音频的质量和自然度得到了显著的提高,促进了TTS系统在诸多场景中的广泛应用。大规模数据和大模型(LLM、Diffusion)的应用(例如:VALL-E,NaturalSpeech,TorToise等)让零样本TTS (Zero-shot TTS)在生成质量以及音色相似度上取得显著突破,引起了学术界和工业界的广泛关注。同时,合成语音的自然度达到真人水平。OpenAI、11Labs、微软和字节等科技巨头均已上线超自然的对话TTS。然而,语音生成中自发行为和对话方面尚未得到充分研究。具体而言,主要挑战在于如何有效控制生成语音中的韵律细节,以区分自发语音和朗读语音间的多样化和复杂自发行为。大规模TTS系统具有强大的上下文学习能力,有望在零样本TTS以及对话场景中取得更好的效果。但在零样本TTS研究领域,当下各个方案采用的训练/测试数据集无法完全对齐,以及缺乏效果的标准评估。这一问题阻碍了不同系统间的直接对比,使得公平评估各种系统的性能变得十分迫切。

为了推动零样本场景下富有表现力的、具有自发行为风格的语音合成技术的发展,我们在2024年中文口语语言处理国际会议(ISCSLP2024)上推出对话语音克隆挑战赛(Conversational Voice Clone Challenge — CoVoC)。该赛事基于多个训练数据集,包括1万小时的WenetSpeech4TTS数据集,180小时的普通话自然对话语音数据以及100小时的高质量口语对话数据。此外,我们将提供一个标准测试数据集,包括多个克隆说话人和多样化的文本,旨在提供一个中文音色克隆的测试基准。

ISCLP2024官网:http://www.iscslp2024.com

CoVoC竞赛官网:https://www.magicdatatech.com/iscslp-2024

数据

竞赛组织方为参赛者在不同阶段提供四个音频/文本数据集。所有音频数据将采用单声道WAV格式,采样率为16KHz,采用16位编码。

在训练阶段,参赛者可以使用大规模的WenetSpeech4TTS数据集,以及两个较小规模的数据集,即MAGICDATA和HQ-Conversations。参赛者可以自由地利用这些数据集进行模型训练或微调。

  • WenetSpeech4TTS:是一个源自开源的WenetSpeech数据集处理得到的适合TTS任务的多领域普通话语料库。针对TTS任务,通过调整片段边界、增强语音质量、去除多说话人片段等一系列操作对 WenetSpeech 进行了处理。经过更精确的语音识别获取文本标签,以及质量过滤之后,得到共包含12800小时的音频及对应文本标签,根据数据质量划分为Premium、Standard、Basic和Rest多个子集。

数据获取链接:https://huggingface.co/datasets/Wenetspeech4TTS/WenetSpeech4TTS

  • MAGICDATA:180小时的移动端录制的对话语音数据。来自国内不同地域的663说话人参与录制。录音在安静的室内环境中进行。所有语音数据都经过人工标注,并由专业检查员验证以确保标注质量。

数据获取链接:https://www.openslr.org/123/

  • HQ-Conversations: 该数据集包含200名说话人100小时高质量对话数据,其中男性75名,女性125名。这些对话涉及日常生活场景,自然且富有表现力。所有语音数据都经过人工标注,并由专业检查员验证以确保标注质量。

在竞赛评估阶段,参赛者需要在Clone-Speaker数据集上测试其模型的零样本音色克隆性能,生成Test-Text内目标文本对应的语音。

  • Clone-Speaker:我们将为竞赛评估提供20个测试说话人,每个说话人若干秒钟语音作为克隆的Prompt。

  • Test-Text:我们将提供全面测试文本,包括普通测试文本、具有自发行为的对话文本等。

赛道设置

CoVoC挑战设有两个赛道。

  • 限制赛道:在训练阶段只允许使用上述提及的语料库。如果系统中使用了预训练模型,也必须是开源模型,并且使用的模型情况必须在最终提交中清楚地说明。在这个赛道中,排名靠前的团队将被邀请提交论文到ISCSLP会议中。

  • 无限制赛道:除了我们提供的数据外,其他开源或内部语料库都可以在训练阶段使用。参赛者应该在与提交的技术报告中清楚描述所使用的数据规模和情况。参与这个赛道的团队需要填写一个表格,提供有关方案的详细信息。

规则

所有参赛者应遵守以下规则:

  • 在竞赛中,发布的数据集仅供参赛者在竞赛期间和赛后研究目的使用,不允许商业使用。主办方将在赛后开源数据,数据的使用应遵守相应的开源许可。

  • 在限制赛道中可以使用公开可用的预训练模型,而额外的训练数据只能在无约束赛道中使用。

  • 最终解释权归竞赛组织者所有。组织者保留更改规则的权利。在特殊情况下,竞赛组织者将负责协调解释。

评估

主观评估

我们会组织专业测听人员进行平均意见分数(MOS)测试,以评估语音质量、语音自然度、说话者相似度和语音自发风格。主观评估标准:

  • 语音自然度(Naturalness):在每次测评中,测听人员听取每个样本,并从1【完全不自然】到5【完全自然】的分数中选择评分。

  • 语音质量(Quality):在每次测评中,测听人员将听取一个样本,并选择一个代表语音听起来质量好坏的分数,范围从1【质量极低】到5【质量高】。

  • 说话者相似度(Similarity):在每次测评中,测听人员将听取原始说话人的两个参考样本和一个合成样本,他们将给出一个分数,代表合成语音与参考样本中的说话人声音之间的相似程度,分数从1【听起来像不同人的声音】到5【听起来像同一个人的声音】。

  • 语音自发风格(Spontaneous):在这个测试中,我们会使用含有自发行为的文本进行测试。测听人员将听取每个样本,并在1【语音中的自发行为效果不好】到5【语音中的自发行为效果很好】的分数上选择一个评分。

客观评估

  • 字符错误率(CER):对合成语音进行语音识别,识别结果与真实抄本计算字错误率。

  • 说话人嵌入余弦相似度(SECS):通过提取说话者嵌入并计算余弦相似度来得到SECS度量。

客观评估结果将对所有提交团队进行评估和发布。主观评估仅针对客观得分高的前若干提交队伍进行。

时间线

时间议程
2024年6月3日竞赛注册开放和HQ-Conversations数据发布
2024年6月10日基线系统发布
2024年6月30日评估阶段开始;Clone-Speaker和Test-Text数据发布;挑战注册截止日期
2024年7月2日评估结束;测试音频和系统描述提交截止日期
2024年7月12日向参赛者发布评估结果
2024年7月20日ISCSLP2024论文提交截止日期(仅限受邀团队)

注册参赛

注册ISCSLP CoVoC挑战,参赛者需要在2024年6月30日之前填写以下Google表单:

https://docs.google.com/forms/d/e/1FAIpQLSf-vZzn9DMEaYyIGvKE3qXpTLeTJ74aAnZYPbEftLTyCKE7sw/viewform?usp=pp_url

欢迎来自学术界和工业界的团队参加。

如果您在注册过程中遇到任何问题,请联系 xkx@mail.nwpu.edu.cn 寻求帮助。

组织者

  • 谢磊,西北工业大学

  • 张晴晴,晴数智慧

  • 王帅,深圳大数据研究院(SRIBD)

  • 罗磊,晴数智慧

  • 董明会,新加坡资讯通讯研究院 (I2R)

  • 薛浏蒙,香港中文大学(深圳)

  • 姚继珣,西北工业大学

  • 郭大可,西北工业大学

  • 李函昭,西北工业大学

  • 夏康翔,西北工业大学

声明

本次竞赛仅供促进学术研究之用,我们反对克隆声音的非法用途,同时积极推动Deepfake检测方面的研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/349471.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【leetcode--同构字符串】

要求:判断两个字符串的形式是不是一致,即是不是AABC或者ABBBCC这种。 trick:使用set()结合zip()。 set()用法:用于创建一个不包含重复元素的集合 zip&#…

FPGA+金融|硬件行情加速系统 打造极速交易场景

会议时间:2024年06月20日(周四)下午13:50 FPGA金融|硬件行情加速系统 打造极速交易场景_中科亿海微_芯有灵犀 智创未来

安装前端依赖node-sass报错

文章目录 问题1:node-sass报错问题2:node-gyp报错问题3:node-sass再次报错问题4:node-sass三次报错 问题1:node-sass报错 问题描述:经常会碰到一个新的项目安装依赖时,会报node-sass版本的问题…

《C++ Primer》导学系列:第 1 章 - 开始

1.1 编写一个简单的C程序 概述 本小节介绍了如何编写和运行一个简单的C程序,帮助初学者了解C程序的基本结构和编译运行过程。 编写第一个C程序 我们从一个简单的C程序开始,它的功能是在控制台输出 "Hello, World!"。这是学习任何编程语言的…

File及典型案例

File File对象表示一个路径,可以是文件的路径,也可以是文件夹的路径 这个路径可以是存在的,也允许不存在 常见的构造方法 图来自黑马程序员网课 package com.lazyGirl.filedemo;import java.io.File;public class Demo1 {public static vo…

easyexcel的简单使用(execl模板导出)

模板支持功能点 支持列表支持自定义头名称支持自定义fileName支持汇总 模板示例 操作 pom引入 <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>${easyexcel.version}</version></dep…

github 本地仓库上传及报错处理

一.本地文件上传 这里为上传部分&#xff0c;关于gitbash安装配置&#xff0c;读者可自行搜索&#xff0c;由于已经安装完成&#xff0c;未进行截图保存&#xff0c;这里便不做赘述。 1.登录git账号并创建一个仓库 点击仓库打开后会看到这个仓库的网址链接&#xff08;这个链…

防止暴力破解,教你如何在登录失败后实施10分钟账户锁定策略!

最近&#xff0c;在服务器上发现了异常的登录尝试。尽管您的团队已经采取了强密码策略和其他安全措施来加固服务器&#xff0c;但恶意程序仍然通过暴力破解的方式试图多次尝试猜测正确的凭据以获取访问权限。为了增强系统的安全性&#xff0c;特别是防止此类暴力破解攻击&#…

项目实战--文档搜索引擎

在我们的学习过程中&#xff0c;会阅读很多的文档&#xff0c;例如jdk的API文档&#xff0c;但是在这样的大型文档中&#xff0c;如果没有搜索功能&#xff0c;我们是很难找到我们想查阅的内容的&#xff0c;于是我们可以实现一个搜索引擎来帮助我们阅读文档。 1. 实现思路 1…

ComfyUI-全民舞王-MusePose

musepose-demo 项目介绍 https://github.com/TMElyralab/MusePose发布的模型能够根据给定的姿势序列&#xff0c;生成参考图中人物的舞蹈视频&#xff0c;结果质量超越了同一主题中几乎所有当前开源的模型。发布pose align算法&#xff0c;以便用户可以将任意舞蹈视频与任意参…

第二届人工智能、系统与网络安全国际学术会议 (AISNS 2024)

第二届人工智能、系统与网络安全国际学术会议 (AISNS 2024&#xff09; 2024 2nd International Conference on Artificial Intelligence, Systems and Network Security 一、重要信息 大会官网&#xff1a;www.aisns.org &#xff08;点击参会/投稿/了解会议详情&#xff09…

基于GTX 8B10B编码的自定义PHY上板测试(高速收发器十四)

前文整理了GTX IP&#xff0c;完成了自定义PHY协议的收发模块设计&#xff0c;本文将通过光纤回环&#xff0c;对这些模块上板测试&#xff0c;首先需要编写一个用于生成测试数据的用户模块。 1、测试数据生成模块 本模块用于生成自定义PHY协议的测试数据&#xff0c;通过axi_…

什么是网站页面组件,有什么用处

1.组件是页面的组成部分 网站的每个页面都是由每个小组件拼接而成的&#xff0c;当然了&#xff0c;有一些网站并不是用小组件拼接的&#xff0c;但是像这些网站它是固定住标签&#xff0c;然后用js直接调用数据显示&#xff0c;这个就是定制化的体现。像那些用小组件组…

Elastic 索引结构-倒排索引

前言 Elastic 在数据库分类中一般被分为全文检索的数据库&#xff0c;那为什么这么区分呢&#xff1f;主要是因为其独特的索引结构 即倒排索引。 倒排索引 倒排索引先将文档中包含的关键字全部提取出来&#xff0c;然后再将关键字与文档的对应关系保存起来&#xff0c;最后再…

多模态大模型:识别和处理图片与视频的技术详解

多模态大模型&#xff1a;识别和处理图片与视频的技术详解 多模态大模型&#xff1a;识别和处理图片与视频的技术详解1. 什么是多模态大模型&#xff1f;2. 多模态大模型的基本架构3. 识别和处理图片3.1 图像特征提取3.2 图像分类与识别3.3 图像生成与增强 4. 识别和处理视频4.…

WebSocket 快速入门 与 应用

WebSocket 是一种在 Web 应用程序中实现实时、双向通信的技术。它允许客户端和服务器之间建立持久性的连接&#xff0c;以便可以在两者之间双向传输数据。 以下是 WebSocket 的一些关键特点和工作原理&#xff1a; 0.特点&#xff1a; 双向通信&#xff1a;WebSocket 允许服务…

什么是端口转发?路由器如何正确的设置端口转发和范围转发?(外网访问必备设置)

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 端口转发 📒🚀 端口转发的应用场景💡 路由器如何设置端口转发(示例)💡 端口范围转发(示例)🎯 范围转发的应用场景🛠️ 设置范围转发📝 范围转发实操示例🎈 注意事项 🎈⚓️ 相关链接 ⚓️📖 介绍 📖 …

遗传算法求解车间调度问题(附python代码)

背景介绍 车间调度问题&#xff08;Job Shop Scheduling Problem, JSSP&#xff09;是一类经典的组合优化问题&#xff0c;它在制造业和生产管理中有着广泛的应用。JSSP 的目标是对车间中的一系列作业进行排程&#xff0c;以使得作业在不同机器上的加工顺序是最优的&#xff0…

什么是场外期权?场外期权有几种做法?

今天带你了解什么是场外期权&#xff1f;场外期权有几种做法&#xff1f;期权分为场内期权&#xff0c;场外期权。场内期权我们都知道&#xff0c;是在期货盘里购买的期权&#xff0c;但场外期权呢&#xff1f; 什么是场外期权&#xff1f; 场外期权是一种在交易所之外进行交易…

WinForm之TCP服务端

目录 一 原型 二 源码 一 原型 二 源码 using System.Net; using System.Net.Sockets; using System.Text;namespace TCP网络服务端通讯 {public partial class Form1 : Form{public Form1(){InitializeComponent();}TcpListener listener null;TcpClient handler null;Ne…