INTERSPEECH2025-MLC-SLM挑战赛正式启动!语音AI的巅峰之战!

大语言模型(LLMs)作为语言理解与生成的基础技术,其应用已扩展至语音处理领域,如语音识别、对话系统等新兴方向。然而,构建基于LLMs的语音对话系统面临核心挑战:真实多语种对话数据的稀缺性。这类数据需涵盖自然停顿、说话者重叠等复杂交互场景,对提升AI系统的多语种理解能力和长上下文处理能力至关重要,直接影响下一代人机交互的自然度与准确性。为推动这一研究发展,由数据堂主办,中国移动、Meta、Google、 Samsung、Naver联合赞助的INTERSPEECH2025多语种对话语音语言模型(MLC-SLM)研讨会正式对外发布,本次研讨会将通过发布多语种对话语音数据集并举办MLC-SLM挑战赛,推动该领域的技术突破。

一、核心亮点

1. 双赛道任务,均要求参赛者探索基于 LLM 的语音模型的开发:

(1) 任务I:多语种对话语音识别
① 目标:开发基于 LLM 的多语种 ASR 模型。
② 参赛者将获得每段对话的真实时间戳标注及说话者标签用于切分语音片段。
③ 该任务的重点是优化多语种对话环境下的语音识别准确率。

(2) 任务II:多语种对话语音日志与识别
① 目标:开发一个同时进行说话者日志(即识别谁在何时说话),又能进行语音识别(将语音转换为文本)的系统。
② 评估过程中不提供任何先验信息,如真实时间戳标注、预先切分的语音片段、说话者标签等
③ 该任务可以使用基于级联系统或端到端系统的方法。

对于任务 I,系统性能将基于不同语言的词错误率(WER)或字符错误率(CER)进行评估。

对于任务 II,性能将基于说话人日志错误率(DER)以及连接最小排列词错误率(cpWER)或字符错误率(cpCER)进行评估。DER用于确定在参考标注和日志结果之间的最佳说话人排列。然后,将同一说话人识别结果和参考进行连接,以计算cpWER或cpCER。所有提交将根据cpWER或cpCER进行排名。

2.多语种对话语音数据集

11种语言:英语(细分美/英/澳/印/菲口音)、法、德、日、韩等,总时长1500小时。

(1) 数据特性
① 自然对话场景:每段录音均由两位说话者就随机分配的主题进行有意义的对话,需提供真实时间戳标注和说话者标签。
② 高精度标注:日、韩语标注词准确率95%+,其他语言98%。
③ 多设备录制:使用iPhone等设备并于安静的室内环境采集,采样率16kHz。

(2) 数据集结构
① 训练集:英语500小时(分5种口音)+其他语言各100小时,任务I/II共享。
② 开发集:每语种约4小时,任务I/II共享。
③ 评估集:每个任务使用不同的评估集,分别指定为 Eval_1 和 Eval_2。具体来说,Eval_1 包括真实时间戳标注和说话者标签,使用 WER/CER 进行评估。Eval_2 不提供时间戳或说话者标签,因此需要使用说话者日志系统在识别之前对较长的录音进行分段。

参与者可以通过签署数据使用协议并提交至报名表单来访问数据集(具体详情可前往数据堂官网或公众号-DatatangBJ 查看)。提交后,数据下载链接将发送到您的电子邮件。

3. 学界与产业界双重背书

  • 组委会:冯俊兰(IEEE Fellow及首席科学家/中国移动)、Eng-Siong Chng(教授/南洋理工大学)、Shinji Watanabe(副教授/卡内基梅隆大学)、Khalid Choukri(秘书长/欧洲语言资源协会)等全球顶尖专家领衔。

  • 赞助商:中国移动、Meta、 Google、 Samsung、 Naver、数据堂

二、参赛价值

  • 奖金池20,000美金:单任务前三名分别获5,000/3,000/2,000美金。

  • 论文发表机会:优秀成果可入选INTERSPEECH研讨会,与顶级学者同台交流(参考下文“其他主题”)。

  • 技术自由度:允许使用外部数据集与预训练模型(需公开声明),支持数据增强。

注:参加研讨会的注册费

非会员注册费:60欧元
非会员学生注册费:45欧元
ISCA会员注册费:50欧元
ISCA学生会员注册费:35欧元

三、关键日程(AOT时间)

2025 年 3 月 10 日:注册开放
2025 年 3 月 15 日:训练数据发布
2025 年 4 月 1 日:开发集和基线系统发布
2025 年 5 月 15 日:评估集发布及 Leaderboard开放
2025 年 5 月 30 日:Leaderboard冻结,论文提交系统(CMT)开放
2025 年 6 月 15 日:论文提交截止
2025 年 7 月 1 日:论文录用通知
2025 年 8 月 18 日:荷兰鹿特丹研讨会(鹿特丹阿霍伊会议中心)

四、参赛必读

所有参与者必须遵守以下规则:

  • 外部资源使用:对于任务I 和 任务II,允许使用外部数据集和预训练模型(包括语音基础模型和大语言模型)。所有使用的外部资源必须是公开可获取的,并且在最终系统报告中应明确标明。
  • 数据增强:允许在发布的训练集上进行数据增强,可能包括但不限于添加噪声或混响、速度扰动和音调修改。
  • 禁止使用评估集:严禁以任何形式使用评估集。这包括但不限于使用评估集进行微调或训练模型。
  • 多系统融合:参与者不得在任务I和任务II中使用系统融合。提交的结果必须来自单个模型,而不是通过结果融合得出。
  • 提交要求:所有参赛者必须提交其系统。提交内容包括最终识别结果、模型以及能够直接进行推理并获得最终结果的Docker容器等文件。详细的提交说明将在基线系统发布后提供。请注意,我们将公开那些确认参与但未提交任何文件的团队及其所属机构的名称。
  • 主办方解释权:主办方对本规则拥有最终解释权,特殊情况由主办方酌情协调解释。

五、其他主题

除了挑战系统内容外,还鼓励参与者提交创新发和前瞻性研究论文。主题包括但不限于:

  • 新颖的架构和算法:开发用于训练语音语言模型的新架构和算法。
  • 音频数据处理管线:创新音频数据处理流程,促进多样化互联网数据的收集,以便训练语音语言模型。
  • 自然且情感丰富的语音生成:设计用于生成更加自然且富有情感表达的对话语音的算法,提升对话系统的表现。
  • 利用多轮对话历史:利用多轮对话历史来增强识别和分离结果的技术
  • 评估技术和基准:评估语音语言模型的创新评估技术或基准。
  • 新数据集:创建用于训练语音和音频语言模型的新数据集,包括真实数据和合成数据。

六、结语

真实对话语音数据不仅对于技术进步至关重要,还在构建能够理解多语种和长上下文内容的人工智能系统方面发挥关键作用。本次研讨会通过发布高质量的多语种对话语音数据集,并举办MLC-SLM挑战赛,旨在为全球研究者和开发者提供一个开放的平台,促进该方向的研究。未来,随着更多创新技术的涌现,基于LLMs的语音对话系统将更加智能、贴近人类交流方式,为全球用户提供无缝的多语言沟通体验。让我们携手共进,开启人机交互的新篇章!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/40119.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机组成原理———I\O系统精讲<1>

本篇文章主要介绍输入输出系统的发展概况 一.输入输出系统的发展概况 1.早期阶段 该阶段的特点是I/O设备与主存交换信息都必须通过CPU 当时的I/O设备有如下几个特点: (1)每个I\O设备都必须配有一套独立的逻辑电路与CPU相连,用来…

Linux操作系统7- 线程同步与互斥7(RingQueue环形队列生产者消费者模型改进)

上篇文章:Linux操作系统7- 线程同步与互斥6(POSIX信号量与环形队列生产者消费者模型)-CSDN博客 本篇代码仓库:myLerningCode/l36 橘子真甜/Linux操作系统与网络编程学习 - 码云 - 开源中国 (gitee.com) 目录 一. 单生产单消费单保…

全面讲解python的uiautomation包

在常规的模拟鼠标和键盘操作,我们一般使用pyautogui,uiautomation模块不仅能直接支持这些操作,还能通过控件定位方式直接定位到目标控件的位置,而不需要自己去获取对应坐标位置。uiautomation模块不仅支持任意坐标位置截图&#x…

图解CNN、RNN、LSTM

一、CNN 二、RNN 三、LSTM 以上笔记参考自b站up主 自然卷小蛮(自然卷小蛮的个人空间-自然卷小蛮个人主页-哔哩哔哩视频),感兴趣的可以去深入了解。

3.25学习总结 抽象类和抽象方法+接口+内部类+API

抽象类和抽象方法: 有抽象方法,那么类肯定是抽象类。父类不一定是抽象的,但如果父类中有抽象方法那一定是抽象类。 如果子类中都存在吃这个行为,但吃的具体东西不同,那么吃这个行为定义在父类里面就是抽象方法&#x…

Ubuntu22.04 UEFI系统配置Apache Tomcat/8.5.87为开机自动启动

前置条件,Java与Tomcat目录均为/usr/local路径下。 java安装目录为:/usr/local/java tomcat安装目录为:/usr/local/tomcat 1. 创建 Tomcat 专用用户和组(可选但推荐) # 创建 tomcat 用户组 sudo groupadd tomcat#…

MySQL复习

1基本操作复习 1.1数据库创建 创建数据库create database 数据库名;判断再创建数据库create database if not exists 数据库名;创建数据库指定字符集create database 数据库名 character set 字符集;创建数据库指定排序方式create database 数据库名 collate 排序方式;创建数据…

数据结构—树(java实现)

目录 一、树的基本概念1.树的术语2.常见的树结构 二、节点的定义三、有关树结构的操作1.按照数组构造平衡 二叉搜索树2.层序遍历树3.前、中、后序遍历树(1).前序遍历树(2).中序遍历树(3).后序遍历树(4).各种遍历的情况的效果对比 4.元素添加5.元素删除1.删除叶子节点2.删除单一…

SPI 机制与 Spring Boot AutoConfiguration 对比解析

一、架构效率革命性提升 1.1 类加载效率跃升 Spring Boot 2.7引入的AutoConfiguration.imports采用清单式配置加载,对比传统SPI机制: 传统SPI扫描路径:META-INF/services/** Spring Boot新方案:META-INF/spring/org.springfram…

node-red dashboard

安装: npm install node-red-dashboard 访问: http://127.0.0.1:1880/ui 1. 创建一个新的 Dashboard 页面: 在 Node-RED 编辑器中,拖动一个 ui_dashboard 节点到工作区,并将其连接到你的数据流。 2. 配置 Dashboard 节点: 双击…

深入理解现代C++在IT行业中的核心地位与应用实践

深入理解现代C在IT行业中的核心地位与应用实践 一、C在IT行业中的不可替代性 现代IT行业中,C凭借其零成本抽象和系统级控制能力,在以下关键领域保持不可替代地位: 应用领域C优势体现典型应用案例高性能计算直接内存管理,SIMD指令…

医院挂号预约小程序|基于微信小程序的医院挂号预约系统设计与实现(源码+数据库+文档)

医院挂号预约小程序 目录 基于微信小程序的医院挂号预约系统设计与实现 一、前言 二、系统功能设计 三、系统实现 1、小程序用户端 2、系统服务端 (1) 用户管理 (2)医院管理 (3)医生管理 &#xf…

2025最新版Ubuntu Server版本Ubuntu 24.04.2 LTS下载与安装-详细教程,细致到每一步都有说明

官网 https://ubuntu.com/ 下载 点击菜单 Prodercts> Ubuntu OS>Ubuntu Server 点击下载 下载后会有个弹窗 安装 选择第一个 install Ubuntu Server 直接默认,选择English 【默认】 选择键盘布局【默认】 选择安装配置【默认】 配置网络 我这里选择…

【AI】NLP

不定期更新,建议关注收藏点赞。 目录 transformer大语言模型Google Gemma疫情网民情绪识别 整体框架 baseline构建 模型调参、模型优化、其他模型 数据trick、指标优化、magic feature 数据增强、伪标签、迁移学习 模型融合sklearn中TFIDF参数详解 频率阈值可以去掉…

vscode正则表达式使用

小标题 ^\d.\d.\d\s.*$ ^表示匹配字符串的开头。\d\.\d\.\d表示匹配一到多个数字,接着一个小数点,再接着一到多个数字,然后又一个小数点和一到多个数字,用来匹配类似 “2.1.1” 这样的标题号部分。\s表示匹配一个空格。.*表示匹配…

TCP/IP三次握手的过程,为什么要3次?

一:过程 第一次(SYN): 客户端发送一个带有SYN标志的TCP报文段给服务器,设置SYN1,并携带初始序列号Seqx(随机值),进入SYN_SENT状态。等待服务器相应。 第二次&#xff08…

vue-将组件内容导出为Word文档-docx

1. 安装依赖 首先,我们需要安装docx库,以便在前端生成Word文档。可以通过以下命令进行安装: npm install docx 2. 实现导出功能 2.1 初始化文档 使用docx库创建一个新的文档实例,并定义文档的结构和内容。我们使用Document、…

uni-app常用模板

列表样式一 ,下拉翻页查询,效果图及代码 <template><z-paging ref="paging" v-model="dataList" @query="queryList"><!-- 需要固定在顶部不滚动的view放在slot="top"的view中,如果需要跟着滚动,则不要设置slot=&q…

鸿蒙移动应用开发--UI组件布局

实验要求&#xff1a; 制作一个B站视频卡片界面&#xff0c;大致如下图所示&#xff0c;要求应用到线性布局、层叠布局等相关课堂知识。背景图、logo及文本内容不限。 实验环境 &#xff1a;DevEco Studio 实验过程&#xff1a; 步骤1&#xff1a;创建项目 1. 在您的开发环境…

NVIDIA TensorRT 深度学习推理加速引擎详解

NVIDIA TensorRT 深度学习推理加速引擎详解 文章目录 NVIDIA TensorRT 深度学习推理加速引擎详解引言文章结构 第一部分&#xff1a;TensorRT概述什么是TensorRT&#xff1f;TensorRT的核心功能和优势1. 图优化2. 量化支持3. 动态形状支持4. 多平台支持5. 编程接口6. 性能优势 …