中文连续视觉语音识别挑战赛

视觉语音识别,也称唇语识别,是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。特别是对于中文而言,由于缺乏相应的数据资源,该领域的研究进展受到了限制。为此,清华大学在2023年发布了CN-CVS数据集,成为首个大规模的中文视觉语音识别数据库,为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能。

为推动这一研究方向的发展,由清华大学、北京邮电大学、海天瑞声、语音之家联合举办2023 NCMMSC特殊议题:中文连续视觉语音识别挑战赛(CNVSRC, Chinese Continuous Visual Speech Recognition Challenge)正式对外发布。本次赛事以 CN-CVS 中文视觉语音识别数据库为基础数据,评估在录音室朗读 (Reading) 和网络演讲 (Speech) 两类场景下的 LVCVSR 系统的性能。比赛结果将在 NCMMSC 2023 会议上宣布并颁奖。

任务设置

CNVSRC 2023 共设有两个任务:

  • T1:特定说话人视觉语音识别 (Single-speaker VSR) 

  • T2:多个说话人视觉语音识别 (Multi-speaker VSR)

前者侧重于针对某一特定说话人进行大量数据调优后的性能,后者侧重于系统对非特定说话人的基础性能。每个任务根据训练数据不同,又分为固定赛道 (Fixed Track) 和开放赛道 (Open Track)。

固定赛道仅允许使用 CN-CVS 数据集即各任务发布的开发集作为训练集,旨在验证算法的先进性。开放赛道则可以使用任何数据进行训练,旨在验证当前技术能够达到的性能上限。清华大学将提供固定赛道上的基线系统代码,供参赛者作为参考。

数据集

•  CN-CVS: CN-CVS包含2557名说话人超过300小时的音视频数据,覆盖新闻播报与公开演讲场景,是目前最大的开源中文音视频数据集。主办方为本次竞赛提供了该数据库的文本标注。更多关于CN-CVS的信息请访问数据库官网CN-Celeb。该数据集作为本次竞赛闭集任务的训练集。

•  CNVSRC-Single: CNVSRC2023单人大数据。包含一名说话人超过100小时的音视频数据,数据来源于网络视频,其中十分之九的数据构成开发集,剩余十分之一的数据作为测试集。

•  CNVSRC-Multi: CNVSRC2023多人限量数据。包含43名说话人的音视频数据,每人的数据量接近1小时,其中每个人的三分之二数据构成开发集,剩余数据构成测试集。其中23名说话人的数据来源于受控环境下朗读固定机位录制,且单条数据时长相对较短。另20名说话人的数据来源于网络的演讲视频,单条数据时长较长,环境和内容较为复杂。

对于训练集和开发集,主办方提供音频、视频和对应的转录文本;对于测试集,则仅提供视频数据。参赛者不得以任何方式使用测试集,包括但不限于使用测试集帮助模型训练或者微调等。

数据集CNVSRC-SingleCNVSRC-Multi
开发集 Dev测试集 Eval开发集 Dev测试集 Eval
视频条数2594728812045010269
视频时长(小时)94.008.4129.24 14.49

参赛方式

参赛者需在CNCeleb官网上注册CNVSRC账号

请访问如下网址进行注册:CN-Celeb

注册以后,用户可以依据提示下载数据资源(CN-CVS, CNVSRC-Single, CNVSRC-Multi)。

CNVSRC 2023 以字错误率(Character Error Rate, CER)为评测准则。结果提交时,参赛者需要登录CNVSRC账号,进入CNVSRC 2023结果提交页面,选择对应的任务和赛道,提交结果文件。结果文件中每一行对应一条测试视频,以该视频的ID开始,后接对应的转录文本。内容提交后,系统自动计算CER并显示给参赛者。对每个任务每个赛道,参赛者有5次提交机会。

基线系统

主办方提供了固定赛道条件下多说话人和特定说话人两个任务的基线系统供。该基线系统采用基于Conformer的结构,模型性能如下。

TaskSingle-speaker VSRMulti-speaker VSR
CER on Dev Set48.57%58.77%
CER on Eval Set48.60%58.37%

参赛者可以通过下面网址获得基线系统的代码:https://github.com/MKT-Dataoceanai/CNVSRC2023Baseline

赛程安排

2023/09/20                    开启报名,训练数据集、开发数据集、基线系统发布

2023/10/10                    测试数据集发布

2023/11/01                    提交系统开放

2023/12/01 晚12点        提交结果截止

2023/12/09                    NCMMSC 2023 Workshop,公布成绩、优秀竞赛方案分享

组委会

· DONG WANG, Center for Speech and Language Technologies, Tsinghua University, China
· CHEN CHEN, Center for Speech and Language Technologies, Tsinghua University, China 
· LANTIAN LI, Beijing University of Posts and Telecommunications, China
· KE LI, Beijing Haitian Ruisheng Science Technology Ltd., China
· HUI BU, Beijing AIShell Technology Co. Ltd, China

报名传送门

2023 中文连续视觉语音识别挑战赛

Chinese Continuous Visual Speech Recognition Challenge 2023

Step1.  注册CNVSRC账号

CN-Celeb

*注册后可下载数据资源:CN-CVS, CNVSRC-Single, CNVSRC-Multi

Step2.  基线系统代码

https://github.com/MKT-Dataoceanai/CNVSRC2023Baseline

CNVSRC 2023 Website

CN-Celeb

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/164239.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何设计 API?

在前后端分离的设计中,不管使用什么语言,后端都需要提供 WebAPI 给前端使用。如果是一个平台级的产品,还有可能需要将平台的公共 API 提供给第三方系统使用,这些都要考虑到 API 的设计。 本文聊下 API 设计可能遇到的问题以及处理…

【广州华锐互动】利用VR开展建筑塔吊安全操作学习的好处?

随着科技的不断发展,虚拟现实(VR)技术已经逐渐渗透到各个领域,为人们的生活带来了前所未有的便利。在工程教育领域,VR建筑塔吊安全操作学习作为一种新型的教学手段,正逐渐成为提高教学质量和培养高素质工程…

【自动化测试入门】用Airtest - Selenium对Firefox进行自动化测试(0基础也能学会)

1. 前言 本文将详细介绍如何使用AirtestIDE驱动Firefox测试,以及脱离AirtestIDE怎么驱动Firefox(VScode为例)。看完本文零基础小白也能学会Firefox浏览器自动化测试!!! 2. 如何使用AirtestIDE驱动Firefox…

hive一行多列合并为一行一列

SELECT named_struct(name, John, age, 30, city, New York) AS person;

R语言:因子分析 factor analysis

文章目录 因子分析数据集处理步骤主成分法做因子分析最大似然法做因子分析 因子分析 因子分析的用途与主成分分析类似,它也是一种降维方法。由于因子往往比主成分更易得到解释,故因子分析比主成分分析更容易成功,从而有更广泛的应用。 从方法…

创建QDialog工程

创建QDialog工程 换掉图标 添加一个组件 水平布局 所有原件横向布局完成后,选中外框,点击Dialog,进行纵向布局 调整文本字体的大小 清空按钮的槽函数 下划线的槽函数 斜体的槽函数 加粗的槽函数 或者使用快剪辑:…

广告牌安全传感器怎么用?为城市能起到什么效果?

随着城市的迅速发展和经济的快速增长,广告牌在城市中扮演着越来越重要的角色。但是近年来广告牌缺乏修缮和维护,广告牌所带来的安全隐患逐年增加。 广告牌作为城市的明信片,出现损坏,且具有一定的安全隐患之后,给城市带…

家装、家居两不误,VR全景打造沉浸式家装体验

当下,用户对生活品质要求日益提升,越来越多的用户对多功能家装用品需求较大,由此造就了VR全景家装开始盛行。VR全景家装打破传统二维空间模式,通过视觉、交互等功能让用户更加真实、直观的体验和感受家居布置的效果。 一般来说&am…

图详解第五篇:单源最短路径--Bellman-Ford算法

文章目录 单源最短路径--Bellman-Ford算法1. 算法思想2. 图解3. 代码实现4. 测试5. 优化循环的提前跳出队列优化 6. 负权回路(负权环)判定7. 源码 Dijkstra算法只能用来解决正权图的单源最短路径问题,但有些题目会出现负权图。这时这个算法就…

服务器中了locked勒索病毒怎么办,勒索病毒解密,数据恢复

最近一段时间内,相信很多使用金蝶或用友的办公软件的企业,有很多都经历了locked勒索病毒的攻击,导致企业服务器被加密无法正常使用,严重影响了企业的正常工作。通过云天数据恢复中心的解密恢复发现,在今年locked勒索病…

页面查询多项数据组合的线程池设计 | 京东云技术团队

背景 我们应对并发场景时一般会采用下面方式去预估线程池的线程数量,比如QPS需求是1000,平均每个任务需要执行的时间是t秒,那么我们需要的线程数是t * 1000。 但是在一些情况下,这个t是不好估算的,即便是估算出来了&…

解决 sharp: Installation error: unable to verify the first certificate

使用 plasmo 时报错如下: E:\chromeplugins>pnpm create plasmo ../.pnpm-store/v3/tmp/dlx-46852 | 2 ../.pnpm-store/v3/tmp/dlx-46852 | Progress: resolved 2, reused 2, downloaded 0, added 2, done 🟣 Plasmo v0.83.0 &…

华为---企业WLAN组网基本配置示例---AC+AP组网

ACAP组网所需的物理条件 1、无线AP---收发无线信号; 2、无线控制器(AC)---用来控制管理多个AP; 3、PoE交换机---能给AP实现网络连接和供电的交换机; 4、授权:默认AC管理的AP数量有限,买授权才能管控更多AP。 WLAN创建…

苹果开发者 Xcode发布TestFlight全流程

打包前注意事项 使用Xcode导出安装包之前,必须先确认账户的所有合约是否全部同意,如果有不同意的,在出包的时候会弹出报错 这是什么意思 这意味着您有一些需要在应用商店连接上验证的协议(protocol)/契约(Contract)。解决方案 连接到应用商店…

百度的新想象力在哪?

理解中国大模型,百度是一个窗口。这个窗口的特殊性不仅在于变化本身,而是在于百度本身就是那个窗口。 作者|皮爷 出品|产业家 沿着首钢园北区向西北步行10分钟,就能看到一个高约90米的大跳台,在工业园钢铁痕迹的印衬下&#…

Vue-vue项目Element-UI 表单组件内容要求判断

整体添加判断 <el-formref"ruleFormRef":model"formModel"class"demo-ruleForm"label-position"top"status-icon:rules"rules"><el-form-item label"姓名" prop"applyUsers" class"form-…

[云原生1.]Docker数据管理与Cgroups资源控制管理

文章目录 1. Docker的数据管理1.1 数据卷1.1.1 示例 1.2 数据卷容器 2. 容器互联3. Cgroups资源控制管理3.1 简介3.2 cgroups的主要功能3.3 cpu时间片的简单介绍3.4 对CPU使用的限制3.4.1 对CPU使用的限制&#xff08;基于单个容器&#xff09;3.4.2 对CPU使用的限制&#xff0…

vue3中computed的用法

一、完整代码 <template><div class"about"><h1>Computed的用法</h1><h3>姓:{{ person.firstName }}</h3><input type"text" v-model"person.firstName"><h3>名:{{ person.lastName }}</h3…

【PXIE301-211】基于PXIE总线的16路并行LVDS数据采集、4路低速、2路隔离RS422数据处理平台

板卡概述 PXIE301-211A是一款基于PXIE总线架构的16路高速LVDS、4路低速LVDS采集、2路隔离RS422数据处理平台&#xff0c;该平台板卡采用Xilinx的高性能Kintex 7系列FPGA XC7K325T作为实时处理器&#xff0c;实现各个接口之间的互联。板载1组64位的DDR3 SDRAM用作数据缓存。板卡…

【UE】纯蓝图实现:在游戏运行时设置关键点,然后让actor沿着关键点移动

前言 在上一篇博客(【UE】两步实现“从UI中拖出Actor放置到场景中”)中我们已经实现了如何从UI拖拽生成Actor ,本篇博客在此基础上要实现的是:从UI中拖出车,再从UI中拖出关键点,点击“开始移动”按钮后,车会沿着关键点移动,具体效果如下所示。 效果 步骤 1. 首先创建…