ICASSP2023 通用会议理解及生成挑战赛(General Meeting Understanding and Generation Challenge,缩写为 MUG)是ICASSP2023 系列大挑战(SPGC)之一,由魔搭ModelScope社区、阿里巴巴达摩院语音实验室&语言技术实验室,阿里云天池联合浙江大学数字媒体计算与设计实验室举办。
随着数字化经济的进一步发展,越来越多的企业开始将现代信息网络作为数据资源的主要载体,并通过网络通信技术进行数据传输。另一方面,协同办公套件的完善也促使越来越多行业将互联网作为主要的信息交流和分享的方式。以往的研究表明,会议记录的口语语言处理(Spoken Lanquage
Processing)技术如关键词提取和摘要,对于信息的提取、组织和排序至关重要,可以显著提高用户对重要信息的掌握效率。
本项目源自于ICASSP2023系列大挑战的通用会议理解及生成挑战赛,赛事构建并发布了目前为止规模最大的中文会议数据集,并基于会议人工转写结果进行了多项SLP任务的标注:目标是推动SLP在会议文本处理场景的研究并应对其中的多项关键挑战,包括人人交互场景下多样化的口语现象,会议场景下的长篇章文档建模等。
报名时间
2022年12月2日08:00-2023年1月21日 00:00
报名方式
PC端登录比赛官网,完成个人信息注册,即可报名参赛
大赛地址:https://modelscope.cn/competition
核心信息渠道
大赛官网 https://modelscope.cn/competition
大赛邮箱 contact@modelscope.cn
大赛钉钉群 群号:22410010528
赛程安排
报名&组队 2022.12.02-2023.01.21
参赛选手须在ModelScope平台竞赛页面(hutps://modelscope.cn/compelition)上完成报名并组队参赛(单人参赛无需组队),大赛不收取任何报名费用;报名后即可通过ModelScope数据集页面获取训练集和验证集。
赛事阶段- 2022.12.10-2023.01.24
12月10日08:00开始,参赛队伍可以从报名页面下载一阶段测试集,并在线提交结果,每天支持两次提交。阶段一的排行榜每天上午会根据前一天提交结果动态更新。
赛事阶段二 2023.01.24-2023.01.28
2023年1月24日08:00起,参赛队伍可以从报名页面下载二阶段测试集。并在线提交结果,5天内总共允许6次提交。阶段二的排行榜将在2023年2月11日完成审核后统一更新,并作为最终比赛排名。
注:2023.01.28-2023.02.11 期间,阶段二参赛队伍需要提供可复现的代码镜像供技术委员会审核以保证比赛公平性,
赛题信息
赛题一:话题分割
女木分制作为文术结构业行名之。 日标具将长笔音文木分制成连纯
语义一致片段;参赛队伍需要使用赛事提供的标注数据以及额外可用数据列表进行机器学习训练,将会议转写文本切分为一系列互不重暂且内部语义一致的话题。
赛道二:话题抽取式摘要和篇章抽取式摘要
摘要作为经典的NLP任务一直以来都受到学术界及工业界广泛关注:参赛队伍需要使用赛事提供的标注数据以及额外可用数据列表进行机器学习训练,针对会议的人工标注话题以及整个会议篇章分别进行抽取式摘要。
赛道三:话题标题生成
针对会议转写结果中人工标注的话题片段,参赛队伍需要使用赛事提供的标注数据以及额外可用数据列表进行机器学习训练,为每个话题片段生成对应的标题内容。
赛道四:关键词抽取
关键词抽取作为最经典的信息处理任务之一,目标是从输入的文档集合中抽取出最具代表性且囊括全文核心语义的短语列表。参赛队伍需要针对会议全文抽取出反映其主要内容的一组关键词。
赛道五:行动项抽取
行动项是指由会议参与者指派、建议、承诺在会后需要完成的具体待办任务,行动项抽取同时也是会议摘要任务的重要组成部分。参赛队伍需要针对会议全文抽取出行动项列表,
荣誉回馈
本次赛事排名结束后,组委会将邀请总共5支队伍进行信号处理大赛论文投稿
主办方
魔搭MadelScope社区
阿里巴巴达摩院 语音实验室&语言技术实验室浙江大学数字媒体计算与设计实验室阿里云天池
组委会 技术委员会
浙江大学副教授 赵洲 伊利诺伊大学厄巴纳-香槟分校教授 Heng ji
阿里巴巴语音实验室负责人 鄢志杰 埃默里大学副教授 Fei Liu
阿里巴巴研究员 黄非 亚马逊Alexa首席应用科学家 Yang Liu
阿里巴巴资深算法专家 王雯 上海交通大学教授 俞凯
阿里巴巴高级运营专家 成展 中科院自动化所研究员 宗成庆