回顾丨2023 SpeechHome 第三届语音技术研讨会

下面是整体会议的内容回顾:

18日线上直播回顾

18日上午9:30,AISHELL & SpeechHome CEO卜辉宣布研讨会开始,并简要介绍本次研讨会的筹备情况以及报告内容。随后,CCF语音对话与听觉专委会副主任、清华大学教授,国家工业信息安全发展研究中心人工智能所副所长刘永东对本次大会进行开幕致辞。

  开幕致辞

接下来是语音前沿技术音频生成两个主题的内容回顾。

  语音前沿技术

上午的语音前沿技术主题主题由AISHELL & SpeechHome CEO卜辉担任主持,分享嘉宾分别是谢磊、万玉龙、李明

谢磊分享的主题是《西工大ASLP实验室语音生成模型新进展》。报告分享了西工大音频语音与语言处理实验室在语音生成方面的进展,包括拟人化语音合成,基于语音因素解耦的表现力语音合成,基于自然语言的风格迁移、音色生成和语音转换,高表现力与实时语音转换、以及Vec Tok Speech多任务语音大模型技术。

万玉龙分享的主题是《交互式AI中语音技术实践与探索》。本次报告主要介绍了3点内容:1、亿级终端智能助理所面临的语音技术挑战及解决思路;2、音频类生成式AI在智能助理产品的创新实践;3、业务视角下,交互式A对语音技术的期许与展望。

李明分享的主题是《多通道、多人及非基于声纹编码向量的特定人语音抽取》。首先介绍了不直接使用声纹编码向量作为目标人先验信息的特定人语音抽取模型设计,其次在多人同步抽取及多通道语音输入这两个方面介绍团队最近的一些研究成果。

 音频生成

下午的音频生成主题由西交利物浦大学助理教授李圣辰担任主持,分享嘉宾分别是武执政、吴志勇、王文武、雪巍、卢恒

武执政分享的主题是《Amphion: An Open-Source Audio, Music and Speech Generation Toolkit》。This talk will present an open-source audio, audio and speech generation toolkit, namelyAmphion. The Amphion toolkit is design for education and reproducible research purpose. This talkfirst presents the state of the art for generation tasks, and discuss the design goal, implementation andcomparison with existing toolkits.

吴志勇分享的主题是《面向表现力语音合成的多尺度风格建模与生成》。报告介绍了表现力语音合成在对说话风格、情感、语调等进行精细化建模,以提高合成语音的自然度和拟人化表现能力。它在有声读物、AI主播、人机对话交互等领域有广阔的应用前景。然而,它也面临一系列挑战和难点。针对如何有效提取和表示多尺度的风格特征,提出了一种面向表现力语音合成的多尺度风格建模方法,使用多尺度参考编码器提取目标语音的全局和局部风格特征,提高语音合成的可控性、表现力和灵活性;针对如何在不损失自然度和可懂度的前提下实现风格控制和转换,提出了一种基于分块的多尺度跨说话人风格迁移方法;针对如何生成富有表现力和多样性的语音韵律等,提出了一种基于去噪扩散概率模型的韵律预测器。实验结果验证了所提方法在表现力语音合成方面的有效性和优势。

王文武分享的主题是《Text to Audio Generation》。Text-to-audio generation aims to produce an audio clip based on a text prompt which is a languagedescription of the audio content to be generated. This can be used as sound synthesis tools for film makinggame design, virtual reality/metaverse, digital media, and digital assistants for text understanding by thevisually impaired. To achieve cross modal text to audio generation, it is essential to comprehend the audioevents and scenes within an audio clip, as well as interpret the textual information presented in naturaanquage. ln addition, learning the mapping and alianment of these two streams of information is cruciaExciting developments have recently emerged in the field of automated audio-text cross modal generation. lnthis talk, we will give an introduction of this field, including problem description, potential applicationsdatasets, open challenges, recent technical progresses, and possible future research directions. We will startwith the conditional audio generation method which we published in MLSP 2021 and used as the baselinesystem in DCASE 2023. We then move on to the discussion of several algorithms that we have developedrecently, including AudioLDM,AudioLDM2, Re-AudioLDM,and AudioSep, which are getting increasinglypopular in the signal processing, machine learning, and audio engineering communities.

雪巍分享的主题是《高速高质量零资源歌声合成》。主要介绍了歌声合成面临标注数据极度缺失的问题,精标成本较高,且音色有限;宽音域强表现力的要求对合成质量提出更高标准。介绍了CoMoSpeech和ZSinger,使得基于扩散模型的歌声合成方法真正可以实时部署于工业级应用,并无需标注数据即可对任意人音色进行建模及歌词/旋律控制。

卢恒分享的主题是《语音AIGC技术进展--音频技术在喜马拉雅的研发和落地应用》。主要介绍喜马拉雅语音AIGC技术,包括文本分析,语音生成技术以及风格转换的大模型的研究以及落地。同时介绍我们在语音识别、音效以及全景声方面的一些工作。

19日线下参会回顾

19日以线下会议的形式举办,众多语音领域大神云集,各路语音技术爱好者慕名而来。现场共有2个会场,分为3个主题,分别是“音频与大模型”“数据与大模型”“语音开源技术”,大家共同探讨了相关的技术问题。我们还穿插了丰富的抽奖茶歇环节,大家在参会的同时也可以放松休息。

以下是精彩的会议报告。 

  音频与大模型

上午的音频与大模型主题由北京邮电大学副教授/博导李蓝天担任主持,分享嘉宾分别是欧智坚、钱彦旻、张王优、李晨达、何磊、易江燕、栾剑、张超。 

欧智坚分享的主题是《语音大模型的若干思考与猜测》。报告结合ChatGPT的技术发展历程以及语音本身特点,汇报了对语音大模型研究的几个思考,对“未来语音大模型是怎么样的?”给出我们的猜测,包括:1、是否能实现有原则的无监督学习?2、语音识别大模型如何与语言模型有效结合?3、语音识别与语音合成,是否能有效互助?4、多语言语音识别系统中,是否需要IPA知识的运用?报告也将分享我们的若干进展。

钱彦旻分享的主题是《Self-Supervised Learning for High-Performance Robust Speaker Verification》Automatic speaker verification task has made great achievements using deep learning approacheswith the large-scale manually annotated dataset. However, it's very difficult and expensive to collect alarge amount of well-labeled data for system building. Recently, self-supervised speaker verificationhas attracted a lot of interest by the reason of its no-dependency on labeled data. This talk will brieflyintroduce an advanced self-supervised learning framework which can construct a robust speakerverification system with high performance without using any labeled data. With our proposedmethods, the gap between unsupervised and supervised representation learning is dramaticallyreduced for speaker verification, and an approaching performance of the fully supervised system isobtained with our self-supervised learning method on speaker verification. 

张王优李晨达在线上为大家分享的主题是《ESPnet 2023 开发进展》。报告介绍了ESPnet开源工具在语音增强方面的进展。ESPnet-SE 是2020年6月开始筹备的ESPnet子项目,目的是为ESPnet 提供丰富的前端语音处理功能,包括降噪、去混响和语音分离等。在两年多的时间里ESPnet-SE 累计添加了对 24 种语音增强模型(12 种单通道模型 +12 种多通道模型)的支持并配有 22个覆盖从数据准备到模型训练及评估等全流程的 recipes,其中部分 recipe 在 Hugging Face 上提供了相应的已训练模型。ESPnet-SE也提供了对其他语音前端开源工具的兼容,如允许在ESPnet中直接加载并训练来自Asteroid 工具的模型。除此之外,ESPnet-SE 提供了将前端模型和其他下游语音任务(语音识别、语音翻译、口语理解等)进行结合的接口和示例,使得我们能够很容易实现前端模型和不同后端任务的联合训练或评估。本次报告重点介绍了ESPnet-SE工具的特色功能以及使用方法,并对后续开发计划进行简单梳理。

 

嘉宾:欧智坚、何磊、钱彦旻、易江燕、栾剑、张超 

圆桌会由李蓝天和卜辉主持,议围绕着“各位专家对大模型 GPT4 Turbo是如何理解的,有哪些值得学习和不足的地方”,“大模型更多是在文本交互、知识交流领域为主,音频大模型能否成为主流模型或者高价值模型”,“未来音频大模型的发展趋势是什么?如何把握”,“对在音频这个领域或者将要进如这个领域的学生,在选题方向有哪些建议”等问题展开激烈的讨论,欧智坚、何磊、钱彦旻、易江燕、栾剑、张超依次做出来精彩的解答。

  数据与大模型

上午的数据与大模型的主题由AISHELL & SpeechHome CEO卜辉担任主持,分享嘉宾分别是樊威、张超、邵志明

樊威分享的主题是《大模型数据资源面临挑战和发展路径》。报告主要分为3点:1、大模型数据发展现状及挑战;2、大模型数据治理总体思路;3、大模型数据治理落地思考。

张超分享的主题是《认知导向的视听觉大语言模型》报告介绍了ChatGPT作为一种大语言模型(Large Language Model,LLM),以文本输入和文本生成作为交互的主要手段,在自然语言和形式语言任务中展现了相当程度的任务通用性,但仍有许多不足。一个关键缺陷在于模型的语言认知与物理世界的多模态信息几乎无关ChatGPT的最新更新已支持图片和语音指令输入。可以把LLM类比为具有强语言认知能力的“大脑”,缺乏感官和身体,对物理世界的了解主要来自“想象”而非实际的“感受”。给LLM增加感知,尤其是音视频感知,既使LLM真正“能听会看”,也能提高已有音视频任务的准确性。

邵志明分享的主题是《AI算法赋能海天瑞声高质量数据生产》。本报告首先介绍海天瑞声语音数据生产环节使用的算法技术成果,以及针对平台预标注能力从多语种语音识别、自动切音、多通道对齐、重复发音人检测等技术的研究成果。其次,介绍海天瑞声在大模型数据生产方面的Know-how。 

  语音开源技术

下午的语音开源技术主题由清华大学副研究员王东和AISHELL & SpeechHome CEO卜辉担任主持,分享嘉宾分别是Daniel Povey、匡方军、卜辉、张彬彬、张仕良、康魏

Daniel Povey分享的主题是《Zipformer: an improved Encoder for ASR》。will talk about our alternative to the Conformer, the "Zipformer", which gives improved accuracy atlower cost. lt includes downsampling and upsampling, as in UNet, and many architectural changes; wealso introduce a modified optimizer called ScaledAdam.

匡方军分享的主题是《 Sherpa: 新一代 Kaldi 部署框架》。报告主要介绍了如何使用新一代Kaldi部署框架 Sherpa 在 Linux/macOS/Windows/Android/i0S 等不同环境中部署语音识别和语音合成模型。比如来自 icefall,Whisper,FunASR,WeNet 和 NeMo 等框架的语音识别模型,来自VITS-fast-fine-tuning,piper 和 coqui-ai 等基于 VITS 的语音合成模型。

卜辉分享的主题是《 AISHELL-Turbo Datasets for multimodal AI models》。报告介绍了AISHELL的语音数据集赋能了智能语音技术在家居、车载、机器人、会议等多场景的应用落地。开源项目也覆盖语音识别、声纹识别、语音合成、场景语音交互技术方案。在针对语音识别(ASR)模型的性能评测方面,构建了高质量语音评测数据集,评测项目开放了ASR模型的SOTA内容,包括Benchmark和Leaderboard,对智能语音产业及用户应用体验的提升都起到了促进作用。随着ChatGPT等大模型的出现,人工智能(A)多模态大模型可以同时处理多种模态数据,如同时处理图像、文本、语音等。大模型通常基于深度学习技术,利用大量的数据来训练,以实现多模态数据的跨模态理解和生成。当前的多模态大模型性能在多个评测数据集上的成绩已经超越人类对知识的掌控,在未来如何对大模型进行知识迭代、大模型的场景化落地等问题,AISHELL在今年启动了AISHELL-Turbo数据集计划。报告内容会对AISHELL-Turbo的数据集规划和目前的成果做介绍。

张彬彬分享的主题是《WeNet 开源社区最新进展》。报告主要介绍了WeNet 开源社区最新进展:1、数据集和预训练模型更新;2、wespeaker 更新;3、wenet 最新算法和方案设计。

张仕良分享的主题是《ModelScope语音开源现状和语音语义多模态大模型研究进展介绍》。报告首先总体介绍魔搭社区语音模态的开源现状,包含语音识别、语音合成、说话人识别等技术方向。其次就语音识别方向,会进一步介绍FunASR开源工具包,以及解析语音识别服务一键部署能力背后的技术。最后会介绍通义实验室关于语音语义多模态大模型(LauraGPT、Qianwen-AL)的最新研究和开源进展。

嘉宾:张仕良、张彬彬、康魏

圆桌会由卜辉主持,议围绕着“如何参与开源语音技术社区?”,“开源语音技术该如何规划?”等问题展开激烈的讨论,张仕良、张彬彬、康魏老师依次做出来精彩的解答。

最后主办方对大会做总结和鸣谢。至此,第三届SpeechHome语音技术研讨会圆满结束,期待与大家再次相见。各平台会议直播观看人数累计16000+,线下参会150人

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/222317.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring AOP入门指南:轻松掌握面向切面编程的基础知识

面向切面编程 1,AOP简介1.1 什么是AOP?1.2 AOP作用1.3 AOP核心概念 2,AOP入门案例2.1 需求分析2.2 思路分析2.3 环境准备2.4 AOP实现步骤步骤1:添加依赖步骤2:定义接口与实现类步骤3:定义通知类和通知步骤4:定义切入点步骤5:制作切面步骤6:将通知类配给…

7-1 建立二叉搜索树并查找父结点(PTA - 数据结构)

按输入顺序建立二叉搜索树,并搜索某一结点,输出其父结点。 输入格式: 输入有三行: 第一行是n值,表示有n个结点; 第二行有n个整数,分别代表n个结点的数据值; 第三行是x,表示要搜索值…

【已解决】修改了网站的class样式name值,会影响SEO,搜索引擎抓取网站及排名吗?

问题: 修改了网站的class样式name值,会影响搜索引擎抓取网站及排名吗? 解答: 如果你仅仅修改了网站class样式的名称,而没有改变网站的结构和内容,那么搜索引擎通常不会因此而影响它对网站的抓取和排名。但…

【C++入门到精通】互斥锁 (Mutex) C++11 [ C++入门 ]

阅读导航 引言一、Mutex的简介二、Mutex的种类1. std::mutex (基本互斥锁)2. std::recursive_mutex (递归互斥锁)3. std::timed_mutex (限时等待互斥锁)4. std::recursive_timed_mutex (限时等待…

使用VSC从零开始Vue.js——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务3:数据可视化

使用Visual Studio Code(VSC)进行Vue开发非常方便,下面是一些基本步骤: 一、下载和安装Vue 官网下载地址Download | Node.js Vue.js是基于Node.js的,所以首先需要安装Node.js,官网下载地址:No…

PSP - 结构生物学中的机器学习 (NIPS MLSB Workshop 2023.12)

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/135120094 Machine Learning in Structural Biology (机器学习在结构生物学中) 网址:https://www.mlsb.io/ Workshop at the 37th Co…

应用案例 | 汽车行业基于3D机器视觉引导机器人上下料解决方案

Part.1 背景 近年来,汽车行业蓬勃发展,一度出现供不应求的现象。在汽车零配件、整车大规模制造的过程中,为了降本增效,提升产品质量,工厂急需完成自动化升级。随着人工智能的发展,越来越多的生产环节引入机…

Jupyter Notebook修改默认工作目录

1、参考修改Jupyter Notebook的默认工作目录_jupyter文件路径-CSDN博客修改配置文件 2.在上述博客内容的基础上,这里不是删除【%USERPROFILE%】而是把这个地方替换为所要设置的工作目录路径, 3.【起始位置】也可以更改为所要设置的工作目录路径&#x…

【JVM】一、认识JVM

文章目录 1、虚拟机2、Java虚拟机3、JVM的整体结构4、Java代码的执行流程5、JVM的分类6、JVM的生命周期 1、虚拟机 虚拟机,Virtual Machine,一台虚拟的计算机,用来执行虚拟计算机指令。分为: 系统虚拟机:如VMware&am…

我的创作纪念日——成为创作者第1024天

机缘 一、前言 早上收到CSDN的推送信息,今天是我成为创作者的第1024天,回想起自己已经好久没有写博客了,突然间很有感触,想水一篇文章,跟小伙伴们分享一下我的经历。 二、自我介绍 我出生在广东潮汕地区的一个小城…

TypeScript实战——ChatGPT前端自适应手机端,PC端

前言 「作者主页」:雪碧有白泡泡 「个人网站」:雪碧的个人网站 可以在线体验哦:体验地址 文章目录 前言引言先看效果PC端手机端 实现原理解释 包的架构目录 引言 ChatGPT是由OpenAI开发的一种基于语言模型的对话系统。它是GPT(…

ES排错命令

GET _cat/indices?v&healthred GET _cat/indices?v&healthyellow GET _cat/indices?v&healthgreen确定哪些索引有问题,多少索引有问题。_cat API 可以通过返回结果告诉我们这一点 查看有问题的分片以及原因。 这与索引列表有关,但是索引…

【介质】详解NVMe SSD存储性能影响因素

导读: NVMe SSD的性能时常捉摸不定,为此我们需要打开SSD的神秘盒子,从各个视角分析SSD性能影响因素,并思考从存储软件的角度如何最优化使用NVMe SSD,推进数据中心闪存化进程。本文从NVMe SSD的性能影响因素进行分析&am…

Java智慧工地源码 SAAS智慧工地源码 智慧工地管理可视化平台源码 带移动APP

一、系统主要功能介绍 系统功能介绍: 【项目人员管理】 1. 项目管理:项目名称、施工单位名称、项目地址、项目地址、总造价、总面积、施工准可证、开工日期、计划竣工日期、项目状态等。 2. 人员信息管理:支持身份证及人脸信息采集&#…

PLC物联网,实现工厂设备数据采集

随着工业4.0时代的到来,物联网技术在工厂设备管理领域的应用日益普及。作为物联网技术的重要一环,PLC物联网为工厂设备数据采集带来了前所未有的便捷和高效。本文将围绕“PLC物联网,实现工厂设备数据采集”这一主题,探讨PLC物联网…

常见可视化大屏编辑器有哪些?

前言: 在当今数字化时代,可视化大屏编辑器成为了数据展示和决策支持的重要工具。大屏编辑器不仅仅是数据的呈现,更是数据背后的故事的讲述者。它通过图表、图形和实时数据的呈现,为用户提供了全面的信息视图,帮助用户更…

mangokit:golang web项目管理工具,使用proto定义http路由和错误

文章目录 前言1、mangokit介绍1.1 根据proto文件生成http路由1.2 根据proto文件生成响应码1.3 使用wire来管理依赖注入 2、mangokit实现2.1 protobuf插件开发2.2 mangokit工具 3、使用示例3.1 创建新项目3.2 添加新的proto文件3.3 代码生成 前言 在使用gin框架开发web应用时&a…

【Week-P2】CNN彩色图片分类-CIFAR10数据集

文章目录 一、环境配置二、准备数据三、搭建网络结构四、开始训练五、查看训练结果六、总结3.1 ⭐ torch.nn.Conv2d()详解3.2 ⭐ torch.nn.Linear()详解3.3 ⭐torch.nn.MaxPool2d()详解3.4 ⭐ 关于卷积层、池化层的计算4.2.1 optimizer.zero_grad()说明4.2.2 loss.backward()说…

重生奇迹MU剑士所有装备

1、普通装备:剑、盾、头盔、披风、手套、鞋子等。 2、精良装备:精良剑、精良盾、精良头盔、精良披风、精良手套、精良鞋子等。 3、稀有装备:稀有剑、稀有盾、稀有头盔、稀有披风、稀有手套、稀有鞋子等。 4、传说装备:传说剑、传…

数据安全扫描仪荣膺网络安全优秀创新成果大赛优胜奖 - 凸显多重优势

近日,由中国网络安全产业联盟(CCIA)主办、CCI数据安全工作委员会中国电子技术标准化研究院等单位承办的“2023年网络安全优秀创新成果大赛”获奖名单公布。天空卫士数据安全扫描仪(DSS)产品获得创新成果大赛优胜奖。 本…