3秒复制任何人的嗓音!微软音频版DALL·E细思极恐,连环境背景音也能模仿

萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

只需3秒钟,一个根本没听过你说话的AI,就能完美模仿出你的声音。

例如这是你的一小句聊天语音:

这是AI根据它模仿你说话的音色:

是不是细思极恐?

这是微软最新AI成果——语音合成模型VALL·E,只需3秒语音,就能随意复制任何人的声音。

它脱胎于DALL·E,但专攻音频领域,语音合成效果在网上放出后火了:

d049932945b59456553d6b93ec1daa2e.png

有网友表示,要是将VALL·E和ChatGPT结合起来,效果简直爆炸:

看来与GPT-4在Zoom里聊天的日子不远了。

01677e87ce8057f15ed7f219a9553661.png

还有网友调侃,(继AI搞定作家、画家之后)下一个就是配音演员了。

f19688e29c6f04f3275fe5a7ab991d85.png

所以VALL·E究竟怎么做到3秒钟模仿“没听过”的声音?

用语言模型来分析音频

基于AI“没听过”的声音合成语音,即零样本学习。

语音合成趋于成熟,但之前零样本语音合成效果并不好。

主流语音合成方案基本是预训练+微调模式,如果用到零样本场景下,会导致生成语音相似度和自然度很差。

基于此,VALL·E横空出世,相比主流语音模型提出了不太一样的思路。

e76a35231cefed27c1ee0047a38d9f72.png

相比传统模型采用梅尔频谱提取特征,VALL·E直接将语音合成当成了语言模型的任务,前者是连续的,后者是离散化的。

具体来说,传统语音合成流程往往是“音素→梅尔频谱(mel-spectrogram)→波形”这样的路子。

但VALL·E将这一流程变成了“音素→离散音频编码→波形”:

9a0b041a749d8160ce39dd1a34091c4a.png

具体到模型设计上,VALL·E也和VQVAE类似,将音频量化成一系列离散tokens,其中第一个量化器负责捕捉音频内容和说话者身份特征,后几个量化器则负责细化信号,使之听起来更自然:

bfd7cd705daa312bd5e185ff4b8aa65a.png

随后以文本和3秒钟的声音提示作为条件,自回归地输出离散音频编码:

a612b679dfdffac94e89a4582037f709.png

VALL·E还是个全能选手,除了零样本语音合成,同时还支持语音编辑、与GPT-3结合的语音内容创建。

那么在实际测试中,VALL·E的效果如何呢?

连环境背景音都能还原

根据已合成的语音效果来看,VALL·E能还原的绝不仅仅是说话人的音色。

不仅语气模仿到位,而且还支持多种不同语速的选择,例如这是在两次说同一句话时,VALL·E给出的两种不同语速,但音色相似度仍然较高:

ce719812e33ab54f1ee17b19a0616e82.png

同时,连说话者的环境背景音也能准确还原。

除此之外,VALL·E还能模仿说话者的多种情绪,包括愤怒、困倦、中立、愉悦和恶心等好几种类型。

值得一提的是,VALL·E训练用的数据集不算特别大。

相比OpenAI的Whisper用了68万小时的音频训练,在只用了7000多名演讲者、6万小时训练的情况下,VALL·E就在语音合成相似度上超过了经过预训练的语音合成模型YourTTS。

而且,YourTTS在训练时,事先已经听过108个演讲者中的97人声音,但在实际测试中还是比不过VALL·E。

da6ed0223b77ed8ae5be90c0dbafb0e1.png

有网友已经在畅想它可以应用的地方了:

不仅可以用在模仿自己的声音上,例如帮助残障人士和别人完成对话,也可以在自己不想说话时用它代替自己发语音。

当然,还可以用在有声书的录制上。

d85e9b3395b811b7cfba6608ff58f0b9.png

不过,VALL·E目前还没开源,要想试用可能还得再等等。

cfc026412108523a9c37cbbe02071d5e.png

作者介绍

这篇论文所有作者均来自微软,其中有三位共同一作。

de428174ac938c8d6236007c49eb7d26.png

一作Chengyi Wang,南开大学和微软亚研院联合培养博士生,研究兴趣是语音识别、语音翻译和语音预训练模型等。

2f9d8ea59039a3a3a8894846959a69f7.png

共同一作Sanyuan Chen,哈工大和微软亚研院联合培养博士生,研究方向包括自监督学习、NLP和语音处理等。

0b48da1d467ebef816c63d91addb1476.png

共同一作Yu Wu,微软亚研院NLP小组研究员,在北航获得博士学位,研究方向是语音处理、聊天机器人系统和机器翻译等。

fb9358537edad50af004930e617be845.png

感兴趣的小伙伴可以戳下方论文地址查看~

论文地址:
https://arxiv.org/abs/2301.02111

音频试听地址:
https://valle-demo.github.io/

参考链接:
https://twitter.com/DrJimFan/status/1611397525541617665

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入交流群,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位噢 ~

1cc25caa70667709544d6b83742db2f1.jpeg

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/66613.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

细思极恐!使用 AI 控制你的浏览器

本期推荐开源项目目录: 1. 使用 AI 控制你的浏览器 2. Facebook力作:分割一切 3. 在 Mac 上运行 Stable Diffusion 4. ChatGPT 学术助手 5. 开源的 ChatGPT 桌面客户端 6. 微信公众号一键排版 01 使用 AI 控制你的浏览器 Taxy 是一个使用 GPT-4 来控制浏…

人类与智能ai(chatGPT)共存话题,它怎么回答?细思极恐!

1. 对地球最大的危害是谁? 作为 GPT-3.5 Turbo,我可以告诉你,地球最大的危害来自人类自身。人类的活动对地球环境产生了广泛而深远的负面影响。过度的工业化、大规模森林砍伐、过度捕捞、过度使用化石燃料以及其他不可持续的生产和消费模式&…

chatgpt赋能Python-pycharm粘贴把空格识别成行

PyCharm粘贴把空格识别成行:你需要知道的所有事情 作为一名有10年Python编程经验的工程师,我经常使用PyCharm,它是一款流行的 Python 集成环境 (IDE)。今天,我想分享一些有关 PyCharm 粘贴把空格识别成行的信息。 什么是PyCharm…

用「明道云+ChatGPT+Weaviate」挑战零代码1小时实现ChatPDF

ChatGPT流行起来之后,快速的出现了一批基于ChatGPT的工具应用,ChatPDF就是其中比较受欢迎的一款。它是一个可以让你与PDF文件进行对话的工具,既可以帮助你快速提取PDF文件中的信息,例如手册、论文、合同、书籍等;也可以…

HugNLP发布,集成多种NLP任务,可训ChatGPT类模型

HugNLP发布,集成多种NLP任务,可训ChatGPT类模型 作者:王嘉宁 HugNLP——全面统一的NLP框架开源了! 近日,华师大HugAILab团队研发了HugNLP框架,这是一个面向研究者和开发者的全面统一的NLP训练框架&#x…

考研英语 小作文模板

考研英语 作文模板 内容来自有道考神陈曲老师 公众号: 陈曲老师 小作文 有套路的信体 投诉信感谢信推荐信邀请信道歉信 相对来说需要自己发挥的 建议信通知 投诉信 例题 句式套路 1. complain about an electronic dictionary make a complaint about an electronic dic…

老师不能被计算机取代的英文作文,2019专八作文范文赏析:老师不能被取代

2019专八作文范文赏析:老师不能被取代 专八复习冲刺阶段,英语作文该怎么备考才能得高分呢?背些不同主题的范文,或许可以帮到你,下面是新东方在线英语专八频道整理的一系列英语专八作文范文。 Teachers Cannot Be Replaced Human …

计算机将会代替老师吗英语范文,2021年英语专四作文范文:计算机将取代老师...

2021英语专四考试时间已确定为6月19日,备考的同学们该开始着手准备了,英语专四作文打好基础可以多看看英语专四作文素材这样再复习英语专四作文的时候才能熟练,下面是为大家分享的:“2021年英语专四作文范文:计算机将取…

python 接入钉钉群告警

背景 1 环境 python3.7 2 邮件控制服务(由于公司用了zabbix(服务器基础设施),elk(业务报警),promethues alertManager(主要是k8s上面使用),grafana(部分pro…

钉钉自定义机器人接入

用钉钉机器人,可以做一些通知,比如说程序的预警,风控啊。 官方描述 看官网描述,很强大,支持文本,链接,Markdown。 添加完机器人可以用curl工具随便发点什么试试: curl ‘https://oap…

钉钉企业内部应用 - 获取考勤打卡结果

本文是根据钉钉官方文档归纳所出,最后有 PHP 测试成功的 demo。 概述 钉钉登录是基于 OAuth2.0 协议标准构建的钉钉 OAuth2.0 授权登录系统。 在进行钉钉 OAuth2.0 授权登录接入之前,需要先创建一个应用,并获得相应的 AgentId 和 AppSecret。…

通过Webhook接入钉钉群自定义机器人

在钉钉群中添加Webhook自定义机器人, 复制Webhook地址保存: https://oapi.dingtalk.com/robot/send?access_tokenxxxxxx 安全设置:选择加签方式,复制加签保存 #!/usr/bin/python # -*- coding: utf-8 -*- import requests imp…

注册之谷歌验证码

验证码的使用 前言一、验证码jar包二、谷歌验证码Kaptcha的使用1.在web.xml文件中配置用于生成验证码的Serclet程序2.在表单中使用img标签显示并使用3.获取服务器验证码和客户端进行比较4.切换验证码 总结 前言 在许多项目中都会涉及到登陆注册,而我们日常的注册除…

网站注册登录等短信验证码

现在随着时代的发展,许多网站的注册,或者登录都和手机号码关联在一起,这样也方便了我们记住账号,下面我就来说一下怎么用php发短信,这个是卸载(lavarel)框架的。 这里给大家介绍一个平台--云信…

输入手机号获取验证码的注册页面,说出测试过程

考察的点有两个,一个是对手机号格式和验证码格式的验证,一个是对验证码获取功能的验证。 基本原理:验证码1分钟内只能发一次,有效期10分钟。验证码是后台Java代码生成的,然后验证码生成时间和此验证码会保存在数据库的…

证券交易1-交易系统简介

证券交易过程,主要的过程是个人投资者或者机构投资者,按照股票的行情,报价下订单到交易所的,然后收到交易所回报的过程。本文主要介绍了这一交易过程中涉及到的系统。 证券交易业务流程图: 证券交易IT系统架构图&…

通达信交易系统接口是不是免费的?

通达信是一款第三方的交易系统,它可以跟我们常用的券商系统进行对接,所以通达信更像是一款接口型软件,但是为什么大家要做交易时,不直接使用券商交易系统,反而选择用通达信交易系统接口呢?这样难道不是还多…

“Safari 16.4 发布,简直是开发者的‘地狱’!”

以往 Safari 发布新版本,因其更新时间及更新内容的不确定性,时而都会给开发者带来一些问题,但都比不上这次 Safari 16.4 发布带来的麻烦大。 原文链接:https://www.construct.net/en/blogs/ashleys-blog-2/safari-releases-develo…

3 亿岗位或被取代?程序员躺枪,多个行业迎来新时代!

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 2023 年的流量密码,非 ChatGPT 莫属。 它的横空出世,不仅撼动着科技界,让国内外大厂纷纷躬身入局、抢占高地,也让打工人在 AI 新时代的到…

AutoGPT注册使用手册

Auto-GPT介绍 Auto-GPT是一个基于ChatGPT的工具,他能帮你自动完成各种任务,比如写代码、写报告、做调研等等。使用它时,你只需要告诉他要扮演的角色和要实现的目标,然后他就会利用ChatGPT和谷歌搜索等工具,不断“思考…