30分钟音频当数据,任何音色零门槛生成,产品免费体验

允中 发自 凹非寺
量子位 | 公众号 QbitAI

这年头,万物都可以是AI生成的,

从文字,到图片,亦或是目前火热的虚拟主播,

设想下,你在直播平台看到的虚拟主播背后,有可能是这样的画面。

连声音都可以是AI生成的,什么时候变声器已经能做到这个地步了,带着一丝震惊,我们深入了解了这款产品背后的技术团队,并得知了一个更加惊人的事实:

  • 免费使用

  • 仅需30分钟音频

  • 任何人就可复刻任何人声

这意味着在未来声音合成的门槛几乎为零,而这项技术是由国内一家年轻的AI初创公司格子互动自研的大饼AI变声,基于深度学习实现的声音转换(Voice Conversion)。

以往我们使用的传统变声器需要根据输入声源不断调整参数,而Voice Conversion可以提供更稳定的声音输出,让任何输入人声都高质量的转换成目标音色(Any to One)。

在Diffusion(图像)和GPT(文字)卷到飞起的同时,AI语音生成这片蓝海正在逐渐成为AIGC领域的下一个热点。

近期山东文旅宣布为旗下主持人海蓝生成了数字分身,并使用大饼声音引擎的产品为其定制了声音皮肤,引发了大量关注。

抑扬顿挫,委婉洒落。通过VC输出的声音极其细腻地还原了真人的语气、情绪和声音特征。

并且相较于非实时场景下对完整音频的声音转换,实时声音转换有着更加丰富的落地场景。在RTC领域,如直播、虚拟人等场景,变声的结果需要在很短的延迟内实时流式的生成,才能保证音画同步。

大饼团队针对这一点,通过对模型进行不断优化,使得实时转换延迟低于50ms,在实际使用过程中几乎感受不到。

39771f2ebc5773707a33edecc159eb6a.png
大饼实时变声流程示意

大饼已经以插件形式登录声网云市场,在RTC领域受到了不少关注和讨论。

de9c570b39a2436a10107706e7b3096a.png

微信Steam都能用

目前,大饼变声已经适配了市面上大部分社交娱乐应用和游戏。

不仅可以接入到微信、腾讯会议等社交办公软件中,同样支持在英雄联盟、CSGO、狼人杀、Steam等游戏和游戏平台中同步使用。

无论游戏还是社交,都可以用各种声线来戏弄好友。

当然,这不一定是“大饼变声”最正确的打开方式…

一方面,变声带来了更丰富的可玩性和趣味性,另一方面,变声也保障了用户在线上社交时的隐私安全性,免去不必要的骚扰和歧视。

例如不少女性玩家曾经在玩游戏因为性别而被对手,甚至队友攻击,选择Carry角色却被认为不够格。

在线上游戏尤其是MMORPG等角色扮演游戏中,人们往往展现出和现实生活里截然不同的性格和人格,而这正是因为这些玩家游玩网络游戏的本质是希望在游戏里找到并扮演最完美、最理想的自己。

AI变声的出现可以让玩家在游玩过程中使用符合自己虚拟人设的声音皮肤,从而更好的带入角色,沉浸于游戏世界中。

就在6月2日,大饼推出了首个Windows实时变声客户端,用PC搜索“大饼AI变声”,即可前往官网免费下载试用。客户端内置丰富的音色选择,并且支持48k的高清音质输出。

8df88f7639386c668f959a76ad1984c9.png
拥有萝莉、御姐、正太等200+音色

我们上手体验了一番,无需任何前置调试,一键就能完成变声。

客户端演示

所以,这样一款好用易上手的AI变声工具背后究竟用到了哪些技术,而相比于以往传统的变声器,又有哪些不同呢?

AI变声将取代传统变声器

传统软件变声是对语音信号进行处理,通过改变输入声音频率,进而改变声音的音色、音调。

由于每个人的音色特征不同,需要不断调整声音参数,而这也难以保证输入音色效果稳定。

7e3cd359bdc2f25a38cf0229035beb10.png
传统变声器的工作原理

而声音转换(Voice Conversion)是根据发声者的说话音频,将音频中的音色转换到目标发音人上,并保持说话内容、韵律情感等一致。将发声者的情感、抑扬顿挫、停顿等一并保留并输出:

输入样例—中文:

声音转换—中文:

换一种语言也能自然地转换,以日语为例:

输入样例—日语:

声音转换—日语:

通过AI输出音色相较于传统变声器,有几大明显的优势:

  • 能获得实时变声+声音克隆的效果,不需要使用者夹着嗓子发声,不需要因为声音不同而重新调试参数。任何人开启引擎,都可以实时稳定变声目标声音。

  • 并且在输出声音的质量上,也远远优于传统变声器。保留情感,抑扬顿挫的同时,支持多语种、方言的声音转换。

  • 并且AI变声不再需要物理机架以及声卡这些额外的专业设备支持,大饼自带虚拟声卡,保证了傻瓜式的操作流程,将使用门槛和成本降到了最低。

  • 不仅仅能换音色,还能消除口音,增强情感,甚至模仿各式各样的腔调。

事实上,不少科技大厂和巨头纷纷组建AI语音研究团队,朝着语音合成的方向暗暗发力。

大饼声音引擎,则是目前为止最集中在数字声音资产方向的生成式模型产品。其背后的AI初创公司格子互动,成立于2021年。

创始人凌天格是一位毕业于美国卡耐基梅隆计算机系的00后,团队的CTO徐颖则是前阿里巴巴语音算法专家,而CMO刘建俊曾任职于新浪、盛大及恺英网络VP,有多年的互联网经验。

这支新老搭档的团队在短短一年半的时间内前后获得源码资本奇绩创坛的两轮投资。

团队专注于声音领域,语音合成的研究与商业化。在AIGC还未成为热点的2021年就已经决定专注做声音的AI生成。而这个颇具魄力,在业内已经小有名气,极有“少年感”的团队,平均年龄只有26岁

短短半年时间,大饼变声引擎完成了多项技术的突破和上线,发布了PC实时变声客户端、以SDK形式登录声网云市场。

AIGC的价值就是把创作的门槛降到最低。试想在虚拟与现实逐渐交融的未来,每个人都可以免费、零门槛地拥有自己想要的声音,并在游戏、元宇宙等场景中使用符合自己虚拟人设的声音进行社交互动,自由开口,或许我们距离真正的“沉浸式”,又更近了一步。

用电脑搜索关键词“大饼AI”,立即前往官网免费下载体验;或点击阅读全文,了解更多大饼资讯。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/57827.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

无声语音的数字发声-Digital Voicing of Silent Speech

无声语音的数字发声 Electromyography传感器被放置在嘴部附近用来捕捉信号 摘要 此论文主要帮助“哑巴”通过EMG(electromyography)捕捉肌肉信号从而“说话”。这个论文的创新点在于,它是第一个使用EMG数据来训练语音,模型的错误…

AI拟声: 5秒内克隆您的声音并生成任意语音内容

特征 🌍 中文支持普通话并测试了多个数据集:aidatatang_200zh、magicdata、aishell3、data_aishell等。 🤩 PyTorch为 pytorch 工作,在 1.9.0 版本中测试(最新于 2021 年 8 月),GPU Tesla T4 …

想知道如何文字转语音真人发声?这3款工具轻松实现

我们在生活中有很多时候都会遇到需要将文字转语音的情况,例如为自己录制的vlog配音、自制有声小说、朗读某一新闻等等。但是却有许多小伙伴不知道如何实现这些操作,也或者是找不到合适的软件,毕竟现在市面上的工具鱼龙混杂,要找到…

手把手教你用JAVA实现“声音复刻”功能(复刻你的声音)标贝科技

手把手教你用JAVA实现“声音复刻”功能(复刻你的声音)标贝科技 前言 什么是声音复刻? 使用少量的用户声音,短时间内快速为用户量身打造个人定制音色 一、内容太长不愿意看,直接使用系列 声音复刻分为两步 &#xff…

使用20分钟语音数据进行语音复刻

最近做了一些tts方面的工作,其中一项就是音色克隆,调研了许多开源项目,经过对比发现百度的开源项目paddlespeech的效果还不错,项目的活跃度也很高,比较适合初学者或者感兴趣的同学入门。 一、语音克隆模型介绍 目前主…

一种不太聪明的电话语音识别方案

现如今ASR(语音识别技术)发展到什么阶段我不清楚,但识别率肯定是达不到100%的,识别率跟你所采用的识别模型,声音样本丰富程度,和语音文件的音质有关。 如果普通话标准,且语音文件质量可以的情况下,主流的几…

Android 集成科大讯飞语音并实现语音识别

前言:此博客内容有,集成讯飞语音sdk,实现了语音唤醒,在线语音识别,离线语音识别,更新本地离线语音词典 集成讯飞语音SDK 注册账号下载SDK 百度搜索科大讯飞,打开网站,没有账号的根…

语音合成 GAN Vocoders 总览

Loss 函数简称与全称的对应关系 Short NameFull Nameadvadversial lossFMFeature MatchingMSDMulti-Scale Discriminatormr-STFTMulti-resolution STFT lossfmr-STFTfull band Multi-resolution STFT losssmr-STFTsub band Multi-resolution STFT lossMelMel-Spectrogram Loss…

Photon01_Photon Voice 实现远程语音聊天功能

不废话,直接上步骤! 第一步: 给预制体Player添加三个组件,参数设置如图所示: 第二步: 创建空物体Voice,给空物体添加两个组件,参数设置如图所示: 第三步: …

Android开发基于科大讯飞实现语音识别

简介 通过使用科大讯飞的API开发Android APP实现语音识别 下载相应SDK 访问https://www.xfyun.cn/?jumplogin进行注册,然后创建一个应用并进行相应SDK下载 添加相应的包 打开刚刚下载的SDK,找到libs,将两个jar包复制到Android工程里 …

手语翻译系统系列之使用旭日X3派实时识别播报手语

一、准备工作 硬件部分:旭日X3派,USB免驱摄像头,电源适配器,烧录Ubuntu系统的SD卡,USB扬声器,显示屏(或者VNC/SSH远程连接) 软件部分:Thonny IDE集成开发环境 首先&…

android 打字 语音,手机聊天神器不用手写打字 说话秒变文字 允许一点家乡口音 老年人爸妈必备语音输入法...

时代在进步,如今智能手机已风靡街头巷尾。不过老年人对于新生事物的接受能力较差,手机上网沟通交流成为他们“可望而不可及”的奢望,以往老年人对手机的使用仅局限于按键通话这么简单,是不太会用微信、QQ等沟通方式打字聊天的&…

AI读心术

近期,德克萨斯大学奥斯汀分校的神经科学家们展开了一场「AI」实验,利用人工智能聊天机器人ChatGPT,将大脑活动转化为文字信息。 参与实验的志愿者,在进行长达20小时的「训练」后,成功被「AI」识别出正在进行的活动。按…

chatgpt赋能python:Python反转句子——让你的程序搞定转化难题

Python反转句子——让你的程序搞定转化难题 Python作为一门优秀的编程语言,拥有强大的数据处理能力,常被用于数据清洗、数据分析、统计计算等领域。本文将介绍Python反转句子的实现方法,并讨论其在实际应用中的运用场景。 什么是Python反转…

chatgpt赋能python:Python提取名词:利用NLP技术进行文本分析的高效方法

Python提取名词:利用NLP技术进行文本分析的高效方法 当我们需要对大量文本数据进行分析时,提取其中的名词信息是一个很有用的技巧。 Python提供了各种工具和库来进行NLP自然语言处理,帮助我们快速地实现文本分析。 本文将讨论如何使用Python…

生成式人工智能时代:研究机构与工业机构的角色之争

来源:Illustration by IconScout Store from IconScout 作者:刘鹏飞 微软创始人比尔盖茨说人生中让他印象深刻的两次技术革命演示,一次是现在操作系统的先驱“图形用户界面”,另一个就是以ChatGPT为代表的生成式人工智能技术。 一…

chatgpt赋能python:Python有什么好玩的项目

Python 有什么好玩的项目 Python 是一种多用途的编程语言,被广泛应用于网站开发、数据分析、机器学习以及科学计算等领域。但是除了这些实用的场景,Python 也有很多有趣的项目。在这篇文章中,我将介绍几个有趣的 Python 项目,带你…

用 AI 生成漂亮小姐姐(一)——Stable Diffusion 小白搭建教程

最近 AIGC、ChatGPT 等话题持续发酵,热门程度不亚于之前的 “元宇宙”。抖音、小红书到处都是机器对话、AI 绘图的视频。我看见别人生成的漂亮小姐姐图片眼馋得不行,终于按捺不住自己的好奇心,也尝试一下搭建。本文只是简单记录一下搭建过程。 △ 别人生成的漂亮小姐姐 我使…

如何用 GPT-4 帮你写游戏(以24点游戏举例)

目录 给我一个24点游戏 游戏规则 GPT给的代码 ​改进 再改进 最近呢掀起了一阵GPT-4的热潮,很多人都想用GPT-4,这里呢我就打一个广告(嘿嘿),如果不知道国内如何使用GPT的,可以看看这个博客:G…

发送Email、接收Email

邮件软件称为MUA:Mail User Agent,意思是给用户服务的邮件代理; 邮件服务器则称为MTA:Mail Transfer Agent,意思是邮件中转的代理; 最终到达的邮件服务器称为MDA:Mail Delivery Agent&#xff0…