AI又进化了,声音克隆革命性突破

大家好,我是 Jack。

因 ChatGPT、Stable Diffusion 让 AI 在文本、图像生成领域火出了圈。

但 AI 在生成方面的能力,可不仅如此,音频领域也出现了很多优秀的项目。

我用我本人的音频数据,训练了一个 AI 模型,生成了几段歌曲,效果已经在我最新一期的视频中展示了,感兴趣的可以看下

https://www.bilibili.com/video/BV1x24y147yq

视频、教程制作不易,跪求三连支持,一个免费的赞也行

勿用技术做恶

勿用技术做恶,必须放在第一个来说。

请勿用该技术从事诈骗等违法行为,请遵守《互联网信息服务深度合成管理规定》等法律法规。

本教程仅供交流学习使用,同时,本人也不提供任何人的训练好的音频模型。

准备工作

视频里所使用的技术是 so-vits-svc,是音频转音频,属于音色转换算法,支持正常的说话,也支持歌声的音色转换。

项目不提供任何人的音频训练模型,所以想要体验,必须先自己训练模型

显卡建议使用 N 卡,且显存 8G 以上,我的显卡是 RTX 2060 S,训练自己的模型大概用了 14 个小时。

训练数据很关键,需要准备至少 1 个小时的音频,越多高质量的音频数据,效果越好。

比如我的本次训练,就是使用了我往期视频的音频数据,数据时长 1 个小时。

我家里的电脑是 Windows,所以本教程以 Windows 为例进行讲解。

我将项目所需要的代码、环境、工具,进行了打包,可以一键运行:

下载地址(网盘提取码:qi2p):

https://pan.baidu.com/s/1Jm-p_DZ2IVcNkkOYVULerg?pwd=qi2p

当然,也可以直接用作者开源的代码直接部署:

https://github.com/StarStringStudio/so-vits-svc

本项目不支持文本转音频,如果需要文本转音频,可以移步看看这个:

https://github.com/jaywalnut310/vits

准备干声数据

训练数据、还有预测推理的数据,都必须是人物的干声

也就是说,不能包括背景音、伴奏、合声等,所以无论是训练和预测,都需要对数据进行处理。

这里用到的工具是 UVR5,我提供的整合包里包含了这个工具。

在 Windows 下可以直接使用,打开软件,按照如下配置:

运行即可分离人声和伴奏:

然后再按照如下配置,去除合声:

有 Vocals_Vocals 后缀的音频就是处理后的,这个音频就可以用来训练。

不过因为音频太长,很容易爆显存,可以对音频文件进行切片,这个整合包里也提供了饮品切分工具 Audio Slicer,直接运行 slicer-gui.exe。

填写输入路径,填写输出路径,其它参数都默认即可,这样你就会得到切分好的音频段。

在项目的 so-vits-svc-4.0/dataset_raw 目录下创建一个文件夹,比如我的是 jackcui_processed,将处理好的数据放到里面:

这样数据的准备工作,手动配置的部分就完成了。

训练模型

数据预处理

接下来可以直接运行我提供的整合包里的脚本 1、数据预处理.bat。

这个脚本就是按照步骤,运行各个 py 脚本:

大约跑个几分钟,就能处理完成,处理完毕后,会在 datset/44k 下生成一个文件夹,里面的数据如下图所示:

模型训练

直接运行 2、训练.bat 即可开启训练。

如果你的显卡够好,可以增加 batch_size 提高训练速度,对应的配置文件在 configs/config.json 文件里。

这个训练时间很长,大概需要几个小时的时间。

推理预测

推理预测同理,新运行 3、训练聚类模型.bat 生成数据 pt 文件。几分钟即可跑完。

然后修改 app.py 里的这一行:

训练好的模型存放在了 logs/44k 目录下,这里改为你训练好的模型地址,以及对应的配置文件,最后是第三步生成的 pt 文件路径。

记住这里 app.py 必须改好,否则第四步会报错。

最后运行 4、推理预测.bat 文件。

程序会直接开启一个 webui,将开启的 url,直接复制到浏览器地址栏中打开即可。

就是一个简单的 Web 页面,里面的参数,可以直接使用默认的,放入一个音频,即可转换音色,很简单,这里就不展示了。

确认流程都跑通后,可以试着调整一些参数,个人影响太大,主要还是看训练数据,也就是用软件分离的干声质量。

最后

最后也再强调一下,请勿用技术做恶!

我的训练数据,只用了往期视频的音频文件,数据丰富度很差,都是叙事的语调,缺少高低音的歌唱数据。

所以效果上,高低起伏的变化少了,听起来就是,全是技巧,莫得感情。

但是如果用于普通对话的音色转换,绝对是够用了。

视频结尾也展示了一个惊艳一些的效果,歌手的数据就丰富很多了,所以效果更好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16080.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手把手教你声音克隆(so-vits-svc)

前言 随着ChatGPT的爆火,AIGC(人工智能生成内容)再一次走到人们眼前。尤其是在文本、图像生成领域,通过GPT-4、Midjourney等应用生成各种令人惊叹定的文本和图片。 但 AI 在生成方面的能力,可远非如此如此。 我用长约…

Chatgpt插件爆了,彻底爆了

新插件又双叒叕来了!继两个月前ChatGPT爆出插件功能后,这场插件狂欢真就是越来越热闹。 比如让我们更方便地创建网站: 提取YouTube视频概要: 还有像将文本转换为HQ音频,从照片中提取信息,解析代码&#xf…

说说ChatGPT的插件系统

前一段时间,ChatGPT的两大新功能上了Beta测试,其中一个功能是“Browse with Bing”,另一个功能是“插件系统”。 怎么能使用这两大功能呢?需要订阅plus账号,并且在Setting页面中打开Beta Features的两项设置&#xff1…

思维随想录--ChatGPT商业预见

思维随想录–ChatGPT商业预见 仅代表个人的一些浅见想法,不具有任何权威指导性,欢迎各位同仁批评交流! 后疫情时代,国内市场一片衰颓,百废待兴,国外头部企业裁员浪潮也是接踵而至,甚至是一度逆市…

美版头条ChatGPT上岗写稿消息一出,股价暴涨119%,此前刚裁员12%

Pine 萧箫 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT的火,真给烧到媒体行业上了! 当地时间周四,“美版今日头条”BuzzFeed宣布和OpenAI合作,未来将使用ChatGPT帮助创作内容。 据福布斯介绍,BuzzFeed联合创始人兼CEO乔…

谷歌裁员细节曝光:开源主管被裁,61岁程序员在线求职,有人60天找不到工作就被遣返...

上一篇:最新IT类offer档次排名 “开源”谷歌,竟然连开源主管也给裁了。 随着更多裁员细节曝光,不少谷歌开源项目办公室OSPO和其他开源工作的高管已经被裁。 其中甚至还包括了开源运动“先锋”,18年前创立OSPO, Chris D…

GitHub 开源了多款字体「GitHub 热点速览 v.22.48」

作者:HelloGitHub-小鱼干 本期 News 快读有 GitHub 官方大动作一下子开源了两款字体,同样大动作的还有 OpenAI 发布的对话模型 ChatGPT,引燃了一波人机对话。 项目这块,也许会成为新的 Web 开发生产力工具的 leptos 和 Python UI …

裁员潮下的中年人

作者| Mr.K 编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) “K哥,我失业快半年了,现在无时无刻不觉得自己是一个‘无用无尊严’的中年loser,我快崩溃了,K哥能帮我推荐一份工作吗?…” 近期&#xff0c…

03定格动画制作

step 1 导入素材 step 2 新建序列 step 3 编排素材 调整节奏 批量更改照片持续时间: 框选所有素材-右击-设置持续时间-8帧 或者快捷键commandR 删除空隙: 方法1:右击空隙-波纹删除 方法2:左上角序列-封闭间隙 方法3:在全选后勾选波纹删除 删除…

如何提升商家转账到零钱的免密支付额度 总限额及笔数

商家转账提供商户同时向多个用户微信零钱转账的能力,商户可以使用商家转账,用于费用的报销、员工福利发放、合作伙伴贷款及服务款项支付等多种场景,提高转账效率。 产品特点 高效:支持页面及API接口转账方式进行批量转账&#x…

Go 中实现用户的每日限额(比如一天只能领三次福利)

如果你写一个 bug 管理系统,用了这个 PeriodLimit 你就可以限制每个测试人员每天只能给你提一个 bug。工作是不是就轻松很多了?:P 如今微服务架构大行其道本质原因是因为要降低系统的整体复杂度,将系统风险均摊到子系统从而最大化保证系统的稳…

免费丨AI内行盛会!2021北京智源大会带你与图灵奖和200+位大牛一起共话AI

数据在爆炸,AI在茁壮。 从2012到2018年,深度学习模型的计算能力增长了30万倍,早已打破摩尔定律。可以预见的是,未来必然属于超大数据和超大模型,而破纪录的中文预训练生成语言模型智源“悟道2.0”发布在即,…

《花雕学AI》13:早出对策,积极应对ChatGPT带来的一系列风险和挑战

ChatGPT是一款能和人类聊天的机器人,它可以学习和理解人类语言,也可以帮人们做一些工作,比如翻译、写文章、写代码等。ChatGPT很强大,让很多人感兴趣,也让很多人担心。 使用ChatGPT有一些风险,比如数据的质…

​麻瓜+AI混合工作流试验 5:原创一个方法论,以及AI对中年人的积极一面

这次试着让AI原创了一个方法论——三见需求评估法。 题图为人类和AI在星巴克开会讨论。 我先解释下这个方法论,然后从“中年职场人”视角说一些最近的感受,最后放出和AI讨论方法论的过程。 是否要做一个需求,要考虑的方面有如人生三见&#x…

AiDD AI+软件研发数字峰会开启编程新纪元

随着OpenAI 推出全新的对话式通用人工智能工具——ChatGPT火爆出圈后,人工智能再次受到了工业界、学术界的广泛关注,并被认为向通用人工智能迈出了坚实的一步,在众多行业、领域有着广泛的应用潜力,甚至会颠覆很多领域和行业&#…

阿里云推出基于大模型的工作学习AI助手“通义听悟”

文章目录 人工智能福利文章什么是通义听语通义听语有哪些优势通义听语能做什么体验地址写在最后 ✍创作者:全栈弄潮儿 🏡 个人主页: 全栈弄潮儿的个人主页 🏙️ 个人社区,欢迎你的加入:全栈弄潮儿的个人社区…

AI数字人直播带货,用技术驱动商业革命

AI数字人直播带货是一种基于先进技术的商业形式,通过数字化的虚拟人物进行实时直播,向消费者推介商品。相对于传统的电视购物,AI数字人直播带货更加个性化、智能化,正在成为未来市场的主流。 这种商业形式依托多项技术&#xff0c…

科研团队如何探索商业化落地?这家语音AI公司用十年科学试验打了样

白交 发自 凹非寺量子位 | 公众号 QbitAI 现在,大家都在谈硬科技创新、产学研转化。 AI作为最引人注目的赛道之一,通常有两种发展模式: 互联网及传统行业巨头,利用自身业务与资源优势,通过AI降本增效、拓展新应用。科学…

要刹车?生成式AI迎新规、行业连发ChatGPT“警报”、多国考虑严监管

4月13日消息,据中国移动通信联合会元宇宙产业工作委员会网站,中国移动通信联合会元宇宙产业工作委员会、中国通信工业协会区块链专业委员会等,共同发布“关于元宇宙生成式人工智能(类 ChatGPT)应用的行业提示”。提示内…

泛在的AI与数字上帝—AI视野(五) 张江

真正厉害的东西往往是那些隐藏在幕后的无形存在,AI也是如此。那些有形有像的机器人不算什么,而真正的高手是那些无处不在的智能算法,我们将这些没有实相的程序总体称为泛在的AI。它们虽没有硬件,甚至没有用户界面,但却…