GptSoVits音频教程

GptSoVits音频教程

news/2024/11/24 0:22:06/文章来源:https://blog.csdn.net/qq_38403590/article/details/136148263

这个号称5秒克隆，或者用1分钟音频训练10分钟就能达到原声效果。

5秒的号称，只要是，什么几秒的，大家可以完全不要想了，什么知更鸟，什么火山，包括本次的GptSoVits的效果肯定是不行的，数据太短效果不可能达到。所以这些都听不出来本人的声音。

新测试，拿35秒的高质量音频训练，效果确实还可以吊打目前世面一切中文训练的。

重点关注1分钟的音频训练10分钟，是否能赶超阿里的kantts。阿里1分钟音频训练10分钟出来，音色是比较像的，但是杂音和混响严重。这也是本文的目的。

由于是测试这里就不部署linux版本，直接用作者提供的整合包

资源位置（123网盘）

GPT-SoVITS官方版下载丨最新版下载丨绿色版下载丨APP下载-123云盘

环境:

win10，我显卡是3060ti（12g显存），装了nvida驱动。内存建议16G（2条8g才60块钱，很便宜，9成新）

1.安装

由于是整合包，解压就行，这里用7z解压，因为rar压缩包里面有2个7z的文件，是2个版本的。

2.数据集准备

2.1去混响

我是干净的人声，但是有空调声，我试一下这个功能

然后会自动弹出一个新页面，进行下图操作

然后点转换，等待每一条处理完成

完毕后，UVR5-WebUI（关闭这个页面，取消对钩就行）

2.2切分文件，降低显存，用于每条每条训练

我已经是切分过的了，就不用切分了，我以前写了个程序更方便切分

https://shiao.blog.csdn.net/article/details/133700129

2.3使用funAsr进行文本标注

这边是我以前写的单独做asr标注的，这个中文效果比openAi的whisper好。

中文语音标注工具FunASR（语音识别）-CSDN博客

本文中是用他集成好的asr，修改输入和输出

之后点击开启批量ASR,看黑窗口，他会去下载模型（第一次比较慢，请耐心等待）

成功后

2.4文本校对，就是用耳朵听，看看哪个地方不对

输入刚刚合成的【文件路径】，然后勾选启动打标WebUI

稍后会弹出新页面

听声音，看哪个不对，就改掉。觉得声音完全不对的，可以勾选yes然后点deleteAudio按钮删除。

想听下一批点击next index。最后点击SaveFile。

3.训练

进入训练步骤

3.1执行特征提取

和sovits一样，推理的同样会默认保存在logs中

输入实验名，然后给定标注路径还有音频路径，点击一键三连开始训练。

3.2训练微调

参数的话我显存12G，我就调高了一点，大家也可以用默认。

点击开始sovits训练，然后看窗口，没有报错就行。

训练完成后，然后，开始GPT训练，我GPU占用率百分之40。

4.推理

4.1推理模型配置

点击推理界面，先刷新模型，然后点击推理，然后打钩

打钩后，稍等一会儿就会弹出一个推理界面

4.2推理测试

刷新模型路径，上传语音，然后输入文本，点击合成语音

结果:

效果很不错，清晰度居然超过了kantts-sambert预训练16k。但是有个别吐字错误的情况。不过效果确实不错，我训练的数据是300句录音棚数据。

参考：

语音克隆神器GPT-SoVITS，只需一分钟素材训练模型，AI文字转语音效果堪比真人 | 科技与狠活

耗时两个月自主研发的低成本AI音色克隆软件，免费送给大家！【GPT-SoVITS】_哔哩哔哩_bilibili

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/260094.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

gRPC 备查

gRPC 备查

简介 HTTP/2 HTTP/2 的三个概念架构使用流程 gRPC 的接口类型 1.单一RPC 2.服务器流式RPC 3.客户端式流式RPC 4.双向流式RPC

阅读更多...

WordPress主题YIA在广告位添加图片广告时下方有空白怎么办？

WordPress主题YIA在广告位添加图片广告时下方有空白怎么办？

YIA主题设置中默认有4个广告位，而侧边栏的广告位由站长自行添加。boke112百科在这些广告位添加图片广告后发现图片下方有空白，导致下方的两个角没有变圆角，看起来也有点不好看。具体如下图所示： 其实，这个问题就是典型…

阅读更多...

【Python】【VS Code】VS Code中python.json和setting.json文件配置说明

【Python】【VS Code】VS Code中python.json和setting.json文件配置说明

目录 1. python.json配置 2. setting.json配置 3. 解决中文乱码 4. 实现效果 1. python.json配置 python.json 获取步骤：文件 -> 首选项 -> 配置用户代码片段 -> python 此为VS Code的头文件设置，复制以下内容到 python.json {"HEADER…

阅读更多...

基于ant的图片上传组件封装(复制即可使用)

基于ant的图片上传组件封装(复制即可使用)

/*** 上传图片组件* param imgSize 图片大小限制* param data 上传数据* param disabled 是否禁用*/import React, { useState,useEffect } from react; import { Upload, Icon, message} from antd; const UploadImage ({imgSize 50,data { Directory: Image },disabled f…

阅读更多...

Eclipse - Reset Perspective

Eclipse - Reset Perspective

Eclipse - Reset Perspective 1. Window -> Perspective -> Reset Perspective2. Reset Perspective -> YesReferences 1. Window -> Perspective -> Reset Perspective 2. Reset Perspective -> Yes References [1] Yongqiang Cheng, https://yo…

阅读更多...

AtCoder Beginner Contest 341 D - Only one of two (Java)

AtCoder Beginner Contest 341 D - Only one of two (Java)

AtCoder Beginner Contest 341 D - Only one of two (Java) 比赛链接：AtCoder Beginner Contest 341 D题传送门AtCoder：D - Only one of two D题传送门洛谷：[ABC341D] Only one of two 题目：[ABC341D】 Only one of two 题目…

阅读更多...

LeetCode 0103.二叉树的锯齿形层序遍历：层序遍历 + 适时翻转

LeetCode 0103.二叉树的锯齿形层序遍历：层序遍历 + 适时翻转

【LetMeFly】103.二叉树的锯齿形层序遍历：层序遍历适时翻转力扣题目链接：https://leetcode.cn/problems/binary-tree-zigzag-level-order-traversal/ 给你二叉树的根节点 root ，返回其节点值的锯齿形层序遍历。（即先从左往…

阅读更多...

Stable Diffusion WebUI 界面介绍

Stable Diffusion WebUI 界面介绍

本文收录于《AI绘画从入门到精通》专栏，专栏总目录：点这里。大家好，我是水滴~~ 本文主要对 Stable Diffusion WebUI 的界面进行简单的介绍，让你对该 WebUI 有个大致的了解，为后面的深入学习打下一个基础。主要内容包…

阅读更多...

Vscode vim 插件使用Ctrl+C和V进行复制粘贴到剪切板

Vscode vim 插件使用Ctrl+C和V进行复制粘贴到剪切板

Vscode vim 插件使用CtrlC和V进行复制粘贴到剪切板使用这一个插件的时候复制粘贴和其他软件互动的时候体验不好, 并且不可以用Ctrl c, Ctrl v很不爽 "vim.commandLineModeKeyBindings": [{"before" : ["Ctrl", "c"],"after&q…

阅读更多...

LabVIEW高速信号测量与存储

LabVIEW高速信号测量与存储

LabVIEW高速信号测量与存储介绍了LabVIEW开发的高速信号测量与存储系统，解决实验研究中信号捕获的速度和准确性问题。通过高效的数据处理和存储解决方案，本系统为用户提供了一种快速、可靠的信号测量方法。项目背景在科学研究和工业应用中&#xf…

阅读更多...

爱上JVM——常见问题（一）：JVM组成

爱上JVM——常见问题（一）：JVM组成

1 JVM组成 1.1 JVM由那些部分组成，运行流程是什么？ 难易程度：☆☆☆ 出现频率：☆☆☆☆ JVM是什么 Java Virtual Machine Java程序的运行环境（java二进制字节码的运行环境） 好处： 一次编写&…

阅读更多...

【4.1计算机网络】TCP-IP协议簇

【4.1计算机网络】TCP-IP协议簇

目录 1.OSI七层模型2.常见协议及默认端口3.TCP与UDP的区别 1.OSI七层模型 osi七层模型： 1.应用层 2.表示层 3.会话层 4.传输层：TCP为可靠的传输层协议。 5.网络层 6.数据链路层 7.物理层 2.常见协议及默认端口 3.TCP与UDP的区别例题1. 解析&#xff1…

阅读更多...

XR行业首家｜李未可科技通过深度合成服务算法备案

XR行业首家｜李未可科技通过深度合成服务算法备案

2月18日，国家网信办发布第四批深度合成服务算法备案。根据《互联网信息服务深度合成管理规定》第十九条规定，具有舆论属性或者社会动员能力的深度合成服务提供者，应当按照《互联网信息服务算法推荐管理规定》履行备案和变更、注销备案手续。…

阅读更多...

2.19作业

2.19作业

1.使用fread,fwrite完成两个文件之间的拷贝程序代码： #include <myhead.h>int main(int argc, const char *argv[]) {if(argc!3){printf("input file error\n");printf("usage:./a.out srcfile destfile\n");return -1;}FILE *fpNULL;…

阅读更多...

【JavaEE】_HTTP响应

【JavaEE】_HTTP响应

目录 1. 首行 2. 报头header 3.空行 4. 正文body 1. 首行响应首行：版本号状态码状态码描述； HTTP状态码描述了这次响应的结果（比如成功、失败，以及失败原因等）； 1. HTTP状态码有： &#…

阅读更多...

华为配置旁挂二层组网隧道转发示例

华为配置旁挂二层组网隧道转发示例

配置旁挂二层组网隧道转发示例组网图形业务需求组网需求数据规划配置思路配置注意事项操作步骤配置文件扩展阅读业务需求企业用户通过WLAN接入网络，以满足移动办公的最基本需求。且在覆盖区域内移动发生漫游时，不影响用户的业务使用。组网需求 AC组…

阅读更多...

嵌入式学习-C++-Day6

嵌入式学习-C++-Day6

思维导图作业以下是一个简单的比喻，将多态概念与生活中的实际情况相联系： 比喻：动物园的讲解员和动物表演想象一下你去了一家动物园，看到了许多不同种类的动物，如狮子、大象、猴子等。现在，动物园里有一…

阅读更多...

树状数组算法模版

树状数组算法模版

树状数组算法模版树状数组算法原理基本操作模版题树状数组算法原理这里注意：C[x]的含义和lowbit()函数基本操作最基本的操作主要是两种 1.改变某个数（单点修改） 2.区间查询模版题 #include<iostream> #include<cstdio>usin…

阅读更多...

NS安装-CentOS服务器安装Nightscout CGM

NS安装-CentOS服务器安装Nightscout CGM

NS CGM 安装必要条件有自己的云服务器好像没有2，有云服务器就行了安装顺序先安装数据库，目前支持的是 MongoDB ，官方推荐4，其实目前最新版本就行。可以用宝塔安装，比较简单克隆代码，我是放到 /opt/ns…

阅读更多...

Django实战：部署项目【资产管理系统】，Django完整项目学习研究（项目全解析，部署教程，非常详细）

Django实战：部署项目【资产管理系统】，Django完整项目学习研究（项目全解析，部署教程，非常详细）

导言关于Django，我已经和大家分享了一些知识，考虑到一些伙伴需要在实际的项目中去理解。所以我上传了一套Django的项目学习源码，已经和本文章进行了绑定。大家可以自行下载学习，考虑到一些伙伴是初学者，几年前&#…

阅读更多...

最新文章

推荐文章