【GPT-SOVITS-02】GPT模块解析

说明:该系列文章从本人知乎账号迁入,主要原因是知乎图片附件过于模糊。

知乎专栏地址:
语音生成专栏

系列文章地址:
【GPT-SOVITS-01】源码梳理
【GPT-SOVITS-02】GPT模块解析
【GPT-SOVITS-03】SOVITS 模块-生成模型解析
【GPT-SOVITS-04】SOVITS 模块-鉴别模型解析
【GPT-SOVITS-05】SOVITS 模块-残差量化解析
【GPT-SOVITS-06】特征工程-HuBert原理

1.概述

GPT-SOVITS 的 GPT模块式实现从文本到语音编码的过程。

GPT-SOVITS 在原有的SOVITS入口加了一个残差量化层,参考Vall-E,这个量化层的输入是包含音频的文本特征和音色特征的。

AR模块的核心就是训练得到一个可以将文本转换成这个量化器输入的模型。核心代码主要在 AR包下 t2s_model.py 的 Text2SemanticDecoder类中。

训练特征包括:
在这里插入图片描述

2.训练流程

在这里插入图片描述

  • 这里 semantic 是利用音频的 hubert 自编码信息SSL,进入 sovits
    的残差量化层输出的结果,这个特征是包含文本以及音色特征
  • phoneme 特征和berf特征是针对文本的音素特征,类似拼音

3.推理流程

在这里插入图片描述

  • 推理时,phoneme和berf用的是待生成的文本特征
  • semantic 是参考音频生成的编码特征
  • 推理时,以参考音频为起点,基于文本特征,逐次向后预测 semantic编码,直到结束
  • 因此返回的结果相当于两段的拼接,因此直接截取即可

4.调试代码参考

import os,sys
import yaml,torch
sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))from  vof.ar.model.t2s_model import Text2SemanticDecoder
from vof.ar.data.data_module import Text2SemanticDataModulenow_dir   = os.getcwd()
root_dir  = os.path.dirname(now_dir)
prj_name  = 'project01'               # 项目名称
prj_dir   = root_dir + '/res/' + prj_name + '/'with open(root_dir + '/res/configs/s1longer.yaml') as f:data = f.read()data = yaml.load(data, Loader=yaml.FullLoader)s1_dir = prj_dir + 'logs'
os.makedirs("%s/logs_s1" % (s1_dir), exist_ok=True)data["train"]["batch_size"]                 = 3
data["train"]["epochs"]                     = 15
data["pretrained_s1"]                       = root_dir + '/res/pretrained_models/s1bert25hz-2kh-longer-epoch=68e-step=50232.ckpt'
data["train"]["save_every_n_epoch"]         = 5
data["train"]["if_save_every_weights"]      = True
data["train"]["if_save_latest"]             = True
data["train"]["exp_name"]                   = prj_name
data["train"]["half_weights_save_dir"]      = root_dir + '/res/weight/gpt'
data["train_semantic_path"]                 = "%s/6-name2semantic.tsv" % s1_dir
data["train_phoneme_path"]                  = "%s/2-name2text-0.txt" % s1_dir
data["train_bert_path"]                     = "%s/3-bert" % s1_dir
data["output_dir"]                          = "%s/logs_s1" % s1_dirText2SemanticDataModule = Text2SemanticDataModule(data,train_semantic_path = data["train_semantic_path"],train_phoneme_path  = data["train_phoneme_path"],train_bert_path  = data["train_bert_path"])Text2SemanticDataModule.setup()
print(Text2SemanticDataModule._train_dataset.__getitem__(0))"""
phoneme_ids: 文本转换为音素后,继续转换为 音素的编码 对应 name2text
phoneme_ids_len:音素数据长度
semantic_ids:语音编码,对应 name2semantic
semantic_ids_len:语音编码数据长度
bert_feature:bert 文本特征
"""t2smodel = Text2SemanticDecoder(data)res = Text2SemanticDataModule._train_dataset.__getitem__(0)
phoneme_ids             = res.get('phoneme_ids')
phoneme_ids_len         = res.get('phoneme_ids_len')
semantic_ids            = res.get('semantic_ids')
semantic_ids_len        = res.get('semantic_ids_len')
bert_feature            = res.get('bert_feature')# 增加一个batch 维度
x            = torch.LongTensor(phoneme_ids).unsqueeze(0)
x_len        = torch.LongTensor([phoneme_ids_len])
y            = torch.LongTensor(semantic_ids).unsqueeze(0)
y_len        = torch.LongTensor([semantic_ids_len])
bert_feature = bert_feature.unsqueeze(0).float()t2smodel.forward(x,x_len, y, y_len, bert_feature)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/278387.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ansible管理主机的清单------------inventory

目录 一、 Ansible组成 二、inventory 主机清单 (1)主机变量使用 (2)inventory 中的变量含义 (3)组变量使用 (4)组嵌套使用 三、ansible命令 一、 Ansible组成 INVENTORY:Ansible管理主机的清单 /etc/ansible/hosts 需要管理的服务清单,(将你需要管理的主机 …

机器学习-绪论

机器学习致力于研究如何通过计算的手段、利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”的形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法…

排序算法:快速排序(递归)

文章目录 一、创始人托尼霍尔的快速排序二、挖坑法三、前后指针法 所属专栏:C初阶 引言:这里所说的快速排序有三种,第一种是霍尔大佬自创的,还有一种叫做挖坑法,另外一种叫前后指针法 一、创始人托尼霍尔的快速排序 1.这里我们先…

VUE3 异步组件

概念 在大型项目中&#xff0c;我们可能需要拆分应用为更小的块&#xff0c;并仅在需要时再从服务器加载相关组件。Vue 提供了 defineAsyncComponent 方法来实现此功能&#xff1a; 使用 父组件 <template><div><asyncSon></asyncSon></div> <…

敏感信息泄露到接管云服务器

通过信息收集发现子域为xx.xx.com网站&#xff0c;打开先找功能点&#xff0c;测试登录&#xff0c;是微信扫描登录&#xff0c;自己太菜&#xff0c;测试一圈没测出来什么 指纹识别发现是js开发&#xff0c;如果登录或者找回密码不是扫码登录的话&#xff0c;八成是前端验证&a…

性能测试-Jmeter常用元件基础使用

一、Jmeter元件 #线程组 添加HTTP请求 #配置元件 配置元件内的元件都是用于进行初始化的东西 #监听器 监听器主要是用来获取我们使用取样器发送请求后的响应数据相关信息 #定时器 定时器主要用来控制我们多久后执行该取样器&#xff08;发送请求&#xff09; #前置处理器 前置处…

为什么手机和电视ip地址不一样

在数字化时代&#xff0c;我们每天都会与各种电子设备打交道&#xff0c;其中最常见的就是手机和电视。当我们连接到互联网时&#xff0c;这些设备都会被分配一个独特的IP地址&#xff0c;用于在网络上进行标识和通信。然而&#xff0c;您可能已经注意到&#xff0c;即使手机和…

1.MongoDB的特点与应用场景

什么是 MongoDB &#xff1f; MongoDB 是基于 C 开发的 NOSQL 开源文档数据库 &#xff0c;是最像关系型数据库的 nosql&#xff0c;功能也是最丰富的 nosql&#xff0c;它具有所以的可伸缩性&#xff0c;灵活性&#xff0c;高性能&#xff0c;高扩展性的优势。 大致有如下特…

【Stable Diffusion】入门-04:不同模型分类+代表作品+常用下载网站+使用技巧

目录 1 模型简介2 模型文件构成和加载位置2.1 存储位置2.2 加载模型 3 模型下载渠道3.1 HuggingFace3.2 Civitai 4 模型分类4.1 二次元模型4.2 写实模型4.3 2.5D模型 1 模型简介 拿图片给模型训练的这个过程&#xff0c;通常被叫做“喂图”。模型学习的内容不仅包括对具体事物…

云平台基本介绍 —— 什么是云原生及云服务器的购买和使用

云原生概述 在了解什么是云原生之前&#xff0c;我们先了解一下什么是云计算 什么是云计算 云计算是一种通过互联网提供计算资源和服务的模式。它允许用户通过网络访问虚拟化的计算资源&#xff0c;包括计算能力、存储空间和应用程序&#xff0c;而无需拥有实际的物理设备。…

uniapp h5 部署

uniapp 配置 服务器文件路径 打包文件结构 //nginx 配置 server {listen 8300;server_name bfqcwebsiteapp;charset utf-8;#允许跨域请求的域&#xff0c;* 代表所有add_header Access-Control-Allow-Origin *;#允许带上cookie请求add_header Access-Control-Allow-C…

WRF模型运行教程(ububtu系统)-- IV-1.模型相关文件参数说明【namelist.wps文件、namelist.input文件】

一、namelist.wps文件 文件位置&#xff1a;Build_WRF/WPS WPS模块有主要的三大程序geogrid.exe、ungrib.exe、metgrid.exe&#xff0c;namelist.wps文件是输入到这三大程序的配置文件。 namelist.wps文件一共包括四个部分&#xff1a;share, geogrid, ungrib和metgrid。 每个主…

2、鸿蒙学习-申请调试证书和调试Profile文件

申请发布证书 发布证书由AGC颁发的、为HarmonyOS应用配置签名信息的数字证书&#xff0c;可保障软件代码完整性和发布者身份真实性。证书格式为.cer&#xff0c;包含公钥、证书指纹等信息。 说明 请确保您的开发者帐号已实名认证。每个帐号最多申请1个发布证书。 1、登录AppGa…

PyQt5使用

安装Pyqt5信号与槽使用可视化界面编辑UI (Pyside2)ui生成之后的使用(两种方法)1 ui转化为py文件 进行import2 动态调用UI文件 安装Pyqt5 pip install pyqt5-tools这时候我们使用纯代码实现一个简单的界面 from PyQt5.QtWidgets import QApplication, QMainWindow, QPushButto…

面试笔记——Redis(缓存击穿、缓存雪崩)

缓存击穿 缓存击穿&#xff08;Cache Breakdown&#xff09;&#xff1a; 当某个缓存键的缓存失效时&#xff08;如&#xff0c;过期时间&#xff09;&#xff0c;同时有大量的请求到达&#xff0c;并且这些请求都需要获取相同的数据&#xff0c;这些请求会同时绕过缓存系统&a…

豆瓣电影信息爬取与可视化分析

目录 一、项目背景 二、代码 三、总结 一、项目背景 &#xff08;1&#xff09;利用requests库采集豆瓣网分类排行榜 (“https://movie.douban.com/chart”)中各分类类别前100部电影的相关信息并存储为csv文件。 &#xff08;2&#xff09;利用获取的13个分类类别共1300部电…

Leetcode 1. 两数之和

心路历程&#xff1a; 很简单的题&#xff0c;双层暴力就可以&#xff0c;用双指针的话快一点。暴力时间复杂度O( n 2 n^2 n2)&#xff0c;双指针时间复杂度O(nlogn) O(n) O(n) O(nlogn)。 注意的点&#xff1a; 1、题目需要返回原数组的索引&#xff0c;所以排序后还需要…

x6.js 从流程图组件库中拖拽组件到画布dnd使用

上一篇已经了解到了x6.js常用功能以及使用方法。但我们使用流程图的时候还少不了一个非常重要的功能那就是拖拽组件库里的组件进来。如下图&#xff1a; 首先是布局这块&#xff0c;拖拽组件库的视图中布局无需我们去写&#xff0c;我们只需把界面搭建好。 添加组件库 1.搭建布…

开班在即 | 全栈开发与自动化测试高薪私教班,带你从0到1拿到高薪Offer

随着ChatGPT的火爆以及人工智能的崛起&#xff0c;在互联网工作的我们仿佛都感受到了职业危机。同时&#xff0c;我们也应该看到&#xff0c;人工智能技术的发展也带来了新的机遇&#xff0c;只要利用好人工智能&#xff0c;便会大大提升我们的工作效率。比如说&#xff0c;我们…

数据结构与算法Bonus-KNN问题的代码求解过程

一、问题提出 &#xff08;一&#xff09;要求 1.随机生成>10万个三维点的点云&#xff0c;并以适当方式存储 2.自行实现一个KNN算法&#xff0c;对任意Query点&#xff0c;返回最邻近的K个点 3.不允许使用第三方库(e.g.flann&#xff0c;PCL,opencv)! 4.语言任选(推荐…