GPT-Sovits-1-数据处理

1.1 切割音频

将音频切割为多个10s内的片段

1.2 降噪

这一步用的是modelscope的pipeline

如果要去除背景音,可以用傅立叶转为为频谱,去除低频部分后再转回来

1.3 提取音频特征

这里用到了 funasr 库

这一步目的是输出音频样本的《文本标签文件》,名字为“denoise_opt.list”,内容格式如下:

音频样本的路径 | 标签 | 文本

样例:

./m4a_0000017280_0000207040.wav|denoise_opt|ZH|人高马大欺负女人,该打我最看不起不尊重女性的男人。
./m4a_0000209600_0000594240.wav|denoise_opt|ZH|如果你觉得我不对的话,你马上报啊头套还了一人做事,一人当刚才那个杂碎呢,我变得很happy.如果局长觉得我做的不对呢,随时整死我。
./m4a_0000594240_0000740160.wav|denoise_opt|ZH|这是我们应该做什么,没什么特别单位哪个部门最危险的。
./m4a_0000740160_0000903040.wav|denoise_opt|ZH|我想去,其实不知道,我知道这份资料写的很详细啊,这个案子很危险的。
./m4a_0000903040_0001033600.wav|denoise_opt|ZH|嗯,但是我向来是享受危险。
./m4a_0001033600_0001362880.wav|denoise_opt|ZH|回家吃晚饭,现在你去真是好无行,我怎么做,你不要不问行不行,你得找错事。
./m4a_0001362880_0001457600.wav|denoise_opt|ZH|以后在我面前,不准说我们的坏话。

操作界面如下:
在这里插入图片描述

2.数据进一步处理

数据的处理还有进一步操作,即格式化微调模型所需数据 ,其输出放在“./logs”文件夹下

位置在 <<1-GPT-SoVITS-TTs>>下的<<1Aa-文本内容提取>>, 界面如下:
在这里插入图片描述

2.1 文本获取

  • 1Aa-文本内容提取

通过<GPT_SoVITS/pretrained_models/chinese-roberta-wwm-ext-large>模型,输入文本标注文件,logs文件夹下得到:

<2-name2text.txt>文件 和 ❤️-bert>文件夹

- 2-name2text.txt: 音素化的文本词向量表(phoneme-tokenization) - 执行’./GPT_SoVITS/prepare_datasets/1-get-text.py'文件内容格式为:name, phones, word2ph(文字的音素长度, 1或2个单位), norm_text样例:
wmd1.m4a_0000017280_0000207040.wav	r en2 g ao1 m a3 d a4 q i1 f u5 n v3 r en2 , g ai1 d a2 w o3 z ui4 k an4 b u5 q i3 b u4 z un1 zh ong4 n v3 x ing4 d e5 n an2 r en2 .	[2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1]	人高马大欺负女人,该打我最看不起不尊重女性的男人.
wmd1.m4a_0000594240_0000740160.wav	zh e4 sh ir4 w o3 m en5 y ing1 g ai1 z uo4 sh en2 m e5 , m ei2 sh en2 m e5 t e4 b ie2 d an1 w ei4 n a3 g e5 b u4 m en2 z ui4 w ei1 x ian3 d e5 .	[2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1]	这是我们应该做什么,没什么特别单位哪个部门最危险的.
-  3-bert文件夹文件夹内是音频片段的robert提取特征,size = [1024, length]

2.2 语音特征压缩

这里通过hubert压缩语音特征,用于微调模型的输入

- 1Ab-SSL自监督特征提取  通过<GPT_SoVITS/pretrained_models/chinese-hubert-base>模型,  logs文件夹下得到:- 4-cnhubert 文件夹文件夹内是音频片段的hubert抽取特征: size = [batch_size, 768, length]- 5-wav32k文件夹文件夹内是音频片段的32k重采样频率音频

2.3 语义token获取

  • 1Ac-语义token提取

这个得到llm的语义token,放在:

- 6-name2semantic文件夹

这里执行的是‘GPT_SoVITS/prepare_datasets/3-get-semantic.py’文件, 文件代码逻辑包括:

- 1.将<4-cnhubert>文件夹内的特征,输入入VITS的音频生成器:SynthesizerTrn
- 2. SynthesizerTrn输出得到里面的语义输出向量:semantic_code
- 3.将输出保存为tsv表格文件,数据格式如下:
item_name	semantic_audio
wmd1.m4a_0000017280_0000207040.wav	208 14 160 160 103 656 334 433 451 200 877 956 136 215 80 436 451 65 5 965 566 848 221 631 560 647 359 807 844 320 559 358 674 708 51 527 918 220 929 914 825 362 842 95 555 599 409 219 452 337 366 187 187 138 905 577 554 26 938 787 7 201 781 1011 1017 141 659 62 393 858 795 321 321 980 44 718 237 699 623 623 1005 451 1005 221 1001 451 318 208 242 96 3 961 71 613 1011 650 241 361 172 944 63 621 84 946 374 889 529 546 787 1001 823 26 539 46 527 35 512 527 909 497 7 997 187 1003 671 767 385 255 11 948 841 183 886 734 844 516 49 760 1001 23 365 203 814 232 576 232 59 1005
wmd1.m4a_0000594240_0000740160.wav	509 390 606 175 387 869 918 71 324 257 55 181 416 769 831 289 15 55 562 947 790 233 803 813 687 340 696 168 718 731 577 588 175 256 213 738 625 215 758 103 930 727 182 397 459 501 101 594 108 143 64 997 201 183 31 103 103 132 1021 909 341 432 625 837 653 10 1018 878 207 988 62 82 172 499 456 65 11 859 886 534 257 277 79 341 427 20 205 430 897 420 201 60 1003 139 841 456 544 788 243 539 153 526 215 1001 208 318 965 454 601 102 258 612 160
wmd1.m4a_0000903040_0001033600.wav	14 1001 787 533 533 172 632 341 420 670 670 357 477 33 581 565 758 758 14 14 593 758 160 208 208 14 570 65 203 515 457 1001 565 96 430 522 40 389 685 605 692 629 661 777 376 685 950 319 781 413 854 589 603 45 281 376 703 1003 659 923 656 916 603 392 245 194 70 717 129 513 745 172 854 738 1017 581 797 797 797 3 647 65 1005 27 90 451 14 214 272 366 910 814 566 479 538 526 858 456 16 127 844
wmd1.m4a_0001362880_0001457600.wav	913 474 953 774 953 273 382 5 714 602 642 1017 443 591 354 202 877 1020 682 85 515 82 409 188 661 701 148 345 345 20 59 33 172 51 964 164 474 707 956 860 711 556 708 333 917 187 691 893 233 449 780 255 216 37 841 700 873 758 199 219 123 92 433 909 842 69 746 190 602 208 215 23 23
wmd1.m4a_0000209600_0000594240.wav	539 559 726 420 813 19 713 776 395 1016 938 203 82 455 125 825 422 757 805 526 702 199 384 889 488 939 173 962 385 961 172 1000 95 429 747 173 638 803 188 842 324 400 812 243 173 205 389 225 877 625 625 1005 539 641 10 969 909 881 881 1018 200 257 69 409 259 956 784 924 924 240 418 638 27 504 27 1005 844 902 1021 909 909 625 625 758 539 186 136 526 215 208 602 318 689 348 238 172 546 138 631 644 352 480 307 186 475 55 172 724 437 66 534 1016 978 940 593 1008 962 428 221 663 797 365 76 135 936 876 576 578 194 642 601 960 803 658 649 559 964 546 688 238 653 781 358 605 95 924 219 246 645 458 354 497 410 980 406 175 774 16 910 8 417 792 306 334 55 607 734 865 202 807 517 31 581 541 556 595 908 136 436 203 541 160 160 213 871 603 203 1005 185 775 714 497 255 485 674 665 744 925 790 480 219 973 930 175 711 292 588 971 555 962 964 581 748 448 82 688 336 803 519 1011 47 747 638 742 42 265 221 813 656 33 731 983 474 903 453 354 886 461 429 31 185 334 103 368 801 389 406 504 634 239 921 703 389 727 761 33 761 390 997 963 654 306 414 107 479 21 799 599 616 754 758 1002 80 515 884 718 406 27 625 612 837 368 627 918 949 641 844 507 560 864 218 406 253 1001 160 982 27 132 679 721
wmd1.m4a_0000740160_0000903040.wav	282 526 160 208 14 1002 406 189 481 531 1 964 11 456 325 180 717 703 685 391 402 724 325 385 754 625 625 775 986 136 704 448 148 228 508 451 194 569 754 562 476 676 853 871 203 1001 760 814 773 366 920 384 55 740 727 787 134 25 791 881 962 450 514 80 7 104 547 647 365 994 461 594 703 703 854 854 746 658 416 1003 594 633 736 122 944 5 365 365 14 579 950 46 497 456 713 779 332 422 805 674 625 135 477 580 737 27 827 183 157 470 645 161 416 546 736 456 625 44 503 16 663 799 37 258 134 656 721
wmd1.m4a_0001033600_0001362880.wav	582 272 304 839 576 770 294 479 467 454 437 221 722 320 596 474 535 474 53 280 53 13 545 864 920 177 930 533 497 734 504 731 948 69 44 101 32 771 666 187 958 830 411 21 31 581 775 602 872 320 758 10 74 123 31 526 341 831 294 411 441 320 244 244 1010 283 228 695 865 816 10 328 878 714 596 23 642 239 771 438 666 761 40 448 332 458 172 391 232 491 183 456 807 438 376 172 464 172 938 160 673 560 160 160 216 520 515 845 761 1023 82 439 738 134 254 47 449 608 784 403 949 320 436 424 878 102 687 576 420 602 602 171 814 208 673 660 215 679 578 834 104 631 535 10 764 568 688 181 411 602 23 23 913 642 216 23 758 449 330 606 338 933 805 758 670 187 972 204 480 264 193 543 799 704 673 526 23 23 23 23 23 325 215 679 23 913 913 23 913 660 900 535 23 23 913 214 139 599 103 453 427 863 231 612 893 245 702 554 174 736 685 845 94 576 973 559 201 51 664 321 101 560 511 526 160 160 160 160 216 216 509 603 588 904 121 935 561 527 940 59 387 792 193 758 239 320 760 608 620 917 475 949 362 155 642 602 721

Reference

  • https://github.com/yangdongchao/SoundStorm/blob/master/soundstorm/s1/AR/models/t2s_model.py
  • https://google-research.github.io/seanet/soundstorm/examples/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/459813.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux——常见指令及其权限理解(正在更新中)

1.指令 1.1 快速了解指令 pwd 首次登录&#xff0c;默认所处的路径 whoami 当前所用的用户的名称 ls 显示当前路径下&#xff0c;文件名称 mkdir 在当前目录下&#xff0c;创建一个文件夹/目录 cd 进入一个目录 touch 新建一个文…

Kafka 物理存储机制

优质博文&#xff1a;IT-BLOG-CN 一个商业化消息队列的性能好坏&#xff0c;其文件存储机制设计是衡量一个消息队列服务技术水平和最关键指标之一。下面将从Kafka文件存储机制和物理结构角度&#xff0c;分析Kafka是如何实现高效文件存储&#xff0c;及实际应用效果。Kafka的基…

采用STM32CubeMX和HAL库的定时器应用实例

目录 STM32的通用定时器配置流程 定时器应用的硬件设计 定时器应用的软件设计 1. 通过STM32CubeMX新建工程 通过STM32CubeMX新建工程的步骤如下&#xff1a; 2. 通过Keil MDK实现工程 通过Keil MDK实现工程的步骤如下&#xff1a; STM32的通用定时器配置流程 通用定时器…

【优选算法篇】前缀之序,后缀之章:于数列深处邂逅算法的光与影

文章目录 C 前缀和详解&#xff1a;基础题解与思维分析前言第一章&#xff1a;前缀和基础应用1.1 一维前缀和模板题解法&#xff08;前缀和&#xff09;图解分析C代码实现易错点提示代码解读题目解析总结 1.2 二维前缀和模板题解法&#xff08;二维前缀和&#xff09;图解分析C…

Topaz Video AI for Mac 视频无损放大软件安装教程【保姆级,操作简单轻松上手】

Mac分享吧 文章目录 Topaz Video AI for Mac 视频无损放大软件 安装完成&#xff0c;软件打开效果一、Topaz Video AI 视频无损放大软件 Mac电脑版——v5.3.5⚠️注意事项&#xff1a;1️⃣&#xff1a;下载软件2️⃣&#xff1a;安装软件&#xff0c;将安装包从左侧拖入右侧文…

CNAS软件测试的好处有哪些?上海软件测试中心推荐

在进行软件测试或其他项目检测需要选择软件测试中心时&#xff0c;我们常常会把该公司有无资质认证考虑进去。那么CNAS认可作为检测机构或实验室的一项重要资质认证&#xff0c;我们可能会产生疑问&#xff1a;CNAS认可什么意思?CNAS软件测试又有什么好处呢? 1、CNAS认可是什…

【51 Pandas+Pyecharts | 深圳市共享单车数据分析可视化】

文章目录 &#x1f3f3;️‍&#x1f308; 1. 导入模块&#x1f3f3;️‍&#x1f308; 2. Pandas数据处理2.1 读取数据2.2 查看数据信息2.3 处理起始时间、结束时间2.4 增加骑行时长区间列2.5 增加骑行里程区间列 &#x1f3f3;️‍&#x1f308; 3. Pyecharts数据可视化3.1 各…

AMBA之AXI 总线

AMBA概述 AMBA&#xff08;Advanced Microcontroller Bus Architecture&#xff09;是ARM公司开发的一种高级微控制器总线架构&#xff0c;用于连接处理器、存储器和外设的通信。AMBA总线架构定义了一组协议和接口&#xff0c;用于实现高性能、低功耗、可扩展的系统设计。 AM…

Amcor 如何借助 Liquid UI 实现SAP PM可靠性

背景介绍 安姆科是塑料行业的全球领军企业&#xff0c;该企业认识到 SAP 工厂维护&#xff08;SAP PM&#xff09;对于确保高效的维护管理的重要性。 在诸如制造业等高度依赖机械设备的行业中&#xff0c;SAP PM是一种通过数据驱动决策来最大限度减少停机时间、降低间接成本、…

【C语言】预处理(预编译)详解(下)(C语言最终篇)

文章目录 一、#和##1.#运算符2.##运算符 二、预处理指令#undef三、条件编译1.单分支条件编译2.多分支条件编译3.判断符号是否被定义4.判断符号是否没有被定义 四、头文件的包含1.库头文件的包含2.本地头文件的包含3.嵌套包含头文件的解决方法使用条件编译指令使用预处理指令#pr…

宠物空气净化器哪个牌子好?有没有噪音低的宠物空气净化器推荐?

如今随着社会竞争越来越激烈&#xff0c;不少人开始焦虑内耗&#xff0c;但为了能更好的生活&#xff0c;养宠物便成为不少人的排忧解乏的方法。 我也不例外&#xff0c;作为一名996社畜&#xff0c;天刚亮就出门&#xff0c;天黑很久才回家&#xff0c;所以选择养猫来陪我度过…

C++设计模式创建型模式———生成器模式

文章目录 一、引言二、生成器/建造者模式三、总结 一、引言 上一篇文章我们介绍了工厂模式&#xff0c;工厂模式的主要特点是生成对象。当对象较简单时&#xff0c;可以使用简单工厂模式或工厂模式&#xff1b;而当对象相对复杂时&#xff0c;则可以选择使用抽象工厂模式。 工…

创作三周年:在忙碌中寻找灵感与快乐

目录 机缘 收获 技能的提升 粉丝的积累 正向的反馈 同行的伙伴 日常 运动 旅行 生活 憧憬 结语 机缘 不知不觉已经成为创作者3年了&#xff0c;这一路走来&#xff0c;有过高峰和低谷&#xff0c;但始终让我坚持的&#xff0c;是最初那份简单的初心&#xff1a;我…

C#从零开始学习(用户界面)(unity Lab4)

这是书本中第四个unity Lab 在这次实验中,将学习如何搭建一个开始界面 分数系统 点击球,会增加分数 public void ClickOnBall(){Score;}在OneBallBehaviour类添加下列方法 void OnMouseDown(){GameController controller Camera.main.GetComponent<GameController>();…

分布式搜索引擎elasticsearch操作文档操作介绍

1.DSL查询文档 elasticsearch的查询依然是基于JSON风格的DSL来实现的。 1.1.DSL查询分类 Elasticsearch提供了基于JSON的DSL&#xff08;Domain Specific Language&#xff09;来定义查询。常见的查询类型包括&#xff1a; 查询所有&#xff1a;查询出所有数据&#xff0c;…

软件系统安全保证措施,质量保证措施方案(Word原件套用)

系统安全保证措施是构建稳固防御体系的核心&#xff0c;旨在全方位保障信息系统的安全性。以下是对这七项措施的简要概述&#xff1a; 一、身份鉴别&#xff1a;采用多种认证方式&#xff0c;如密码、生物识别等&#xff0c;确保用户身份的准确无误&#xff0c;防止非法入侵。 …

玩转Docker | 使用Docker部署捕鱼网页小游戏

玩转Docker | 使用Docker部署捕鱼网页小游戏 一、项目介绍项目简介项目预览 二、系统要求环境要求环境检查Docker版本检查检查操作系统版本 三、部署捕鱼网页小游戏下载镜像创建容器检查容器状态下载项目内容查看服务监听端口安全设置 四、访问捕鱼网页小游戏五、总结 一、项目…

局域网 docker pull 使用代理拉取镜像

局域网 docker pull 使用代理拉取镜像 1、需求&#xff1a; 我有win主机&#xff0c;上面装有代理可连接dockerhub&#xff1b;我另有linux主机&#xff0c;直接pull因墙失败&#xff0c;想走win的代理访问dockerhub拉镜像&#xff1b;两台主机在同一个局域网中&#xff1b; …

c语言中结构体传参和实现位段

结构体传参 有两种方法: #include<stdio.h> struct S {int data[1000];int num; }; //结构体传参 void print1(struct S s) {printf("%d\n",s.num); } //结构体地址传参 void print2(struct S *ps) {printf("%d\n",ps->num); }int main() {pr…

2024年10月HarmonyOS应用开发者基础认证全新题库

注意事项&#xff1a;切记在考试之外的设备上打开题库进行搜索&#xff0c;防止切屏三次考试自动结束&#xff0c;题目是乱序&#xff0c;每次考试&#xff0c;选项的顺序都不同 这是基础认证题库&#xff0c;不是高级认证题库注意看清楚标题 高级认证题库地址&#xff1a;20…