[语音信号处理] 说话人转换 voice conversion .CycleGANVC .StarGANVC .

语音信号处理的总体结构

图1-1从这个总体结构可以看出:无论是语音识别,还是语音编码与合成,输入的语音信号首先要进行预处理。

预处理

对信号进行适当放大和增益控制,并进行反混叠滤波来消除工频信号的干扰。

数字化

将模拟信号转化为数字信号便于用计算机来处理。

提取特征

用反映语音信号特点的若干参数来代表语音。

voice conversion

我的理解:是音色转换问题的一个分支。

最近的论文:

一.CycleGAN-VC:Parallel-Data-Free Voice Conversion Using Cycle-Consistent Adversarial Networks

CycleGAN-VC:使用周期一致的对抗网络进行并行无数据语音转换
介绍CycleGAN-VC的官方网站:http://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/cyclegan-vc/

面存在困难的逐帧方法[27,30]相比,CycleGAN-VC [29]([32]中发表)使得学习序列成为可能 - 通过使用具有门控CNN [36]和身份映射损失[37]的CycleGAN [33,34,35]的基于映射函数。这允许在保留语言信息的同时捕获顺序和分层结构。通过这种改进,CycleGAN-VC的表现与并行VC方法相当[7]。

网络结构
CycleGAN-VC网络结构图生成器和鉴别器的网络架构。在输入或输出层中,h,w和c分别表示通道的高度,宽度和数量。在每个卷积层中,k,c和s分别表示内核大小,通道数和步幅大小。由于发生器是完全卷积的,它可以输入任意长度T.

Instance Norm层:可以理解为对数据做一个归一化的操作。

GLU:在门控CNN中,门控线性单元(GLUs)被用作一个激活函数,GLU是一个数据驱动的激活函数,并且门控机制允许根据先前的层状态选择性地传播信息。(为什么要用激活函数?如果不用激励函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合。如果使用的话,激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。)

门控CNN思想:模拟lstm的是否遗忘门,或者说判断权重的思想。再做一个和CNN卷积一样参数的filter, 取值0-1,判断这个序列的特征哪些应该被关注,哪些应该被忽略。

LOSS:CycleGAN- vc使用了一个对抗损失[31]和循环一致性损失[39]。此外,为了鼓励语言信息的保存,CycleGAN-VC还使用了身份映射损失[37]。
对抗性损失:为了使转换后的特征与目标y难以区分,使用对抗性损失:

1

鉴别器试图通过最大化这种损失来寻找实数和转换特征之间的最佳决策边界,而试图通过最小化这种损失来生成可以欺骗的特征。

循环一致性损失:对抗性损失只限制GX→Y (x)服从目标分布,不保证输入输出特征的语言一致性。为了进一步规范映射,使用循环一致性损失:

2
同时学习正反向映射以稳定训练。这种损失促使GX→Y, GY→X通过循环变换找到(X, Y)的最优伪对,如图1(a)所示。

标识映射损失:为了进一步鼓励保存输入,使用标识映射损失:
3
图14λcyc和λid权衡参数。在这个公式中,每个周期使用一次对抗性损失,如图1(a)所示。因此,我们称其为一步对抗性损失。

生成器:1 d CNN

CycleGAN-VC使用一维(1D) CNN作为生成器,在保留时间结构的同时,捕捉整个关系和特征方向。这可以看作是逐帧模型的直接时间扩展,该模型只捕获每帧的这些特性的关系。为了在保持输入结构的同时有效地捕获大范围的时间结构,该生成器由下采样层、残差层和上采样层组成,如图2(a)所示。另一个值得注意的地方是CycleGAN-VC使用一个门控CNN来捕捉声学特征的顺序和层次结构。

CNN中处理的是什么?
[27] T. Kaneko, H. Kameoka, N. Hojo, Y. Ijima, K. Hiramatsu, and K. Kashino, “Generative adversarial network-based postfilter for statistical parametric speech synthesis,” in Proc. ICASSP, 2017, pp. 4910–4914.
根据这篇论文来看,是光谱纹理(spectral texture)。

光谱纹理(spectral texture)–> Mel-cepstral系数(MCEP)

鉴频器:FullGAN

CycleGAN-VC使用2D CNN作为鉴别器来聚焦于2D结构(即, 2D光谱纹理)。更精确地说,如图3(a)所示,考虑到输入的整体结构,在最后一层使用全连通层来确定真实感。这样的模型称为FullGA。

二.CycleGAN-VC2: Improved CycleGAN-based Non-parallel Voice Conversion

CycleGAN-VC2:改进的基于cyclegan的非并行语音转换

论文网址:http://tongtianta.site/paper/28409

介绍CycleGAN-VC2的官方网站:http://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/cyclegan-vc2/index.html

CycleGAN-VC2网络结构图CycleGAN-VC2,它是CycleGAN-VC的改进版本,包含三种新技术:改进的目标(两步对抗性损失),改进的发生器(2-1-2D CNN))和改进的判别器(Patch GAN)。

网络结构相比CycleGAN-VC的改进:
改进目标:两步对抗性损失
统计模型的一个众所周知的问题是统计平均导致的过度平滑。式4中使用的对抗性损失有助于缓解这种退化,但是以L1表示的循环一致性损失仍然会导致过度平滑。为了减轻这种负面影响,我们引入了一个额外的鉴别器D‘X,并对循环转换的特征施加一个不利的损失,如

此处应该有式子5的图

同样,我们引入D‘Y,并对正反映射施加一个对抗损失Ladv2(GY→X, GX→Y, D’Y)。我们把这两个不利的损失加到公式4中。在这个改进的目标中,我们对每个周期使用两次对抗性损失,如图1(b)所示。因此,我们称其为两步对抗性损失。

图1

转换过程:采用该方法对包括第0个系数的MCEPs进行了转换。2本实验的目的是分析转化MCEPs的质量;因此,对于其他部分,我们使用了与VCC 2018[38]基线相似的典型方法。具体来说,在性别间转换中,采用了基于vocoder的VC方法。采用对数高斯归一化变换[47]进行转换,直接使用APs,无需修改,使用WORLD vocoder[46]进行语音合成。在性别内转换中,我们使用无vocode的VC方法[48]。更准确地说,我们计算微分mcep之间的差异的来源和转换mcep。出于类似的原因,我们没有使用任何后滤波器[41、42、49]或强大的声码器,如WaveNet声码器[50,51]。合并它们是未来工作的一个可能方向。

三.StarGAN-VC: Non-parallel many-to-many voice conversion with star generative adversarial network

StarGAN-VC:采用星形生成对抗网络的非并行多对多语音转换

论文网址:http://tongtianta.site/paper/2827

介绍StarGAN-VC:的官方网站:http://www.kecl.ntt.co.jp/people/kameoka.hirokazu/Demos/stargan-vc/

StarGAN-VC实现(github):
https://github.com/hujinsen/StarGAN-Voice-Conversion

与CVAE-VC和CycleGAN-VC不同,StarGAN-VC使用对抗性损失进行生成器训练,以鼓励生成器输出与真实语音无法区分,并确保每对属性域之间的映射将保留语言信息。值得注意的是,与CVAE-VC和CycleGAN-VC不同,StarGAN-VC在测试时不需要任何关于输入语音属性的信息。

–IMUDGES WLY

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/6666.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Google语音转文字】Speech to Text 超级好用的语音转文本API

前面有一篇博客说到了讯飞输入法,支持语音输入,也支持电脑内部音源输入,详细参考:【实时语音转文本】PC端实时语音转文本(麦克风外音&系统内部音源) 但是它只是作为一个工具来使用,如果我们想自己做一些好玩的东西…

Stable Diffusion +ChatGPT+文本转语音+剪映制作视频

目录 chatgpt免费体验入口网址 模型下载 huggingface.co civitai.com 使用Deliberate模型案例 StableDeffusion做的图片,chatGPT出的文案,微软文本转语音配的音,使用剪映做的视频 chatgpt免费体验入口网址 http://chat.xutongbao.top …

语音怎么转换成文字?分享两种语音转文字的方法

怎么把语音文件中的内容转换成文字呢?大家在日常的学习和办公过程中,在遇到一些重要内容或者是讲话,是不是会有将它录成语音的经历?因为这样会方便我们及时记录一些重要的内容,但当我们整理语音时,还要一句…

OpenAI-ChatGPT最新官方接口《语音智能转文本》全网最详细中英文实用指南和教程,助你零基础快速轻松掌握全新技术(六)(附源码)

Speech to text 语音智能转文本 Introduction 导言Quickstart 快速开始Transcriptions 转录python代码cURL代码 Translations 翻译python代码cURL代码 Supported languages 支持的语言Longer inputs 长文件输入Prompting 提示其它资料下载 Speech to text 语音转文本 Learn how…

学术界的期刊编辑如何识别通过 ChatGPT 编写出来的论文?

最近 ChatGPT 风靡全球,国外也有不少大学生使用 ChatGPT 来撰写论文,这给学术出版界的期刊编辑识别以 ChatGPT 为代表的人工智能写作出来的文章带来了很大的挑战。 咱们国内有一句古话:道高一尺,魔高一丈。 学术出版界的期刊编辑…

ChatGPT原理解释

写了一本介绍ChatGPT原理的课程 结构如下 01、介绍ChatGPT及其原理 1.1 ChatGPT的概述 1.2 什么是自然语言处理(NLP) 1.3 深度学习与NLP的关系 1.4 GPT模型的介绍 02、GPT原理探讨 2.1 GPT模型的输入与输出 2.2 GPT模型的结构 2.3 GPT模型的预训练方法…

什么?ChatGPT这么火,你没搞过实战?只用来口嗨侃大山了?

导语:AI技术在各个领域的应用越来越广泛,ChatGPT作为一款强大的自然语言处理模型,能帮助企业和个人提高工作效率和客户满意度。本文将详细介绍如何将ChatGPT集成到微信公众号上,帮助您实现自动化的客户服务和信息发布,…

ChatGPT这么火,我们能怎么办?

今天打开百度,看到这样一条热搜高居榜二:B站UP主发起停更潮,然后点进去了解一看,大体是因为最近AI创作太火,对高质量原创形成了巨大冲击! 记得之前看过一位UP主的分享,说B站UP主的年收入大体约等…

GPT-3.5(ChatGPT)训练和部署成本估算

因为ChatGPT(GPT-3.5)未正式公布参数量,暂时按照1750亿参数计算。 后续其他模型公布参数量后,可按参数量线性比例估算相关数值。 以下数值仅为理论估算,可能和实际数值相差很大,敬请谅解。 一、GPT-3.5磁…

使用ChatGPT写一篇文章

一、MyBatis中一对一关联查询概述 MyBatis是一个Java持久层框架,它提供了简单而强大的数据访问方式。在实际的开发中,我们经常需要查询两个表之间的关联数据,这就需要用到MyBatis的一对一关联查询。本文将介绍如何在MyBatis中实现一对一关联…

使用tailwindcss实现文章的快速排版

Tailwind CSS 是一个功能类优先的 CSS 框架,它集成了诸如 flex, pt-4, text-center 和 rotate-90 这样的类,它们能直接在脚本标记语言中组合起来,构建出任何设计。tailwindcss生产环境非常小,并且一切皆是响应式的。 首先来看一个…

微信公众号文章如何排版?

记得小编在刚开始接触制作公众号文章的时候,最头疼的就是文章的排版了。因为刚开始不懂也不知道该怎么设置字号,字间距,段落格式。也是狠心好好研究了很久才慢慢摸索出来一些经验,这边给大家简单的分享一下文章排班的基本设置吧 首…

ChatGPT专业应用:基于原有文章改写新文章

正文共 611 字,阅读大约需要 2 分钟 市场运营/SEO投放必备技巧,您将在2分钟后获得以下超能力: 自动改写SEO文章 Beezy评级 :B级 *经过简单的寻找, 大部分人能立刻掌握。主要节省时间。 推荐人 | Alice 编辑者 | Lind…

【ChatGPT】写一篇文章《ChatGPT 已成为下一代的新操作系统》,不少于3000字,使用markdown格式。

目录 ChatGPT 已成为下一代的新操作系统 一、ChatGPT 的发展背景 1.1 人工智能的崛起

【Unity】AI实战应用——Unity接入GPT和对游戏开发实际应用的展望

GPT for unity插件地址: GitHub - sunsvip/ChatGPTForUnity: ChatGPT for unity 用法: 打开Unity PackageManager界面.Add package from git URL粘贴插件地址添加 https://github.com/sunsvip/ChatGPTForUnity.git ————————————————————————————…

chatgpt赋能python:Python的优点和用途

Python的优点和用途 Python是一种被广泛应用的动态高级语言,被称为最易学习、最容易阅读的编程语言之一。受到世界范围内开发者的普遍青睐,目前正在不断流行。Python的优点可归纳如下: 1. 可读性强 Python语法简洁,代码可读性高…

chatgpt赋能python:Python常用单词及翻译

Python 常用单词及翻译 Python 是一个使用广泛的高级编程语言,由于其简单易用且功能强大,因此受到了许多开发者的欢迎。在学习和使用 Python 时,我们不可避免地要接触各种技术术语和单词,下面是一些常用的 Python 单词及其翻译。…

python调用chat接口

您可以通过发送HTTP请求来调用ChartGPT的API。以下是一些基本步骤: 1、首先,您需要从ChartGPT网站上获取API密钥。请登录ChartGPT网站,在“Dashboard”下找到“API Key”选项,生成一个新的API密钥。 2、安装Python的requests库。…

chatgpt赋能python:Python连接接口的一些技巧与经验

Python连接接口的一些技巧与经验 Python作为一种强大,灵活,易用的编程语言,被广泛应用于许多领域,包括数据分析,机器学习,数据可视化等等。通过Python连接接口,可以轻松实现不同软件之间的数据…

chatgpt赋能Python-pycharm怎么与python关联

Pycharm怎么与Python关联? 介绍 对于Python开发人员来说,Pycharm是一个非常强大的IDE。它提供了各种工具和功能,用于快速开发和调试Python代码。但是,在开始开发之前,必须将Pycharm与Python关联起来。否则&#xff0…