【扩散模型】【文本到音频论文系列翻译二】使用指令微调LLM和潜在扩散模型的文本到音频生成

🔥 🔥🔥
github: https://github.com/declare-lab/tango
效果:https://tango-web.github.io/
论文地址:https://arxiv.org/pdf/2304.13731.pdf
数据集audiocaps下载: https://blog.csdn.net/weixin_43509698/article/details/131406337
任务描述: 文本输入生成音频,例如输入A bird is whistling.,结果会输出一只小鸟在鸣叫的声音
训练心得: audiocaps下载完成后需要按data下的json文件将音频文件的名称修改为json中的名字,即 YouTube_ID ,将音频文件采样成单通道的16KHz的文件,并根据实际修改json文件。
在这里插入图片描述

文生音频的模型架构图:
在这里插入图片描述

摘 要

  最近的大型语言 型(LLM)允许许多有趣的属性,例如,基于指令和思想链的微调,这在许多自然语言处理(NLP)任务中显著提高了零样本和少样本(Zero-Shot和Few-Shot)性能。 受这些成功 的启发 ,我们采用了这 样 一个指令调优的LLM FLAN-T5 作为文本到音频(T T A)生成的文本编码器,该任务的目标是从文本描述生成音频。先前在TT A 上的工作要么预先训练一个联合文本-音频编码器,要么使用非指令调优模型 ,如T5。因此,我们基于潜在扩散模型(LDM)的方法 (TANGO 在大多
数指标上优于最 先进 的 AudioLDM,并且在 AudioCaps 测试集上保持可比性, 尽管在小 63 倍 的 数 据集上训练LDM并保持文本编码器冻结 。 这种改进也可能归因于在训练集中采用了基于音频压力的增强 , 而之前的方法采用随机混合。

1 介绍

  随着文本到图 像 (TTI )自动生成的成功 [31-33], 许 多研究人员采用与 前 者类 似的 技术 , 也成 功地 进行了 文 本 到音 频 (TT A )生 成[17,18, 43]。 这 样 的 模型 在 媒 体制 作 中 可能 有 很强 的 潜 在价值,因 为 创作者 总是 在 寻找 适 合他 们创 作 的新 颖声 音 。这 在 原型 制作 或 小规 模项 目 中尤 其 有用 ,因 为 制作 精确的声音可能 是不 可行的 。除 此之外 ,这 些技术 还为 通用的 多模态 A I 铺 平了道 路, 可以同 时识 别和生成多种模态。
  为此 ,现 有 的作 品使 用了 大 型文 本编 码 器, 例如 , RoBERTa[ 19]和 T5[3 0], 对 要生 成的 音频 的 文本描 述 进行 编码 。 随后 , 大型 变压 器 解码 器 或扩 散模 型 生成 音 频先 验 ,随 后由 预 训练 的 VAE 解码, 然 后是 声 码 器。 相 反, 我 们假 设 用指 令 调优 的 大 型语 言 模型 (L L M)替 换 文 本 编码 器 将提 高 文本理 解和 整体 音频 生 成, 而无 需任 何 微调 ,因 为它 最近 发 现了 梯度 下降 模 仿特 性[4]。为 了 增强 训练样 本, 现 有的 方 法采 用随 机 生成 的音 频 对组 合, 以 及它 们 的描 述的 串 联。 这样 的 混合 并没 有 考虑 到 源 音 频 的整 体 压 力 水 平 , 可 能 会 导 致 更 大声 的 音 频 压 倒 更 安 静 的 音 频 。 因此 , 我 们 采 用 了Tokoz um e 等人 [3 9]建 议的 基 于压 力水 平的 混合 方法
  我们 的模 型 (TA N G O )受到 1 潜 在扩 散模 型 (L D M)[3 3]和 Au dioL D M[ 18]模型的启发。然而 ,我 们没 有使用 基于CLAP 的 嵌 入, 而是 使用 了大 型语 言模 型 (LL M), 因 为 它具 有强 大的 表征 能力 和微 调机 制,可以 帮助 学 习文 本 描述 中的 复 杂概 念。 我 们的 实验 结 果表 明 ,使 用 LL M 大 大 提 高 了文 本到 音 频的生 成, 并 且优 于最 先 进的 模 型, 即使 在 使用 显着 较 小的 数据 集 时也 是如 此 。在 图 像生 成文 献 中,之前 已经 有撒 哈拉 等人 研究 过 LL M 的 效 果。 然而 ,他 们认 为 T5 是 文本 编码 器, 它没 有在 基于 指令的 数据 集上 进行 预训 练。 FL A N-T5[3]使 用 T5 检 查点 初始 化, 并 在 1.8 K NL P 任 务的 数据 集上 进行指 令和 思维 链推 理的 微调 。 通过 利用 基于 指令 的调 优, FL A N-T5 在几个 N LP 任 务上 实 现了 最先进的性能,与具有数十亿参数的 llm 的 性能 相匹 配。
在 第 3 节中 , 我 们通 过 经验 证 明, 尽 管 L D M 在 小 63 倍 的 数 据 集 上进 行 训练 , 但 T A N G O 在Au dioCa ps 测 试集 的 大多 数 指标 上都 优于 Audio L D M 和 其 他 基线 方法 。 我们 相 信, 如 果 TA N G O在更大的数据集 (如 AudioSet )上进 行训 练 (如 Liu et al.[18]所做的), 它 将能 够提 供更 好的 结果 ,并 提高 其识别更广泛声音的能力。

本文的总体贡献有三个方面:
  1.我 们不 使 用任 何联 合 文本 -音 频编 码器 (如 CLAP)作 为 指 导。Liu 等 人 [18]声 称 ,为 了 获得 更好 的 表现, 在 训 练过 程 中 基 于 CLAP 的 音 频 指 导 是必 要 的 。在 训 练 和推 理 中 ,我 们 使 用了 一 个冻 结 指 令调整的预训练 LLM FLA N-T 5, 它具 有很 强 的文 本 表示 能力 , 用于 文本 指 导。
  2.A udioL D M 需 要 微调 RoBE RT a[1 9]文 本编 码器 来预 训练 CL AP。 然而 ,我 们在 L DM 训 练 期间 保持 FLA N-T5 文 本 编码 器冻 结。 因此 ,我 们发现 L D M 本 身能 够从 一个比 A udioL D M 小 63 倍的 训练集中学习文本到音频的概念映射和组合, 给定 一个 指令 调谐 的 LL M。
  3.为 了混 合 音频 对 以增 强数 据 , 受 Toko zu m e 等 人 的启 发 ,我 们考 虑 音频 对 的压 力水 平 ,而 不 是像 AudioL D M 这样 的 随机 组合 。 这确 保了 融 合音 频中 两 个源 音 频的 良好 表 示。

2 方 法

   如图 1 所 示 , TANGO 有 三 个 主 要 组 成 部 分:1)文本编码器, 2)潜 在 扩 散 模 型( LDM ),以及3) and iii) mel-spectogram/audio VAE。文本编码器对音频的输入描述进行编码。随后,使用文本表示 从 标 准 高 斯 噪 声 中 构 建 音 频 或 音 频 先 验 的 潜 在 表 示 , 使 用 反 向 扩 散 。 然 后 , mel-spectogram VAE 解 码 器 根据 潜 在 音频 表 示构 建 mel-spectogram。该梅尔谱图被 馈 送到 声 码 器以 生 成最 终 的 音频。
在这里插入图片描述

2.1 文本提示编码器

  我 们 使 用 预 训 练 的 LLM FL A N-T5 -L A R G E(780 M )[3] 作 为 文 本 编 码 器 (E) ,得到 t ex t 文 本 编 码τ∈ RL× d,其中 L 和 dtext分 别为 令 牌 计数 和 令牌 嵌入 大 小。 由于 在 大规 模 思维链 (CoT)和基于指令的 数 据 集上 对 FL A N -T 5 模 型 进 行 了预 训 练 ,Dai 等 人[[4] ]假 设 它 们能 够 通 过注 意 力 权重 模 拟梯 度 下 降 , 从上 下 文 信 息 中 很 好 地 学 习 新 任务 。 这 一 特 性 在 较 老 的 大 型 模 型中 是 缺 失 的 , 例 如RoB ER T a [ 19] ( Liu 等人 使 用的 [18] )和 T5 [3 0] ( Kr euk 等 人 使用 的[17])。 考 虑 到每 个 输入 样本 都 是一 个 不 同 的 任务 , 我 们 可 以 合 理 地 假 设 梯 度下 降 模 拟 特 性 在 不 微 调 文 本 编 码器 的 情 况 下 , 在 学习 文 本 和 声 学概 念 之 间 的 映 射 方 面 可 能 是 关键 的 。 更 丰 富 的 预 训 练 也 可 能 允许 编 码 器 以 更 少 的噪 声 和 丰 富 的上 下 文 更 好 地 强 调 关 键 细 节 。这 再 次 可 能 导 致 将 相 关 的 文 本 概念 更 好 地 转 化 为 声学对 应 物。 因 此, 我 们将 文 本编 码 器保 持 冻结 状 态, 假 设随 后 的反 向 扩散 过 程 (参见第 2.2 节 )能够在 构 建之 前很 好 地学 习 音频 的模 态 间映 射 。我 们还 怀 疑微 调 可能会降低 其上 下 文学 习 text能力 ,因 为 音频 模 态的 梯度 不 在预 训 练数 据集 的 分布 范围 内 。这 与 Liu 等人的[18]形 成 对比 , 他们对 预 训 练的 文 本 编码 器 进 行微 调 , 将其 作 为 文本 -音 频 联 合 表示 学 习(CL AP )的 一 部 分, 以 允 许从文 本中 预 先重 建音 频 。在 第 3 节 中, 我 们通 过经 验 证明 ,这 种 联合 表 示学 习对 于 文本 到音 频 的转换可能不是必需的。

2.2 文 本引导生成的潜在扩散模型

  潜在扩散模型 (L D M)[33]改编自 Liu 等人的 [18],目的 是在文本编码 τ 的指 导下构建音 频先验 z0 (见第 2.5节)。这本质上简 化为用参数 化的 pθ (z0|τ )近似真实先 验 q(z0 |τ )。LD M 可 以通 过正 向和 反向扩 散过 程来 实现 上述 功能 。正向 扩散 是一 个预 定噪 声参数 为 0 <1 2 β<
β<···< β<N 1 的高斯分布的马尔可夫链到 z0 的样本噪声版本
   在这里插入图片描述
在这里插入图片描述
  用 U- N et[34]对 噪 声估 计 θ 进行 参数 化, 并加 入交 叉关 注分 量, 以包 含 文本 指导 τ。 相比 之下 ,Au dioL D M[ 18]在 训 练过 程中 使用 音频 作为 指导 。在 推 理过 程中 ,它 们切 换回 文本 指导 ,因 为这 是通过 预先 训练 的联 合文 本音 频嵌 入 (CL AP)来 促 进的 。 如 2.1 节 所述 ,我 们没 有发 现音 频指 导训 练和预训练 CLA P 是 必要 的。

2.3 增强

  许多文本到图像 [28 ]和 文 本 到 音 频[ 17 ]的 工 作 已 经 显 示 了 使 用 基 于 融 合 的 增 强 样 本 进 行 训 练 以提高扩散网络的跨模态概念组成能力的有效性。因此,我们通过将现有音频对相互叠加并连接其字幕来合 成额 外 的 文 本 -音频对。与 Liu et al.[18]和 Kr euk et al.[1 7]不 同的 是, 为了 混合 音频 对, 我们 不会 随机 地将 它们 组合 起来 。根据 To koz um e 等 人 的 研究 ,我 们 转而 考虑 人类 听 觉感 知的 融 合。 具体 来 说, 我们 考 虑了 音频 压力水 平 G, 以 确 保高 压 水 平的 样 本 不会 压 倒 低压 水 平的 样 本 。音 频 样 本的 权 重(x1 )计 算 为 相对 压力级(其分布参见附 录中 的图 2 )
在这里插入图片描述
式 1 中,2 分别为两个音频样本的压力级 x1 and x2。这确保了两个音频样本的良好表示,后混音
此外,正如 Tokozum e 等人 b [39]所指 出的,声波的 能量与其振 幅的平方成 正比。因此 ,我们将 x1and x2 as 混合
在这里插入图片描述

2.4 无分类器引导

  为了引导反向扩散过程重构音频先验 z0,我们采用 文本输入 τ 的无分类器引导 [7]。在推 理过程中,
相对于传递空文本的非引导估计 θ,一个引导尺度 w控制了文本引导对噪声估计的贡献 λ,其中:

在这里插入图片描述
我们 还 训练 了 一 个模 型 ,在 训 练过 程 中 , 10 %的 样 本 的文 本 指导 被 随机 丢 弃 。我 们 发现 这 个模 型的表现与一个总是对所有样本使用文本引导的模型相当。

2.5 音 频 VAE和 声码器

  音频 变 分 自编 码 器Avariational auto-encoder (VAE)[ 13]将音频样本 m∈ R T× F 的 频 谱 压缩 为 音频先 验 z0∈ R C ×T / r× F/ r,其中 C、 T、 F、 r 分 别 为信 道 数、 时 隙 数、 频 隙数 和 压 缩级 别 。 L D M(参 见2.2 节 )使用输入-文本 引 导 τ 重建 音 频先 验 z0 - uuu。 编 码 器 和 解码 器 由 ResUNet 块 [1 5]组成,并通 过 最 大化 证 据下 界 (E L B O)[ 13]和 最 小 化 对 抗性 损 失[9]进 行 训 练。 我 们 采用 Liu 等人 b[ 18]提供的 音 频 VAE 检 查 点 。 因 此 ,我 们 使用 他 们 的最 佳 报告 设 置 ,其 中 C 和 r 分别被设置为 8 和 4。作为将 音频 - va e 解 码器 生成 的 mel-spectogram 转 换为 音频的声码器 ,我们也使用 HiFi-G A N [14]作为 Liu 等人的 [18 ]。

3 实验

3.1 数据集和训练

  Text-to-Audio生成。 我们在 AudioCaps 数据集 [12 ]上 执 行主 要 的 文本 到 音频 生 成 实验 。 该数 据 集包 含 45,4 38 个 音 频 片 段 , 与人 工 编 写 的训 练 字 幕配 对 。 验 证集 包 含 224 0 个 实 例 。 音 频片 段 长10 秒,从 Y ou Tu b e 视 频 中收 集 。 这些 片 段最 初 是 众包 的 ,作 为 音 频分 类 任务 中 更 大 的 AudioSet数据集[5]的 一部 分 。
  我们 只使 用来 自 Audio Caps 数 据 集的 成对 (文 本、 音频 )实例 来训 练 L D M。 我 们使 用 Audio Caps 测试集 作为 评估 数据 。 测试 集为 每个 音频 片 段包 含五 个人 工编 写 的字 幕。 为了 与 Liu 等 人的 工作 保持一 致 的评 价 ,我 们对 随 机选 择 的每 个 片段 使 用一 个标 题 。随 机 选择 的 标题 被 用作 文本 提 示, 我们使用它从我们的模型中生成音频信号。
  音 频 VAE 和 声 码 器。 我们使用 Liu 等 人 的 音 频 V AE 模 型 。 这 个 VAE 网络是在 A udioSet 、Au dioCa ps、 Freeso und2 和 BBC 音效库 3 (SFX )数 据集 上训 练的 。 Freesou nd 和 B BC SF X 中 较 长的音频 片段 被截 断到前 30 秒 ,然 后分 成三 个部 分, 每个 部分 10 秒。 所有 音频 片段 以 16K Hz 频率重新采样,用于训练 VA E 网络 。我 们 对 VAE 网 络使 用 4 级 压缩 和 8 个 潜在 通道 。
  我们 还使 用 Liu 等人 [18]的 声 码 器, 从 V AE 解 码 器 生成 的 mel 谱 图生 成音 频 波形 。声 码 器是 在Au dioSet 数 据集 上 训练 的 HiFi-G A N [1 4]网 络 。所 有音 频 片段 在 16 K Hz 重 新 采 样以 训练 声 码器 网络。
  模 型 、 超 参数 和 训 练细 节 我们将 FL A N-T5-L A R GE 文本 编 码器 冻结 在 T A N G O 中 ,只 训练 潜在 扩 散模型 的参 数 。扩 散模 型 基于 稳 定扩 散 U- N et 架 构 [33,34],共有 866 M 个 参 数 。 我们 在 U- N et 模 型中使用 8 个通道和 1 024 个 交叉 注意 维 度。
  我们使用学习率为 3e-5 的 Ada m W 优化器 [20]和线性学 习率调度器 进行训练。 我们在 AudioCaps 数据集上训练 了 40 个 epoch 的 模型,并报 告了具有最 佳验证损失 的检查点的 结果,这是我 们在 epoc h39 获得的。我 们使用四 个 A6000 gp u 来训 练 TA N G O,总共需 要 52 小时来训 练 40 个 epoch,在 每个 epoch 结 束时进行验 证。我们使用 每个 GPU 批处 理大小为 3(2 个 原始实例 + 1 个增 强实例 ),具 有4 个梯度累积步骤。训练的有效批大小为 3 (instan ce)∗ 4 (accum ulation)∗ 4 (GPU) = 48。

3.2 基 线 模型

  在我 们的 研 究中 ,我 们 检查 了 三种 现有 模 型:Y ang 等人的 DiffSo und, K re uk 等 人的 Audio G en, Liu等人 的 A udioL D M。 A udio G en 和 DiffS oun d 使 用文 本 嵌入 进行 条 件生 成训 练 , 而 Audio L D M 使用音 频嵌 入 来避 免配 对 文本 音 频数 据中 弱 文本 描述 的 潜在 噪声 。 A udioL D M 使用来自 C L AP 的 音频嵌 入 ,并 断 言它 们 在捕 获 跨模 态 信息 方面 是 有效 的 。这 些 模型 在 大型 数 据集 (包 括 A udioS et)上进行 了预 训 练, 并在 评 估前 对 A udioC aps 数 据 集 进行 了 微调 ,以 提 高性 能。 因 此, 将它 们 与我 们的 TANGO 模 型进 行 比较 并不 完 全公 平 。
  尽管 在一 个 小得 多的 数 据集 上 训练 ,我 们 的模 型 T A N G O 优于 在 大得 多的 数 据集 上 训练 的基 线 。我们 可能 在 很大 程度 上 将此 归 因于 LL M FL A N -T5 的 使 用 。因 此 ,我们的 模型 T A N G O 将自己与现有的三个模型区分 开来, 使 其成 为该 领 域当 前研 究 的一 个令 人 兴奋 的补 充。
  值得 注意 的是 , Liu 等人 [18]的 A udioL D M -L -Full-F T 检 查点 在 我们 的研 究中 不可 用。 因此 ,我 们使 用了 由 作 者 发 布的 Audio L D M-M-F ull-F T 检 查 点 , 该 检查 点有 416 M 个参数。这个检查点在Au dioCa ps 和 M usicCa ps 数 据集 上进 行了 微调 。在 我们 的研 究中 ,我 们使 用这 个 检查 点进 行了 主观评 估。 我们 尝试 对 Au dioCap s 数 据集 上的 AudioL D M -L -Full 检查 点进 行微 调。 然而 ,由 于缺 乏关于所使用的超参数的信息,我们无法重现 Liu 等 人的 研究 结果 。
  我 们 的 模 型 可 以 直 接 与 audio c m - l 进 行 比 较 , 因 为 它 具 有 几 乎 相 同 数 量 的 参 数 , 并 且 仅 在Au dioC aps 数 据集 上 进行 训练 。 但值 得注 意 的是 , Liu 等人 [18]并 没 有 释放 该 检查 点 ,这 使得 我 们无法对其生成的样本进行主观评价。

3.3 评价指标

客观的评价。 在这项工作 中, 我 们使 用了 两个 常用 的 客观 指标 :Frech et 音频 距离 (F A D)和 KL 散度。FA D[1 1]是 一种 感知 度量 ,改 编 自 Fech et Inc eption Distanc e (FI D ), 用于 音频 域。 与基 于参 考的 指标不 同, 它 在不 使用 任 何参 考 音频 样本 的 情况 下测 量 生成 的音 频 分布 与真 实 音频 分 布之 间的 距 离。另一 方 面 , K L 散 度[43,17 ]是 一 种 依 赖于 参 考的 度 量 ,它 根 据 预训 练 的分 类 器 生成 的 标 签计 算 原始音 频样 本和 生成 音频 样本 分布 之间 的散 度。 虽然 FAD 更 多 地 与人 类感 知有 关,但 K L 散 度捕 获了原 始 音频 信 号和 生成 音 频信 号 之间 基 于它 们 所存 在 的广 泛概 念 的相 似 性。 除 了 FA D 外,我们还使 用 Fre ch et 距 离 (FD)[ 18]作 ** 客观 指标 。** F D 与 FA D 相 似, 但它 用 PA N N 代 替了 V G Gish 分 类器。在 FA D 和 F D 中 使 用不 同的 分类 器使 我们 能够 使用 不同 的 特征 表示 来评 估生 成的 音频 的性 能。
主 观评 价。 继 Liu 等人 [18]和 Kre uk 等 人 [17]之后 ,我 们要求 六名 人类评 估人 员评估 30 个随 机选 择的基线 和 tang o 生成的音 频样 本的两 个方 面—— 整体 音频质 量 (O VL)和 与 输入 文本的 相关 性 (REL),范围从 1到 100。 评估 者精 通英语 ,并 被很好 地指 导做出 公平 的评估 。
主要的结果。 我们 在 表 1 中 报 告 了 我 们 的 主 要 比 较 研 究 。 我 们 将 我 们 提 出 的 T A N G O 方 法与DiffSo und [43 ]、 Audio G en [17 ]以 及 Au dioL D M [1 8]的各种配置进行了比较。在推理过程中,Au dioL D M 从 L D M 中采样 20 0 步 获 得 了 最 佳结 果 。 为 了公 平 比 较 , 我们 还在 T A N G O 和其他Audio L D M 实验中 使用了 200 个 推 理 步 骤 。 我 们 对 TA N G O 使 用 无 分 类 器 的 指 导 等 级 为 3。Audio LD M 在 他们 的各 种 实验 中使 用 了 {2,2 .5,3 }之 间的 指 导量 表。
  当 仅在 Audio- Cap s 数 据 集 上训 练 时 ,TA N G O 在 客 观 指 标上获得 了新 的 最 先 进的 结 果 ,得 分 为24.52 F D, 1.37 KL 和 1.5 9 F A D。 这 明显 优于 最直 接的 基线 au diocd m - l, 后者 也只 使用 A udioCa ps数据 集进 行 L DM 训 练 。我 们将 此归 因于 在 T A N G O 中使用 FLA N -T5 作 为文本编 码器 。我 们 还注意到, TA N G O 的 性 能匹 配或优于 Audio L D M-* -F T 模 型 ,后 者使 用了 显著 (~ 63 倍 )更 大的 数据 集进 行L D M 训练。 Audio L D M-*-F T 模 型 使用 了两 个阶 段 的 L D M 训 练— —首 先 在四 个数 据集 的集 合 上,然后 只在 Au dioCaps 上 。因 此 ,与 Audio L D M- *-F T 型 号系 列 相比 , TA N G O 具 有 更高 的采 样效率。
  在 主观 评 价 方 面, T A N G O 也 显示出非常好的结果,其整体音频质量得分为 85. 94,相关性得分为 80.36,表 明 其音 频 生成 能力 明 显优 于 A udio LD M 和其 他 基线 文 本到 音频 生 成方 法。
  表 1:T A N G O 模 型与 基线 TTA 模 型 的 比较 。F T 表 示该 模型 在 Au dioc aps ( A C)数 据 集 上进 行了 微 调。AS 和 AC 分别代表 Au dioSet 和 Audio cC aps 数 据 集。 除了 A udio L D M-L-F ull 外, 我 们借 用 了 [18]的所 有结 果 , Audio L D M -L -Full 是 使用 作 者在 Hu ggingf a ce 上 发 布的 模型 进 行评 估的 。 尽管 L D M是在 一个 小 得多 的数 据 集上 训 练的 , 但 TA N G O 在 客 观 和 主 观指 标上 都 优于 AudioL D M 和其他基线 TTA 模型 。表 示 使用 L iu 等 人释 放的 检 查点 获 得结 果 。[18]。
在这里插入图片描述

  表 2:在 大型 数据 集的 语料 库上 训练 时, T A N G O 和 基线 TT A 模 型 的 比较 。T A N G O-Full-F T 首先在 包含 AudioSet 、 A udioCa ps 、 Frees ound 和 BBC 数据集样本的语料库上进行预训练,然后对AudioC aps 进 行微 调。
在这里插入图片描述
  大数据集上的训练。 在本实 验 中 , 我 们 遵 循 两 个 步 骤 来 提 高 T A N G O 的 性 能 。 首先,我们使用来 自 Wav Ca ps[ 24]、 A udio Ca ps 、 ES C[ 26]、 Ur b an- S ou nd [3 6]、 Music C aps [1]、 G T Z A N [4 0]和Musica l Instrum e ntsda ta set4 的文本提示 和 音 频样 本 组 成 的 不 同 语 料 库 进 行 预训 练 。 数 据 集 统 计表 3。所 有超 过 10 秒 的音 频片 段被 分割 成连 续 10 秒 或更 短的 分区 。我 们还 将所 有音 频片 段重 新采样到 16 K Hz。 Wav Ca ps 数 据 集由 chatgpt 为 FreeS ound5、 BBC 音效 6 (SF X)和 AudioS et 强 标记 子集生 成的 字幕 组成 。城 市声 音 和 ESC50 数 据 集包 含各 种环 境声 音。 乐器 数据 集包 含吉 他、 鼓、 小提琴 和钢 琴乐 器的 声音 。 GT Z A N 数 据集 包含 不同 音乐 类型 的 声音 -古典 ,爵 士等 。这 四个 数据 集 -城市 声音 , ESC50, 乐 器, G TZ A N 是 音 频分 类数 据集 。我 们使 用分 类标 签, 例如 钢琴 和一 个更 自然的钢琴提示音,为这 些数 据集 的每 个音 频样 本创 建两 个不 同的 训练 实例 。
最初 的预 训 练阶 段旨 在 获取 对 音频 和文 本 交互 的广 泛 理解 。接 下 来, 我 们针 对 A udioC aps 数据集
  对预 训练 模 型进 行微 调 。所 获 得的 结果 如表 2 所 示 ,表 明与 A udio L D M 家 族 中 的类 似 模型相比 ,T A N G O -F U LL-F T 实 现 了 显 着 的 性能 改 进 。这 些 可 比模 型 经 历了 相 同 的预 训 练 和 微调 方 法 ,突 出了我 们的 方 法在 提高 模 型整 体 性能 方面 的 有效 性。 我 们使 用 4 个 A60 00 gpu 对 T A N G O 进 行 了持续 20 万 步的 预 训练 。为 了 优化 训 练过 程, 我 们将 每 个 GP U 的 批 大 小设 置 为 2,并 采 用 8 个梯 度累积 步骤 , 这有 效地 将 批大 小 增加到 64 个 。 我 们在 Au dioCa ps 上 微 调了 57 K 步 的 模型 。 为了 帮助 TTA 中的 开源 研 究, 我们 公 开发 布了 这 个数 据集 。
在这里插入图片描述
  不同数据增强策略的效果。 表 4 给出了随机和相对基于压力的数据增强策略的比较。值得注意的是,基于相对压力的增强策略产生了最有希望的结果。在评估 T A N G O 与 A u dio L D M -L 时 ,两者都使用随机数据增强策略, T A N G O 在三个客观指标中的两个方面优 于 Au dio L D M -L。 这一显著的改进可归功于在 T A N G O 中集成了一个强大的大型语言模型( F L A N -T5 )作 为 文 本 提 示编码器。
表 4:随机与相对压力引导增强对客观评估指标的影响。以3 和 200 个推理步骤的指导量表计算得分。
在这里插入图片描述
  推 理 步 骤 与 无分 类 器 引导 的 效 果 。 推理步数 和 无分 类器 引 导尺 度 对于 从 潜在 扩 散模 型 中采 样 至关 重要 [38,7]。 我 们 在表 5 中报 告了 不 同步 数 和不 同制 导 尺度 对 Audio Ca ps 中音 频 生成 的影 响 。我 们发现 ,指 导 等级 为 3 的 T A N G O 提 供 了 最 好的 结果。 在 表 5 的左 侧 部分 , 我们 固定 了 3 的 指导 尺度, 并 将步 数 从 10 变化到 200。 随 着 步 数的 增 加, 生 成的 音 频质 量 和最 终 的客 观 指标 始 终变 得更好 。 Liu et al.[ 18]报道, Au dioL D M 的性能在 100 步 左右 趋于 平 稳, 200 步 只 提供 略微 更 好的 性能。 然而 , 我们 注意 到 ,当 T A N G O 的 推 理 步骤 从 100 步 增加 到 200 步 时, 性 能有 了实 质 性的 提高,这表明更多的推 理步 骤可 能 会进 一步 提 高性 能 。
在这里插入图片描述
  我们在 表 5 的 右半 部分报 告了 用固定 的 100 步改 变指导 量表 的效果 。第 一行使 用 1 的引导 尺度 ,因此 在推 理 过程 中 有效 地完 全 不应 用无 分 类器 的 引导 。不 出 所料 ,这 种 配置 的 性能 很差 , 在所 有客观度 量上远 远落 后于无 分类 器引导 模型 。指导 分值为 2.5,F D 和 K L 较 好, 指导 分值为 5。在 指导尺度为 3 时,得到最 佳 FA D 指标, 指导 尺度越 大, 指标越 差。
  时序建模 (Temporal Sequence modeling). 我们 分析 了 当 文本 提 示 包含 多 个 连续 事 件 时, T A N G O 和AudioL D M 模 型如何 执行 音频 生成。 考虑 下面的 例子 :一 个小男孩说话,然 后是 塑料叮当声,然后 是一个孩 子笑, 其 中包 含 三 个 独立 的 连 续事件,而滚雷和闪电 只 包含 一 个 。我们使用时态标识符 (while、befor e、 after、 then 和 follows)将 Au dioCaps 测 试集 分离 为两 个子集 ,一 个具 有多个 事件 ,另 一个具有单 个事件 。我 们在表 6 中 显示 了这些 子集 上音频 生成 的客观 评估 结果。 T A N GO 在 多个事 件和单个事 件实例 中都 能获得 最佳 的 F D 和 FA D 分 数。 Audio L D M-M-Full-F T 模型的 K L 散度 得分 最高。我们推 测,与 无参 考的 F D 和 F A D 指 标不 同,来 自 Au dioL D M 中 四个 训练数 据集 的更大 语料 库可能更有助于改进基于参考的 K L 指 标.
  表 6:A udioC ap s 测 试集 中 文本 提示 符 中存 在多 个 事件 或 单个 事件 时 音频 生成 的 客观 评估 结 果。 多个事 件和 单 个事 件子 集 共同 构 成了 整个 AudioC aps 测 试 集 。需 要注 意 的是 , F D 和 F AD 是语料库级别 的非 线 性指 标, 因 此 表 1 中 报告 的 F D 和 F A D 分 数 并 不是 本 表中 报告 的 子集 分数 的 平均 值 。
在这里插入图片描述
  性能与标签数量的关系。 回想一下, A udioCaps 数据集是根据 AudioS et 数 据 集中 音 频分 类 任务 的注释 进行 策 划的 。因 此 , Au dioCa ps 中 的文 本 提示 可以 与 Au dioSet 的 离散 类 标签 配对 。 A udioSet数据 集 总共 包 含 632 个 音 频 事件 类 。例 如 ,一个女人 和一 个婴 儿正在 进行 对话, 其 对 应的 音 频片 段有以 下三 个 标签 :Speech, C hil d Speech ki d s peaki ng, Insi de s mall room。我 们 在 Au dioCa ps 中对 具 有一 个标签 、 两 个标 签 和 多个 (两 个 或 更多)标 签 的 实 例进 行 分组 , 并 跨客 观 指 标评 估 生 成的 音 频 。我 们在 表 7 中报 告 了实 验结 果 。 TA N G O 在 从 带有 一 个标 签 或两 个标 签 的文 本生 成 音频 的所 有 客观 指标上 都优于 Au dioL D M 模 型 。 对 于具 有 多个 标签 的 文本 , Au dioL D M 获得了更好的 KL 发散分数,T A N G O 获得了更好 的 F D 和 F AD 分 数 。 有趣 的 是, 随 着标 签的 增 加, 所有 的 模型 都获 得 了更 好的 FD 和 KL 分 数, 这 表明 扩 散模 型更 有 效地 处理 了 这些 文本 提 示。
表 7: 对 于 包 含 一 个 、 两 个 或 多 个(两 个 或 更 多 )标 签 的 文 本 , A udioC aps 中 音 频 生 成 的 性 能 。
  Au dioC aps 中 的每 个 文本 都有 A udioSet 中 相应 的多 类 别标 签 。我 们使 用 这些 标签 将 Au dioCa ps 数据集划分为三个子集。
在这里插入图片描述
  增 压 的 影 响和 相 对 压力 水 平 §增 压 的 分 布 我们在前面 的 2.3 节 中描 述了 我们 的增 压策 略。 方程 (9)中相对 压力 水平 p 在 训练 样本 中的 分布 如图 2 所 示, 这意 味着 相 对压 力水 平大 致为 正态 分布 ,许 多样本 的相 对 压力 水 平较 低, 这 可能 在随 机 混合 中表 现 不佳 。 相比 之下 , 我们 的方 法 允许 更公 平 的混合。
在这里插入图片描述
  表 8:A udioC aps 数 据 集 中 最常 见 类别 的 Audio L D M - M -Full FT 和 T A N G O 性 能“ CE B” 表 示 通 道、环境和背景声音 类别 。
在这里插入图片描述
  分类模型。 AudioSet 中的类 标签 可以 分层 排列 ,获 得以 下顶 级类 别:i)人 类声 音, ii)动物 声音 ,iii)自然声音,iv)声音事物 , v)通道 , 环境 ,背 景声 音 , vi)源 模糊 的声 音 ,以 及 vii)音 乐。 我们 将 A udioCa ps 中 的类 标签映 射到 上面 列出 的七 个主 要类 别。 音乐 类别 在 Au dioCa ps 中 非常 罕见 ,其 他类 别要 么单 独出 现,要么 与其 他类 别组 合在 一起 。我 们选 择最 常出 现的 类别 组合 ,并 分析 表 8 中构成 AudioC aps 实 例的各 种模 型的 性能 。这 两个 模型 的性 能在 F D 和 KL 指 标 上相 当平 衡, T A N G O 在 某些 方面 更好 ,而 AudioL D M 在 其 他方 面 更好 。然 而, 除了 一组 之 外, T A N G O 在 所 有组 中都 取得 了更好 的 FA D分数,在(人类,动 物 ), (自 然), (事物 )和(自然 ,事 物 )类 别中 有 很大 的改 进。

4 相 关 作品

  扩散模型。 近年 来, 扩 散 模 型作 为 生 成 高质 量 语 音 的主 要 方 法 激增[2,1 6,27, 28,1 0,8]。这些模型利用固 定 数 量的 马 尔 可夫 链 步 骤将 白 噪 声信 号 转 换为 结 构 化波 形 。其 中 , FastDiff 在 高 质 量 语音 合成 [8]方 面 取得 了 显著 的 效果 。 通过 利 用时 间 感 知扩 散 过程 堆 栈, FastDiff 可 以 以 令 人印 象 深刻 的速度 生成 卓越 质量 的语 音样 本, 比 V10 0 GPU 上 的 实时 速度 快 58 倍 ,使 其适 用于 语音 合成 部署 。在端 到 端文 本 到语 音合 成 方面 , 它超 越 了其 他 现有 的方 法 。另 一 个值 得 注意 的 音频 合成 概 率模 型是 Diff Wa ve[ 16], 它 是非 自回 归的 ,为 各种 波形 生成 任务 生成 高保 真音 频, 包括 基于 mel 谱图 的神经 语 音编 码、 类 条件 生 成和 无 条件 生 成。 Diff Wa ve 提 供 的 语 音质 量 与强 大 的 Wav e N et 声码 器[25]相 当 , 同 时 合成 音 频 的速 度 要 快得 多 。 扩散 模 型 已经 成 为 一种 很 有 前途 的 语 音处 理 方 法, 特别是 在语 音增 强方 面 [21,37,2 9,22 ]。 扩散 概率 模型 的最 新进 展导 致了 一种 新的 语音 增强 算法 的发 展,该 算法 将 有 噪声 语 音 信号 的 特 征纳 入 正 向和 反 向 扩散 过 程[23]。 这 种 新 算法 是 概 率扩 散 模 型的 一种广 义 形式 , 被称 为条 件 扩散 概 率模 型 。在 其 反向 过程 中 ,它 可 以适 应 估计 语 音信 号中 的 非高 斯实噪 声, 使得 其在 提高 语音 质 量方 面非 常有 效。 此外 , Qiu 等 人[29]提出了 SRT Net, 这是 一种 用于语 音 增强 的 新方 法, 将 扩散 模 型作 为 随机 细 化的 模块 。 所提 出 的方 法 包括 确 定性 模块 和 随机 模块的 联合 网络 ,形 成了 “ 增强 -细化 ”范 式 。本 文还 对所 提出 的方 法的 可 行性 进行 了理 论论 证, 并给出了支持其有效性的实验结果,突出了其在提高语音质量方面的潜力。
  Text-to-Audio生成。 文本到音频 生成 领域 直 到最 近 才得 到有 限 的关 注 [17,4 3]。 在 Y ang 等人的[43]中, 使 用文 本编 码 器来 获 取文 本 特征 , 然后 由非 自 回归 解 码器 处 理以 生 成谱 图令 牌 。这 些 标记 被馈送 到矢 量 量化 V AE ( V Q - V A E)以 生 成声 谱图 , 声码 器 使用 该声 谱 图生 成音 频 。非 自回 归 解码 器是 一个 概 率 扩散 模 型 。 此外 ,Y an g 等 人 引 入 了一 种 新 的 数据 增 强 技 术, 称 为 基于 掩 码 的 文本 生成 策略 ( MB T G ), 该 技 术屏 蔽 了 不 代表 任 何 事 件的 输 入 文 本部 分 , 例如 那 些 表 示时 间 性 的 部分 。M BT G 的 目 的 是在 训练 过 程中 从音 频 中学 习增 强 文本 描 述。 虽然 这 种方 法看 起 来很 有前 途 ,但 它的 根本 限 制 是生 成 的 数 据缺 乏 多 样 性, 因 为 它无 法 混 合 不同 的 音 频样 本 。 后 来, Kre uk 等 人[1 7]对该 方 法进 行了 修 正, 根 据随 机 信噪 比 混合 音频 信 号, 并 将相 应 的文 本 描述 串接 起 来。 这 种方 法允许 生成 新 的 (文 本 、音 频)对, 并 减轻了 Y an g 等 人 的 限制 。与 Y an g 等 人 [43]不同,Kr eu k 等 人提出的架构[17]使用 变 压器 编码 器 和解 码器 网 络从 文 本输 入自 回 归地 生成 音 频令 牌。
  最近 , Liu 等 人提 出 了 A udioL D M, 将 文 本 到 视觉 的 潜在 扩散 模 型转 化 为文 本 到音 频的 生 成。 他们 预先 训 练 了基 于 va e 的编码器-解 码 器 网络 来 学 习音 频 的 压缩 潜 在 表示 , 然 后 用它 来 指 导扩 散模型 从 文本 输入 生 成音 频 令牌 。 他们 发 现, 在反 向 扩散 过 程中 使 用音 频 嵌入 而不 是 文本 嵌 入改 善了条 件音 频 生成 。 在推 理期 间 ,他 们 使用 文本 嵌 入进 行 文本 到音 频 的生 成 。使 用预 训 练 的 CL AP获得音频和文本嵌入,这是原始 LD M 模 型中 使用 的 C LIP 嵌入 的 音频 对应 。

5 局 限性

  T AN G O 并不 总是 能够通 过文 本控制 提示 来精细 地控 制其生 成, 因为它 只在 小型 A udioCaps 数据集上进行 训练 。例 如, 《 TA N G O》 中 的几代 人在 木桌 上切 西红 柿和 在金属 桌上 切土 豆是 非常 相似 的。在桌 子上 切 菜也 会 产生 类似 的 音频 样本 。 因此 , 需要 在更 大 的数 据集 上 训练 文 本到 音频 的 生成 模型, 以使 模型 学习 文本 概念 的组 成和 各种 文本 -音频 映 射。 在未 来, 我们 计划 通过 在更 大的 数据 集上训练 TAN G O 并增强其组成和可控 生成 能力来 改进 它。

6 结 论

在这 项工 作 中, 我们 研 究了 指 令调 谐模 型 FL A N-T 5 在 文 本到 音频 生 成中 的有 效 性。 具体 来 说, 我们在 潜在 扩 散模 型中 使 用 FL A N-T 5 生 成的 文 本嵌 入 来生 成 mel 谱 图 标记 。然 后 将这 些标 记 馈送 到预训 练的 变 分自 编码 器 (V A E )以 生成 m el 谱图 , 这些 谱 图稍 后由 预 训练 的声 码 器使 用以 生 成音 频 。与 最先 进 的 文本 到 音 频模 型 Audio L D M 相比,我们的模型在客观和主观评估下都取得了卓越的表现 ,尽 管 使用 的训 练 数据 只 减少了 6 3 倍 。我 们 主要 将 这种 性能 改 进归 因于 FL A N-T5 的表示能力, 这是 由 于它 在预 训 练阶 段 基于 指令 的 调整 。在 未 来, 我们 计 划研究 FL A N-T 5 在 其他 音 频任 务中的有效性,例如音频超分辨率和喷漆。

参 考 文献

[1] Andrea Agostinelli, Timo I Denk, Zalán Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon,
Qingqing Huang, Aren Jansen, Adam Roberts, Marco Tagliasacchi, et al. Musiclm: Generating
music from text. arXiv preprint arXiv:2301.11325, 2023.
[2] Nanxin Chen, Yu Zhang, Heiga Zen, Ron J Weiss, Mohammad Norouzi, and William Chan.
Wavegrad: Estimating gradients for waveform generation. arXiv preprint arXiv:2009.00713,
2020.
[3] Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li,
Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu,
Zhuyun Dai, Mirac Suzgun, Xinyun Chen, Aakanksha Chowdhery, Sharan Narang, Gaurav
Mishra, Adams Yu, Vincent Zhao, Yanping Huang, Andrew Dai, Hongkun Yu, Slav Petrov,
Ed H. Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le, and Jason
Wei. Scaling instruction-finetuned language models, 2022. URL https://arxiv.org/abs/
2210.11416.
[4] Damai Dai, Yutao Sun, Li Dong, Yaru Hao, Zhifang Sui, and Furu Wei. Why can gpt learn
in-context? language models secretly perform gradient descent as meta-optimizers. ArXiv,
abs/2212.10559, 2022.
[5] Jort F Gemmeke, Daniel PW Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R Channing Moore, Manoj Plakal, and Marvin Ritter. Audio set: An ontology and human-labeled
dataset for audio events. In 2017 IEEE international conference on acoustics, speech and
signal processing (ICASSP), pages 776–780. IEEE, 2017.
[6] Tiankai Hang, Shuyang Gu, Chen Li, Jianmin Bao, Dong Chen, Han Hu, Xin Geng, and
Baining Guo. Efficient diffusion training via min-snr weighting strategy, 2023.
[7] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. NeurIPS 2021 Workshop
on Deep Generative Models and Downstream Applications, 2021.
[8] Rongjie Huang, Max WY Lam, Jun Wang, Dan Su, Dong Yu, Yi Ren, and Zhou Zhao. Fastdiff: A fast conditional diffusion model for high-quality speech synthesis. arXiv preprint
arXiv:2204.09934, 2022.
[9] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Image-to-image translation
with conditional adversarial networks. 2017 IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), pages 5967–5976, 2016.
[10] Myeonghun Jeong, Hyeongju Kim, Sung Jun Cheon, Byoung Jin Choi, and Nam Soo Kim.
Diff-tts: A denoising diffusion model for text-to-speech. arXiv preprint arXiv:2104.01409,
2021.
[11] Kevin Kilgour, Mauricio Zuluaga, Dominik Roblek, and Matthew Sharifi. Fréchet audio
distance: A reference-free metric for evaluating music enhancement algorithms. In INTERSPEECH, pages 2350–2354, 2019.
[12] Chris Dongjoo Kim, Byeongchang Kim, Hyunmin Lee, and Gunhee Kim. Audiocaps: Generating captions for audios in the wild. In Proceedings of the 2019 Conference of the North
American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 119–132, 2019.
[13] Diederik P. Kingma and Max Welling. Auto-encoding variational bayes. CoRR,
abs/1312.6114, 2013.
[14] Jungil Kong, Jaehyeon Kim, and Jaekyoung Bae. Hifi-gan: Generative adversarial networks
for efficient and high fidelity speech synthesis. Advances in Neural Information Processing
Systems, 33:17022–17033, 2020.
[15] Qiuqiang Kong, Yin Cao, Haohe Liu, Keunwoo Choi, and Yuxuan Wang. Decoupling magnitude and phase estimation with deep resunet for music source separation. In International
Society for Music Information Retrieval Conference, 2021.
[16] Zhifeng Kong, Wei Ping, Jiaji Huang, Kexin Zhao, and Bryan Catanzaro. Diffwave: A versatile
diffusion model for audio synthesis. arXiv preprint arXiv:2009.09761, 2020.
[17] Felix Kreuk, Gabriel Synnaeve, Adam Polyak, Uriel Singer, Alexandre D’efossez, Jade Copet,
Devi Parikh, Yaniv Taigman, and Yossi Adi. Audiogen: Textually guided audio generation.
ArXiv, abs/2209.15352, 2022.
[18] Haohe Liu, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo P. Mandic, Wenwu Wang,
and Mark D . Plumbley. AudioLDM: Text-to-audio generation with latent diffusion models.
ArXiv, abs/2301.12503, 2023.
[19] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy,
Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Roberta: A robustly optimized bert
pretraining approach. ArXiv, abs/1907.11692, 2019.
[20] Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. arXiv preprint
arXiv:1711.05101, 2017.
[21] Yen-Ju Lu, Yu Tsao, and Shinji Watanabe. A study on speech enhancement based on diffusion probabilistic model. In 2021 Asia-Pacific Signal and Information Processing Association
Annual Summit and Conference (APSIPA ASC), pages 659–666, 2021.
[22] Yen-Ju Lu, Zhong-Qiu Wang, Shinji Watanabe, Alexander Richard, Cheng Yu, and Yu Tsao.
Conditional diffusion probabilistic model for speech enhancement. In ICASSP 2022 - 2022
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages
7402–7406, 2022. doi: 10.1109/ICASSP43922.2022.9746901.
[23] Yen-Ju Lu, Zhong-Qiu Wang, Shinji Watanabe, Alexander Richard, Cheng Yu, and Yu Tsao.
Conditional diffusion probabilistic model for speech enhancement. In ICASSP 2022-2022
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages
7402–7406. IEEE, 2022.
[24] Xinhao Mei, Chutong Meng, Haohe Liu, Qiuqiang Kong, Tom Ko, Chengqi Zhao,
Mark D Plumbley, Yuexian Zou, and Wenwu Wang. Wavcaps: A chatgpt-assisted weaklylabelled audio captioning dataset for audio-language multimodal research. arXiv preprint
arXiv:2303.17395, 2023.
[25] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex
Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu. Wavenet: A generative
model for raw audio. arXiv preprint arXiv:1609.03499, 2016.
[26] Karol J. Piczak. ESC: Dataset for Environmental Sound Classification. In Proceedings
of the 23rd Annual ACM Conference on Multimedia, pages 1015–1018. ACM Press, 2015.
ISBN 978-1-4503-3459-4. doi: 10.1145/2733373.2806390. URL http://dl.acm.org/
citation.cfm?doid=2733373.2806390.
[27] Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, and Mikhail Kudinov. Gradtts: A diffusion probabilistic model for text-to-speech. In International Conference on Machine
Learning, pages 8599–8608. PMLR, 2021.
[28] Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, Mikhail Kudinov, and Jiansheng Wei. Diffusion-based voice conversion with fast maximum likelihood sampling scheme.
arXiv preprint arXiv:2109.13821, 2021.
[29] Zhibin Qiu, Mengfan Fu, Yinfeng Yu, LiLi Yin, Fuchun Sun, and Hao Huang. Srtnet: Time domain speech enhancement via stochastic refinement. arXiv preprint arXiv:2210.16805, 2022.
[30] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena,
Yanqi Zhou, Wei Li, and Peter J. Liu. Exploring the limits of transfer learning with a unified
text-to-text transformer. Journal of Machine Learning Research, 21(140):1–67, 2020. URL
http://jmlr.org/papers/v21/20-074.html.
[31] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark
Chen, and Ilya Sutskever. Zero-shot text-to-image generation. ArXiv, abs/2102.12092, 2021.
[32] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical
text-conditional image generation with clip latents. ArXiv, abs/2204.06125, 2022.
[33] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer.
High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition, pages 10684–10695, 2022.
[34] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for
biomedical image segmentation. In Nassir Navab, Joachim Hornegger, William M. Wells, and
Alejandro F. Frangi, editors, Medical Image Computing and Computer-Assisted Intervention –
MICCAI 2015, pages 234–241, Cham, 2015. Springer International Publishing. ISBN 978-3-
319-24574-4.
[35] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photorealistic text-to-image diffusion models with deep language understanding. Advances in Neural
Information Processing Systems, 35:36479–36494, 2022.
[36] Justin Salamon, Christopher Jacoby, and Juan Pablo Bello. A dataset and taxonomy for urban
sound research. In Proceedings of the 22nd ACM international conference on Multimedia,
pages 1041–1044, 2014.
[37] Joan Serrà, Santiago Pascual, Jordi Pons, R Oguz Araz, and Davide Scaini. Universal speech
enhancement with score-based diffusion. arXiv preprint arXiv:2206.03065, 2022.
[38] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. ArXiv,
abs/2010.02502, 2020.
[39] Yuji Tokozume, Yoshitaka Ushiku, and Tatsuya Harada. Learning from between-class examples for deep sound recognition. CoRR, abs/1711.10282, 2017. URL http://arxiv.org/
abs/1711.10282.
[40] George Tzanetakis and Perry Cook. Musical genre classification of audio signals. IEEE Transactions on speech and audio processing, 10(5):293–302, 2002.
[41] Wikipedia. Tango. https://en.wikipedia.org/wiki/Tango, 2021. [Online; accessed
21-April-2023].
[42] Wikipedia. Tango music. https://en.wikipedia.org/wiki/Tango_music, 2021. [Online; accessed 21-April-2023].
[43] Dongchao Yang, Jianwei Yu, Helin Wang, Wen Wang, Chao Weng, Yuexian Zou, and Dong
Yu. Diffsound: Discrete diffusion model for text-to-sound generation. arXiv preprint
arXiv:2207.09983, 2022.

只是有道翻译的搬运工。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/166818.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++笔记之遍历vector的所有方式

C笔记之遍历vector的所有方式 —— 2023年4月15日 上海 code review 文章目录 C笔记之遍历vector的所有方式1.普通for循环2.迭代器版3.const迭代器4.C11引入的范围for循环5.使用auto关键字和迭代器6.使用std::for_each算法7.使用std::for_each和lambda表达式8.普通版vector::at…

Python+playwright 实现Web UI自动化

实现Web UI自动化 技术&#xff1a;Pythonplaywright 目标&#xff1a;自动打开百度浏览器&#xff0c;并搜索“亚运会 金牌榜” 需安装&#xff1a;Playwright &#xff08;不用安装浏览器驱动&#xff09; # 使用浏览器&#xff0c;并可视化打开 browser playwright.ch…

原型链继承

方式一&#xff1a;原型链继承 1.套路&#xff1a; &#xff08;1&#xff09;定义父类型构造函数 &#xff08;2&#xff09;给父类型的原型添加方法 &#xff08;3&#xff09;定义子类型的构造函数 &#xff08;4&#xff09;创建父类型的对象赋值给子类型的原型 &…

分类预测 | MATLAB实现基于BiGRU-AdaBoost双向门控循环单元结合AdaBoost多输入分类预测

分类预测 | MATLAB实现基于BiGRU-AdaBoost双向门控循环单元结合AdaBoost多输入分类预测 目录 分类预测 | MATLAB实现基于BiGRU-AdaBoost双向门控循环单元结合AdaBoost多输入分类预测预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 1.MATLAB实现基于BiGRU-AdaBoos…

音乐制作软件 Ableton Live 11 Suite mac中文版功能介绍

Ableton Live 11 Suite mac是一款专业级别的音乐制作软件&#xff0c;它提供了多种音乐制作和编辑功能&#xff0c;可以帮助用户创建各种音乐作品。界面简单直观&#xff0c;可以方便地进行各种音乐制作操作。它提供了丰富的音乐制作工具和功能&#xff0c;如录音、采样、编曲、…

【数据结构】【C语言】【环形链表约瑟夫问题】

1.问题描述及背景&#xff1a; 著名的Josephus问题 据说著名犹太 历史学家 Josephus有过以下的故事&#xff1a;在罗⻢⼈占领乔塔帕特后&#xff0c;39 个犹太⼈与 Josephus及他的朋友躲到⼀个洞中&#xff0c;39个犹太⼈决定宁愿死也不要被⼈抓到&#xff0c;于是决定了⼀个⾃…

spacy.load(“en_core_web_trf“)报错TypeError: issubclass() arg 1 must be a class

使用spacy时遇到的问题 写在最前面&#xff1a; 安装spacy和en_core_web_trf时需要保证二者版本一致 安装及查看对应spacy版本 安装 pip install spacy查看版本 import spacy spacy.__version__安装en_core_web_trf 直接安装&#xff08;如果可以的话&#xff09; pytho…

Django实现音乐网站 (21)

使用Python Django框架做一个音乐网站&#xff0c; 本篇音乐播放器功能完善及原有功能修改。 目录 播放列表修改 视图修改 删除、清空播放器 设置路由 视图处理 修改加载播放器脚本 模板修改 脚本设置 清空功能实现 删除列表音乐 播放列表无数据处理 视图修改 播放…

Linux环境部署应用必知必会

修改环境变量 Linux环境变量配置的6种方法&#xff0c;建议收藏&#xff01; - 知乎 修改java环境变量 软件安装 安装redis redis是一个非关系型数据库&#xff0c;是一个存储键值对的数据库&#xff0c;通常被称为数据结构服务器。 值&#xff08;value&#xff09;可以是…

《红蓝攻防对抗实战》二.内网探测协议出网之TCP/UDP协议探测出网

目录 一.TCP/UDP协议探测出网 1.NC工具探测TCP协议出网 2.Telnet命令探测TCP协议出网 3.UDP协议探测出网 当红队人员在进行内网渗透时&#xff0c;经常会遇到目标主机不出网的场景&#xff0c;而主机不出网的原因有很多&#xff0c;常见的原因例如目标主机未设置网关&#…

Zoho Creator推出全新的Canvas布局设计器功能

自2021年Zoho CRM的UI设计工具——Canvas画布功能发布以来&#xff0c;受到了广泛好评&#xff0c;它的出现为CRM的页面布局形式提供了更多选择和可能&#xff0c;让CRM用户彻底告别了“单调、死板、机械”的交互页面。 8月1日&#xff0c;Zoho Creator也推出了全新的Canvas画…

大数据之LibrA数据库系统服务部署原则及运行环境要求

服务部署原则 FusionInsight LibrA集群由多种服务按照一定的逻辑架构组合而成&#xff0c;每个服务包含一个或多个角色&#xff0c;每个角色可以部署一个或多个实例。 服务&#xff1a;服务对外表现为集群提供的组件业务能力&#xff0c;集群中的每个组件对应一个服务名&…

【LeetCode:86. 分隔链表 | 链表】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…

【LeetCode:1402. 做菜顺序 | 动态规划 + 贪心】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…

C++前缀和算法的应用:从仓库到码头运输箱子原理、源码、测试用例

本文涉及的基础知识点 C算法&#xff1a;前缀和、前缀乘积、前缀异或的原理、源码及测试用例 包括课程视频 双指针 单调双向队列 题目 你有一辆货运卡车&#xff0c;你需要用这一辆车把一些箱子从仓库运送到码头。这辆卡车每次运输有 箱子数目的限制 和 总重量的限制 。 给你…

函数模板和类模板实例介绍

模板&#xff1a;将类型定义为参数&#xff0c;实现类型参数化&#xff0c;实现代码重用。 一、函数模板 格式&#xff1a; &#xff08;template-声明模板的关键字&#xff0c;class修饰形参类型&#xff09; template <class / typename T> 返回类型 函数名&#xff…

顺应趋势,用大数据精准营销抓住大数据时代的机遇

想先问大家一个问题&#xff1a;“你觉得现在的营销好做吗&#xff1f;”想必大多数人在说到自己如何营销这一点上&#xff0c;都有道不完的“苦水”。“现在找客户难&#xff0c;投了几十万的广告费&#xff0c;真正来的客户却少得可怜&#xff0c;平均获客成本高得吓人”一位…

【Leetcode每日一题 2530】「贪心|模拟|优先队列」执行K次操作后的最大分数

2023.10.18 本题重点&#xff1a; 1.优先队列的使用 2.ceil()函数的使用相同的还有floor()函数的使用 题目介绍&#xff1b; 给你一个下标从 0 开始的整数数组 nums 和一个整数 k 。你的 起始分数 为 0 。 在一步 操作 中&#xff1a; 选出一个满足 0 < i < nums.l…

按键中断控制LED灯亮灭

EXTI—外部中断/事件控制器 EXTI&#xff08;External interrupt/event controller&#xff09;—外部中断/事件控制器&#xff0c;管理了控制器的 20 个中断/事 件线。每个中断/事件线都对应有一个边沿检测器&#xff0c;可以实现输入信号的上升沿检测和下降沿的 检测。EXTI可…

路由器的路由过程

大家好&#xff0c;我叫徐锦桐&#xff0c;个人博客地址为www.xujintong.com。平时记录一下学习计算机过程中获取的知识&#xff0c;还有日常折腾的经验&#xff0c;欢迎大家来访。 路由器是连接不同的局域网的一个设备&#xff0c;它一开始的目的是互联异构网络的。 前言 这里…