TTS | 语音合成常见数据集及数据格式详情

link

本文主要是介绍了语音合成中最常见的数据集(包含各个语种),及其格式等

外语数据集

1.LJSpeech

网址 : The LJ Speech Dataset (keithito.com)

数据集描述:

数据集大小:2.6GB

这是一个公共领域的语音数据集,由 13,100 个简短的音频剪辑组成 一位演讲者阅读 7 本非小说类书籍的段落。为每个剪辑提供转录。 剪辑的长度从 1 到 10 秒不等,总长度约为 24小时。

LGSpeech文件格式

数据集描述:

元数据在成绩单.csv中提供。此文件由一条记录组成 每行,由竖线字符 (0x7c) 分隔。这些字段是:

  1. ID:这是对应.wav文件的名称

  1. 转录:读者说出的单词 (UTF-8)

  1. 规范化转录:使用数字、序数和货币单位进行转录 扩展为完整单词 (UTF-8)。

每个音频文件都是一个单通道 16 位 PCM WAV,采样率为 22050 Hz。

总剪辑数    13,100
总字数    225,715
总字符数    1,308,678
总持续时间    23:55:17
平均剪辑持续时间    6.57 秒
最小剪辑持续时间    1.11 秒
最大剪辑持续时间    10.10 秒
每个剪辑的平均字数    17.23
不同的单词    13,821

下载后文件压缩包 : LJSpeech-1.1.tar.bz2

linux解压命令

tar -jxvf LJSpeech-1.1.tar.bz2

解压缩后,生成LJSpeech-1.1文件夹:.wav及csv文件

wavs格式如下

metadata格式如下(text文件)

2.JSUT

网址 :Shinnosuke Takamichi (高道 慎之介) - JSUT (google.com)

数据集描述:

数据集大小:2.7GB

该语料库由日语文本(转录)和阅读式音频组成。音频数据以48kHz采样并记录在消声室。录制了一位以日语为母语的女性的声音。此语料库包含 10 小时的语音,由以下数据组成:

  • 基本5000 ...涵盖所有日常使用字符(jouyou汉字)。

  • ut释义512 ...将句子的一部分替换为其释义。

  • 拟声词300 ...包括日语的拟声词(拟声词)。

  • 后缀26 ...日语的反后缀

  • 借词128 ...日语的外来词(例如,ググる [“谷歌”作为动词])

  • 声优100 ...对声优语料库的副演讲(专业女性演讲者的免费语料库

  • 旅行1000 ...旅行域语料库

  • 先例130 ...先例句

  • 重复500 ...重复口语(100句*5次)

3.RUSLAN

网址 :RUSLAN: Russian Spoken Language Corpus For Speech Synthesis

数据集描述:

RUSLAN 是用于文本到语音转换任务的俄语口语语料库。RUSLAN 包含 22,200 个带有文本注释的音频样本——一个人超过 31 小时的高质量演讲——就单个发言者的语音持续时间而言,是最大的带注释的俄语语料库之一。

4.RyanSpeech

网址 :Mohammad H. Mahoor, PhD

数据集描述:

RyanSpeech是用于研究自动文本到语音(TTS)系统的新语音语料库。公开可用的TTS语料库通常嘈杂,由多个说话者录制,或者没有高质量的男性语音数据。为了满足语音识别领域对高质量、公开可用的男性语音语料库的需求,我们设计并创建了 RyanSpeech。我们从现实世界的对话环境中衍生出RyanSpeech的文本材料,这些材料包含超过10个小时的专业男性配音演员的演讲,录制频率为44.1 kHz。这种语料库创建的设计和管道使RyanSpeech成为在实际应用中开发TTS系统的理想选择。为了为未来的研究、协议和基准提供基线,我们在 RyanSpeech 上训练了 4 个最先进的语音模型和一个声码器。结果显示,在我们的最佳模型中,平均意见得分(MOS)为3.36。我们已公开提供经过训练的模型以供下载。

5.VocBench

网址 :https://github.com/facebookresearch/vocoder-benchmark

数据集描述:

VocBench是一个为最先进的神经声码器的性能提供基准的框架。VocBench采用系统的研究方法,在一个共享的环境中评估不同的神经声码器,使它们之间能够进行公平的比较。

6.Arabic Speech Corpus

网址 :http://en.arabicspeechcorpus.com/

数据集描述:

数据集大小:1.5GB

该语音语料库是南安普敦大学Nawar Halabi博士工作的一部分。语料库是使用专业录音室用南黎凡特阿拉伯语(大马士革口音)录制的。使用此语料库合成语音作为输出,产生了高质量、自然的声音。

7.Silent Speech EMG

网址 :Silent Speech EMG | Zenodo

数据集描述:

无声和发声语音期间的面部肌电图记录。

这些数据在EMNLP 2020(https://arxiv.org/abs/2010.02960)的出版物“无声语音的数字发声”中进行了描述。

可以在 https://github.com/dgaddy/silent_speech 中找到用于处理此数据的代码。

每个数据样本有 5 个数据文件:{i}_emg.npy - 一个保存的大小为 (T, 8) 的 numpy 数组,带有原始 EMG 信号;{i}_audio.flac - 原始录音;{i}_audio_clean.flac - 降低背景噪音的音频;{i}_info.json - 包含额外信息的 JSON,例如读取的文本提示;{i}_button.npy - 包含设备按钮状态的 numpy 数组,通常未使用。请注意,某些样本并不代表实际数据点,而是用作参考肌电图或音频信号。这些示例在相关信息文件中标有“sentence_index:-1”。

https://arxiv.org/pdf/2010.02960.pdf

8.Hi-Fi Multi-Speaker English TTS Dataset

网址 :Hi-Fi Multi-Speaker English TTS Dataset

数据集描述:

该数据集是基于LibriVox的公共有声读物和古腾堡计划的文本。

Hi-Fi TTS数据集包含来自10个发言人的约291.6小时的语音,每个发言人至少有17小时的44.1kHz采样。

"Hi-Fi Multi-Speaker English TTS Dataset" Bakhturina, E., Lavrukhin, V., Ginsburg, B. and Zhang, Y., 2021: arxiv.org/abs/2104.01497.

9.kss

网址 :

数据集描述:

Korean Single speaker SpeechDataset

中文数据集

  1. aidatatang_200zh

网址 :openslr.org

数据集描述:

数据集大小:aidatatang_200zh.tgz [18G]

北京数据堂科技有限公司的中文普通话语音语料库,包含来自 200 名说话者的 600 小时语音数据。每个句子的转录准确率大于 98%。属于演讲类别。

语料库的内容和相应的描述包括:

  • 语料库包含200小时的声学数据,主要是移动记录的数据。

  • 邀请了来自中国不同口音地区的600位演讲者参与录音。

  • 每个句子的转录准确率大于 98%。

  • 录音在安静的室内环境中进行。

  • 数据库按7:1:2的比例分为训练集、验证集和测试集。

  • 语音数据编码和说话人信息等详细信息保留在元数据文件中。

  • 还提供了分段的成绩单。

该语料库旨在支持语音识别、机器翻译、声纹识别和其他语音相关领域的研究人员。因此,语料库完全免费供学术使用。

2.magicdata

网址 :openslr.org

数据集描述:

该语料库由Magic Data Technology Co., Ltd.提供,包含来自755名以中国大陆为母语的普通话母语人士的1080小时的脚本阅读语音数据。句子转录准确率高于98%。

train_set.tar.gz [52G] 训练集语音

dev_set.tar.gz [1.0G] 开发集语音

test_set.tar.gz [2.2G ] 测试集语音

metadata.tar.gz [3.8M] 补充材料信息

MAGICDATA普通话阅读语音语料库由MAGIC DATA开发 科技有限公司,并免费发布用于非商业用途。

语料库的内容和相应的描述包括:

  • 语料库包含 755 小时的语音数据,即 主要是移动记录的数据。

  • 来自中国不同口音地区的1080位发言者是 受邀参与录制。

  • 句子转录准确率高于98%。

  • 录音在安静的室内环境中进行。

  • 数据库分为训练集、验证集和测试 以51:1:2的比例设置。

  • 语音数据编码和说话人信息等详细信息是 保留在元数据文件中。

  • 记录文本的领域是多样化的,包括交互式 问答、音乐搜索、SNS消息、家庭命令和控制等。

  • 还提供了分段的成绩单。

该语料库旨在支持语音识别,机器方面的研究人员 翻译、说话人识别和其他语音相关领域。因此 语料库完全免费供学术使用。

3.aishell3

网址 :openslr.org

数据集描述:

data_aishell3.tgz [19G](语音数据和成绩单 )

AISHELL-3是一款大规模、高保真多说话人普通话语料库 由北京壳牌科技有限公司出版它可用于训练 多扬声器文本到语音转换 (TTS) 系统。语料库包含大约 85 小时 218 位以中文为母语的普通话使用者说的情感中立录音 总共 88035 条话语。他们的辅助属性,如性别、年龄组 本地口音在语料库中明确标记和提供。因此 提供汉字水平和拼音水平的成绩单以及 录音。单词和语气转录准确率在98%以上,通过 专业的语音注释和严格的音调和韵律质量检查。

4.biaobei

网址 :标贝数据集男声版 - 飞桨AI Studio (baidu.com)

数据集描述:

数据集只包含1万的wav文件,采样率为16K,关于语音对应的文本需通过其他途径获取。

5. MozillaCommonVoice

网址 :Common Voice (mozilla.org)

数据集描述:

包含很多语种。

6.data_aishell

网址 :openslr.org

数据集描述:

data_aishell.tgz [15G](语音数据和成绩单 )

resource_aishell.tgz [1.2M ]( 补充资源,包括词典、演讲者信息 )

Aishell是一个开源的中文普通话语料库,由 北京贝壳科技有限公司

邀请来自中国不同口音地区的400人参加 参与录音,在安静的室内进行 环境使用高保真麦克风并下采样至 16kHz。 人工抄录准确率95%以上,通过专业 语音标注和严格的质量检查。数据是免费的 供学术使用。我们希望为新的提供适量的数据 语音识别领域的研究人员。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16431.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

语音合成技术入门之Tacotron

语音合成TTS 学习李宏毅课程。 输入文字,输出语音。 端到端之前TTS 18世纪就有,能找到demo的是1939年VODER。 就像电子琴一样,用手控制发出不同声音。 到1960年,IBM计算机能合成出歌唱声。 波形拼接 过去最常用的商用语音合…

语音合成技术

关注52AI,做AI的行业领先者。QQ人工智能行业交流群:626784247. 01 本期分享的主题是语音合成技术,以下是本次分享的主要内容: 1.语音合成技术简介 1.1 什么是语音合成? 语音合成技术是将任意文本转换成语音的技术。是人…

语音合成技术简介

文章目录 前言一、传统语音合成系统1. 总体框架2. 基于统计参数的语音合成2.1 系统流程图2.2 模型算法 二、端到端的合成语音系统1. 总体框架2. 基于深度学习的语音合成2.1 系统流程图2.2 特征网络模型算法1. Tacotron2. DeepVoice3. DeepVoice24. DeepVoice3 & Tacotron25…

语音合成 - TTS gTTS

目录 1. 简单介绍 2. 代码示例 1. 简单介绍 https://gtts.readthedocs.io/en/latest/https://gtts.readthedocs.io/en/latest/ gTTS 是基于 Python 的文本转语音库,用于语音合成。 2. 代码示例 安装: pip install gTTS Python: from gtts import…

在线语音合成工具代码

语音合成软件语音合成助手免费版下载语音合成助手语音合成技术语音合成器语音合成工具下载语音合成软件哪个好用语音合成软件免费版语音合成网易有道智云语音合成网站 <div class"container mx-auto" id"app"><div class"card lg:card-side …

VITS 语音合成完全端到端TTS的里程碑

Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech&#xff08;ICML 2021&#xff09; KAKAO公司与KAIST韩国科学院&#xff0c;近年在TTS领域佳作频出&#xff0c;目前最主流的HiFiGAN声码器也是其成果。 目录 概览&#xff1…

MS-TTS:免费微软TTS语音合成工具(一键合成导出MP3音频)

声明 本工具是个免费工具&#xff0c;遇到问题&#xff0c;还请自行解决&#xff0c;下面有文字教程&#xff0c;B站有视频教程&#xff08;链接在文章末尾&#xff09;&#xff1b; 其次&#xff0c;微软接口卡顿&#xff0c;连接超时等问题下方有详细说明&#xff0c;请仔细…

某团mtgsig逆向学习

声明&#xff1a;本文仅限学习交流使用&#xff0c;禁止用于非法用途、商业活动等。否则后果自负。如有侵权&#xff0c;请告知删除&#xff0c;谢谢&#xff01;本教程也没有专门针对某个网站而编写&#xff0c;单纯的技术研究 目录 案例分析参数分析效果展示 案例分析 目标案…

高通量代谢组学四路筛选法,揭秘“神药”二甲双胍延长寿命的机制

百趣代谢组学分享—研究背景 目前据统计中国糖尿病患者人数达9700万以上&#xff0c;数量达到世界第一。这其中2型糖尿病占到了90%以上。二甲双胍是目前治疗2型糖尿病的一线“明星”药物&#xff0c;因其较少出现低血糖和体重增加副作用而受到广大患者和医生的青睐。代谢组学文…

推荐:ChatGPT指令大全(37个)

使用时&#xff0c;可参考这些语境。会问问题&#xff0c;才是最重要的。 AGI 时代必备&#xff1a;《提问的艺术——让ChatGPT导出高质量答案》38 赞同 7 评论文章 1. 写报告&#xff1a;我现在正在 [报告的情境与目的]。我的简报主题是 [主题]&#xff0c;请提供 [数字] 种…

启蒙教师周志华亲自讲解,机器学习视频课上线了

主讲&#xff1a;周志华&#xff0c;南京大学教授 人工智能从1956年正式成为一个学科&#xff0c;机器学习是人工智能的核心研究领域之一。今天的“人工智能热潮”正是由于机器学习等技术取得了巨大进展&#xff0c;并基于大数据、大算力发挥出巨大威力。 《机器学习初步》课…

斯坦福| ChatGPT用于生成式搜索引擎的可行性

文&#xff5c;智商掉了一地 随着 ChatGPT 在文本生成领域迈出了重要一步&#xff0c;Bing 浏览器也接入了聊天机器人功能&#xff0c;因此如何保证 Bing Chat 等搜索引擎结果的精确率和真实性也成为了搜索领域的热门话题之一。 当我们使用搜索引擎时&#xff0c;往往希望搜索结…

ChatGPT应用-ArxivGPT谷歌插件 解放正在苦苦读论文的你

一句话介绍 总结arXiv中论文的关键点&#xff0c;并提供重要见解 详细介绍 ArxivGPT是一个谷歌Chrome插件&#xff0c;可帮助您快速了解arXiv论文的内容。只需单击一下&#xff0c;即可总结论文并提供关键见解&#xff0c;节省您的时间并帮助您快速掌握主要思想和概念。无论…

【ChatGPT】【Sloved】Access denied,Error reference number: 1020

问题描述 You do not have access to chat.openai.com. The site owner may have set restrictions that prevent you from accessing the site. Ray ID: 7b25a4dfce2a985bTimestamp: 2023-04-04 01:05:37 UTCYour IP address: 2602:feda:dd7:a0ba:4166:9982:e009:2e35Reque…

旋律生成学习日记(一)

123因为自己做音频方向&#xff0c;偶然看见了旋律生成这个东西&#xff0c;就想自己学着做一做&#xff0c;网上现有文章不多&#xff0c;我自己瞎琢磨琢磨。 第一章转自&#xff1a;(64条消息) 基于深度学习LSTM算法生成音乐_lstm生成音乐_lbship的博客-CSDN博客 MID数据集…

国内唯一可以在本地搭建Stable Diffusion WebUI教程-安装时无需魔法安装全程流畅到尖叫

Stable Diffusion是什么 Stable Diffusion简称SD是一款Ai图片生成工具。“输入几句话,生成精美图片。” 比如说我一开头这幅图片就是用的SD生成的。 我在我的“ChatGPT让我变成了“超人”-如何提升团队30%效能质量提高100%的阶段性总结报告”里提到过midjourney,但是midjou…

电子表格软件的开山鼻祖 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」&#xff0c;从过去看未来&#xff0c;从现在亦可以改变未来。 今天是 2023 年 5 月 11 日&#xff0c;在 1995 年的今天&#xff0c;我国成为第六个研制成功磁悬浮列车的国家。磁悬浮列车利用“同性相斥&#xff0c;异性相吸”的原理&#…

行业报告 | AIGC发展研究

原创 | 文 BFT机器人 01 技术篇 深度学习进化史:知识变轨 风起云涌 已发生的关键步骤&#xff1a; 人工神经网络的诞生 反向传播算法的提出 GPU的使用 大数据的出现 预训练和迁移学习 生成对抗网络 (GAN) 的发明 强化学习的成功应用 自然语言处理的突破 即将发生的关键…

手把手带你快速实现直播聊天室

废话不多说&#xff0c;直接开干&#xff01; 工具要求&#xff1a; (1) Android Studio 3.2或更高版本。 (2) SDK targetVersion至少为26。 本文聊天室是集成环信IM SDK实现聊天功能&#xff0c;及实现发送礼物、点赞和弹幕等功能。视频直播采用的是七牛相关的推拉流SDK。app …

地摊叫卖、超市播音工具-简洁的文字转语音播音软件

简介&#xff1a; 文件名称 : 播音员.exe 文件大小 : 0.5MB (568KB) 文件类型 : application/x-dosexec 运行平台 : Windows7 / Windows10 软件功能 : 自定义语录文字、图片&#xff0c;快捷发送聊天 软件特色 : 无需安装、永久免费、无自启、无广告 关于软件&#xff1a; 1、…