音频数据集1--LJSpeech单人语音

LJ Speech Dataset

版本号: 1.1 , 文件大小: 2.6GB

1.简介

1. 1 内容简介

LJS是一个语音数据集,包含 13,100 个音频片段,内容为Linda Johnson(欧美女性)朗读的 7 本书籍段落(非小说类)。每个片段都提供文本转录,片段长度从 1 到 10 秒不等,总长度约为 24 小时。

  • 7本书籍内容

发表于 1884 年至 1964 年之间,内容如下:

1. 莫里斯,威廉等人。《艺术与手工艺论文集》。1893 年。2.格里菲思,亚瑟。《纽盖特编年史》,第 2 卷。1884 年。3.罗斯福,富兰克林·D。《富兰克林·德拉诺·罗斯福的炉边闲谈》。1933-42 年。4.哈兰德,马里恩。《马里恩·哈兰德的初学者烹饪》。1893 年。5.罗尔特-惠勒,弗朗西斯。《科学 - 宇宙历史》,第 5 卷:生物学。1910 年。6.班克斯,埃德加·J。《古代世界七大奇迹》。1916 年。7.总统肯尼迪总统遇刺事件委员会。总统肯尼迪总统遇刺事件委员会报告。1964 年。
  • 数据集参数
总片段数-Total Clips:  13,100不同单词数-Distinct Words: 13,821总单词数-Total Words:	225,715  # 单词总数量,重复出现也统计总字符数-Total Characters:	1,308,678总时长-Total Duration:	23:55:17平均片段时长-Mean Clip Duration:	6.57 sec最短片段时长-Min Clip Duration: 	1.11 sec最长片段时长-Max Clip Duration:	10.10 sec每片段的平均单词数-Mean Words per Clip:	17.23

1.2 制作简介

  • 静音分段

通过录音中的静音部分自动分段

  • 文本匹配语音内容

通过质量保证检查 (Quality Assurance Pass)来保证文本的准确性。

  • 比特率:128kbps

数据来原LibriVox的格式为MP3,数据有伪影

伪影 (artifacts) 是指在音频文件的压缩和解压缩过程中,由于丢失特征造成的音频失真或不自然效果

  • 脉冲编码调制(Pulse Code Modulation,PCM):

用于模拟信号转换为数字信号

采样率: 每秒钟采样的次数(例如44.1 kHz)。
位深度: 每个样本使用的比特数(例如16位)。
声道数: 音频的声道数(例如立体声是2个声道)。

比特率 (bps)=采样率×位深度×声道数

对于CD质量的音频(44.1 kHz, 16位, 立体声):

44 , 100 H z × 16 b i t s × 2 c h a n n e l s = 1 , 411 , 200 b p s = 1 , 411.2 k b p s 44,100Hz×16bits×2channels=1,411,200bps=1,411.2kbps 44,100Hz×16bits×2channels=1,411,200bps=1,411.2kbps

由于MP3是有损压缩格式,通过去除部分音频信息以压缩数据达到较低的比特率,即本数据的128 kbps。

2.音频文件

  • 音频片段位于 wavs文件夹

单个音频文件命名从 LJ001-0001 到 LJ050-0278

代表有50个段落(章节),每个章节有约 200-300个片段

例如,050章有278个片段

  • 音频可视化

050章的前30个片段可视化:

分别是 时域、频域、频谱(y轴log)、mel谱

在这里插入图片描述

3.标注文件

  • 文本标注位于 metadata.csv 文件。

其中 19 个转录本包含非 ASCII 字符(例如,LJ016-0257 包含“raison d’être”)

样例如下:


第一段音频 LJ001-0001 (10s):> Printing in the only sense with which we are at present concerned differs from most if not from all the arts and crafts represented in the Exhibition第二段音频 LJ001-0002 (2s):> in being comparatively modern.|in being comparatively modern.第三段音频 LJ001-0003 (9s):> For although the Chinese took impressions from wood blocks engraved in relief for centuries before the woodcutters of the Netherlands  by a similar process
  • 2次标注

音频的标注文本有2个版本,第1个数字是用阿拉伯字符标记,第2个数字是用英文单词标记,2个标注文本通过字符 ‘|’ 分割。

举几个言例:


LJ001-0008|has never been surpassed.|has never been surpassed.LJ001-0045|1469, 1470;|fourteen sixty-nine, fourteen seventy;LJ002-0035|8. The press yard.|eight. The press yard.
  • 缩写

部分标注单词为缩写(Abbreviation), 其展开(Expansion)后对照如下:

Mr.	Mister
Mrs.	Misess (*)
Dr.	Doctor
No.	Number
St.	Saint
Co.	Company
Jr.	Junior
Maj.	Major
Gen.	General
Drs.	Doctors
Rev.	Reverend
Lt.	Lieutenant
Hon.	Honorable
Sgt.	Sergeant
Capt.	Captain
Esq.	Esquire
Ltd.	Limited
Col.	Colonel
Ft.	Fort

4. Pytorch处理

HiFiGAN中处理如下

将文本标注**“metadata.csv“**的文件转为txt格式,并拆分为:

  • 训练集标注”training.txt”

12950个判断

  • 验证集标注”validation.txt”

150个片段

Reference

  • 文中图片代码

  • https://keithito.com/LJ-Speech-Dataset/

  • https://github.com/keithito/tacotron

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/360976.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java银系统/超市收银系统/智慧新零售/ERP进销存管理/线上商城/h5/小程序

>>>系统简述: 神点收银系统支持B2B2C多商户模式,系统基于前后端分离的架构,后端采用Java SpringBoot Mysql Mybatis Plus,前端基于当前流行的Uniapp、Element UI,支持小程序、h5。架构包含:会员端…

【凤凰房产-注册安全分析报告-缺少轨迹的滑动条】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 1. 暴力破解密码,造成用户信息泄露 2. 短信盗刷的安全问题,影响业务及导致用户投诉 3. 带来经济损失,尤其是后付费客户,风险巨大,造…

《昇思25天学习打卡营第2天 | 张量 Tensor》

《昇思25天学习打卡营第2天 | 张量 Tensor》 《昇思25天学习打卡营第2天 | 张量 Tensor》 《昇思25天学习打卡营第2天 | 张量 Tensor》什么是张量(Tensor)张量的创建方式根据数据直接生成从NumPy数组生成使用init初始化器构造张量继承另一个张量的属性&a…

(9)农作物喷雾器

文章目录 前言 1 必要的硬件 2 启用喷雾器 3 配置水泵 4 参数说明 前言 Copter 包括对农作物喷雾器的支持。该功能允许自动驾驶仪连接到一个 PWM 操作的泵和(可选)旋转器,根据飞行器速度控制液体肥料的流动速度。 稍微过时的视频显示了…

百威英博旗下知名啤酒品牌Jupiler,创意助力比利时国足角逐欧洲杯冠军!

怎么说呢?今天非常开心。 因为今天分享的这个品牌创意案例很特别,和夏天、足球有关,和梦想、啤酒有关,还和QR Tiger 、二维彩虹有关。而把这一切连接在一起的,是一个小小的二维码。 这个夏天,百威英博旗下…

后端返回base64文件流下载

后端返回base64文件流: 前端处理: downloadTemplate () {this.$API.downloadTemplate().then(({ data }) > {const binaryString atob(data) // 解码base64字符串const byteArray new Uint8Array(binaryString.length) // 创建一个Uint8Arrayfor (let i 0; i…

第一百二十七节 Java面向对象设计 - Java枚举方法

Java面向对象设计 - Java枚举方法 因为枚举类型实际上是一个类类型,所以我们可以在枚举类型体中声明一切,我们可以在类体中声明它。 以下代码使用字段,构造函数和方法定义了一个级别枚举。 public enum Level {LOW(30), MEDIUM(15), HIGH(7…

暴雨虐长沙,生灵受煎熬

今天,“湖南长沙市遭遇强降雨,一小时的降雨量足够注满54个西湖”这消息,终于登上互联网社交平台热搜榜。 截图:来源社交网站 综合多家媒体消息概述如下。 昨(24日)天,湖南长沙市遭遇强降雨,一…

BarTender版软件下载及安装教程

​根据行业数据显示强大的配套应用软件甚至能够管理系统安全性、网络打印功能、文档发布、打印作业记录等,为满足不同的需要和预算,BarTender 提供四个版本,每个都拥有卓越的功能和特性。根据软件大数据显示多国语言支持:轻松设计…

ESP32C3 bin合并-生产

VSCODE得到的下载地址。 打开乐鑫TOOL工具,载入文件、地址 点击生成bin,自动跳出文件夹。 选择新文件开始就完成了。恭喜你已经是老师傅了。

每日一学(面试考题)

1、ConCurrentHashMap为什么不允许key为null? 底层 putVal方法 中 如果key || value为空 抛出空指针异常 其实是为了避免在多线程并发场景下的歧义问题 在获取key 返回结果为null 无法判断是 put(k,v)的时候 value本身是n…

C++——布隆过滤器

目录 布隆过滤器的提出 布隆过滤器的概念 布隆过滤器的基本原理和特点 布隆过滤器的实现 布隆过滤器的插入 布隆过滤器的查找 布隆过滤器的删除 布隆过滤器的优点 布隆过滤器的缺陷 布隆过滤器使用场景 布隆过滤器的提出 在注册账号设置昵称的时候,为了保证…

k8s volcano + deepspeed多机训练 + RDMA ROCE+ 用户权限安全方案【建议收藏】

目录 一、k8s环境配置 1.安装gpu-operator 2. 安装 rdma-shared-plugin 3. 安装volcano调度器 4. 创建research rbac认证 二、宿主机环境配置 1. 安装docker 客户端 2. 创建系统用户 3. 修改docker /etc/docker/daemon.json 文件如下 4. 修改系统 /etc/subuid 和subgi…

onnx模型修改:去掉Dropout层

文章目录 尝试1:强行设置dropout层train mode为False尝试2:找到onnx模型中的dropout, train mode设置为False尝试3:直接删除dropout层,连接其输入输出结语 最近训练模型使用了tinyvit,性能挺强的: 但是导出…

6.25作业

1.整理思维导图 2.终端输入两个数,判断两数是否相等,如果不相等,判断大小关系 #!/bin/bash read num1 read num2 if [ $num1 -eq $num2 ] then echo num1num2 elif [ $num1 -gt $num2 ] then echo "num1>num2" else echo &quo…

运行ChatGLM大模型时,遇到的各种报错信息及解决方法

①IMPORTANT: You are using gradio version 3.49.0, however version 4.29.0 is available, please upgrade 原因分析: 因为使用的gradio版本过高,使用较低版本。 pip install gradio3.49.0 会有提示IMPORTANT: You are using gradio version 3.49.…

Linux的shell语法

Linux的shell脚本 1.概述 shell解释器,介于操作系统内核与用户之间,充当了一个“命令解释器”的角色,负责接收用户输入的操作指令(命令)并进行解释,将需要执行的操作传递给内核执行,并输出执行…

计算机网络 VLAN间路由单臂路由

一、理论知识 VLAN是一种将物理网络划分成多个逻辑网络的方法。不同的VLAN属于不同的网段,因此互相通信需要通过路由器进行路由。通常情况下,在同一VLAN内的设备可以直接通信,而不同VLAN之间的设备则需要通过路由器转发数据。本实验利用单臂…

SQL连接与筛选:解析left join on和where的区别及典型案例分析

文章目录 前言数据库在运行时的执行顺序一、left join on和where条件的定义和作用left join on条件where条件 二、left join on和where条件的区别原理不同left join原理:where原理: 应用场景不同执行顺序不同(作用阶段不同)结果集…

【物联网】室内定位技术及定位方式简介

目录 一、概述 二、常用的室内定位技术 2.1 WIFI技术 2.2 UWB超宽带 2.3 蓝牙BLE 2.4 ZigBee技术 2.5 RFID技术 三、常用的室内定位方式 3.1 信号到达时间 3.2 信号到达时间差 3.3 信号到达角 3.4 接收信号强度 一、概述 GPS是目前应用最广泛的定位技术&#xff0…