Whisper、Voice Engine推出后,训练语音大模型的高质量数据去哪里找?

近期,OpenAI 在语音领域又带给我们惊喜,通过文本输入以及一段 15 秒的音频示例,可以生成既自然又与原声极为接近的语音。值得注意的是,即使是小模型,只需一个 15 秒的样本,也能创造出富有情感且逼真的声音。OpenAI 将这个语音引擎命名为 Voice Engine,近期 Voice Engine 预览版首次亮相。

图片

除此之外,OpenAI还特别强调了语音引擎在支持非语言个体方面的独特能力。它能为这些个体提供个性化的、非机械化的声音,为那些有语言障碍或学习需求的人提供治疗和教育方面的帮助。

01 语音大模型需要什么样的数据?

1.  语音数据

语音数据是最重要的,而且是海量的语音数据。这些语音数据需要涵盖各种方言、口音、语调、语速和环境噪音,以确保语音大模型能够在多种情况下有效工作。

2.  语音转写文本数据

语音识别系统需要对应的文本数据来训练其识别算法。文本数据应与录音的语音内容相匹配,即语音转写文本。

3.  发音词典

这是一个将单词转换为音标(表示其发音)的字典,对于语音识别和语音合成都非常重要。

在语音识别领域,数据的质量直接影响到模型的识别准确率和泛化能力。高质量语音精标数据可以帮助语音大模型更好地学习和泛化到现实世界的各种场景。

图片

02 语音大模型需要多语种多方言的精标数据

中国的语言环境呈现出一种独特而复杂的多样性,这种多样性不仅是语言本身的丰富性的体现,也是其深厚文化历史底蕴的一种反映。在普通话成为全国性官方语言的同时,各地的方言和地方口音依旧扎根于人们的日常生活中,它们携带着地域的特色和历史的印迹,为语音识别技术的发展带来了挑战。

为了构建能够有效识别这些不同语言变体的模型,就需要获取广泛而深入的数据,这意味着不仅要涉及北方的官话、南方的吴语、粤语、闽南语等主要方言,还要覆盖更多地区特色明显的小众方言。此外,不同年龄、性别和教育背景的人群也会展现出不同的语音特征,这也一定程度增加了数据获取的难度。

采集数据后就需要对语音数据的进行标注。语音数据的标注不仅仅是简单的文字转写,更包括对语速、语调、停顿以及口音的精确描述。只有这样,训练出的模型才能在实际应用中展现出对各种语音变体的高度敏感性和强大的识别能力,从而使语音大模型更好地适应中国复杂的语言环境,让科技更好地服务于社会和文化的多样性。

03 语音大模型的高质量数据在这里

近期,海天瑞声推出专为语音大模型定制的万人方言语音精标数据集。该数据集覆盖中国26个省份的29,954名方言发音人,从12到75岁的年龄段,总时长34,073小时,平均录音时长近60分钟,男女比例均衡。话题覆盖非常广泛,包括新闻、短信、车控、音乐、通用、地图、日常口语、家庭、健康、旅游、工作、社交、名人、天气等生活常见话题。此外,该数据集包含朗读文本和自由对话,用于提升语音大模型在中国方言方面的识别、生成等处理能力。

图片

图片

欢迎联系我们获取万人方言精标语音数据集样例

电话咨询:400-679-7787

邮件咨询:contact@dataoceanai.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/316401.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

springboot3常用注解使用

组键注册注解 组件注册步骤总结 条件注解 演示示例 属性绑定注解 ConfigurationProperties进行绑定 EnableConfigurationProperties进行绑定 其他常用注解 EnableAutoConfiguration ComponentScan RequestMapping GetMapping PostMapping Autowired Resource Servi…

Objective-C大爆炸:从零到单例模式

oc学习笔记(一) 文章目录 oc学习笔记(一)oc与c语言的区别#import的用法foundation框架NSLog函数NSString类型符号的作用oc中的数据类型 类与对象概念: 创建第一个类类的定义类的实现类加载对象的产生和使用 self语法id…

为什么说B端SaaS产品经理需要让研发团队懂业务

先问是不是,再问为什么。这个问题即对也不对。 1.对的地方:研发团队里面的架构师、前后端leader、组长或者骨干如果懂业务的话,就能在做系统业务架构、信息架构和数据架构的时候多一些前瞻性,为后期业务扩展预留一些接口或者能力…

ElasticSearch面试题2

Mapping属性详细介绍/常见的字段数据类型: 映射(mapping)︰mapping是对索引库中文档的约束信息(例如字段名、数据类型),类似表的结构约束;每个索引库都应该有自己的映射 数据库一定要先创建表才能去添加数据…

【机器学习】视觉基础模型的三维意识:前沿探索与局限

视觉基础模型的三维意识:前沿探索与局限 一、引言二、视觉基础模型的三维意识三、当前模型的局限性四、实验与结果五、总结与展望 大规模预训练的进展已经产生了具有强大能力的视觉基础模型。最近的模型不仅可以推广到任意图像的训练任务,而且它们的中间…

yo!这里是网络入门初识

目录 前言 基本概念 网络 协议 地址 网络传输流程 OSI七层模型 TCP/IP四层(五层)模型 流程图 数据封装&&分用 后记 前言 对于上一个专栏——Linux操作系统,我们学习了操作系统的基础知识以及基本的系统编程,其…

Kafka客户端工具:Offset Explorer 使用指南

Kafka作为一个分布式流处理平台,在大数据处理和实时数据流应用中扮演着至关重要的角色。管理Kafka的topics及其offsets对于维护系统稳定性和数据一致性至关重要。Offset Explorer是一个强大的桌面应用程序,它使得管理和监控Kafka集群变得简单直观。本文将…

ffmpeg音视频裁剪

音视频裁剪,通常会依据时间轴为基准,从某个起始点到终止点的音视频截取出来,当然音视频文件中存在多路流,所对每一组流进行裁剪 基础概念: 编码帧的分类: I帧(Intra coded frames): 关键帧,…

xLua热更新解决方案

图中灰色的无法实现热更新,而Lua代码可以打包成AB包,并上传到资源服务器, 当进入游戏检测是否有资源需要更新,需要则会从资源服务器下载。 学习目标 1.导入xLua框架 2.C#调用Lua 3.Lua调用C# 4.xLua热补丁 xLua框架导入和AB…

如何消除浏览器SmartScreen对网站“不安全”提示?

面对互联网时代用户对网站安全性和可信度的严苛要求,网站运营者时常遭遇Microsoft Defender SmartScreen(SmartScreen)提示网站不安全的困扰。本文将剖析SmartScreen判定网站不安全的原因,并为运营者提供应对策略,以恢…

机器学习:基于Sklearn、XGBoost框架,使用逻辑回归、支持向量机和XGBClassifier来诊断并预测一个人是否患有自闭症

前言 系列专栏:机器学习:高级应用与实践【项目实战100】【2024】✨︎ 在本专栏中不仅包含一些适合初学者的最新机器学习项目,每个项目都处理一组不同的问题,包括监督和无监督学习、分类、回归和聚类,而且涉及创建深度学…

二、VLAN原理和配置

vlan不是协议,是一个技术,虚拟局域网技术,基于802.1q协议。 vlan(虚拟局域网),将一个物理的局域网在逻辑上划分成多个广播域的技术。 目录 1.冲突域和广播域 概念 范围 2.以太网帧格式 3.以太网帧封装…

Facebook的声音:听见社交媒体的心跳

社交媒体如今已经成为人们日常生活中不可或缺的一部分,而Facebook作为其中的佼佼者,承载着数以亿计的用户的交流、分享和连接。在这个信息爆炸的时代,Facebook的声音就像是社交媒体的心跳,传递着无数个体的情感、思想和生活。本文…

Python-VBA函数之旅-object基类(非函数)

目录 一、object基类的常见应用场景 二、object基类使用注意事项 三、如何用好object基类? 1、object基类: 1-1、Python: 1-2、VBA: 2、推荐阅读: 个人主页:神奇夜光杯-CSDN博客 一、object基类的…

基于H.264的RTP打包中的组合封包以及分片封包结构图简介及抓包分析

H.264视频流的RTP封装类型分析: 前言: NULL Hearder简介(结构如下): ---------------|0|1|2|3|4|5|6|7|--------|F|NRI| Type |--------------- F:forbidden_zero_bit, 占1位,在 H.264 规范中规定了这…

CI/CD:基于kubernetes的Gitlab搭建

1. 项目目标 (1)熟悉使用k8s环境搭建Gitlab (2)熟练应用Gitlab基本配置 2. 项目准备 2.1. 规划节点 主机名 主机IP 节点规划 k8s-master 10.0.1.1 kube_master k8s-node1 10.0.1.2 kube_node k8s-node2 10.0.1.3 k…

2024年武汉东湖高新水测成绩出来了

本次水测通过人员有1016名,通过的人数还是蛮多的,水测其实没有大家想象的那么难,现在职称评审都是水测线下评审的模式进行的。 水平测试分机考,笔试和面试答辩,各区随机安排选其一,机考就相当于考驾照刷题&…

自动化测试web库(元素定位、元素操作、浏览器操作)

按照谷歌浏览器 Chrome :https://googlechromelabs.github.io/chrome-for-testing/ Chrome使用技巧: 1、找到自己想要的标签 打开检查,点击箭头,再点击你想要点击的地方 2、直接在浏览器上查询,看看是否查询成功 可…

【算法刷题 | 贪心算法08】4.29(划分字母区间、合并区间)

文章目录 14.划分字母区间14.1题目14.2解法:贪心14.2.1贪心思路14.2.2代码实现 15.合并区间15.1题目15.2解法:贪心15.2.1贪心思路15.2.2代码实现 14.划分字母区间 14.1题目 给你一个字符串 s 。我们要把这个字符串划分为尽可能多的片段,同一…

msf练习

一、什么是msfvenom? msfvenom是msf中的一个独立的负载生成器,它可以利用msf中的payloads和encoders来生成各种格式的木马文件,并在目标机上执行,配合meterpreter在本地监听上线。msfvenom是msfpayload和msfencode的结合体&#…