语音识别数据的采集方法:基本流程数据类型

“人工智能是一种模仿人类功能的产品。数据采集的方法需要针对特定的场景需求。”—–Mark Brayan (澳鹏CEO)

我们一直说,对于一个高质量的人工智能产品离不开高质量的训练数据。对于不同的人工智能我们需要不同的数据对其训练。要采集正确的数据去训练特定的模型才会得到高度精准的人工智能产品,才会解决某些特定的场景问题。 在确定数据采集的方法之前,我们都应该明确我们要解决的AI场景是什么?如果你是需要去做一款智能客服语音系统,你必然需要的是大量的语音数据而不是图像数据。当我们明确了需要的是大量的语音数据后,我们就要去寻找适合语音数据采集的方法。我们是否需要某种特定的工具?我们是否需要特定的培训才会使用这些工具?我们是否需要采集全新的数据还是可以更新一部分现有的数据?当明确了我们的产品最终要服务的目的和现况后,数据采集的方法也会迎刃而解且对症下药。 本期文章中,我们将介绍语音AI场景下适用的数据采集方法和案例。  

语音数据采集的方法

如果你需要一款聊天机器人或者是智能语音系统,你会需要语音数据来训练算法模型。不同的语音产品需要不同程度的,量级的语音数据。语音数据又分为很多不同的类型,常见的类型有语音识别数据(ASR),和语音合成数据(TTS)

采集语音数据的基本流程

  • 找出用户需要说的内容
  • 确定特定领域的语言
  • 从特定领域语言的样本中建立一个 “脚本”
  • 确定受众
  • 记录人类从你的脚本中读出的内容
  • 转写采集的语音数据
  • 建立一个测试集
  • 训练一个语言模型

语音识别数据的分类

语音识别数据可以分为:

  1. 受控:脚本语音数据
  2. 半控制:基于场景的语音数据
  3. 自然:无脚本或对话式语音数据

1. 脚本语音数据 脚本语音识别数据采集通常包括语音命令、唤醒词采集或两者的一种组合形式。参与数据采集的人员通常被要求阅读一组已经设置好的唤醒词或者语音命令语句。比如说:

  • “小爱,请调大音量”
  • “小爱,声音调大点”
  • “小爱,太轻了”

以上是表述同一个意思但不同说法的指令。这类型的数据通常被采集用来观察同一个命令的不同表达方式而不关注采集人员说的具体内容。

智能音响语音数据采集

2. 基于场景的语音数据 基于场景的语音数据是说话人员根据特定场景所说的一组语音命令,用于自然语音采集。采集人员会被要求在指定场景下,说出一系列命令。比如场景是:询问A地图软件如何去陆家嘴。参与者可以说:

  • A,我怎么去陆家嘴
  • A,给我去陆家嘴的导航路线
  • 带我去陆家嘴,A

这类型的数据通常在针对同一场景的不同方式(命令意图)时被进行抽样采集。 3. 无脚本或对话式语音数据 无脚本或对话式语音数据是要求多个人进行对话的“自然”语音采集。采集人员可以坐在一起围绕某一话题进行讨论。比如话题是:建筑。

  • 参与者1: 今年的普里兹克奖你觉得会是哪个建筑师?
  • 参与者2: 我觉得可能是比较冷门的那些吧。
  • 参与者3: 中国的你们觉得有戏吗?
  • 参与者1: 我觉得希望不大,估计还是海外的概率大一点。

这类数据通常被应用于训练AI针对自然会话的多样性,训练聊天机器人等AI系统。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/128010.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Apollo】自动驾驶技术的介绍

阿波罗是百度发布的名为“Apollo(阿波罗)”的向汽车行业及自动驾驶领域的合作伙伴提供的软件平台。 帮助汽车行业及自动驾驶领域的合作伙伴结合车辆和硬件系统,快速搭建一套属于自己的自动驾驶系统。 百度开放此项计划旨在建立一个以合作为中…

SQL语言的分类:DDL(数据库、表的增、删、改)、DML(数据的增、删、改)

数据库管理系统(数据库软件)功能非常多,不仅仅是存储数据,还要包含:数据的管理、表的管理、库的管理、账户管理、权限管理等。 操作数据库的SQL语言,基于功能,划分为4类: 1、数据定…

单片机第三季-第一课:STM32基础

官方网址:STMCU中文官网 STM32系列分类: 型号命名原则: STM32F103系列: 涉及到的几个概念: DMA:Direct Memory Access,直接存储器访问。DMA传输将数据从一个地址空间复制到另一个地址空间&…

最近

深圳近日经历了一场暴雨,周四夜晚,很多下晚班的同事因为雨水没法顺利打车回家。有个朋友,因为打车的等待时间太长,索性直接在公司过夜了。 早上因为磅礴的大雨我搁浅在家,也是因为下雨,本来要和龙哥一起去广…

Mac电脑怎么使用NTFS磁盘管理器 NTFS磁盘详细使用教程

Mac是可以识别NTFS硬盘的,但是macOS系统虽然能够正确识别NTFS硬盘,但只支持读取,不支持写入。换句话说,Mac不支持对NTFS硬盘进行编辑、创建、删除等写入操作,比如将Mac里的文件拖入NTFS硬盘,在NTFS硬盘里新…

网络原理(一)网络基础,包括IP ,网络相关的定义

网络基础,包括IP ,网络相关的定义 网络基础冲突域广播域DNSNATNAPT 网络基础 以下图片是书上的网图。 什么是IP地址? IP地址(Internet Protocol Address)是指互联网协议地址,又译为网际协议地址。P地址是…

Springboot+druid

1.Druid是Java语言中最好的数据库连接池。Druid能够提供强大的监控和扩展功能。 2.配置maven <dependency><groupId>com.alibaba</groupId><artifactId>druid</artifactId><version>${druid-version}</version></dependency>…

【C++基础】实现日期类

​&#x1f47b;内容专栏&#xff1a; C/C编程 &#x1f428;本文概括&#xff1a; C实现日期类。 &#x1f43c;本文作者&#xff1a; 阿四啊 &#x1f438;发布时间&#xff1a;2023.9.7 对于类的成员函数的声明和定义&#xff0c;我们在类和对象上讲到过&#xff0c;需要进行…

数学建模--K-means聚类的Python实现

目录 1.算法流程简介 2.1.K-mean算法核心代码 2.2.K-mean算法效果展示 3.1.肘部法算法核心代码 3.2.肘部法算法效果展示 1.算法流程简介 #k-means聚类方法 """ k-means聚类算法流程: 1.K-mean均值聚类的方法就是先随机选择k个对象作为初始聚类中心. 2.这…

AR工业远程巡查系统:实时监控设备状态,及时发现潜在问题

随着工业4.0的到来&#xff0c;先进的技术和创新的解决方案正在改变着工业生产的方式。其中&#xff0c;增强现实&#xff08;AR&#xff09;技术带来的工业巡检系统就是一个典型的例子。这种系统通过在现实世界中添加虚拟信息&#xff0c;使得操作人员能够更有效地进行检查和维…

LeetCode 49题: 字母异位词分组

题目 给你一个字符串数组&#xff0c;请你将 字母异位词 组合在一起。可以按任意顺序返回结果列表。 字母异位词 是由重新排列源单词的所有字母得到的一个新单词。 示例 1: 输入: strs ["eat", "tea", "tan", "ate", "nat&qu…

MATLAB实现函数拟合

目录 一.理论知识 1.拟合与插值的区别 2.几何意义 3.误差分析 二.操作实现 1.数据准备 2.使用cftool——拟合工具箱 三.函数拟合典例 四.代码扩展 一.理论知识 1.拟合与插值的区别 通俗的说&#xff0c;插值的本质是根据现有离散点的信息创建出更多的离散点&#xf…

立晶半导体Cubic Lattice Inc 专攻音频ADC,音频DAC,音频CODEC,音频CLASS D等CL7016

概述&#xff1a; CL7016是一款高保真USB Type-C兼容音频编解码芯片。可以录制和回放有24比特音乐和声音。内置回放通路信号动态压缩&#xff0c; 最大42db录音通路增益&#xff0c;PDM数字麦克风&#xff0c;和立体声无需电容耳机驱动放大器。 5V单电源供电。兼容USB 2.0全速工…

问道管理:华为产业链股再度拉升,捷荣技术6连板,华力创通3日大涨近70%

华为产业链股6日盘中再度拉升&#xff0c;到发稿&#xff0c;捷荣技能涨停斩获6连板&#xff0c;华映科技亦涨停收成3连板&#xff0c;华力创通大涨超19%&#xff0c;蓝箭电子涨约11%&#xff0c;力源信息涨超4%。 捷荣技能盘中再度涨停&#xff0c;近7日已累计大涨超90%。公司…

【zookeeper】ZooKeeper的特点及应用场景

ZooKeeper 的特点/设计目标 ZooKeeper&#xff08;动物园管理员&#xff09; &#xff0c;顾名思义&#xff0c;是用来管理Hadoop&#xff08;大象&#xff09;、Hive&#xff08;蜜蜂&#xff09;、Pig&#xff08;小猪&#xff09;的管理员&#xff0c;同时Apache HBase、Ap…

天津web前端培训班 前端是否适合零基础学?

随着HTML 5和ECMAScript 6的正式发布&#xff0c;大量的前端业务逻辑&#xff0c;极大地增加了前端的代码量&#xff0c;前端代码的模块化、按需加载和依赖管理势在必行&#xff0c;因此Web前端越来越被人们重视。 Web前端的就业前景 Web前端开发工程师薪资持续走高&#xff…

汇编语言Nasmide编辑软件

用来编写汇编语言源程序&#xff0c;Windows 记事本并不是一个好工具。同时&#xff0c;在命令行编译源程序也令很多人迷糊。毕竟&#xff0c;很多年轻的朋友都是用着 Windows 成长起来的&#xff0c;他们缺少在 DOS和 UNIX 下工作的经历。 我一直想找一个自己中意的汇编语言编…

CSS中如何实现一个自适应正方形(宽高相等)的元素?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐利用padding百分比⭐2. 利用::before伪元素⭐ 写在最后 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端入门之旅&#xff01;这个专栏是为那些对W…

“系统的UI”——SystemUI

SystemUI的实现 以StatusBar为例&#xff0c;来分析下Android系统具体是如何实现它们的。 相关代码分为两部分&#xff0c;即&#xff1a; Service部分 代码路径&#xff1a;frameworks/base/services/java/com/android/server。 应用部分 代码路径&#xff1a;frameworks…

GLSL ES着色器语言 使用矢量和矩阵的相关规范

目录 矢量和矩阵类型 下面是声明矢量和矩阵的例子&#xff1a; 赋值和构造 矢量构造函数 矩阵构造函数 构造矩阵的几种方式 访问元素 . 运算符 矢量的分量名 &#xff3b; &#xff3d;运算符 运算符 矢量和矩阵可用的运算符 矢量和矩阵相关运算 矢量和浮点数的…