“人工智能是一种模仿人类功能的产品。数据采集的方法需要针对特定的场景需求。”—–Mark Brayan (澳鹏CEO)
我们一直说,对于一个高质量的人工智能产品离不开高质量的训练数据。对于不同的人工智能我们需要不同的数据对其训练。要采集正确的数据去训练特定的模型才会得到高度精准的人工智能产品,才会解决某些特定的场景问题。 在确定数据采集的方法之前,我们都应该明确我们要解决的AI场景是什么?如果你是需要去做一款智能客服语音系统,你必然需要的是大量的语音数据而不是图像数据。当我们明确了需要的是大量的语音数据后,我们就要去寻找适合语音数据采集的方法。我们是否需要某种特定的工具?我们是否需要特定的培训才会使用这些工具?我们是否需要采集全新的数据还是可以更新一部分现有的数据?当明确了我们的产品最终要服务的目的和现况后,数据采集的方法也会迎刃而解且对症下药。 本期文章中,我们将介绍语音AI场景下适用的数据采集方法和案例。
语音数据采集的方法
如果你需要一款聊天机器人或者是智能语音系统,你会需要语音数据来训练算法模型。不同的语音产品需要不同程度的,量级的语音数据。语音数据又分为很多不同的类型,常见的类型有语音识别数据(ASR),和语音合成数据(TTS)。
采集语音数据的基本流程
- 找出用户需要说的内容
- 确定特定领域的语言
- 从特定领域语言的样本中建立一个 “脚本”
- 确定受众
- 记录人类从你的脚本中读出的内容
- 转写采集的语音数据
- 建立一个测试集
- 训练一个语言模型
语音识别数据的分类
语音识别数据可以分为:
- 受控:脚本语音数据
- 半控制:基于场景的语音数据
- 自然:无脚本或对话式语音数据
1. 脚本语音数据 脚本语音识别数据采集通常包括语音命令、唤醒词采集或两者的一种组合形式。参与数据采集的人员通常被要求阅读一组已经设置好的唤醒词或者语音命令语句。比如说:
- “小爱,请调大音量”
- “小爱,声音调大点”
- “小爱,太轻了”
以上是表述同一个意思但不同说法的指令。这类型的数据通常被采集用来观察同一个命令的不同表达方式而不关注采集人员说的具体内容。
2. 基于场景的语音数据 基于场景的语音数据是说话人员根据特定场景所说的一组语音命令,用于自然语音采集。采集人员会被要求在指定场景下,说出一系列命令。比如场景是:询问A地图软件如何去陆家嘴。参与者可以说:
- A,我怎么去陆家嘴
- A,给我去陆家嘴的导航路线
- 带我去陆家嘴,A
这类型的数据通常在针对同一场景的不同方式(命令意图)时被进行抽样采集。 3. 无脚本或对话式语音数据 无脚本或对话式语音数据是要求多个人进行对话的“自然”语音采集。采集人员可以坐在一起围绕某一话题进行讨论。比如话题是:建筑。
- 参与者1: 今年的普里兹克奖你觉得会是哪个建筑师?
- 参与者2: 我觉得可能是比较冷门的那些吧。
- 参与者3: 中国的你们觉得有戏吗?
- 参与者1: 我觉得希望不大,估计还是海外的概率大一点。
这类数据通常被应用于训练AI针对自然会话的多样性,训练聊天机器人等AI系统。