智能音箱语音交互系统简介与测试初探

获取更多技术资料,请点击!

随着AI技术的发展,智能语音交互技术也得到了巨大的发展和应用。由于语音是最自然的交互形态之一,有着输入效率高、门槛低、方便解放双手以及能有效进行情感交流的优势,使得智能音箱成为语音交互的典型应用产品。智能音箱的背后是一套智能语音交互系统平台,由于笔者最近参与了公司内的智能语义平台与智能音箱的测试开发项目,对这一系统有了基本的认知和理解,本文就语音交互平台的相关概念和基本测试指标进行一下讲解和介绍。

一个完整的语音交互流程

如下图所示,一次完整的语音交互,包含:唤醒→ASR→NLP→TTS→Skill的流程。

下面主要对系统中的主要流程进行讲解。

唤醒

唤醒即激活音箱设备,智能音箱有别于智能手机的语音交互,需要先激活音箱,激活的办法有两类。

传统的方式是**:**通过按键激活,例如:锤子的大卫和Siri音箱,增加了外设的按钮,可以点击按钮激活音箱进行说话。

业界的普遍做法是**:**通过设置激活词来唤醒音箱,例如:“小宝小宝”,“小爱同学”,“小雅小雅”。

为什么唤醒词普遍是4音节,而不是中国人更习惯的3音节或者2音节?

这是因为音节越短,误唤醒的问题就会越严重。

**误唤醒是指:**设备被环境音错误激活。

误唤醒的压制是行业难题,除了模型优化,还有几种普遍的做法:

01

云端2次校验——即将用户的语音上传到云端进行2次确认,再决定本地是否响应,但是带来的弊端就是唤醒响应时间被拉长。

一般设备的唤醒检测模块都是放在本地的,这是为了可以快速响应,本地响应可以将响应时间控制在300-700ms之间。如果进行云端2次确认,这个识别降低唤醒的响应时长,会被延长到900ms~1.2S之间,如果网络环境差,这个时间可能更久。

02

从产品策略入手。一般白天偶尔的误唤醒用户都是可以理解的,或者说习以为常了。但是,如果是晚上睡觉时发生误唤醒,用户都是零容忍。

因此,一种做法是压制晚上的误唤醒,带来的问题是晚上唤醒的敏感度也同步降低,但是整体来看还是可以接受的。

唤醒词还承载了另外一个功能那就是声纹检测。业内的普遍做法是基于唤醒词的校对来判断用户身份,当然也有基于用户指令语句来识别的。

但是,目前业内普遍声纹识别的准确率不是特别高,当用户感冒、变音调,声纹识别就会失效,因此声纹在智能音箱的应用就非常受限。除了声纹支付,只能应用于对召回率要求不高的应用场景。

首先绍下语音唤醒(Voice Trigger,VT)的相关信息。

A、语音唤醒的需求背景

近场识别时,比如使用语音输入法时,用户可以按住手机上siri的语音按钮,直接说话(结束之后松开);近场情况下信噪比(Signal to Noise Ratio, SNR)比较高,信号清晰,简单算法也能做到有效可靠。

但是在远场识别时,比如在智能音箱场景,用户不能用手接触设备,需要进行语音唤醒,相当于叫这个AI(机器人)的名字,引起ta的注意,比如苹果的“Hey Siri”,Google的“OK Google”,亚马逊Echo的“Alexa”等。

B、语音唤醒的含义

简单来说是“喊名字,引起听者(AI)的注意”。如果语音唤醒判断结果是正确的唤醒(激活)词,那后续的语音就应该被识别;否则,不进行识别。

C、语音唤醒的相关指标

1.唤醒率。叫AI的时候,ta成功被唤醒的比率。

2.误唤醒率。没叫AI的时候,ta自己跳出来讲话的比率。如果误唤醒比较多,特别是比如半夜时,智能音箱突然开始唱歌或讲故事,会特别吓人的……

3.唤醒词的音节长度。一般技术上要求,最少3个音节,比如“OK Google”和“Alexa”有四个音节,“Hey Siri”有三个音节;国内的智能音箱,比如小雅,唤醒词是“小雅小雅”,而不能用“小雅”——如果音节太短,一般误唤醒率会比较高。

4.唤醒响应时间。一般1.5s到3s。超过3s就不能容忍了。

5.功耗(要低)。看过报道,说iPhone 4s出现Siri,但直到iPhone 6s之后才允许不接电源的情况下直接喊“Hey Siri”进行语音唤醒;这是因为有6s上有一颗专门进行语音激活的低功耗芯片,当然算法和硬件要进行配合,算法也要进行优化。

以上1、2、3相对更重要

D、其他

涉及AEC(语音自适应回声消除,Automatic Echo Cancellation)的,还要考察WER(词错误率,Word Error Rate)相对改善情况。

语音识别ASR

语音识别ASR(Automatic Speech Recognition)一般简称ASR,是将声音转化为文字的过程,相当于人类的耳朵。用于将声学语音进行分析,并得到对应的文字或拼音信息。

语音识别系统一般分为:训练和解码两阶段。

训练

通过大量标注的语音数据训练数学模型,通过大量标注的文本数据训练语言模型。

市场上主流的声学训练模型有:时序连接分类(CTC)和卷积递归神经网络(CRNN)。

解码

通过声学和语言模型将语音数据识别成文字。

声学模型可以理解为是对发生的建模,它能够把语音输入转换成声学表示的输入,更准确的说是给出语音属于某个声学符号的概率。

语言模型的作用可以简单理解为消解多音字问题,在声学模型给出发音序列之后,从候选的文字序列中找出概率最大的字符串序列。

为了提供特定内容的识别率,一般都会提供热词服务,配置的热词内容实时生效,并且会提升ASR结果的识别权重,在一定程度上提高ASR识别的准确率。

ASR还有一些其他的技术细节在实际应用中起着关键作用:

**寻向/声源定位:**一般音箱的设计都是多麦克风,例如:4麦、6麦,呈线性或环形布局。寻向的作用就是判断用户方向,然后用用户方向的麦克风采集语音数据,保证语音的数据是最清晰的。

**降噪:**当有环境音时,需要对环境音进行消除,提高算法识别准确率。

**AEC:**回音消除,如果当前设备既在使用Player进行播放,同时又使用Mic进行拾音,那Mic就会将自己播放出去的声音给重拾回来。这时为了避免影响算法识别结果,需要对回音进行消除。

**VAD:**语音端点检查,使用音频特征等进行分析,确定人声的开始和结束时间点。

自然语言处理(理解)NLP(NLU)

自然语言理解就是将人的语言形式转化为机器可理解的、结构化的、完整的语义表示,通俗来讲就是让计算机能够理解和生成人类语言。

将用户的指令进行Domain(领域)→Intent(意图)→Slot(词槽)三级拆分。

以“帮我设置一个明天早上8点的闹钟”为例:该指令命中的领域是“闹钟”,意图是“新建闹钟”,词槽是“明天8点”。

这样,就将用户的意图拆分成机器可以处理的语言。

在NLU领域中涉及到两个重要概念,也是评测系统好坏的重要指标。

在这里简单介绍一下:准确率和召回率。

**准确率:**识别为正确的样本数/识别出来的样本数

**召回率:**识别为正确的样本数/所有样本中正确的数

举个栗子:全班一共30名男生、20名女生。需要机器识别出男生的数量。本次机器一共识别出20名目标对象,其中18名为男性,2名为女性。则

准确率=18/(18+2)=0.9

召回率=18/30=0.6

再补充一个图来解释

技能Skill

Skiil,技能,也即AI时代的APP。
Skill的作用就是:处理NLP界定的用户意图,做出符合用户预期的反馈。

语音skill的设计与产品APP差别很大,笔者经过一段时间的积累,总结了一下测试原则供参考:

测试

原则

1

增加回复的多样性——高频的指令尽可能增加多的回复TTS语句,避免用户反复听到相同的回复;

2

重要信息后置——一般语音回复尤其是当用户在开车的过程中,需要将重要信息放在后面,因为心理学上有个“时近效应”,听觉刺激往往排在后面的影响力更大;

3

合理的简洁——用户可感知时简洁回复,用户不可感知时完整回复。;

假如用户指令“停止播放”,这时候只需一个提示音或者一个简答的回复“好的”。但是,如果用户的指令是“帮我设置一个明天早上8点的闹钟”,回复就需要是完整的,例如:“已帮你设置好明天早上8点的闹钟”,否则用户会没安全感,不知道你设置的到底对不对,如果不对,那带来的风险是很大的,所以一定要完整回复。

语音合成TTS

语音合成(Text-To-Speech),一般简称TTS,是将文字转化为声音(朗读出来),类比于人类的嘴巴。大家在Siri等各种语音助手中听到的声音,都是由TTS来生成的,并不是真人在说话。

TTS业内普遍使用两种做法:一种是拼接法,一种是参数法。

  1. 拼接法

从事先录制的大量语音中,选择所需的基本发音单位拼接而成。

**优点:**语音的自然度很好。

**缺点:**成本太高,费用成本要上百万。

  1. 参数法

使用统计模型来产生语音参数并转化成波形。

**优点:**成本低,一般价格在20万~60万不等。

**缺点:**发音的自然度没有拼接法好。

但是随着模型的不断优化,现在参数法的效果已经非常好了,因此业内使用参数法的越来越多。

对TTS的测试主要分主观测试和客观测试:

主观测试

1.MOS(Mean Opinion Scores),专家级评测(主观);1-5分,5分最好。

2.ABX,普通用户评测(主观)。让用户来视听两个TTS系统,进行对比,看哪个好。

主观测试以MOS为主。

客观测试

1.对声学参数进行评估,一般是计算欧式距离等(RMSE,LSD)。

2.对工程上的测试:实时率(合成耗时/语音时长),流式分首包、尾包,非流式不考察首包;首包响应时间(用户发出请求到用户感知到的第一包到达时间)、内存占用、CPU占用、3*24小时crash率等。

以上便是对智能音箱系统交互流程和测试指标的简单介绍,希望对大家有所帮助。

哈喽,喜欢这篇文章的话烦请点个赞哦!万分感谢(^▽^)PS:有问题可以联系我们哦v ceshiren2021

复制“下方链接”,提升测试核心竞争力!

更多技术文章分享和免费资料领取

获取更多技术资料,请点击!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24678.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ict的终极模式 是软件研发

什么是ICT呢?先别忙,首先我们来了解一下什么是IT和什么是CT。 IT:是Information Technology的缩写,中文意思是信息技术,是指在计算机技术的基础上开发建立的一种信息技术。我们日常工作和生活中经常接触到这个名词。最…

烧钱数亿后,趣店罗敏的预制菜业务从兴到衰

雷递网 雷建平 9月7日 从高调杀入预制菜行业,到精简业务规模,趣店CEO罗敏的短短50天经历,浓缩了一个公司业务从兴到衰的全过程。 昨日,趣店称,在评估了当前的市场状况后,公司决定精简其预制菜业务。随着预制…

高校学生消费行为分析系统

目 录 摘 要 I ABSTRACT II 1 绪论 5 1.1选题背景及意义 5 1.2研究现状 5 1.2研究主要内容 5 2 系统相关技术介绍 7 2.1聚类算法 7 2.2 ECharts 7 2.3 Python 7 2.4 MySQL简介 8 3 系统分析 9 3.1 功能需求分析 9 3.2 业务流程分析 10 3.3 数据流图 14 3.4 数据库概念模型设计 …

自动驾驶数据之争,走向合规

报道数字经济 定义转型中国 撰文 | 泰伯网 编辑 | 鹿野 2015年12月,一辆百度无人车从京新高速到五环进行了最高时速达100公里的全自动行驶,将国内自动驾驶推向大众视野。 当自动驾驶产业随时间沉淀驶入商业落地的下半场,百度对这场自动驾驶…

Android Studio App开发中多线程的讲解与实现新闻轮播滚动实战(附源码 超详细必看)

运行有问题或需要源码请点赞关注收藏后评论区留言 ~~~ 一、分线程通过Handler操作界面 为了使App运行的更加流畅,多线程技术被广泛应用于App开发,由于Android规定只有主线程才能直接操作界面,因此分线程若想修改界面就要另想办法&#xff0c…

遇到老赖找催收公司靠谱吗?

转自:http://wenzhang.zhaizhuanzhuan.cn/Detail.aspx?id62B3DBAE-B4E1-F634-F56B-8D8B5F7D2AE0 老赖与催收公司貌似是相互制衡的存在,一个敢“赖”,一个敢要。当这两种极端的个体碰到一起之后,他们真的会相互制衡吗? 就拿身边的…

Android App网络通信中通过runOnUiThread快速操纵界面以及利用线程池Executor调度异步任务实战(附源码 简单易懂)

运行有问题或需要源码请点赞关注收藏后评论区留言私信~~~ 一、通过runOnUiThread快速操纵界面 因为Android规定分线程不能够直接操纵界面,所以它设计了处理程序工具,由处理程序负责在主线程和分线程之间传递数据,如果分线程想刷新界面&#…

记一次基于模板方法的设计开发过程

1、背景 本人做抵押贷金融系统开发,最近在开发过程中,遇到一个新的需求,公司和原第三方支付公司有一定的矛盾,造成支付能力支持不足,公司内部进行的新支付系统的搭建,所以需要将原支付功能对接到新支付功能…

2022 读书总结

2022 年主要阅读了文学类和理财类书籍,增加了几本杂项书籍,具体如下: 文史类 4 本 《软技能 2-软件开发者职业生涯指南》- 约翰.森梅兹《三体:黑暗森林》-刘慈欣《三体:死神永生》-刘慈欣《浪潮之巅》- 吴军理财类 7 本…

派森小镇(五)帮助

雾霭沉沉,水波澄碧。在一处悠远僻静的地方上有一个神奇的小镇,小镇的名字叫派森镇。小镇的前面有一条河,碧蓝的水映出小镇周围水墨画般朦胧的世界。 小镇上的人一出生就拥有特殊的技能,他们中的每一个人都是python的成员&#xff…

零基础 Amazon Web Services (AWS) 入门教程图文版(一)

现在小站唯一的流量都靠AWS这个关键词了,刚好要用AWS重新建站,所以从头开始记录一遍吧。 所谓零基础,就是你可以没有任何AWS使用经历,仍然能够按照教程操作下去。所谓图文版,就是建议手机用户在没有连Wifi的情况下尽量不要查看全文。图片一般都有大图,看不清的可以点击查…

Java岗大厂面试百日冲刺 - 日积月累,每日三题【Day22,linux内核视频教程

优秀问答摘自:https://ask.csdn.net/questions/1101634 两者的共同点: 都是用来协调多线程对共享对象、变量的访问 都是可重入锁,同一线程可以多次获得同一个锁 都保证了可见性和互斥性 两者的不同点: ReentrantLock 显示的获…

百万奖金悬赏大模型不擅长的任务!这 11 个任务模型越大,效果越差!

夕小瑶科技说 原创 作者 | 智商掉了一地、Python 去年咱们在介绍百万悬赏时提到,“海量资源砸出的大模型真的会一直那么香吗?”,目前来看,自打 ChatGPT 横空出世引领一众大模型开辟新的生活和工作方式以来,还是挺香的…

三本-安全岗-面经总结(多多面经)

三月之前都不知道暑期实习是什么东西,导致错过很多机会,3月末才迷迷糊糊的准备面试,信息差跟环境真的很重要,周边没一个投暑期实习的同学,学校也没有任何提醒,自己一个人摸爬滚投实习、准备、面试&#xff…

数据万象 | AIGC 存储内容安全解决方案

AIGC(人工智能生产内容) 已经成为与PGC(专业生产内容)、UGC(用户生产内容)并驾齐驱的内容生产方式。由于 AI 的特性,AIGC在创意、个性化、生产效率等方面具有独特的优势,这些优势可以…

没关系,前端还死不了

前言 网络上的任何事情都可以在《乌合之众》书中找到答案。大众言论没有理性,全是极端,要么封神,要么踩死。不少人喷前端,说前端已死?前端内卷?前端一个月800包吃住? 对此我想说,“…

Android程序员秋招就业你准备好了嘛?

前言 秋招即将到了,又到了一年一度的大型“程序猿就业典礼”。 从事IT行业那么多年,我自己也经历过,也见过很多求职路上的人生百态。 当初我也是从一个不知名的“打工人”,到如今成为了鹅厂的一员… 这其中经历了太多太多&…

又一AIGC独角兽!帮企业定制大模型,营销物料生成发布全包,Adobe前CTO创办

衡宇 发自 凹非寺量子位 | 公众号 QbitAI 全球范围内的投资者纷纷重金押注AI初创公司这事儿,已经越来越掩藏不住了! ——又一家AI初创公司刚刚长成独角兽,这距离其第一次公开露面只过去4个月时间。 最新消息,Adobe前CTO Abhay Par…

“意识机器”初探:如何让大语言模型具备自我意识?

导语 什么是意识?现在的大语言模型具备意识了吗?我们能否造出具备自我意识的机器?在集智俱乐部「后ChatGPT」读书会,北京师范大学系统科学学院教授、集智俱乐部创始人张江老师回顾了意识科学和意识建模领域的进展,认为…

【人工智能AI2.0】清华发布了 ChatGLM-6B 中国大模型5支学术界团队和10大产业界力量介绍

ChatGLM 简介 https://chatglm.cn/login 目录 ChatGLM 简介 ChatGLM 特点 ChatGLM 基于智谱 AI GLM-130B