多设备智能语音交互—小爱协同唤醒

一、背景

2014年11月,亚马逊推出了一款全新概念的智能音箱:Echo,这款产品最大的亮点是将智能语音交互技术植入到传统音箱中,从而赋予了音箱人工智能的属性。这个被称为“Alexa”的语音助手可以像你的朋友一样与你交流,同时还能为你播放音乐、新闻、网购下单、Uber叫车、定外卖等等。

随着Echo的流行,拥有多个Echo的用户越来越多,2016年,亚马逊推出了基于多设备的空间感知功能(ESP: Echo Spatial Perception)。与多设备交互时,ESP会选出离用户最近的设备去响应用户。

2017年7月,小米发布了首款小米AI音箱,在首款音箱推出后,我们就已经开始思考未来多设备唤醒交互的场景。2018年春季发布会上,随着小爱音箱mini的发布,正式推出了小爱就近唤醒功能(协同唤醒前身),当周围多个小爱设备被唤醒时,只有离用户最近的设备响应用户。

2020年11月的MIDC上,小爱就近唤醒升级为小爱协同唤醒。

二、小爱协同唤醒 

协同唤醒是小爱多设备用户唤醒的基础功能,在手机、音箱、电视、大家电等多个智能设备周围说「小爱同学」时,小爱将智能选择一台合适的设备应答和倾听,避免一呼百应。

3799052c5b18821c02b8bd411ed6636c.png

相对于早期AIoT设备间的就近唤醒,协同唤醒除了支持AIoT设备外,还支持了手机,实现手机与AIoT设备间的协同;不仅如此,多设备间响应策略从之前的就近策略升级为根据距离、活跃状态、设备品类等信息智能决策一台合适设备响应。

三、原理

相同账号的小爱设备在用户唤醒之前,协同唤醒会将多设备聚合并组网。当用户唤醒小爱后,协同唤醒会提取唤醒词的方向、距离特征数据,并在组内设备间交互。收集完毕全局的特征数据或者决策等待超时时,结合各设备的状态等信息,进行分布式决策,最终选出一个合适的设备应答。

afc739444e4c8dc936251400055246a6.png

四、挑战

小爱协同唤醒已接入手机与AIoT设备众多,软硬件差异大,使用场景复杂,如何有效的将不同组合的设备在各种复杂场景高效的协同起来,存在非常大的挑战。主要表现在以下三个方面:

  • 准确性影响因素多:麦克风硬件参数以及形态、环境噪声、唤醒时人的位置等是影响协同唤醒准确性的主要因素;

  • 手机接入困难:手机作为低功耗设备,对功耗要求比较高,AIoT的传输方案在手机上会引入比较大功耗开销;

  • 线上质量管控困难:线上质量指标主要是指协同唤醒失灵,发生同时唤醒的概率。根据协同唤醒原理,当唤醒特征消息传输延迟大或不同设备唤醒延迟差异大时,会导致判决等待时间内无法收全全局的信息,引起不同设备判决结果不一致,发生同时唤醒。判决等待时间的设定会影响同时唤醒率与设备应答速度,当判决等待时间过长,设备应答速度变慢,判决等待时间过短,同时唤醒概率升高。

五、解决方案

>>>>

5.1 准确性

不同设备因麦克风阵列形态和麦克风硬件参数不同,导致在相同位置的设备采集到的声音能量差异比较大。为了保证相同位置采集的能量数据一致性,算法在处理前,会对采集的音频数据进行归一化处理。

协同唤醒算法经历过以下两个大版本,目前我们采取的是基于直达声能量与方位信息综合判决。

  • 基于能量

声音在空中传播过程中有能量衰减,传播距离越远,衰减越严重。早期通过麦克风采集的能量大小判断设备离说话人的远近,实现协同唤醒功能。该方案适用于安静场景,在周围存在环境噪声干扰时,会影响准确性。

  • 基于直达声能量与方位

为了解决环境噪声干扰,从采集的数据中提取直达声的能量判断说话人与设备的远近,同时,也引入方位的特征,当人与两个设备距离相当时,通过说话人唤醒时的朝向,选中朝向的设备应答。

>>>>

5.2 手机协同唤醒

手机围绕着功耗在传输方案上做了很多改进,从早期复用AIoT传输链路到最终采用改进的小米推送链路,达成功耗和传输链路稳定性的要求。

acfad5ab6e10e7730bab7e9d991579c9.png

我们从以下三个方面对小米推送做出了改进,满足功耗、连通性要求,实现手机与AIoT设备间的协同唤醒功能:

  • 智能心跳替代固定心跳:通过动态检测当前连接WiFi的NAT超时时间,调整小米推送心跳间隔,适配当前WiFi网络,解决NAT超时引起的连通性问题 ;

  • 对齐微信心跳降功耗:因小米推送最小心跳周期大于微信心跳周期,当微信心跳时,会激活AP,同时通知小米推送同步心跳,避免小米推送主动激活AP,解决功耗问题 ;

  • 记忆连接过的WiFi使用的心跳周期:对于已经连接过的WiFi网络,存储该WiFi网络下的心跳周期,每次连接该网络时,直接采用历史存储值,避免反复NAT超时检测引起功耗开销,进一步降功耗。

>>>>

5.3 线上质量

为了解决线上质量管控难的问题,我们搭建了一套智能运营系统。在设备端上,每次唤醒时,收集唤醒延迟、不同设备间消息传输延迟、设备组合、系统状态、网络信号强度等信息,然后根据大量线上数据,估计不同设备间在不同影响因素下的网络传输延迟以及唤醒速度差异,并下发到设备端,设备端根据下发参数,在设定范围内动态调节判决等待超时时间。



ecc0f00dbed9216c657f88029233a65f.png

智能运营分两期,一期是基础能力建设,可以实现针对单设备以及不同的设备组合和不同场景下发不同的参数,这些参数的生成是需要人工重度参与,且是通用参数,会损失部分用户体验。二期在一期基础上实现了智能化,依托大数据和AI技术,自动的为每类或每个用户生成个性化的定制参数。

智能运营两个比较关键的服务:AI模型和期望与评价系统。AI模型根据大数据生成通用参数,然后结合每个用户的环境和行为的建模数据,生成定制化的参数,并通过自动化云配平台和灰度控制策略下发到设备端做AB测试。期望与评价系统会对AB测试的结果进行评估,如果不理想,则重新调整参数,输出到AI模型,并产生新的云配参数下发;如果评估可行,则启用下发给设备端的最新参数;通过这种方式不断循环迭代,达到预先设定的期望。

六、成果

>>>>

6.1 设备接入

已接入手机与AIoT设备超过60款,涉及手机、音箱、电视、IoT、大家电,在线设备超过千万级别。

f90d67f3fea01753c01caa2ad043fd19.png

>>>>

6.2 线上质量-同时唤醒率

因实验室环境比较理想,协同唤醒的质量指标以线上数据为参考。线上近一年的同时唤醒率从去年Q3平均3.2%下降到了目前1.8%,下降幅度43%。

d2815676ebccaf20a84ad2efadd55dae.png

七、未来规划

>>>>

7.1 更精确的空间感知

基于同账号的组网存在以下一些弊端:

  • 同账号组网会无视距离,将两地设备组在一起(特别是手机),每次发生协同唤醒时,都需要等超时,从而影响唤醒整体的应答速度;

  • 当家里的小爱设备登录多个账号或者不登录账号(比如电视)时,多个账号或无账号的设备无法协同唤醒。

为了解决以上问题,确保用户唤醒时,只有用户周边的设备参与协同唤醒,与账号、局域网完全解耦,我们将基于声学感知技术,实现家庭、公司、车载三大空间以及家庭内各小空间的精准感知。

>>>>

7.2 更稳定实时的传输

协同唤醒对消息传输实时性要求比较高,WiFi传输链路会受到设备所处网络环境以及路由拥塞程度影响,线上很大一部分协同唤醒失效是由于传输延迟高引起。

为了确保传输的稳定性和实时性,降低协同唤醒失效比例,通过WiFi、蓝牙多链路融合策略,实现消息多链路传输,从而满足设备间消息稳定实时的传输。

八、总结

小爱协同唤醒自上线以来,接入手机与AIoT设备超过60款,拥有多个小爱设备的用户也越来越多,如何实现1+1>2是协同唤醒团队一直努力的方向。不论是从技术创新还是质量管控上,我们一直都在追求极致的用户体验!

END

a7df13d29dc0c16089e37dd277e54e6f.gif

2e1a0cb5c6317f81d4b0dec9183f8fc7.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3266.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小爱同学 语音唤醒 息屏唤醒 可控麦克风占用 个人制作

今年四月份入了红米note5,我买的第一台小米设备。颜值高,全面屏操作,着实是很出色。 使用过程中发现,小爱同学,只能通过点击图标的形式开启,没有语音唤醒功能,着实是一大缺憾。 趁着五一假期&am…

神秘鸭,让语音操作电脑不再神秘 小爱同学

最近小编白嫖了一个天猫精灵,就想着实现有没有智能家居之类的,看着看着就在网上看见了神秘鸭这个软件,可以实现语音助手控制电脑 但是目前天猫精灵的实现还在开发中,只能先用小爱同学用着,后续等待官方的开发 其中大概的逻辑就是电脑神秘鸭客户端连接服务器,用服务器远程控制…

使用小爱同学来控制电脑关机

使用小爱同学来控制电脑关机 前言实现原理创建账号PC端程序编写编译mqtt库代码分析运行界面 控制 前言 做这个项目的原因是因为本人太懒,经常写完代码就没想着关电脑,然后去玩手游去了。接着洗完澡躺下准备睡觉的时候发现电脑的电源灯还亮着&#xff0c…

Notion AI是什么?和chatgpt比哪个好?

最近对于人工智能的热度可谓是前所未有的高涨,毕竟现在的人工智能发展是越来越快,能做的事情也是越来越多,不再是那种低等的假智能小爱同学和siri那种。今天我们主要来聊聊Notion AI和chatgpt吧,Notion AI是什么?和cha…

Android 智能聊天机器人demo(类似小爱同学)

android 聊天机器人 相关信息全写在代码中,很详细 一 、界面展示 做了图标适配 感觉还可以。。。emmm nice 二 、代码 遇到的坑也都在代码中做了解释,下面是我查阅的一些资料 demo下载地址: https://download.csdn.net/download/qq_42…

如何实现一款接入chatGPT的智能音箱

现有的一些“智能音箱”如某度和某猫精灵,跟现在的chatGPT比显得智障。如果能有一款接入chatGPT的智能音箱,它的交互性就好多啦。有gpt加持的智能音箱绝对会很强,以下提供探讨下实现思路。 目前智能音箱在语音交互层面依然不够成熟&#xff0…

使用Midjourney与ChatGPT组合会怎么样?

Midjourney 和 ChatGPT 都是目前比较先进的自然语言处理技术,Midjourney是一种基于深度学习的文本生成模型,而ChatGPT是一种基于自注意力机制的大规模预训练语言模型。 使用MidjourneyChatGPT可以结合两种技术的优势,实现更加高效和准确的文…

一觉醒后ChatGPT 被淘汰了

OpenAI 的 Andrej Karpathy 都大力宣传,认为 AutoGPT 是 prompt 工程的下一个前沿。 近日,AI 界貌似出现了一种新的趋势:自主人工智能。 这不是空穴来风,最近一个名为 AutoGPT 的研究开始走进大众视野。特斯拉前 AI 总监、刚刚回归…

ONLYOFFICE中的chatGPT 是如何编写毕业论文以及翻译多种语言的

前言 chatGPT这款软件曾被多个国家的大学禁用,我们也多次在网上看到chatGPT帮助应届毕业生编写毕业答辩论文,但是这款软件目前还没有在国内正式上线,ONLYOFFICE7.3版本更新后呢,就添加了chatGPT该功能,并且正常使用。 …

“国产版ChatGPT”文心一言发布会现场Demo硬核复现

文章目录 前言实验结果一、文学创作问题1 :《三体》的作者是哪里人?问题2:可以总结下三体的核心内容吗?如果要续写的话,可以从哪些角度出发?问题3:如何从哲学角度来进行续写?问题4:电…

InstructGPT

InstructGPT 论文精读【论文精读48】_哔哩哔哩_bilibili更多论文:https://github.com/mli/paper-reading, 视频播放量 160552、弹幕量 803、点赞数 5846、投硬币枚数 4003、收藏人数 5253、转发人数 2664, 视频作者 跟李沐学AI, 作者简介 ,相关视频&…

【记录】ChatGPT|使用技巧(更新至2023年2月8日)

昨天,2022年12月13日,在下午和晚上,ChatGPT 就开始因为请求过多而写到一半就崩溃,出现network error,可见它的关注度确实是越来越可观了。 正好最近世界杯,有博客活动,干脆也总结一下 ChatGPT 目…

Instruction Tuning(FLAN、instructGPT、chatGPT)

首页最近被chatGPT刷屏,但翔二博主左看右看发现很多想法似乎都是一脉相通的,于是连夜从存档中找了一些文章尝试理一理它的理论路线。 具身智能综述和应用(Embodied AI)多模态中的指令控制 同时想到今年在智源人工智能前沿报告&a…

ChatGPT助力软件开发

抛开Stack Overflow不谈,开发人员有了一个新的好朋友,它就是ChatGPT。ChatGPT是由人工智能驱动的语言模型,可以理解代码,还可以用自然语言回答问题。有了它,程序员再也不用在无尽的Stack Overflow页面和评论中搜索答案…

国内首个类ChatGPT模型MOSS被挤崩溃,团队致歉

2月20日,复旦团队发布国内首个类ChatGPT模型MOSS,引起不少网友关注,由于瞬时访问压力过大,MOSS服务器昨晚还被网友挤崩溃了。 2月21日,MOSS官网发布公告称,MOSS还是一个非常不成熟的模型,距离C…

多数据库管理工具哪家强?ChatGPT点评,第一位并不是Navicat

SQL逐渐成为职场必备的编程语言,相信大家都不陌生。SQL是一种结构化查询语言,是用于数据库之间通信的编程语言。每个数据库都有着自己独特的访问规则,但大体上是遵循SQL标准。 因此,辗转于不同的数据库之间,开发者或D…

ChatGPT,会是现实世界的MOSS吗?

最近,两个人工智能系统彻底火出了圈,成为许多网友热议的焦点。 一个是冷酷无情的“幕后主角”MOSS,一个是多才多艺的“全能网友”ChatGPT。 先来说说MOSS。今年春节档,科幻电影《流浪地球2》热映,电影中一个面试环节令…

MarioGPT自动生成“超级玛丽”;周鸿祎:ChatGPT可能产生意识;国内版ChatGPT复旦首发,但“非常不成熟”...

本周,AI业界又有哪些新鲜事? ChatGPT 国内版ChatGPT首发被复旦“抢注”,但非常不成熟? 虽然各大厂如火如荼地备战国内版“GPT”,但谁也没抢到这个“首发”:2 月 20 日晚,复旦大学自然语言处理实…

为Kubernetes集群部署一个ChatGPT机器人

点击上方“芋道源码”,选择“设为星标” 管她前浪,还是后浪? 能浪的浪,才是好浪! 每天 10:33 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | Java 2021 超神之路,很肝~中文详细注释的开源…

ChatGPT崩了!全球宕机超12小时,打工人叫苦连天

ChatGPT崩了。 昨天半夜,来自全球各地的用户纷纷发现网站弹出报错警告,然后立刻无法使用。 即使是有特权的Plus账户也未能幸免。 一时之间,#chatgptdown#的话题刷屏。 不少重度用户表示很捉急: 没了你我的工作可咋整。 每过10分…