天猫精灵如何和我们聊天?

简介: 天猫精灵已经走过几年的历史,在这几年中,天猫精灵变得更加智能,其中的体现之一是交互方式变得越来越自然。本文将介绍天猫精灵的全双工自然对话交互方式。

什么是全双工自然对话?

如果孙悟空的金箍棒加入天猫精灵语音交互的支持,那么孙悟空在获得金箍棒后会怎样给他的猴儿们演示呢?

 

image.png

在一问一答方式中,孙悟空首先需要唤醒金箍棒,然后再发出大一些的指令,金箍棒在收到指令后会变粗变高并回复已经变大。如果孙悟空要想让金箍棒再大一些,需要再次唤醒金箍棒并发出指令。每次想让金箍棒大一些,孙悟空就要重复这个过程。

在连续对话方式中,孙悟空也要先唤醒金箍棒,然后在发出大一些的指令,金箍棒也会在收到指令后会变粗变高并回复已经变大。如果孙悟空要想金箍棒再大一些,可以选择等待金箍棒的回复结束,然后直接说出大一些的指令。接下来每次想让金箍棒大一些,孙悟空只需要等待金箍棒回复结束,然后直接说出大一些的指令即可。

在自然对话模式中,孙悟空先唤醒金箍棒,然后发出大一些的指令,金箍棒在收到指令后会直接变粗变高。接下来,如果孙悟空想金箍棒在大一些,直接说出大一些指令即可,不需要再次唤醒,也不需要等待回复结束。

天猫精灵有孙悟空演示金箍棒的场景吗?答案是肯定的,例如音量控制就非常相似。那么天猫精灵的全双工自然对话是怎么实现的呢?

技术方案

设备端:负责听和说。主要解决什么时候听,有没有听到语音,听到的语音有多长;什么时候说,以及说什么。

语音识别:即 ASR,将用户的语音识别成文本,并提取声音的特征。

语义理解:即 NLU,负责理解用户说了什么并转换成机器可读的信息。

语音合成:即 TTS,负责将文本转换成语音。

对话管理:即 DM,根据语义理解的结果和会话的上下文信息调用各种服务完成用户的请求。

人机交互识别:根据 ASR 输出的声学特征判断收到语音是不是用户和音箱说的话。

 

image.png

设备端交互管理

用户打开自然对话后,服务端在对用户进行应答的同时会下发自然对话收音指令到设备端。

设备端收到自然对话收音指令后,进入自然对话状态并开始收音。

在自然对话状态下,设备端检测到用户说话时开始发起自然对话交互请求;检测到用户说话结束时结束请求,并上报自然对话状态的持续时长和用户的说话时长到服务端。

设备端收到服务端应答,但是应答中不包含自然对话收音指令时,如果当前处于自然对话状态则退出自然对话。

自然对话收音指令中包含收音的持续时长,如果在这个时长内没有检测到声音也会退出自然对话。

设备端播放管理

在用户交互过程中,需要根据用户的意图决定被打断的播放动作是否需要继续。比如,用户在播放音乐时说“收藏这首歌”,那么在执行用户指令后需要继续恢复播放音乐;而用户在收听天气时问了算术,那么在执行用户的指令后不需要继续播放天气。

所以我们把音箱播放的类型分成 3 类,即需要恢复的播放、不需要恢复的播放以及提示音,并根据当前的播放类型和即将播放的类型来确定是否保存播放状态。

持续时长

用户不会一直和音箱交互,持续的收音和处理会极大的增加云端的处理负担,也没有必要,因此我们需要对自然对话的持续时长进行限制。但是用户和用户交互的时长又不是确定的,因此我们采取了滑窗的计时方式,即每一次用户交互后,我们都会重新计时,等待用户进行交互。

人机交互识别

在自然对话持续的过程中,用户可能在与其它人聊天,我们需要识别出来,并且做到用户无感知。在实际实践过程中,我们以语音识别时提取的声学特征为输入,通过深度学习算法来判断用户是否在与与音箱进行交互。如果发现请求不是用户和精灵的交互,精灵不会做出响应。

会话流

在自然对话持续的过程中,语义理解服务会记住会话的历史,并结合历史来处理用户的请求,通过这种方式,用户的多次连续交互就可以形成一个会话流,与用户的交互也更加自然。例如,用户询问今天说“今天天气怎么样”,精灵会回复今天的天气,如果用户再询问明天的天气,那么用户不用说“明天天气怎么样”,而只需要说“明天呢”。

总结

全双工自然对话是一个系统的工程,涉及到从设备端的前端信号处理、设备端语音交互管理、到云端网关、语音识别、语义理解等整个语音交互链路,涉及到部门多个团队的协作,项目的顺利推进离不开各个团队的通力协作,充分体现了“因为信任所以简单”和“此时此刻非我莫属”的价值观。

全双工自然对话上线后受到了用户的广泛好评,自然对话的用户只要使用精灵,几乎都会使用这个功能来与天猫精灵交互,而这部分用户的活跃度也比其它用户更高。

当然,在提升用户交互体验的道路上,全双工自然对话不是终点,还有很多可以提升的地方,我们会继续努力,为用户提供更好的交互体验。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/47559.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【工程师整活】Ai-WB1-A1S实现离线语音+APP+天猫精灵控制风扇

文章目录 前言一、控制主板二、转接板原理图三、接线与烧录1.转接板接线2.固件烧录 四、离线语音功能五、App 控制功能1.云平台产品创建2.添加设备3.五元组烧录4.进入配网4.设备控制 五、天猫精灵控制功能六、联系我们 前言 对于Ai-WB1模组,大家可能还没有多少印象…

深度解密天猫精灵对话系统

深度解密天猫精灵对话系统 一、序 天猫精灵音箱是阿里巴巴人工智能实验室出品的智能音箱,在推出不久就迅速占领国内市场,将人工智能以开口即得的方式带入千家万户。对话智能是天猫精灵智能的重要体现,它一部分来自于强大的算法,一…

天猫精灵测评与开发案例

点此查看 所有教程、项目、源码导航 文章目录 1. 背景2. 概念2.1 天猫精灵2.2 天猫精灵开放平台2.3 技能应用平台2.4 技能2.5 语音技能 3. 创建技能3.1 登录3.2 创建语音技能3.3 填写技能基本信息3.4 选择开发方式 4. 开发流程4.1 概述4.2 语音交互模型4.3 开发后端服务4.4 代码…

天猫精灵的开发者生态

文章转自 智联网事 (欢迎关注,每周一篇原创,直至.... No End) https://mp.weixin.qq.com/s?__bizMzI3NDE2NDMwNQ&mid2649905740&idx1&sn958e33454bf53011687783846619e8e1&chksmf31ec572c4694c642baffdec5cac0e26e403afda12487f611ee4…

如何快速搭建一个像“天猫精灵”的智能语音助手?

不看这几篇好文,就别说自己了解物联网 天猫精灵相信大家都不陌生了,它是阿里巴巴于2017年7月5日发布的AI智能终端品牌。让用户以自然语言对话的交互方式,实现影音娱乐、购物、信息查询、生活服务等功能操作,成为消费者的家庭助手。…

【TB-02模组专题②】学习如何对接天猫精灵语音控制的过程;

本<安信可ble mesh蓝牙模组TB-02模组专题>系列博客学习由官方博客 CSDN安信可博客 潜心所力所写。如有不对之处&#xff0c;请留言&#xff0c;我们及时更改。 1、BLE MESH开发环境linux版搭建&#xff0c;点亮一盏LED灯&#xff01;&#xff1b; 2、简单学习如何对接…

Aligenie语音开发平台(天猫精灵)的对接记录

首先找到阿里语音开发平台&#xff1a; 用自己的淘宝号登录&#xff0c;进入控制台&#xff1a; 添加新技能&#xff1a; 这里以智能家居接入为例&#xff0c;填写以下信息&#xff0c;填完点击下一步&#xff1a; 填写服务配置&#xff1a; 到此为止&#xff0c;语音开发平台的…

天猫精灵家居对接第三方设备(详细版)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言补充准备阶段&#xff08;内网映射到外网&#xff09;一、天猫精灵官网配置准备二、天猫精灵部分实现代码三、天猫精灵配置技能广场四、天猫精灵语音调试测试总…

如何让 ChatGPT 充当细致入微的 Java 代码优化工? | 得物技术

注&#xff1a;本文使用 New Bing&#xff08;GPT4.0&#xff09;演示 让他扮演一个 Java 软件开发者 第一步&#xff1a;我们让 ChatGPT 扮演一个 Java 软件开发者的角色 提示词插件&#xff1a;地址&#xff1a;ChatGPT BingChat GPT3 Prompt Generator App (Streamlit) - a…

低代码是行业毒瘤吗?ChatGPT这样回答

一、低代码现状 从2019年开始低代码领域备受资本市场关注&#xff0c;在争议中不断发展&#xff0c;至今仍存在诸多尚未厘清的概念有待探讨&#xff0c;比如低代码是行业毒瘤吗&#xff1f; 根据对行业近况的搜罗&#xff0c;总结以下现状&#xff1a;当前低代码行业在中国面…

万亿赛道大爆发,are you ready? “2022首届AIGC共创共建论坛”来了!

图片来源&#xff1a;由无界版图 AI 绘画工具生成 12月初的这个周末&#xff0c;ChatGPT在科技圈彻底火了&#xff0c;这是OpenAI新推出的AI聊天机器人&#xff0c;它就像科幻电影的智能助理&#xff0c;不管什么问题&#xff0c;它都能给出最优解。AIGC&#xff0c;人工智能内…

QQ 群聊美少女语音AI(ChatGLM 本地化版本)

QQ 群聊美少女语音AI&#xff08;ChatGLM 本地化版本&#xff09; ✨ 基于 go-cqhttp 以及 VITS-fast-fine-tuning ChatGLM 实现 ✨ Combination of ChatGLM and VITs anime girl AI voice and used in QQ robot 项目地址&#xff1a;https://github.com/Panzer-Jack/ChatGL…

谷歌、OpenAI 都白干,开源才是终极赢家!谷歌内部文件泄露:欲借开源打败 OpenAI...

&#xff09;省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年4月份热门报告合集 无需翻墙&#xff0c;ChatGPT直接使用 万字干货&#xff1a;ChatGPT的工作原理 2023年创业&#xff08;有创业想法&#xff09;必读手…

从零训练一个多模态LLM

本文尝试梳理一个完整的多模态LLM的训练流程。包括模型结构选择、数据预处理、模型预训练、指令微调、对齐、融合多模态以及链接外部系统等环节。 一、准备阶段 1 模型结构 目前主要有三种模型架构&#xff0c;基于Transformer解码器&#xff0c;基于General Language Model…

从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统

深度学习自然语言处理 分享知乎&#xff1a;逃脱鱼子酱 进NLP群—>加入NLP交流群 本文尝试梳理一个完整的多模态LLM的训练流程。包括模型结构选择、数据预处理、模型预训练、指令微调、对齐、融合多模态以及链接外部系统等环节。 一、准备阶段 1 模型结构 目前主要有三种模型…

【LLM GPT】李宏毅大型语言模型课程

目录 1 概述1.1 发展历程1.2 预训练监督学习预训练的好处 1.3 增强式学习1.4 对训练数据的记忆1.5 更新参数1.6 AI内容检测1.7 保护隐私1.8 gpt和bert穷人怎么用gpt 2 生成式模型2.1 生成方式2.1.1 各个击破 Autoregressive2.1.2 一次到位 Non-autoregressive2.1.3 两者结合 2.…

GPT-4比人类更懂融资!AI企划书让VC疯狂打call

尚恩 发自 凹非寺量子位 | 公众号 QbitAI 你敢信&#xff0c;一份由AI写的融资企划书&#xff0c;竟然引发VC疯狂追捧&#xff01; 甚至有VC投资人当场承诺&#xff0c;愿意给这份由GPT-4生成的企划书直接投资。 又一个用GPT赚钱的小技能&#xff0c;Get。 对此咱真不得不感叹一…

微信小游戏个人开发者上架:从注册到上线的详细步骤

微信小游戏个人开发者上架&#xff1a;从注册到上线的详细步骤 一&#xff0c;注册小程序账号1.1 微信公众平台1.2 填写信息1.3 绑定管理 二&#xff0c;打包步骤2.1 工具准备2.2 关于Unity版本2.3 打包详解 三&#xff0c;提包步骤3.1 填写用户隐私3.2 完善开发者自查3.3 游戏…

对标GPT核心技术RLHF!港科大开源RAFT「木筏」,适用GPT扩散模型

梦晨 发自 凹非寺 量子位 | QbitAI 开源大模型火爆&#xff0c;已有大小羊驼LLaMA、Vicuna等很多可选。 但这些羊驼们玩起来经常没有ChatGPT效果好&#xff0c;比如总说自己只是一个语言模型、没有感情blabla&#xff0c;拒绝和用户交朋友。 归根结底&#xff0c;是这些模型没…

DDPM详解 AI绘画

话说DDPM DDPM模型&#xff0c;全称Denoising Diffusion Probabilistic Model&#xff0c;可以说是现阶段diffusion模型的开山鼻祖。不同于前辈GAN、VAE和flow等模型&#xff0c;diffusion模型的整体思路是通过一种偏向于优化的方式&#xff0c; 逐步从一个纯噪音的图片中生成图…