智能音箱来了,语音交互设计的一点认知

语音用户界面(或VUI)是一种交互模型,在该模型中,人与机器进行交互,并至少部分通过使用语音来执行一组任务。

640?wx_fmt=jpeg

实际上,这种方式的交互式语音应答(IVR)系统在银行业和旅游业中已经得到了广泛的应用。这些系统主要依赖于语音生物识别来识别用户并使用语音作为主要交互模式完成的任务集。随着亚马逊Echo、苹果的siri 等产品的诞生,VUI发生爆炸,各大公司也开始尝试多媒体交叉设备的体验。

“治学先治史”,了解语音技术的过去点滴,大概会有些帮助。

穿越时间走廊

早在1961年,IBM设计了一个名为Shoebox的实验装置,是由William C.Dersch开发的,大概是早期的语音识别设备。机器把声音转换成电脉冲可以识别出16个单词。在1962年西雅图举行的世界博览会上首次展示,这可能是自动语音识别(ASR)和自然语言理解(NLU)的起点,但只涉及第一部分的声音识别。对于纯语音用户界面,机器生成人声早在1939年或更早的时候就有了。

640?wx_fmt=jpeg

霍默·达德利(在新泽西的贝尔电话实验室)的Voder是第一款能够产生连续人声的电子化设备。1939年,阿尔登·P·阿玛涅克在《大众科学》杂志上写下了关于这一装置的文章。它是用真空管和电路制成的,是为了复制人类的声音。为了进行对话,机器操作员使用了一个像风琴一样的键盘。十三个黑白键产生了所有的元音和辅音,另一把键控制着合成声音的扬声器响度。脚踏板改变了音调,使同一句话可以陈述句或疑问。大约一年的培训,操作员就能使机器说话,想起来也是一个有意思的东西。

640?wx_fmt=jpeg

2000年初,IVR系统成为主流。任何有电话的人都可以预订飞机航班,在账户间转账,查找当地电影时间,听交通信息,所有这些都只使用普通电话和人声。

语音交互、增强现实和虚拟现实等技术或许已经存在或研究了相当长的时间。令人兴奋的是,它们最终在市场上广泛商用了,这就需要设计师和工程师来承担开发场景以解决用户日常问题的挑战。

为什么是语音助理

语音助理已经风靡各地,为什么呢?它的优势有:

  • 自然

  • 解放双手

  • 快速响应

  • 个性化


640?wx_fmt=jpeg

语音是人们交流的基本手段。其他形式的交流方式如写作、面部表情或手语,在所有文化中也都同样具有表达力,但人们主要还是通过语音来说服、告知和建立关系。语音助理能够在不同的场景和渠道中保持一致。

理解对话

用户通常会就手头的特定任务进行语音对话。交互通常很短,来回的交互也很少。用户可以通过对话来完成一项任务,即使他们不忙,不能总是全神贯注。用户在通过GUI执行相同任务时会感觉到很多延迟或不爽,而对话将有助于减轻这种体验。

640?wx_fmt=png

在语音识别中,得到对话所有的上下文几乎是不可能的。上下文大约分成三类:

  • 物理上下文

  • 情感上下文

  • 对话的上下文

从物理、情感和会话上下文中,可以创建一个关于会话内容的推理或得出结论,得出一个拟人化的结果。

对话的意图大约有两种,一种是目标反馈确定的,一种是不确定的,对于不确定的意图需要更多的用户选择。 也就是说,大约可以分为基于意图的对话和随机问答。基于意图的对话是为了完成一个目标或完成一个任务而进行的对话。心里有一个意图,需要助手的回答,这时只想完成一项任务。随机问答是指用户与助手进行交互时没有特定的意图。他们只是想和助手聊天,谈兴趣,也许是想更多的彼此了解,建立一种关系。

640?wx_fmt=jpeg

当然,语音交互有着自己的局限。在IVR中,很难暂停系统,相反,用户必须不断地进行交互,而视觉组件可以让用户以更轻松的方式继续交互。另外,是在公共场所使用方面的限制。用户可能不能在某些公共空间使用语音,因为这样做会侵犯用户的隐私。

语音交互的部分关注点

人的一种主要行为,就把人的情绪联系起来,试图理解一个复杂的物体。不过,大多数消费者的底线是,更愿意与一个温暖的身体交谈,而不是与一台冰冷的电脑交谈,因而需要关注语音应答的多样性。

逐步披露是人机交互中常用的一种交互设计技术,通过减少混乱、混乱和认知工作量,帮助保持用户注意力的焦点。这通过只提供手头任务所需的最小数据来提高可用性。一般使用犹豫标记,或者增加短语询问。

640?wx_fmt=jpeg

给语音助理赋予人性化,可能需要一些因素:

  • 经验的开放性,这可能包括对艺术、情感、冒险、不寻常的想法、好奇心和各种体验的欣赏。

  • 责任心,可以是高效/有组织的,或者随和/无关紧要的态度。

  • 外向倾向于表现为外向、健谈、精力充沛的行为,而内向则表现为较为保守和孤独的行为。

  • 令人愉快的对话,体现善良、同情、合作、热情和体贴的个人行为特征。

  • 神经质,可能是惊喜,也可能是惊吓。

模仿的行为可以与另一个人更相似,感知到的相似性可以作为基础。

基于语音的交互或语音检测依赖于一个设备,该设备有一个性能良好的麦克风来捕捉/记录用户的指令,可以参考过去一篇文字。

多方式交互的HCI

VUI与GUI成为人机交互规范的时候非常相似,设计人员需要清理混乱的逻辑,简化数据,并向用户提供更容易掌握的流程和解决方案。以电视遥控器为例,设备上有20-30个按钮时,操作起来就会非常困难,一个人很难理解所有按钮的作用。没有好的设计,技术就很难甚至不可能得到应用。

640?wx_fmt=jpeg

用户体验设计围绕着整个用户旅程展开,即回答用户对特定用例可以做什么,然后理解用户能够以无障碍和愉快的方式满足需求的最佳方式。

从一开始就不能决定只使用一个模态,但是设计者必须理解用户根据系统的输入和输出模态完成特定任务的需求。

对于具有图形用户界面的数字助理,当有动画选项时,这变得更有趣。在这里,助理会表现得像人一样;会倾听你的问题,思考,回答,开个玩笑,唱歌,表达悲伤和愤怒,还有很多其他的情绪。

640?wx_fmt=jpeg

多交互方式并存,形成了人机交互的领域。人机交互(HCI)已经存在了相当长的一段时间了。在20世纪50年代初,用穿孔卡片存储数据和输入,随着个人电脑的引入而发生了颠覆性的变化。20世纪80年代后期,几乎使世界上的每个人都成为潜在的计算机用户,也暴露了关于可用性的问题。

HCI整合了认知心理学、人工智能和思维哲学,以阐明系统化和科学化的应用,称为认知工程。它使具有概念、技能和远见的人能够满足人机交互的实际需求。

交互设计的一些原则

HCI 的设计有很多的经验和原则,对于VUI同样有着参考意义。例如,Ben Shneiderman 关于界面设计的8条金规:

  • 争取一致性

  • 允许用户使用快捷方式

  • 提供信息反馈

  • 设计对话以实现闭环

  • 提供错误预防和简单的错误处理

  • 允许轻松逆转操作

  • 支持内部控制点

  • 减少短期内存负载


640?wx_fmt=jpeg

又例如,Donald Norman的七个设计原则:

  • 在头脑中运用现实世界和知识

  • 简化任务结构

  • 使事物可见;缩小执行和评估之间的差距

  • 正确绘制地图

  • 利用自然和人工约束的力量

  • 面向错误的设计

  • 当所有其他方面都失败时,标准化


640?wx_fmt=jpeg

还有现在广泛使用的Nielsen启发式UI/UX设计原则:

  • 系统状态的可视性

  • 与系统和现实世界相匹配

  • 用户控制和自由

  • 一致性和标准

  • 灵活性和效率

  • 错误预防

  • 错误报告、诊断和恢复

  • 美学和极简设计

  • 识别而不是回忆

  • 帮助和文档


640?wx_fmt=jpeg

创建一个平滑无缝且自然的 VUI 对于使用的人工智能产品来说至关重要。对VUI而言,也有着自己的设计技巧:

  1. 了解智能引擎的背后,成功与否取决于真正为体验提供动力的内部架构。

  2. 构建自己的设计工具栈,Adobexd非常适合用于线框用户流程图,语音工具包括Walkie, Botframe 和 Mockabot等。

  3. 个性在设计中表现出来,而不是交给设备。个性表现在设计决策和独特的工作流程,坚持利益相关者的有效执行。

  4. 少即是多。设备所说的实际语言必须清楚地满足其用户的需求,剩下的才是措辞,句子结构,音调,甚至声音本身的音调变化等。

  5. 在配音的时候要专业一点。专业的录制最好有TTS的客户经验,为人工智能对话设计音频与制作音乐甚至是传统的配音有很大的不同。

  6. 在 VUI 之外保持角色的一致性。如果图形元素不能和谐地补充语音元素,那么创建一个杀手级的 VUI 将被证明是徒劳的。 

  7. 让语音设备保持亲密状态。有竞争力的产品是需要尽可能多地挖掘 。

  8. 鼓励尝试。场测和错误验证,再加上可靠的用户研究,无论多么细致,都不会让你成功地将最微妙的特质融入到你的语音交互体验中。

  9. 一切都是达到目的的手段。归结为一件事,数据是人工智能的全部。个设计良好的 VUI 应该通过成为习惯的具有启发性的交互体验来补充这个过程。

  10. 设计的分享。目标、需求、最佳实践、技术、技术、工具集和行业每天都在不断变化。 知识和经验的扩散是揭开人工智能个性设计的神秘面纱并使之标准化的最佳途径。

然而,“大道易得,小术难求”。行胜于言,努力去学习和实践才能得到更多的理解和认识。

640?wx_fmt=jpeg

(本文图片来自网络,如有侵权,联系作者删除)

参考资料

  • https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html

  • http://www.speechtechmag.com/Articles/Editorial/Feature/Its-a-Persona-Not-a-Personality-36311.aspx

  • https://www.forbes.com/sites/mnewlands/2017/08/25/10-essential-tips-on-voice-user-interface-design-for-ai/#29f764dc2422

  • https://www.theatlantic.com/science/archive/2017/12/the-secret-lifeof-um/547961/

  • http://www.csun.edu/science/courses/671/bibliography/preece.html

  • Nielsen, 1995, https://www.nngroup.com/articles/ten-usability-heuristics/


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/45347.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

简易聊天室app实现:Unity+C# 客户端,Java 服务器端

UnityC# 客户端 UI界面根据个人喜好排版 图1 进入界面 图2 聊天界面 C#脚本代码如下: Client_dxc.cs using UnityEngine; using System.Net.Sockets; using System.Text; using System; using UnityEng…

解放生产力的 AI 神器来了

苏生不惑第405 篇原创文章,将本公众号设为星标,第一时间看最新文章。 今天分享几个解放生产力的AI写作神器,首先是腾讯出品的智能写作助手 https://effidit.qq.com/ ,文字工作者的福音,提供智能纠错、文本补全、文本改…

医学图像配准论文学习:解剖学约束和注意力引导的深层特征融合,用于关节分割和可变形医学图像配准(2023)

原文链接:Anatomically constrained and attention-guided deep feature fusion for joint segmentation and deformable medical image registration 一、Hilghtlights: 利用分割可以在配准过程中培养先验知识。多任务学习策略提高了配准性能。所提出的…

学习遥感大模型(1)

借着课程作业的机会学习了一些遥感大模型相关的工作,现总结一下 根据非盈利组织忧思科学家联盟(The Union of Concerned Scientists),截止2023年1月,全球对地观测卫星在轨数目已超过1000颗。大量的对地观测卫星很大程…

影像组学 - pyradiomics库 - 入门1

目录 一、了解 影像组学 影像组学是什么(引用一下chatgpt的解释) 影像组学的基本步骤 影像组学的作用与价值 影像组学有哪些特征 二、了解 pyradiomics pyradiomics是什么 pyradiomics使用步骤 pyradiomics的作用与价值 三、正文开始&#xff…

网络安全数据集介绍

目录 1、KDD99 入侵检测数据集 2、NSL KDD 入侵检测数据集 3、UNSW_NB15 入侵检测数据集 4、NASA MDP 软件缺陷数据集 5、CNNVD 软件安全漏洞数据集 6、NVD 软件安全漏洞数据集 1、KDD99 入侵检测数据集 该数据集是从一个模拟的美国空军局域网上采集来的9个星期的网络连…

unsw计算机专业排名,新南威尔士大学UNSW计算机科学Computer Science专业排名第54位(2021年THE世界大学商科排名)...

2021年THE泰晤士高等教育计算机科学Computer Science专业世界大学排名公布,新南威尔士大学UNSW计算机科学世界排名第54位,新南威尔士大学UNSW计算机科学专业实力怎么样呢?下面美英港新留学介绍新南威尔士大学UNSW计算机科学专业培养计划,新南威尔士大学UNSW计算机科学专业研…

[当人工智能遇上安全] 7.基于机器学习的安全数据集总结

您或许知道,作者后续分享网络安全的文章会越来越少。但如果您想学习人工智能和安全结合的应用,您就有福利了,作者将重新打造一个《当人工智能遇上安全》系列博客,详细介绍人工智能与安全相关的论文、实践,并分享各种案…

找到一个好用的在线创意英文logo设计生成器网站

smashinglogo.com这个在线一键式生成LOGO的网站可以尝试下,输入品牌词和slogan可以无限生成logo。 下面简单举个例子,给大家看一下效果。假设要给Tesla生成一个logo,可以把品牌词写成Tesla,slogan我随便编了一句: jou…

请不要随便走上编程这条路

“互联网的黄金十年已经结束,接下来的十年是白银十年”。这话还是在2016年看到的,当时本人有些沮丧,毕竟还没找到实习的公司。 怎么说呢,在去年,也就是2015年的时候,不敢说别的,大部分互联网专业…

IC工程师简历制作全解读

前言 越来越觉得一份好简历真的很重要! 本文基于下面这个视频记录所得:那个拿35万offer的IC设计应届生简历是这么写的 IC工程师应届生薪资 工艺制造、封测方向——本科/专科:5000-8000元/月,硕士:8000-12000元/月设计方向——本科/专科:6000-1000元/月,硕士:1w5-2w元…

为什么有人说C++是最难学的编程语言? (4个回答)

从事嵌入式开发多年,有三种语言玩的比较多C/C java,从编程语言的难度来讲C是最难得,而且也是最难入门的编程语言,很多编程老手都是这个结论,为什么C是最难学的编程语言,虽然难学但还是很多编程老手喜欢研究它&#xff…

自学编程的人,90%以上都会掉进这些坑,避开这些误区能提高N倍学习效率

前言 几乎每一个程序员都会走上那么一段自学的道路,尤其是在校生或进入工作岗位之后,技术的提升基本都靠自学,有的虽然是网上报班学习,但更多时候还是自己在学习,师傅引进门,修行靠个人。 有的人自学很快…

30岁开始学编程晚吗?

二哥,说出来不怕你笑话,我和你年纪差不多。之前是干别的,但有点编程的基础,最近想转行程序员,不知道晚不晚,你能不能给我一些建议,或者说有没有一些攻略可以参考。 这是上个月一个读者小郑私信我…

机械专业转行IT行业,成功自学Java上岸(分享转行使)

秋招转眼就结束了,将近一年的努力,总算给了自己一个比较满意的结果。写下这篇贴子记录自己的转行以及秋招经历。 其实在转行初期,就无数次幻想着秋招结束,然后写一篇长长的经验贴的那种满足感。下面我尽量把我知道的,…

该如何从教育行业转行做IT——我的真实经历给出的偏门答案

“我需要,最狂的风,和最静的海。”——顾城 本文是对想要入行IT,但是没时间没钱上IT培训班的小伙伴的一些小小的建议,我即将要说的是最近发生在我自己身上的事,这些可以成为“如何转行IT”的一个偏门的答案&#xff0…

编程行业未来趋势如何

随时互联网不断的发展,编程技术不断的优化、成熟,编程行业未来趋势如何一直是热议的话题。 未来数字化,虚拟化,数据化的方向,就是说精神上的追求会成为一大消费趋势,看现在人们使用手机,玩电脑的…

这样学编程,直接原地起飞啊!

大家好,我是二哥呀。 今天来给大家分享一些学习编程的心得,真的颠覆了我以前对学习编程的刻板印象,可以这么说,如果你恰好处在大学阶段,看到了这篇内容,OK,恭喜你,如果你能按照我说…

学好编程的 4 个秘诀

你好呀,我是沉默王二,一枚沉默但有趣又帅气的程序员(你听,耳边是不是响起了装逼的声音)。今天我来掏心掏肺地聊聊学好编程的 4 个秘诀,应该会对你产生一些微妙而又积极的影响。 闭上眼睛转个圈&#xff0c…

盘点关于程序员的10个有趣的段子

(1)程序员的读书历程:x 语言入门 —> x 语言应用实践 —> x 语言高阶编程 —> x 语言的科学与艺术 —> 编程之美 —> 编程之道 —> 编程之禅—> 颈椎病康复指南。 (2)程序员最讨厌的四件事&#…