“寻找贾维斯”简史

可能人人都希望自己有个“贾维斯”。

虽然已经退出漫威电影很多年,但是我们还是能够记起那个钢铁侠战衣里无所不能的AI助手。独特的幽默、优雅的语调,以及非常靠谱的人设,让无数科幻迷对这个看不见听得到的角色产生了无尽好感。

对贾维斯的迷恋有多疯狂呢?我见过贾维斯版本的电脑桌面程序,贾维斯模样的手机UI,以及以贾维斯命名的AI算法。设计师和极客们,迄今为止想了无数办法来“复活”属于自己的贾维斯。

然而画面越来越逼真的贾维斯界面,显然无法得到它的精髓:像朋友一样的沟通与陪伴。

假如说有某种技术希望能够在“本质”上寻找贾维斯,那么一定非语音助手莫属。

由于身处一个科技爆炸的年代,日常生活中我们可能不太留心某种技术的发展。但是如果一旦停下来回头看看,会惊奇地发现一门技术原来经历了相当惊人的变化。比如说手机中的语音助手,已经成为了日常生活的一部分。而如果回首一下它的历史,说不定会大吃一惊:原来用语音助手复活贾维斯,并不是说着玩玩的。回看这些年语音助手的成长,会发现在人性化交互、应用能力拓展,以及功能集成上,语音助手的体验确实在一步步逼近“贾维斯”这个终极目标。

最近好像流行写各种简史,那不妨让咱们今天来讲一段,关于“寻找贾维斯”的简史。不难发现,语音助手的进化轨道,其实已经非常清晰明确。

语音助手初长成

大家都知道,最早的语音助手是苹果推出的Siri。

想当年,在大家都没跟手机说过话的时候,Siri真的可谓是叱咤江湖。《生活大爆炸》里甚至有一集,专门安排拉杰什和Siri谈了回恋爱。

然而要承认的是,技术必然有其阶段性。就像老爷车虽然经典,但是肯定无法开上21世纪的高速路。初始阶段的Siri,在今天来体验其实是很初级的。

语音助手这件事,之所以得到了苹果的大规模投入,其实主要是云计算系统的功劳。其实更早时候,语音助手的雏形已经出现。只是当时云计算体系没有铺开,只能把若干语音指令存储在手机中,这导致用户的问答模板过分单调。

而从Siri开始,语音助手完成了云端部署。这样可以在云端存储大量的对应模板,并且实时更新,从而让语音服务成为可能。

这时候的Siri虽然知道的多了,但是智商却十分堪忧。由于当时的语音助手完全是模板化的,换句话说你必须准确说出了问题,并且被Siri准确识别了,才能给你找出对应的答案。

然而套路终归是套路。那个时候,应用Siri的体验大概是这样的:

Siri,帮我给xx打电话

好的,已经拨打

Siri,帮我打个电话,我要联系xx

对不起,Siri没有听懂……

总之就是,模板不能错一点点,否则就是推到重来。好在,这种语音助手完全比拼模板数量的时代,很快就过去了——因为AI来了。

AI来了之后

早期语音助手的最大缺点,在于问答只能模板化。用户实际上不是在跟语音助手聊天,只是把遥控器换成了语音操作而已。这在某种程度反而是增加了用户的交互成本,同时也让用户心中对于“语音助手”这个概念的智能化期待大打折扣。

好在AI来了。

随着深度学习的复兴,以神经网络处理语音任务逐渐成为主流。随着AI加入,语音助手开始呈现语义理解、多轮对话,声音合成等能力,并且在这几条轨道上不断发展。于是我们看到了语音助手的听力越来越敏捷,很多情况能够和用户像正常聊天一样说下去。甚至方言、儿童音等问题都得到了一定程度的解决。

这个时期的语音助手,最具特色的代表应该是谷歌语音助手Google Assistant和微软小冰。前者去年曾经创造过模仿真人打电话而不露馅的“壮举“,而后者也常年活跃于聊天界,以不被发现是AI而著称。

这个时候的语音助手体验,已经有了比较明显的升级。比如用户说我想打个电话/帮我打个电话/帮我查一下某人的号码,然后打电话,语音助手基本都能明白。

而且在深度学习的帮助下,语音助手还能记住用户的聊天习惯,时不常还能跟用户逗个闷子,聊天时立个人设。

然而这并不是终点。随着AI语音助手的普及,尤其是在手机中的广泛应用,用户发现它能干的事情还是太少了。基本就停留在打电话、发短信、整理日程表等几种。然而这几种在今天已经是名副其实的边缘应用。

只能聊而没啥用的语音助手,就好像贾维斯只能陪着托尼瞎聊天,却无法启动钢铁侠战衣——这显然是严重影响票房的。

在移动AI觉醒的这两年,随着终端AI处理能力越发强大,事情开始有了更多发展。

折叠出人性化交互

在语音助手的进化上,有两件事决定了今天的故事走向。一个是客观上来说,无论是端侧还是云侧的AI处理能力都在变强。许多之前无法触发的AI应用开始变为现实,这些能力就像钢铁侠的装甲和武器,让语音助手有更多可以操纵的空间。

更明显的改变来自于消费者和厂商,对语音助手这件事发生了主观上的升级。过去语音助手作为一个“尝鲜品“,主要能力是显露自己多么智能强大。而在今天,已经习惯语音交互的用户需要的是”以我为主”,让语音助手提供服务,而不是炫技。

众所周知,我们在手机中的主要服务,是基于APP产生的。那么语音助手的下一步也就是要融合到APP当中,把服务抽象出来,带给用户方便。比如三星的Bixby最先尝试了打穿APP的方案。

这主客观两个条件结合,构成了今天语音助手的主要升级方案:折叠交互,融合应用,体现人性化。

在这条路上已经有了不少参赛者,而目前能够看到将语音助手这件事推到新高度的,是刚刚更新的EMUI9.1。

小艺这个名字,对于华为用户来说并不陌生。而EMUI 9.1版本的小艺经历了一个跨度非常大的升级。从整个语音助手发展历史的角度看,这些升级也可能十分重要。咱们还是基于几个场景的变化,来研究一下小艺刚刚带来了什么。

1、能听能说,也要能看

语音助手这东西,大家已经默认其能力就是听和说。然而实际上,一个真正的“助手“还需要一个基本的能力,那就是“察言观色”。

之所以语音助手一直缺乏“看”这个层面的能力,原因很大程度在于大部分手机还无法承载复杂的AI视觉计算。这个领域华为这两年一骑当先,自然也就孕育出让语音助手走向听说看全能的基础。

在EMUI9.1版本中,小艺开启了多模态融合交互。之前,用户想用手机识别花草、汽车之类的,需要点开摄像头或者专用APP。这个流程其实有点繁琐,而且很多一闪而逝的风景可能就要错过。

而新的小艺,则可以让用户长按电源1秒就唤醒它,直接对手机说“这是什么”,语音助手就会自动识别花草、汽车等等。这个能力更有用的地方是识别食物卡路里,可以直接语音问手机“我吃这个会不会胖”,然后小艺就会自动开启卡路里识别,报出食物的卡路里数量。小艺还会根据识物的卡路里级别,建议你少吃还是放心吃。估计也就是小艺才如此友善,同样的问题问朋友,他们大概会说“你吃空气也会胖”。

看的目标不仅是基于摄像头,同样也可以看到手机里的图片。小艺的视觉结合,另一个玩法是用语音搜图。比如用户可以说“找到我女朋友去年的照片”,手机就会在图库众多的图片中找到你想要的。

2、穿透APP来服务你

我们今天的生活,就是在无数APP中穿梭。同时也要承认,很多功能其实隐藏在APP深处,想要完成是有点麻烦的。

举个例子,在你口渴难耐时,想要去自动售货机买瓶水。一顿操作终于选到了合适的饮料,这时提示你要扫码付款,然后此时要先经历找到支付宝,打开支付宝,点击扫码——这个过程中每一秒都是煎熬。

而在EMUI9.1的升级中,小艺加入了更多用语音解锁APP场景的功能。比如上面这些操作,现在可以直接对手机说“扫码”,一句话唤醒。这个技能适用于各种着急买东西的场景,其中滋味大家不妨自己体会。

另一个很有代表性的场景是在微信里。现在微信语音似乎已经完全取代了电话,但是在茫茫然一片的微信里,想找到合适的人其实还挺难。要经历点开搜索,打字,完成搜索点入对话框,发起语音,一共四个步骤。而小艺则可以直接说一句“给微信里的某人打电话”来一步完成。

此外,不同应用中触发小艺,据说还有不同惊喜。

3、可学习和可定义

小艺的另一个升级点,在于学习用户语音习惯和使用习惯的能力得到了加强,同时开启了自定义组合技能的新模式。

比如我们周五下班坐进车里,这时候其实是有很多事先要用手机完成的。比如说,打开导航确认目的地,放首《今天是个好日子》听听,给哥们发微信约去看球,给老婆发短信说今天要加班不回家吃饭了……这种做法并不值得提倡。

可以看到的是,这一波操作虽然心情愉快,但是未免复杂了点。手速慢的人分分钟就会被晚高峰给追上。而在新版的小艺中,用户可以自定义这些操作,整合成同一个语音命令。比如说对小艺大吼“劳资下班了!”小艺就会自动进行用户设定的上述操作,又简单又解气。

从小艺的故事可以看到的是,手机语音助手走到今天,已经不仅仅是一个语音软件本身的智能程度问题,而是整部手机的能力,都要通过语音助手来集成和调动。把多种能力、多个应用,多个交互进行折叠,最终折叠出的才是更省时省力,更符合用户期待的自然交互。

而从语音助手诞生时的套模板,再到AI的入场,随后发展到手机软硬一体化的智能折叠时代,语音助手的变迁史中,似乎可以总结出一个公式。

语音助手的“贾维斯公式”

到底怎么才能做出大家心目中的贾维斯?通过手机和语音助手的不断耦合,我们可以发现这样几件事是先觉条件:

1、不断升级的AI综合体

从谷歌、微软、亚马逊激烈竞争的语音助手,到国内的智能音箱热潮、手机语音助手不断升级,而AI能力始终是这个故事的“主线剧情”。

而随着步入移动AI时代,语音助手现在的任务,从整合AI技术,开始发展到了整合AI应用、AI能力和AI技术的三合一模式。

回望华为手机开启AI进化的这两年,从EMUI在8.0时期开始,诸多智慧能力开始显现。到 9.0时代,开始加强视觉AI应用,并且对AI能力进行整合。而到9.1当中,语音助手开始整合更多AI应用。可以看出,AI的从无到有,从弱到强,从分散到整合,是手机助手进化的主线。

2、软硬件不分彼此

在手机当中,一款软件的能力总归有限,只有与应用、内容和硬件层面更好结合,才能真正让用户获得智能的体验和实际的应用价值。

这就好比只会逗闷子的贾维斯并不招人喜欢,天文地理无所不知,还能操纵钢铁侠战衣的才是“真·贾维斯”。语音助手之所以今天的领军者变成华为和EMUI,很大程度在于华为手机这几年在软硬件一体化能力上的积极探索,一定程度打破了旧有手机模式的藩篱。

当语音助手可以调动智慧视觉和各种应用,其价值就好像你的朋友突然由员工升级成了老总……

3、基于人性,去折叠每一个交互

要注意的是,语音助手始终伴随着一条炫技之路:由于AI带来的技术非常充沛,开发者很容易把语音交互搞得复杂无比。虽然初心是让消费者感受到技术爆发的魅力,但实际应用中消费者往往不胜其扰,只能敬而远之。

所以在语音助手的进化中,需要基于人性化的产品思考,基于用户感受去折叠和省略交互。只要技术复杂同时交互简单,语音助手才有亲和力可言。

至此,不难发现,这条寻找贾维斯之路,似乎可以被总结成这样的公式:智能技术更复杂,产品融合度更强,交互更人性=语音助手更像贾维斯。

并且我们有理由相信,所有寻找终归能够抵达终点。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31561483/viewspace-2641456/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/31561483/viewspace-2641456/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37991.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jarvis贾维斯语音_保罗·贾维斯(Paul Jarvis)可以教给我们的建立业务的知识

jarvis贾维斯语音 想要在八到九个月内赚足够的钱,让您在一年中的剩余时间里做任何想做的事吗? (Want to make enough money in eight or nine months to last you for the rest of the year doing whatever the heck you want?) So do we. That’s why …

JARVIS(贾维斯)来了,科技改变生活

微软开源地址 https://github.com/microsoft/JARVIS 后续可能性: 每个人都有一个自己的AI助理提高生活便捷性学习知识的速度更快云助理 && 家用私人部署助理

谷歌拼音 输入法设置

谷歌拼音输入法 2.7,默认的是半角字符,中文标点 为了防止 以后 在输入代码的时候,出错,中文和 英文 都用 英文标点吧。

基于ubuntu20.4安装谷歌拼音中文输入法

1.首先命令行安装汉语语言包 sudo apt-get install language-pack-zh-hans 执行该命令后,系统就会自动安装所需要的汉语语言包 图1 安装汉语语言包 2.然后命令行安装谷歌拼音输入法 sudo apt-get install fcitx-googlepinyin 执行该命令后,系统就会自…

google输入法PK搜狗输入法

往往一个人用某个软件用的时间久了,久而久之就会形成一种习惯,不再探索或关注其他的类似的软件。造成的后果就是你只知道一款软件就这些功能,其余的知之甚少,就如同今天,看到别人输入法的皮肤特别漂亮,于是就想搜狗有这么漂亮的皮肤。问过后才知道人家用的是个google的拼…

Ubuntu20.04 安装谷歌拼音(googlepinyin)输入法

1.更新一下 sudo apt update 2.安装Fcitx sudo apt install fcitx如果有报错,执行下面命令 sudo apt install fcitx --fix-missing 3.命令行输入: im-config 弹出页面 ,选择ok,然后选择yes按钮,最后选择fcitx。…

谷歌拼音输入法PinyinIME源码修改----随着Setting中中英文的切换对应改变软键盘中英文输入且字符变换

项目中使用的是Google的输入法:谷歌拼音输入法,即PinyinIME。 客户提出需求:需要在Setting中切换中英文的时候,输入法对应成中英文输入,并且字符也对应成中英文,即Setting中设置为中文的时候,输…

安装google输入法后,左shift键不能切换中英文

解决方法 打开fcitx配置页 如图应有两个选项,即google拼音和 键盘英语,如不足,则选择左下角添加。 此后虽然可切换中英文,但是打开一个新页面后只按shift键却不能正常切换中英,必须要ctrl加空格后才能切换&#xff0c…

写在发现谷歌拼音输入法网站消失的今天

今天偶然发现谷歌拼音输入法PC版的网页消失了,我想以后可能都不会有了,除非谷歌重返大陆。 PC端的谷歌拼音输入法从2013年就已经停止更新,但这并不妨碍我继续使用它,之前它的官网一直都在,也提供下载。 之所以喜欢这…

Google推出拼音输入法了!

网址: http://tools.google.com/pinyin 下载地址:http://dl.google.com/pinyin/GooglePinyinInstaller.exe 用了一下,感觉挺好用的,同志们有兴趣的话,也试试看吧。恩 聪明的谷歌拼音输入法五大特色: …

网页上使用的输入法——Google Transliteration

简介 输入法通常是装在PC上用的,但是API有关部门的童鞋发现了专门在网页上用的输入法(见上图)。 这个插件的作用,按照官方说法: 您可以使用 Google 输入工具在网络中的任何位置以所选语言轻松地输入内容。 此接口采集自…

Python实战之12306抢票

实战:12306抢票 注意:代码运行之后,需要手动使用12306APP扫码登录 代码如下: import csv from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.support.ui import…

python实现12306全自动抢票

这个脚本目前只能刷一趟车的,人数可以是多个,支持选取作为类型等。 实现思路是splinter.browser模拟浏览器登陆和操作,由于12306的验证码不好自动识别,所以,验证码需要用户进行手动识别,并进行登陆操作&am…

小年到了,回家抢票太难,用Python做个脚本12306自动查票以及自动购票....

今天就是小年了,听说还有人买不到票?不要慌,今天咱们来用Python做一个自动查票抢票的脚本,24小时抢票,谁抢的过你!源码包已打包文件夹获取方式:点击这里【 Python全套资料】 即可获取。 准备工作…

C++写的12306抢票软件

写在前面的话 每年逢年过节,一票难求读者肯定不陌生。这篇文章,我们带领读者从零实现一款12306刷票软件,其核心原理还是通过发送http请求模拟登录12306网站的购票的过程,最后买到票。 郑重申明一下:这里介绍的技术仅供…

Python抢票神器

又到了一年一度的抢票大战,本来就辛苦劳累了一年,想着可以早点订到票跟家里人团聚。所以,许多人宁愿多花些钱去找黄牛买票。 但今年各种抢票软件的横行,还有官方出的加速包,导致连黄牛都不敢保证能买到票。你无奈的只能…

chatgpt赋能python:如何利用Python抢票

如何利用Python抢票 Python是一种非常流行的编程语言,可以轻松编写自动化工具。如果你想要在抢票热潮中获得胜利,这篇文章将向你展示如何使用Python编写程序来自动抢票。 抢票原理 在开始编写程序之前,我们需要了解如何抢票。抢票的原理是…

python写一个简单的12306抢票

引言 每逢过年就到了12306抢票高峰期,自己总想研究一下12306购票的流程,虽然网上已经很多资料,但是总比不过自己的亲身体会,于是便琢磨着写一个抢票软件,本人比较熟悉python,所以软件是用python写的。 使…

Python3.6实现12306火车票自动抢票(内含源码)

最近在学Python,刚好过完年啦!大家应该都需要买高铁票继续去当打工人了吧!所以用Python写了这个12306抢票脚本,分享出来,与大家共同交流和学习,有不对的地方,请大家多多指正。话不多说&#xff…

12306抢票软件实现(二)

近期好多人私信我,能不能需要分享完整代码。为了帮助大家,我以及将代码整理和教学视频我已经上传了CSDN,欢迎私信交流,共同学习共同进步:代码及视频下载地址 求给五星好评,谢谢啦 前面已经介绍了实现登录1…