为什么每次和 Siri 聊天我都一肚子火

640?wx_fmt=jpeg


硅谷Live / 实地探访 / 热点探秘 / 深度探讨


全世界最痛苦的事,就是和一个跟你不在同一频道的人尬聊。


相反,和自己的亲朋好友另一半说话就轻松多了,比如你说 “今天上班好累啊”,你的家人、朋友就会说,“那今晚别做饭了,咱们出去吃?”


这种默契才是检验交情深浅的唯一标准!


人和人之间有默契不罕见,但你能想象人和机器之间产生默契吗?


还真有可能!小探独家采访了来自硅谷的初创公司 Mosaix 的 CEO 兼创始人 Sam,以及 Mosaix 的 Chief Science Officer (以下简称 CSO)劳逆,让这两位小哥给我们讲讲他们是打算怎么让 AI 一步步成为我们的贴心小棉袄的


640?wx_fmt=png

左为 Mosaix CEO、创始人 Sam

右为 Mosaix CSO 劳逆


人工智能还是...人工智障?


这两年不论亚马逊的 Echo,还是 Google 的 Google Home,各种语音助手都很火。但我们可以想象一下,假如你的语音助手是个笨蛋,你和它交流起来该有多么痛苦。


我们来设想这么个场景:你吃着东西满手都是油,或者在洗碗满手都是泡沫,总之你腾不出手摆弄你的音响。这时你突然想听一首歌,于是你对音响说:


- 给我放首 Justin 的歌儿。


- 是名字里带有 Justin 的歌曲?还是歌手是 Justin 的歌?


- 歌手是 Justin 的歌。


- 是贾老板 Justin Timberlake,还是贾斯丁•逼宝?


- 贾斯丁•逼宝。


- 你是想听他最新的歌曲?还是榜单位置最高的歌曲?还是播放次数最高的歌曲?还是点赞次数最高的歌曲?


你觉得有点烦,但还是说 “都行。”


- 你想从 Spotify 播放?还是 YouTube 播放?还是 iTunes 播放?


这时你脸色已经很难看了,但考虑到你的人工智能是个人工智障,你还是强压怒火说,“那就 YouTube 吧”。


- YouTube 您想听播放量最高的视频、还是评论数最高的视频、还是好评率最高的、还是最新视频?


640?wx_fmt=png


让机器真正懂你的意思,就是 Mosaix 想达成的目标之一。


这么说吧,我们人和人交流,是从耳朵(听到别人讲话)、到大脑(明白别人的意思)、再到用手脚执行大脑发出的命令。


人和机器交流也一样:先到机器的 “耳朵”,也就是负责听懂我们人类到底在说些什么的语音技术;再到负责理解这句话意思的大脑,也就是 Mosaix;再到执行命令,也就是连着 Mosaix 的各种服务。

640?wx_fmt=png


Mosaix CSO 劳逆告诉小探,现在语音唤醒、语音识别之类的技术已经比较成熟,机器已经能够比较准确地把我们人类说话时发出的声音变成一句话。


现在的难点是:机器还是不太懂每句话都是什么意思、到底该怎么把它翻译成一个可以直接在网上执行的命令?这部分就是 Mosaix 做的语义理解。


而机器之所以经常听不懂我们人类说话,是因为我们有时说话会说不清楚,也就是 “语义缺失”。


“我想放松一下”


什么叫“语义缺失”?小探给你举个例子:


找下五公里内最便宜的加油站” 和 “我想放松一下” 这两句话,你觉得哪句更容易被机器听懂?


答案是第一句,因为这句话已经包含了机器语言所有的要素:


先以你的位置为圆心、画个半径为五公里的圆

然后把所有商家都找出来


640?wx_fmt=jpeg


再按商户类型过滤出加油站

选出价格最低的一个


搞定!


换句话说,“找下五公里内所有加油站” 这句我们人类说的话,和机器所熟悉的语言很像、没有缺失的语义,所以机器能直接把这句话翻译成它能执行的语言。


但当机器听到 “我想放松一下” 这种非常抽象的话时,机器的内心是茫然而懵逼的,因为机器也不知道你的意思到底是播某一类的歌?某一类的电影?还是导航去什么地方。


不过,如果一位和你很熟悉的朋友听到这句话,他/她估计就能秒懂你的意思。感情深一口闷?别逗了,谁能听懂你只说了一半的话,谁才叫和你感情深。


这就是 Mosaix 想让机器做的事情,Mosaix 想帮机器把缺失的语义 —— 也就是我们说话太模糊的部分 —— 填进句子里,而且还不能填错、曲解你的意思。


有意思的是,等这个技术再发展成熟些时,它对一个人的了解可能比那个人的老公或老婆还多。比如,你的老公或老婆可能记住了你喜欢 A,但他/她不知道你为什么喜欢 A,换个场景他/她又要重新死记硬背。但 Mosaix 做的 AI 就能理解其背后逻辑、因此能举一反三,不仅知其然、还知其所以然。


这还不算完!Mosaix 除了能理解你说话的意思,还能在听懂后执行你的要求。比如你说你想听首 Justin Bieber 的歌,它还要自己决定从哪儿播放这首歌、从哪儿获取信息。如果你有 Spotify 账号,它就知道自己从 Spotify 上搜;如果你说你想看剧,那它也会自己去爱奇艺、搜狐视频之类的网站给你搜剧。


640?wx_fmt=gif

Mosaix 声控电视


让你直接对音箱、电视发号施令


让机器能明白你说的话到底是什么意思,只是 Mosaix 做的 “语音搜索” 这件事情的一部分。


什么,你说你不明白什么叫语音搜索?你可以把它简单理解为:


Mosaix = 声控搜索引擎(百度或谷歌) + 个人语音助理(亚马逊的 Alexa 或苹果的 Siri)


用其 Chief Scientist 劳逆的话说,Mosaix 是 “用自然对话的方式,解决 ‘搜索’ 这个本质问题”。我们刚才说的让机器听懂你说的话、比你老公 / 老婆更懂你,只是个人语音助理这部分。


说完了语音助理,我们再来说说 “声控搜索引擎” 这部分。


现在声控搜索引擎主要有两个问题:1 搜索得太“笨”,一字一句搜;2 设备不够智能。


搜索得太笨 | 我们可以把人粗略地分成两种:在度娘或 Google 上搜 “红烧肉 做法” 的人(比如你),和搜 “红烧肉应该怎么做比较好吃呢?” 的人(比如你妈你姥姥)。如果你想得到尽量多的结果,很明显前一种更好。


这就是传统搜索引擎的问题:它更倾向于一字一句地搜索。在人家输入 “红烧肉应该怎么做比较好吃呢?” 的时候,它不一定能把这个问题简化成 “红烧肉 做法”。

640?wx_fmt=png


你说搜索引擎笨吧,它的确有全世界几乎所有问题的答案;你说他聪明吧,稍微换种说法问,它又回答不上来了...


除了搜索本身的不足,搜索设备也有局限性 —— 语音搜索更是如此。


设备不够智能 | 我们现在能用语音给手机下些简单的指令,但还没办法用换着法子用更高级的语音完成任务。换句话说,我们可以对 Echo 说 “把灯关了”,然后 Echo 自己就关灯,不用我们动手,这是简单声控。


现在的电脑、电视,就停留在 “简单声控” 阶段:你可以对着电脑或电视说 “我要看《蜘蛛侠》”,然后电视自己给你播放。但如果你说 “我今天很累,来点有意思的”,电视可能就懵掉了。


Mosaix 的解决方法是:以其 App 为入口,用它的云端服务连接电视、汽车系统、音箱...等各种设备。然后 Mosaix 在后端处理你的请求,不论你用什么设备发出请求,请求都会百川汇海发给 Mosaix,等 Mosaix 处理好后再把答案发回去。


比如你在洗碗时对着带有麦克风的智能音箱说,“给我来点带劲的”,音箱听到这个指示,就会问在后台运行的 Mosaix:“ ‘给我来电带劲的’ 这句话啥意思?” Mosaix 计算一番,弄明白意思后,就会告诉音箱放哪首歌。这样从头到尾,你只用声控就能听歌、看电影、看新闻了。


640?wx_fmt=jpeg

Mosaix 与上汽合作工作图


Mosaix 在成立之初,专门只做车上的应用,现在则计划扩张到电视、音箱等任何不需要你盯着看、可以边洗碗边听的事情上。


人类调教出来的 AI,就要比我们聪明了吗?


基于机器学习的自然语言理解有两种主要方式:强监督学习,和弱监督学习。


所谓强监督学习,就是在训练机器听懂我们说话的过程中,由人类插手,亲自告诉机器哪句话是什么意思、应该怎么理解,因为只有人类才知道 “这句话等于那句话”。或者让机器从网上扒数据,再由人类提供反馈。


这种方式有个问题:对于智能搜索需要面对的极大量的内容来说,强监督学习效率太低、很难规模化。


另外,“由人类插手” 意味着无法避免人为影响,所以最后 AI 理解的内容做不到完全客观、可能会有主观色彩,而导致产生潜在的偏差。


而弱监督学习则是 “不用人教、让机器自己自主学习”。


据劳逆介绍,现在 Siri、Alexa 等语音助理,用的都是我们上两段提到的强监督学习,强监督学习也因此被认为是正统。与之相反,很长一段时间来弱监督学习一直被当成 “非主流”。


对这种观点发起挑战的,正是 Mosaix。


2017 年起,劳逆和他带领的团队就开始利用弱监督加强学习解决自然语言理解问题(顺带提一句,劳逆作为绝对的学术大牛,曾在谷歌担任资深科学家多年,是自然语言领域理解和机器学习领域的专家,也是多个学术会议和期刊的编委或主席,但接受小探采访时人却非常低调谦虚)。


截止 2018年,他们所开发的语义引擎在自然语言问答三大公开数据集上(斯坦福 Web Question and Answering、斯坦福 WikiTableQuestions、Salesforce WikiSQL),力压微软、谷歌、斯坦福、耶鲁等机构,取得了弱监督条件下排名第一的好成绩。

640?wx_fmt=jpeg


劳逆非常自豪地说,这证明了弱监督加强学习在自然语言理解领域的潜力。对于语义明确的问题弱监督学习可以达到非常接近强监督学习的效果。如果换成有 “语义缺失”的问题,强监督学习会遇到人类智能的瓶颈,而弱监督学习就可以轻易超越。


我们以 “机器下围棋” 为例:


如果说强监督学习是人类高手手把手教机器揣摩围棋的话,那么弱监督学习就是机器本身以围棋规则为准、自己去 “领悟”、自己去总结,从而学习下围棋的。


围棋 AI 的代表 AlphaGo,最初是在人类棋谱的调教下,以强监督学习的方式学习下围棋,它可以 60:0 战胜人类顶尖高手。让人没想到的是,后来出现的 AlphaGoZero 青出于蓝 —— 依靠弱监督加强学习的 AlphaGoZero 让机器自己去 “领悟”,并最终以 89:11 战胜 AlphaGo。


有没有搞错?!和人类学下棋的 AI,最后输给了纯靠学规则、自己教自己下棋的 AI...


640?wx_fmt=png


而 Mosaix 对加强机器学习在自然语言理解领域的应用,也和 AlphaGoZero 有异曲同工之处。


当然,这并不是说弱监督学习已经完全战胜强监督学习了,两者根据应用场景不同,有时难分高下,但至少随着 Mosaix 的技术突破,提供了一种 “以弱胜强” 的可能性。


从商业角度看,Mosaix 意在把弱监督学习产品化,变成能懂你心、当你的贴心小棉袄的深度语义搜索


从 2017 年起,Mosaix 与上汽集团开始探索技术在出行领域的应用。在完成了预研项目的基础上,上汽北美创新中心认为 “Mosaix 在语义识别方面积累的两项独特优势 —— ‘基于位置的自然语言理解’ 和 ‘基于海外(小)语种的语义分析’ 可以帮助上汽集团差异化地进军海外、拓展国际市场。” 除了汽车,Mosaix 还与全球领先的智能电视、电商、以及机器人品牌都展开了合作。


640?wx_fmt=png

Mosaix 为上汽自动驾驶场景设计开发智能助手


不过,Mosaix 的野心显然不止于此。


有预测显示,2020 年时全球 50% 的搜索将是语音搜索。那些语音搜索的内容,网上都能找到答案,但关键是怎样给整个互联网安上一个大脑,使它能够听得懂我们说的话?否则就算互联网有答案,如果它听不懂我们语音搜索时说的是什么,也还是不知道怎么回答我们 “给我放首 Justin 的歌” 之类的问题 —— 尽管 Justin 的歌就在网上。


而 Mosaix 正是想在 “让互联网听懂我们说的话” 这个转变过程中扮演关键角色。Mosaix 的长期目标是未来某一天,人们能以更方便的模式 —— 自然语言、或自然语言+屏幕交互 —— 接触真正的、全新的、你直接说话它就能听懂的互联网。


这个任务当然非常艰巨,谁也无法保证成功,但就像劳逆和 Sam 在采访结尾时说的,“梦想总是要有的,万一成功了呢?”


封面图自网络,版权归原作者



推荐阅读

640?wx_fmt=jpeg

区块链报告 | 脑机接口报告 

硅谷人工智能 | 斯坦福校长

卫哲 | 姚劲波 | 胡海泉 

垂直种植 | 无人车

王者荣耀 | 返老还童 



640?wx_fmt=jpeg








本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/25280.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

苹果“Enhanced Siri”,你知道多少?

小编发现从2015年2月,中国大陆开发CarPlay认证窗口后, CarPlay在市场上的普及度越来越高, 说到CarPlay认证,圈子内的人都能说出几个专业词语,而其中"Siri"就是最耳熟能详的。专业词语说大家都会能提两个词&a…

Logoist - 适用于设计师以及初次使用者,快速制作精美 logo

Logoist - 适用于设计师以及初次使用者的快速制作精美 logo 工具 从简单的标识到设计开发。它只需要一点时间来创建令人印象深刻的图像和矢量图形与Logoist。 我们的一体化应用程序为您提供了您需要的一切,将您的创意付诸实践或寻找新的灵感!它适合专业设计师和插画…

chatgpt赋能Python-python照片处理

介绍 Python是一种高级编程语言,它被广泛用于图像和照片处理。Python的大量第三方库和框架使得它成为处理照片的理想工具。本文将介绍如何用Python处理照片,并展示Python在照片处理领域的强大功能。 用Python处理照片 Python中最常用的照片处理库是Pi…

Midjourney词典秘籍,你真的不来看看吗?

引言: 今日有幸得到Midjourney秘籍,在此分享给各位伙伴,因篇幅限制,可以私我免费分享完整版,快来看看吧。

解密亚洲一号巨型仓储管理

解密亚洲一号巨型仓储管理 由京东商城运营研发部仓储研发部分享的有关京东一号巨型仓储管理经验... 详细解读 和小伙伴们一起来吐槽

【麒麟操作系统】查看和关闭139、445端口的方法

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、查看139、445端口的方法二、关闭139、445端口的方法 三、139、445端口的作用 前言 作为国产操作系统,无论是银河麒麟,还是中标麒麟…

Apache 首次亚洲在线峰会: Workflow 数据治理专场

背景 大数据发展到今天已有 10 年时间,早已渗透到各个行业,数据需 求越来越多,这使得大数据 业务间的依赖关系也越来越复杂,另外也相信做数据的伙伴肯定对如何治理数据也是痛苦之至,再加上现今云原生时代的要求&#x…

2021十大亚洲现货黄金交易APP平台排名榜单

对于国内投资者而言,贵金属投资有内、外盘之分,因此在选择平台时,投资者应该从市场成熟度和产品优势出发,先明确自己在哪一个市场进行投资,再挑选那些信誉度极高、以客户利益为大前提、在行业内排名较前平台。 至于外…

“走进名企”之参观微软亚洲研究院

2021-11-24,感谢 CSDN 组织的活动“走进名企”——探访北京微软亚洲研究院活动。 微软亚研院简介 首先,我们来了解一下微软亚研院一些基本资料。 微软亚洲研究院是微软公司在亚太地区设立的研究机构,也是微软在美国本土以外规模最大的一个。…

人脸数据集——亚洲人脸数据集

大规模亚洲人脸数据的制作 在这次大规模亚洲人脸数据制作主要是亚洲明星人脸数据集,此次我爬取了大概20万张亚洲人脸图像,可以修改爬取每位明星图片的数量来获取更多的图片,过程中主要分以下几步: 获取明星名字列表 &#xff…

激活工银亚洲账号(收到开通成功通知短信以后,汇款到“港元储蓄”子账号)

前言 【工银亚洲】您的账户及银行服务已开通,请存入同名存款激活相关账户及银行服务。账户激活前一概拒纳收取任何非同名存款。 现在需要汇款到“港元储蓄”子账号以激活工银亚洲的账号。 三部曲 首次办理:2018-06-14 [查看详情] 账号已开通&#x…

亚洲名人人脸数据库制作

大规模亚洲人脸数据的制作 原文:https://blog.csdn.net/Alvin_FZW/article/details/82146800 在这次大规模亚洲人脸数据制作主要是亚洲明星人脸数据集,此次我爬取了大概20万张亚洲人脸图像,可以修改爬取每位明星图片的数量来获取更多的图片…

【北京】亚洲微软研究院-微软游记

文章目录 微软游记黑科技交流会办公区晚餐 结束 微软游记 11月24日,身为一名初出茅庐得技术博主,有幸来到微软亚洲研究院,与CSDN一些博主们共同学习!通过这一天对微软的认识,让我有了更多的想法。今天我看到了微软在物…

CASIA-FaceV5亚洲人脸数据集以及对应的测试pairs文件

目录 一、前言 二、生成Pairs文件 三、下载资源 1、官网下载地址 2、百度网盘下载资源 一、前言 含有CASIA-FaceV5亚洲人脸数据集,以该数据集作为测试集所生成的同一人和不同人对应的测试文件。 CASIA-FaceV5亚洲人脸数据集有500人、每个人5张图片&#xff0…

【Windows系统】查看和关闭139、445端口的方法

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、 Windows查看139、445端口的方法二、关闭445端口的方法三、关闭139端口的方法 前言 “航天派”公众号上一期文章介绍了“麒麟操作系统查看和关闭139、445端…

【无标题】chatgpt

演示站:https://ai.sybkxx.com/ 测试账号:demo 测试密码:12345678 源码下载:http://yp.1379.cloud:5212/s/WOco 安装方法: 上传程序到服务器 安装php扩展sg11 php支持7.3-7.4 解压程序安装 授权可以联系 你的域名…

Unix 版权争夺战 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 3 月 6 日,在 1475 年的今天,大艺术家米开朗琪罗诞辰。米开朗琪罗是意大利文艺复兴时期的雕塑家、画家,他活到 89 岁&#x…

百度文心一言推出内测专用独立 App;暴雪回应被网易起诉:未收到相关诉状;iOS 17或支持第三方应用商店 | 极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#xf…

centos7系统安装Vicuna(小羊驼)聊天机器人

准备工作: 安装vicuna之前需要做一些准备工作,比如:git、python3、升级openssl等 1、Git安装 因为要克隆项目源码所以要安装,安装过程很简单yum install git,这里不做过多介绍。如果不安装git也可以,项目…

网络安全也要迈入AI时代?微软推出Security Copilot安全助手

周二,微软宣布将要推出Security Copilot,一款由人工智能驱动的安全分析助手,据说它能够协助网络安全团队快速响应处理威胁、评估报告安全风险。 据微软官网信息,其新推出的Security Copilot把OpenAI的GPT-4人工智能和其自身安全专…