为什么每次和 Siri 聊天我都一肚子火

640?wx_fmt=jpeg

硅谷Live / 实地探访 / 热点探秘 / 深度探讨

全世界最痛苦的事，就是和一个跟你不在同一频道的人尬聊。

相反，和自己的亲朋好友另一半说话就轻松多了，比如你说 “今天上班好累啊”，你的家人、朋友就会说，“那今晚别做饭了，咱们出去吃？”

这种默契才是检验交情深浅的唯一标准！

人和人之间有默契不罕见，但你能想象人和机器之间产生默契吗？

还真有可能！小探独家采访了来自硅谷的初创公司 Mosaix 的 CEO 兼创始人 Sam，以及 Mosaix 的 Chief Science Officer （以下简称 CSO）劳逆，让这两位小哥给我们讲讲他们是打算怎么让 AI 一步步成为我们的贴心小棉袄的。

640?wx_fmt=png

左为 Mosaix CEO、创始人 Sam

右为 Mosaix CSO 劳逆

人工智能还是...人工智障？

这两年不论亚马逊的 Echo，还是 Google 的 Google Home，各种语音助手都很火。但我们可以想象一下，假如你的语音助手是个笨蛋，你和它交流起来该有多么痛苦。

我们来设想这么个场景：你吃着东西满手都是油，或者在洗碗满手都是泡沫，总之你腾不出手摆弄你的音响。这时你突然想听一首歌，于是你对音响说：

- 给我放首 Justin 的歌儿。

- 是名字里带有 Justin 的歌曲？还是歌手是 Justin 的歌？

- 歌手是 Justin 的歌。

- 是贾老板 Justin Timberlake，还是贾斯丁•逼宝？

- 贾斯丁•逼宝。

- 你是想听他最新的歌曲？还是榜单位置最高的歌曲？还是播放次数最高的歌曲？还是点赞次数最高的歌曲？

你觉得有点烦，但还是说 “都行。”

- 你想从 Spotify 播放？还是 YouTube 播放？还是 iTunes 播放？

这时你脸色已经很难看了，但考虑到你的人工智能是个人工智障，你还是强压怒火说，“那就 YouTube 吧”。

- YouTube 您想听播放量最高的视频、还是评论数最高的视频、还是好评率最高的、还是最新视频？

640?wx_fmt=png

而让机器真正懂你的意思，就是 Mosaix 想达成的目标之一。

这么说吧，我们人和人交流，是从耳朵（听到别人讲话）、到大脑（明白别人的意思）、再到用手脚执行大脑发出的命令。

人和机器交流也一样：先到机器的 “耳朵”，也就是负责听懂我们人类到底在说些什么的语音技术；再到负责理解这句话意思的大脑，也就是 Mosaix；再到执行命令，也就是连着 Mosaix 的各种服务。

640?wx_fmt=png

Mosaix CSO 劳逆告诉小探，现在语音唤醒、语音识别之类的技术已经比较成熟，机器已经能够比较准确地把我们人类说话时发出的声音变成一句话。

现在的难点是：机器还是不太懂每句话都是什么意思、到底该怎么把它翻译成一个可以直接在网上执行的命令？这部分就是 Mosaix 做的语义理解。

而机器之所以经常听不懂我们人类说话，是因为我们有时说话会说不清楚，也就是 “语义缺失”。

“我想放松一下”

什么叫“语义缺失”？小探给你举个例子：

“找下五公里内最便宜的加油站” 和 “我想放松一下” 这两句话，你觉得哪句更容易被机器听懂？

答案是第一句，因为这句话已经包含了机器语言所有的要素：

先以你的位置为圆心、画个半径为五公里的圆

然后把所有商家都找出来

640?wx_fmt=jpeg

再按商户类型过滤出加油站

选出价格最低的一个

搞定！

换句话说，“找下五公里内所有加油站” 这句我们人类说的话，和机器所熟悉的语言很像、没有缺失的语义，所以机器能直接把这句话翻译成它能执行的语言。

但当机器听到 “我想放松一下” 这种非常抽象的话时，机器的内心是茫然而懵逼的，因为机器也不知道你的意思到底是播某一类的歌？某一类的电影？还是导航去什么地方。

不过，如果一位和你很熟悉的朋友听到这句话，他/她估计就能秒懂你的意思。感情深一口闷？别逗了，谁能听懂你只说了一半的话，谁才叫和你感情深。

这就是 Mosaix 想让机器做的事情，Mosaix 想帮机器把缺失的语义 —— 也就是我们说话太模糊的部分 —— 填进句子里，而且还不能填错、曲解你的意思。

有意思的是，等这个技术再发展成熟些时，它对一个人的了解可能比那个人的老公或老婆还多。比如，你的老公或老婆可能记住了你喜欢 A，但他/她不知道你为什么喜欢 A，换个场景他/她又要重新死记硬背。但 Mosaix 做的 AI 就能理解其背后逻辑、因此能举一反三，不仅知其然、还知其所以然。

这还不算完！Mosaix 除了能理解你说话的意思，还能在听懂后执行你的要求。比如你说你想听首 Justin Bieber 的歌，它还要自己决定从哪儿播放这首歌、从哪儿获取信息。如果你有 Spotify 账号，它就知道自己从 Spotify 上搜；如果你说你想看剧，那它也会自己去爱奇艺、搜狐视频之类的网站给你搜剧。

640?wx_fmt=gif

Mosaix 声控电视

让你直接对音箱、电视发号施令

让机器能明白你说的话到底是什么意思，只是 Mosaix 做的 “语音搜索” 这件事情的一部分。

什么，你说你不明白什么叫语音搜索？你可以把它简单理解为：

Mosaix = 声控搜索引擎（百度或谷歌） + 个人语音助理（亚马逊的 Alexa 或苹果的 Siri）

用其 Chief Scientist 劳逆的话说，Mosaix 是 “用自然对话的方式，解决 ‘搜索’ 这个本质问题”。我们刚才说的让机器听懂你说的话、比你老公 / 老婆更懂你，只是个人语音助理这部分。

说完了语音助理，我们再来说说 “声控搜索引擎” 这部分。

现在声控搜索引擎主要有两个问题：1 搜索得太“笨”，一字一句搜；2 设备不够智能。

搜索得太笨 | 我们可以把人粗略地分成两种：在度娘或 Google 上搜 “红烧肉做法” 的人（比如你），和搜 “红烧肉应该怎么做比较好吃呢？” 的人（比如你妈你姥姥）。如果你想得到尽量多的结果，很明显前一种更好。

这就是传统搜索引擎的问题：它更倾向于一字一句地搜索。在人家输入 “红烧肉应该怎么做比较好吃呢？” 的时候，它不一定能把这个问题简化成 “红烧肉做法”。

640?wx_fmt=png

你说搜索引擎笨吧，它的确有全世界几乎所有问题的答案；你说他聪明吧，稍微换种说法问，它又回答不上来了...

除了搜索本身的不足，搜索设备也有局限性 —— 语音搜索更是如此。

设备不够智能 | 我们现在能用语音给手机下些简单的指令，但还没办法用换着法子用更高级的语音完成任务。换句话说，我们可以对 Echo 说 “把灯关了”，然后 Echo 自己就关灯，不用我们动手，这是简单声控。

现在的电脑、电视，就停留在 “简单声控” 阶段：你可以对着电脑或电视说 “我要看《蜘蛛侠》”，然后电视自己给你播放。但如果你说 “我今天很累，来点有意思的”，电视可能就懵掉了。

Mosaix 的解决方法是：以其 App 为入口，用它的云端服务连接电视、汽车系统、音箱...等各种设备。然后 Mosaix 在后端处理你的请求，不论你用什么设备发出请求，请求都会百川汇海发给 Mosaix，等 Mosaix 处理好后再把答案发回去。

比如你在洗碗时对着带有麦克风的智能音箱说，“给我来点带劲的”，音箱听到这个指示，就会问在后台运行的 Mosaix：“ ‘给我来电带劲的’ 这句话啥意思？” Mosaix 计算一番，弄明白意思后，就会告诉音箱放哪首歌。这样从头到尾，你只用声控就能听歌、看电影、看新闻了。

640?wx_fmt=jpeg

Mosaix 与上汽合作工作图

Mosaix 在成立之初，专门只做车上的应用，现在则计划扩张到电视、音箱等任何不需要你盯着看、可以边洗碗边听的事情上。

人类调教出来的 AI，就要比我们聪明了吗？

基于机器学习的自然语言理解有两种主要方式：强监督学习，和弱监督学习。

所谓强监督学习，就是在训练机器听懂我们说话的过程中，由人类插手，亲自告诉机器哪句话是什么意思、应该怎么理解，因为只有人类才知道 “这句话等于那句话”。或者让机器从网上扒数据，再由人类提供反馈。

这种方式有个问题：对于智能搜索需要面对的极大量的内容来说，强监督学习效率太低、很难规模化。

另外，“由人类插手” 意味着无法避免人为影响，所以最后 AI 理解的内容做不到完全客观、可能会有主观色彩，而导致产生潜在的偏差。

而弱监督学习则是 “不用人教、让机器自己自主学习”。

据劳逆介绍，现在 Siri、Alexa 等语音助理，用的都是我们上两段提到的强监督学习，强监督学习也因此被认为是正统。与之相反，很长一段时间来弱监督学习一直被当成 “非主流”。

对这种观点发起挑战的，正是 Mosaix。

2017 年起，劳逆和他带领的团队就开始利用弱监督加强学习解决自然语言理解问题（顺带提一句，劳逆作为绝对的学术大牛，曾在谷歌担任资深科学家多年，是自然语言领域理解和机器学习领域的专家，也是多个学术会议和期刊的编委或主席，但接受小探采访时人却非常低调谦虚）。

截止 2018年，他们所开发的语义引擎在自然语言问答三大公开数据集上（斯坦福 Web Question and Answering、斯坦福 WikiTableQuestions、Salesforce WikiSQL），力压微软、谷歌、斯坦福、耶鲁等机构，取得了弱监督条件下排名第一的好成绩。

640?wx_fmt=jpeg

劳逆非常自豪地说，这证明了弱监督加强学习在自然语言理解领域的潜力。对于语义明确的问题弱监督学习可以达到非常接近强监督学习的效果。如果换成有 “语义缺失”的问题，强监督学习会遇到人类智能的瓶颈，而弱监督学习就可以轻易超越。

我们以 “机器下围棋” 为例：

如果说强监督学习是人类高手手把手教机器揣摩围棋的话，那么弱监督学习就是机器本身以围棋规则为准、自己去 “领悟”、自己去总结，从而学习下围棋的。

围棋 AI 的代表 AlphaGo，最初是在人类棋谱的调教下，以强监督学习的方式学习下围棋，它可以 60:0 战胜人类顶尖高手。让人没想到的是，后来出现的 AlphaGoZero 青出于蓝 —— 依靠弱监督加强学习的 AlphaGoZero 让机器自己去 “领悟”，并最终以 89:11 战胜 AlphaGo。

有没有搞错？！和人类学下棋的 AI，最后输给了纯靠学规则、自己教自己下棋的 AI...

640?wx_fmt=png

而 Mosaix 对加强机器学习在自然语言理解领域的应用，也和 AlphaGoZero 有异曲同工之处。

当然，这并不是说弱监督学习已经完全战胜强监督学习了，两者根据应用场景不同，有时难分高下，但至少随着 Mosaix 的技术突破，提供了一种 “以弱胜强” 的可能性。

从商业角度看，Mosaix 意在把弱监督学习产品化，变成能懂你心、当你的贴心小棉袄的深度语义搜索：

从 2017 年起，Mosaix 与上汽集团开始探索技术在出行领域的应用。在完成了预研项目的基础上，上汽北美创新中心认为 “Mosaix 在语义识别方面积累的两项独特优势 —— ‘基于位置的自然语言理解’ 和 ‘基于海外（小）语种的语义分析’ 可以帮助上汽集团差异化地进军海外、拓展国际市场。” 除了汽车，Mosaix 还与全球领先的智能电视、电商、以及机器人品牌都展开了合作。

640?wx_fmt=png

Mosaix 为上汽自动驾驶场景设计开发智能助手

不过，Mosaix 的野心显然不止于此。

有预测显示，2020 年时全球 50% 的搜索将是语音搜索。那些语音搜索的内容，网上都能找到答案，但关键是怎样给整个互联网安上一个大脑，使它能够听得懂我们说的话？否则就算互联网有答案，如果它听不懂我们语音搜索时说的是什么，也还是不知道怎么回答我们 “给我放首 Justin 的歌” 之类的问题 —— 尽管 Justin 的歌就在网上。

而 Mosaix 正是想在 “让互联网听懂我们说的话” 这个转变过程中扮演关键角色。Mosaix 的长期目标是未来某一天，人们能以更方便的模式 —— 自然语言、或自然语言+屏幕交互 —— 接触真正的、全新的、你直接说话它就能听懂的互联网。

这个任务当然非常艰巨，谁也无法保证成功，但就像劳逆和 Sam 在采访结尾时说的，“梦想总是要有的，万一成功了呢？”

封面图自网络，版权归原作者