Google AI真的通过了图灵测试?还是图灵测试已经过时?



作者 | 阿司匹林

出品 | AI科技大本营(公众号ID:rgznai100)


本月初的时候,Google 在一年一度的开发者大会上大秀肌肉,其中最引人瞩目的当属 Google Duplex(全双工)技术。基于这种技术的 Google Assistant 可以自己给发廊、餐馆等打电话,主动帮用户完成预约任务。


Google CEO Sundar Pichai 现场演示的两段通话录音让很多人兴奋不已,不过随后有媒体提出质疑,称这两段录音可能涉嫌伪造,或者至少经过了人为的剪辑。(详见《Google Duplex语气自然流利,外媒却质疑其演示通话录音是伪造的》)


而 Google 母公司 Alphabet 董事长 John Hennessy 在接受采访时表示,Google 的这个 AI 已经在“预约领域”(in the domain of making appointments)通过了图灵测试,更是一石激起千层浪,引发了 AI 社区的大讨论,赞美者有之,批评者有之。


而南京大学的周志华教授认为,“对图灵测试的一个重要反思就是它可能混淆了 cheat human 与 think like human 的能力,做到前者并不需要能做到后者。这催生了替代图灵测试的维诺格拉德测试 。”


也就是说,Google Assistant 可能在某些特定任务中骗过人类,但是着并不意味着它可以像人类一样思考,图灵测试在今天已经有点过时了。而 Google Cloud 人工智能和机器学习首席科学家李飞飞也认为,机器距离思考依然遥远。


那么我们到底该如何看待 Google Duplex 引发的各种争论呢?


实际上,这个市场上的玩家不只有 Google,早在 2016 年 9 月,微软小冰就向普通用户开放了全双工技术,2017 年底,微软小冰联合小米发布的 Yeelight 语音助手,又进一步将全双工技术应用到了智能硬件之上,具体的技术细节可以查看我们之前的文章——《微软小冰或许是未来的方向》。


不论是微软还是 Google,都是 AI 领域的领导者,两者之间的较量不可避免。为此,营长采访了微软小冰首席架构师——周力博士,希望能够得到有关图灵测试和全双工技术的全面解答。





Google 真的通过图灵测试了吗?


问:你们是如何定义 AI 的?AI 是否有通用的、准确的定义?


人工智能的定义其实非常宽泛和模糊。如果广义地讲,计算机从诞生的第一天起就具备人工智能。如果把牛顿穿越到今天,或许最令他惊叹的“AI”不是语音、图片的识别能力,而是飞快的数学计算和海量的记忆存储。如果狭义地讲当下的人工智能,也可以限定使用神经网络深度学习算法的才叫人工智能。不过随着人工智能概念的火热,很多并未使用深度学习的算法,比如个性化推荐信息流都已被公司和媒体包装为 AI。再从普通大众的角度来看,或许人们已经习惯由计算机完成的事情就不会被称为人工智能,而以前无法由计算机完成的新事物更容易被理解为人工智能。


问:如何正确理解图灵测试?怎样才算通过图灵测试?


测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。进行多次测试后,如果有超过 30% 的测试者不能确定出被测试者是人还是机器,那么这台机器就通过了测试。


问:周志华教授评论称,“对图灵测试的一个重要反思是它可能混淆了 cheat human 与 think like human”,您如何评价?


这个评论是很中肯的。图灵测试作为一个 1950 年就被提出的想法,必须肯定它非常超前,也对人工智能的研究历史起了很重要的作用。但正如高考尚有导致应试教育的副作用,任何标准化测试都是有缺陷的,越简单的测试缺陷约明显。图灵测试对学术界尚有参考作用,但做实实在在产品的 IT 工业界不宜再拿图灵测试说事,更别说作为 AI 发展的引导了。


问:图灵测试真的能够帮助人们判断 AI 是否具有人类智能吗?如今还有什么意义?有其他更好的方法吗?


即使通过图灵测试,也远远无法判断 AI 是否具有人类智能。人类智能非常复杂精妙,我们至今并不真正理解其中的机理,因此 AI 真正具有人类智能是非常遥远的事情,当下谈有没有更好方法,恐怕并无实际意义。


问:怎样理解人类智能?什么才算是具备人类智能?


现阶段,只有真正的人类才可能具备人类智能,其他差的都太远,也就不用费心思考什么鉴定标准了。


问:Google 说他们在预约领域已经通过了图灵测试,您怎么看?


从图灵测试标准定义的角度看,Google I/O 大会上打电话的演示至少有几方面差距巨大。


第一,图灵测试要求测试人事先就知道对面有可能是人也有可能是程序,而 Google 电话演示中的接线员完全没有这个心理准备,这在难度上差异非常大。


第二,图灵测试是由测试人主动发问,因此是开发领域的对话可能涉及任何话题,而 Google 电话演示的场景本身就讲对话内容限定为“预约”这个特定的狭窄话题。而且 Google 很讨巧地将助手的角色设置为待人订餐者(甲方),而不是业界通常希望 AI 承担的角色——接线员(乙方),作为人类接线员的乙方为了吸引更多的客户,对话中会更耐心地配合作为甲方的 AI,因而完成任务的难度也会远低于智能客服。


第三,图灵测试要求测试者分辨 AI 和人的时间为十五分钟,Google 测试的电话时长远低于十五分钟。


第四,图灵测试的假设环境是文字交流而非语音交流,尽管使用语音带来了额外的难点,却也有了更多的余地去 cheat human,比如那句”嗯哼“。


微软 VS Google


问:小冰能不能做到 Google 演示的那样?在哪些领域通过了图灵测试吗?是否具备了人类智能?


首先小冰作为一个产品,它的目标是更好地与人进行更长时间的对话,从未以通过图灵测试作为目标甚至是参考因素。如果只是想通过图灵测试,伪装成一个无趣死板的人肯定比伪装成一个开朗健谈的人更容易。但小冰的人设显然是后者,因为这样对用户的价值更大。比如用户问“你是谁“的时候,小冰多数情况下会直接回答”微软小冰“而不会刻意隐瞒聊天机器人的身份。再比如小冰对任何消息的“秒回”,普通人是无法达到的也是非常容易分辨的,但为了用户和小冰聊天时不用浪费时间等回复,我们也为了用户体验主动选择在这点上“不像人”。


问:小冰的全双工技术与 Google 有什么异同?


首先 Google 和小冰的全双工技术有很多类似的地方:


第一,都是以”打电话式“的双向实时语音流作为基础,允许随时打断、补充等更复杂(相比发语音消息)的对话交互行为。


第二,在实现全双工对话的过程中,“何时说话”会变得和“说什么内容”一样重要,这也是微软、Google 在全双工技术实践中都在努力解决的新问题。


第三,都使用了“嗯”之类的语气词表明思考的过程、并缩减用户感受的回复延迟。


第四,都使用了端对端的深度学习模型生成对话的回复。


根据 Google I/O 大会的延时和 Tech blog 对 Google Duplex 技术的披露,微软宣布的全双工技术至少有以下几点是 Google 所不具备的。


第一,小冰的全双工对话是开放式领域对话,可以谈任何的话题不受限制,而 Google 目前的全双工实现尚限制在特定的任务领域。


第二,小冰的全双工技术具备类似人类“边听边想”的能力,一句话听到中间就开始预测全句的内容并开始思考答案,发现与预测不同还可以改口。这样可以使 AI 的回复响应更快更自然。


此外,小冰除了在电话及 IP 电话领域应用全双工之外,2017 年 12 月联合小米发布的 Yeelight 语音助手、已经进一步将全双工技术的应用领域扩展到了智能硬件之上,智能硬件相比电话又有了很多新的技术要求。比如电话通常只属于一个用户,而家庭环境下智能硬件通常都有多个用户,声纹识别的重要性因此大大提高。再比如一次全双工对话可以延续较长时间,这里就会存在用户和 AI 对话的途中突然打断转而对其他人(电话或者当面)说话的可能,全双工小冰需要判别场景的转换才能避免不断插话等待。


总的来讲,小冰的全双工技术是 2016 年 9 月就正式发布开放给普通用户的,至今已经通过各平台打了超过 100 万通全双工电话,用户对全双工说了超过 1500 万句话。而 Google Duplex 的技术目前还未开放给普通用户,在实践经验上微软小冰肯定是领先的。


问:小冰的语音合成技术与 Google 相比如何?



Google 在语音合成领域公开发布过 Tacotron、Wavenet 等最新技术和论文,在业界的确有很高的地位和声誉。微软小冰在这些技术上也已经很快赶上,并且在唱歌、情感表达上拥有独具特色的技术积累。“谁更先进”这点其实很难直接比较,因为 Google  全双工等技术主要通过美式英语展现,而微软小冰的全双工等技术主要通过中文普通话展现。中文在声调、多音字的很多特殊性,需要很多独特的技术支持,和英文的相应技术很难直接对比。


Google 一直以来都是全球 IT 科技进步的关键推动者之一。在全球范围 Google 一直都是微软所尊敬的竞争对象。对我们中国人、中国科技界、中国 IT 界而言,Google 一直都是我们所敬畏的一个存在。


尽管全双工技术确实是最先在中国和中文市场落地的,但 Google Duplex 的出现,对小冰这样一个纯中国本土的项目和团队既是一种鞭策也是一种肯定:肯定是因为这件事进一步证明了小冰的全双工技术路线是正确的前瞻性的,鞭策是因为中国和中文在人工智能的整体水平上,还是明显落后于“英文世界”的,绝大多数最前沿的科技成果(包括是一部分中国人、海外华人做出的成果)都首先或者仅仅应用于英文。


全双工语音对话技术率先应用于中国和中文,在人工智能领域其实是为数不多的特例。但是想要持续保持这个优势,肯定需要更多的努力,恐怕也不仅仅是小冰中国团队的独自努力,还需要中文世界里更多的科技公司和研究机构一起努力才行。


#一个小彩蛋


问:微软有考虑过通过语音来操作 Office 办公软件吗?


语音输入和操作,Cortana 以及 Windows 语音输入法都有支持。但在办公环境下,语音输入肯定不是常用的方法,毕竟多数人的办公环境,语音输入都会造成相互干扰。而且使用时间长了,语音比打字更容易造成使用者的疲劳。



公开课预告


课程主题:云从科技:详解跨镜追踪(Reid)技术实现及应用场景

时间:6月7日 20:00-21:00

分享嘉宾:袁余锋

云从科技资深算法研究员,2012年浙江大学硕士毕业,专注于计算机视觉的前沿算法研究及应用落地,由其领导的技术团队最近在Reid研究课题上取得重大突破,刷新了三个数据集的世界纪录。

报名地址:https://edu.csdn.net/huiyiCourse/detail/788

扫描下方二维码,添加小助手微信,备注:公开课,加入课程交流群,课程回放以及分享PPT会发到群里


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3937.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图灵测试是人工智能的标准吗?

来源:赛先生 编者按 科学就是一个可以被证伪的学说。任何一个科学论述,都要能够被实验检验。比如说,要科学地解释定义什么是自我意识,其本质就是设计一个实验。比如观察动物在镜子里看到自己时候的行为,是寻找镜子后面…

ChatGPT到底有多聪明?我测试了ChatGPT的数学能力

来源:AI前线 译者:马可薇 人人都听说过最新,也是最复杂的聊天机器人 chatGPT。而众所周知,它在英文文学等“软话题”方面甚是熟练,所以我决定测试它在数学这类“硬话题”方面的表现。你可能不知道,但我是…

什么是图灵测试?

图灵测试一词来源于计算机科学和密码学的先驱阿兰麦席森图灵写于1950年的一篇论文《计算机器与智能》。阿兰麦席森图灵1950年设计出这个测试,其内容是,如果电脑能在5分钟内回答由人类测试者提出的一系列问题,且其超过30%的回答让测试者误认为…

高校教师 | ChatGPT的23种用法

近日,ChatGPT引发舆论风暴,火遍全球,甚至隔着“防火墙”引发了中国民间的应用热潮。 作为一款生成式人工智能软件,ChatGPT可以就任何议题生成文本,完成包括回答问题,撰写文章、论文、诗歌在内的多种工作。各…

在IDE中使用Bito - 一个不需要VPN就可以使用的chatgpt

文章目录 在IDE中使用Bito什么是Bito为什么要使用BitoBito可以做什么如何在IDE中安装Bito使用Bito 在IDE中使用Bito 什么是Bito 用他自己的介绍就是: Bito’s AI helps developers dramatically accelerate their impact. It’s a Swiss Army knife of capabilit…

如何使用 AWS 和 ChatGPT 创建最智能的多语言虚拟助手

上周ChatGPT发布了,每个人都在尝试令人惊奇的事情。我也开始使用它并想尝试它如何使用AWS的AI 服务进行集成,结果非常棒! 在这篇文章中,我将逐步解释我是如何创建这个项目的,这样你也可以做到! 最重要的是…

ChatGPT编程能力实证研究

CODEWISDOM ChatGPT编程能力实证研究 刘子夕 冯洋1 陈碧欢2 娄一翎 彭鑫 陈振宇 1 fengyangnju.edu.cn; 2 bhchenfudan.edu.cn 南京大学 计算机软件新技术国家重点实验室 复旦大学 计算机科学技术学院 摘要 近年来,大型语言模型(LLM)得到了快…

chatgpt赋能python:Python如何帮你更聪明地买股票

Python 如何帮你更聪明地买股票 股票市场是一场风险与机遇并存的游戏,每位投资者都希望能够购买到高品质的股票并赚取稳定的利润。而借助 Python 编程语言,你可以更加轻松地分析市场趋势,提高股票投资的准确性和盈利能力。 一、数据分析与预…

谷歌版 ChatGPT 翻车!市值暴跌七千亿

01 前言 最近微软出品的 ChatGPT 确实引起很大的关注呀,这不,谷歌就紧跟发布了谷歌版 ChatGPT - Bard,今天带大家来看看微谷的第一波较量。 源自:机器之心 原文:https://mp.weixin.qq.com/s/1mkAlJbtYCmQcz_mV9cdoA 如…

基于ChatGPT完美替代 Grammarly润色和语法纠错的免费插件!

OpenAI Polisher Bob Plugin 简介 ChatGPT 向我们展示了 GPT 模型的伟大之处,所以我使用 ChatGPT 的 API 实现了这个用来给语言润色和语法纠错的 Bob 插件,效果拔群!完美替代 Grammarly! 使用截图 使用方法 安装 Bob (版本 > 0.50)下载此插…

ChatGPT Prompting开发实战(一)

第7章 ChatGPT Prompting开发实战 7.1 Prompting在LangChain框架中的应用 本节跟大家讲提示工程(Prompt Engineering),主要基于工业级的源码以及具体的项目,无论是工程人员,还是不具有技术背景的人员,大家多少都听说过提示词,或者频繁使用过,简单而言,当我们使用OpenA…

ChatGPT prompt指令大全

ChatGPT prompt指令大全 更多Prompt自动使用,可以在chrome插件中搜索 WebChatGPT,没有账号的,可以拉到文章最下面。 目录 担任雅思写作考官 写小说 充当 Linux 终端 充当英语翻译和改进者 充当论文润色者(拿摘要部分举例&am…

火爆出圈的OpenAI模型ChatGPT体验

1、ChatGPT简要介绍 ChatGPT是一种高效的语言模型,全称为"聊天式自动回复生成技术"(Chat-based Automatic Reply Generation Technology),用于预测人类语言的后续内容。它是基于OpenAI的GPT-3模型构建的,具…

每日一个 ChatGPT 使用小技巧系列之1 - 给出提纲,让 ChatGPT 帮你写作

我以前写过一篇文章,介绍了我日常工作和学习中使用 ChatGPT 的一些技巧: 与其整天担心 AI 会取代程序员,不如先让 AI 帮助自己变得更强大 为代码生成对应的单元测试代码 利用 ChatGPT 帮助自己研读经典框架的源代码 代码重构和性能优化 阅读…

ChatGPT最新研究:可能影响80%工作岗位,收入越高影响越大

Datawhale分享 最新:ChatGPT影响,来源:机器之心 ChatGPT 的影响涵盖所有收入阶层,且高收入工作可能面临更大的风险。 改变经济、劳动力和教育环境 和很多专家一样,Altman 担心人工智能技术的强大能力会制造过多虚假信…

爆红的chatgpt是如何诞生的?

今年,人工智能行业最大的新闻当属 DeepMind的 AlphaGo战胜了李世石,这是 AlphaGo在与人类围棋高手对战中,以总比分4比1击败李世石。 DeepMind团队公布的研究成果在 AI界引起了巨大反响。它从深度学习(Deep Learning)入…

爆火的ChatGPT太强了,写代码、改bug,网友:可取代Stack Overflow了

关于 AI 的问题,可以直接问 AI。 OpenAI 新上线的 ChatGPT 可谓是火爆出圈,这个对话模型可以回答后续问题,承认错误,挑战不正确的前提,还能帮你修改代码中的 bug…… 只要和它聊上几句,一会儿功夫它就能把…

有趣!深挖推特开源算法;ChatGPT封号对策汇总;ControlNet最全教程;搭建ChatGPT应用;构建开源项目阅读工作流 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 『推特开源了推荐算法源码』大佬分析出了11条有意思的规律…… 3月31日,Twitter 对其推荐算法进行了开源。Steven Tey 持续…

全球最大的 ChatGPT 开源替代品来了,支持 35 种语言,网友:不用费心买 ChatGPT Plus了!...

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 自去年 11 月 ChatGPT 面向公众测试以来,OpenAI 一直占据各大科技网站的头版头条,以及成为很多开发者工具的首选。ChatGPT 的落地不仅仅可以提供代码建议、总结长文本、回答问题…

对标ChatGPT的开源中文方案

目录 前言 一、Meta发布大语言模型LLaMA 二、斯坦福基于 Meta 的 LLaMA 7B 模型微调出Alpaca 三、基于TencentPretrain训练中文LLaMA大规模语言模型 四、基于斯坦福Alpaca训练中文对话大模型BELLE 五、 清华开源项目ChatGLM中文对话模型 六、基于LLaMA的开源中文语言模型…