图灵测试是人工智能的标准吗?

21398f493b600d4167f38c9af4a42934.png

来源:赛先生

编者按

科学就是一个可以被证伪的学说。任何一个科学论述,都要能够被实验检验。比如说,要科学地解释定义什么是自我意识,其本质就是设计一个实验。比如观察动物在镜子里看到自己时候的行为,是寻找镜子后面的另一只动物,还是知道镜子里就是自己。通过做类似的实验,我们可以判断,猫、老鼠、猴子等等有没有自我意识。

人工智能领域中,最重要的概念就是智能。但什么样的实验能够定义”智能“这个概念?大家常常利用图灵测试这个实验来定义有没有智能。但这一定义真的合适吗?真的有利于人工智能的发展吗?有没有更好的实验定义?这篇文章深入讨论了这个问题。

——文小刚

王培(美国天普大学计算机与信息科学系)

随着人工智能成为热门话题,“图灵”(Alan M. Turing,1912.6.23~1954.6.7)这个名字也逐渐广为人知。一个常见的说法是把他提出的“图灵测试”作为人工智能的标准或定义,并以此为由称他为“人工智能之父”。我下面要反驳这种说法,理由是:

(1)这个说法不符合人工智能的史实;

(2)把图灵测试作为人工智能的定义是不恰当的;

(3)其实图灵本人并不是这个意思。 

我无意贬低图灵对人工智能的重大贡献,只是试图澄清一些误解,并指出这些误解在当前人工智能讨论中所造成的问题。我不希望这些问题被错误地算在图灵名下。

1图灵和人工智能到底是什么关系?

图灵大概是最早认识到“计算机”除了完成数值计算之外还能从事其它智力活动的人之一,并且是第一个对此进行了系统思考和深入分析的。有证据表明,他早在1941年就开始考虑在计算机上实现“智能”(或者说“思维”,在这个讨论中这两个词差别不大)的可能性了,并在1948年写了以“智能机器”为题的报告,尽管他最广为人知的有关著述是在1950年发表的《计算机器与智能》[1]。

在这篇历史文献中,图灵开宗明义地要大家考虑机器是否能思维的问题。为了避免“思维”一词在解释上的混乱,他主张只要计算机在语言行为(对话)上和人没有明显差别,就应该算是“能思维”或“有智能”了。这就是后来所称的“图灵测试”。他认为可以编制一个“儿童”程序,然后对其进行教育以达到成人的智力水平。图灵自己在1948年曾和朋友合作设计过一个国际象棋程序,但在他1954年去世之前没能把他关于智能机器的设想充分展开。

a79ab1d24f1da462356de34a54049639.png
阿兰·图灵

“人工智能”作为一个研究领域,公认是在1956年夏的达特茅斯会议上形成的。这个只有十来个人参加的会议不但给这个领域取了名,而且涌现了其主要奠基人:麦卡锡、明斯基、纽维尔、司马贺。这四个人,以及他们分别在斯坦福、麻省理工、卡内基梅隆建立的研究中心,主导了这个领域前几十年的研究方向。他们远比图灵更有资格被称为“人工智能之父”,而图灵更适合被称为“先行者”。 

比名号更重要的是:这几位对智能的理解和图灵有重要的差别。他们当中没有一个是以“通过图灵测试”作为自己研究工作的目标的,并且都或明或暗地对这个测试表示过不以为然。在达特茅斯会议的计划书中,人工智能问题被说成让计算机的行为符合人们对智能行为的认识。以此为起点,主流人工智能一直是以“让计算机解决那些人脑能解决的问题”为工作定义和划界标准的,而并不要求系统的具体行为和人不可区分。以计算机围棋为例,“把棋下好”和“把棋下的和人下的一样”是两个不同的研究目标。出于这种考虑,在主流人工智能文献中提到图灵测试时,一般都是只承认其历史价值,而否认其对研究工作的现实指导意义的。就在不久前,世界上最大的人工智能协会AAAI的机关刊物《人工智能杂志》的2016春季号还出了一期专刊来讨论图灵测试的各种替代方案。

以通过图灵测试为目标的对话程序一般称为“chatbot” 。这个词和机器人(robot)一词相近,故常被译作“聊天机器人”,但其实应当译作“聊天程序”,因为它们都是专用软件,而非专用硬件。这类工作在历史上长期被大部分人工智能研究者视为旁门左道或哗众取宠,其中最著名的例子的是魏增鲍姆在1966年编写的“伊莉莎”(ELIZA)。这个程序只凭一些简单的花招就使得很多使用者相信他们是在和一个人对话,以至于后来产生了“伊莉莎效应”这个概念,专指一个计算机系统的使用者和观察者以拟人化的思路解释系统的行为,因此赋予了该系统许多它本来根本不具有的品质。这种现象在对“阿尔法狗”的评论中又一次得到了充分展现。近来,主要拜深度学习所赐,聊天程序的研发终于被接纳成了主流人工智能的一部分,而图灵测试在这个领域中自然是一个恰当的标准。但尽管如此,这个标准也不能推广到人工智能的其它子领域。因此,至今以通过图灵测试为目标的工作仍只占人工智能领域中很小的一部分。

70e5cfec2faf569750cdf2b9d3d4eb1e.png

2图灵测试哪里不对了?

反对图灵测试的意见来自若干不同的方向。

主流人工智能既然是以“解决那些人脑能解决的问题”为目标,自然是要“解题能力”越高越好,而不在乎“解题行为”是否和人一样。如果对某个问题有更适合计算机的解决办法,那为什么还一定要像人脑那样做呢?图灵已经预料到,要通过他的测试,计算机要会装傻和撒谎才行,因为在某些方面(如算数)能力太强就不像人了。《人工智能杂志》专刊所提到的替代图灵测试的主要理由也是它往往鼓励系统采用欺骗手段,而非真正展现其认知能力。 

香农(对,就是创建信息论那位)和麦卡锡在1956年的一篇文章中提出图灵测试的缺点是:“在原则上”它可以通过查一张列出所有问题和相应答案的清单来做到,因此和我们关于思维的直观不符。具有讽刺意味的是,随着计算机硬件的发展,现在的一些“智能系统”的确是按这个“原则”构建的。哲学家塞尔的“中文屋”思想试验也是假定一个计算机可以用这个平淡无奇的办法通过图灵测试,而他以此论证真正的(强)人工智能不可能实现。

如我在《当你谈论人工智能时,到底在谈论什么?》中解释的,“人工智能”固然是要造“像人脑那样工作的计算机”,但关于“在哪方面像人脑”的不同看法已经将研究引向完全不同的方向。图灵测试是要计算机在行为上像人,而主流人工智能是要在解决各种问题的能力上像人甚至超过人。这两种研究都有价值且有相互联系,但并不是一回事。这正是主流人工智能不接受图灵测试的根本原因。

我自己的研究目标既非再现人类行为,也非达到或超越人类问题求解能力,而是让计算机遵循人所体现的信息加工原则。我认为这个原则就是“在知识和资源不足时适应环境”(详见《王培专栏|人工智能:何为“智”?》,而其它具体的“思维规律”都是建立在这个基础上的。根据这个原则,一个智能系统的行为(输出)依赖于它的经验(输入)。由于一个人工智能系统不会有和人类完全相同的经验,它就不会有和人类完全相同的行为,即使其输入-输出关系和人的基本一样。因此,我的系统不是以通过图灵测试为目标的。比如说,它对一个问题的回答取决于系统自身对此问题知道些什么,而不是一个普通人对此问题知道些什么。

3图灵错了吗?

在这个问题上最令人哭笑不得的一点是:图灵从来没有建议过把他的测试作为“思维”或“智能”的定义。

尽管图灵的文章《计算机器与智能》被广泛引用,但很多人可能只看了他开头介绍“模仿游戏”(即后来被称为“图灵测试”)的那一部分。我这么说是因为他的下面一段话很少被提到:

“难道机器不会做某些应该被说成思维但和人所做的很不同的事吗?这是个很有力的反对意见,但我们至少可以说,如果能够成功地玩模仿游戏的机器可以被构造出来,我们无需为这种反对意见而烦恼。”

这段话说的很明白:图灵把通过他的测试作为“能思维”的充分条件,而非充分必要条件(也就是定义)。这就是说和人行为一样必是能思维,但和人行为不同也未必就不算思维。在1952年参加BBC的一个广播节目时,图灵明确表示他没有试图给“思维”下一个定义,而只是想在人脑诸多性质之间“划一条线”,来区分那些智能机器需要具有的和那些不需要具有的[2]。 

既然图灵没有给“思维”或“智能”下定义,而人工智能的领军人物们也没有接受这个测试,那“图灵测试是人工智能的定义”是谁说的呢?这大致是一些对人工智能半懂不懂的人士的贡献,而好莱坞也难逃其咎。一旦这个简单易懂的说法传播开来,大概谁也拿它没有办法了,更不要说图灵英年早逝,没机会反复辟谣了。

综上所述,在主流人工智能历史上,图灵测试从未被接受为标准或定义,而图灵也不是人工智能主流研究规范的奠基人,尽管他的观点的确对很多人产生了不同程度的影响。图灵测试的弊端是“和人的行为完全一样”不应被当作“智能”的必要条件。虽然实际上图灵从来也没有这个意思,他的文章的确给了不少人这种误解。

尽管如此,我仍认为图灵对人工智能做出了巨大的贡献。这体现在下列方面:

  • 他是最早明确指出“思维”和“智能”可能在计算机上实现的人,并且清醒地看出智能机器不会和人在一切方面都相同。比如在《计算机器与智能》中,他认为一个智能机器可能没有腿或眼,这就是说一个靠轮子运动和靠声纳感觉的机器人完全可能有智能。与此相反,至今仍有不少人以为真正实现人工智能的唯一办法是全面地、忠实地复制人的一切。尽管图灵测试把这条线画的离人太近,但总是一个有意义的开端。

  • 在《计算机器与智能》中,他分析并驳斥了9种对思维机器的反对意见。从那时(1950)至今,对人工智能的反对意见层出不穷,但细细看来都不出他的预料,只是具体表述“与时俱进”了而已。尽管图灵当年的反驳没有彻底解决问题,他的预见性仍令人惊叹。就冲这一点,他的文章就没有过时。

  • 他认为我们应当设计一个通用学习系统,并通过教育使其拥有各种具体技能。与此相反,主流人工智能系统的能力仍主要来自于初始设计,即使目前的“机器学习”也仅限于某种特定的学习过程(详见《计算机会有超人的智能吗?》)。如果他没有那么早去世,人工智能可能会有一条不同于达特茅斯诸君所引领的路线。

在我看来,图灵的主要局限是没有看到躯体和经验对概念和信念的重要影响。一个没有腿和眼的机器人完全可以有智能,但是不会有和人类完全相同的思想,因此也就不会有和人类完全相同的行为,即使我们只关注其语言行为也是如此。如果这个系统的智力足够高,它的确可能靠对人类的知识通过图灵测试(所以这个测试可以作为智能的充分条件),但这不应该是我们说它有智能的唯一依据。

4和我们有什么关系吗?

以上分析的目的不仅仅是澄清历史事实,更是要据此评说目前的状况。

把图灵测试作为人工智能的标准或定义直接导致了对这一领域成果评价的片面化、肤浅化、娱乐化。既然一个计算机系统不可能在所有方面同等水平地和人相像,那么聚焦于其外在行为的似人程度就意味着忽略其内在机制的似人程度。在最近的新闻和讨论中不难发现这一倾向的种种表现:

  •  以聊天程序的蒙人水平来评价其智力,

  • 以人的智商标准来评估计算机智力发展水平,

  • 以高考成绩来衡量计算机智能,

  • 以在作曲或绘画上“以假乱真”的本事来体现人工智能的创造力,

  • 以似人的“面部表情”或“肢体动作”来表现机器的“感情”。

这些工作不能说毫无意义,但仍是主要靠伊莉莎效应来赢得承认,即靠观众想“只有聪明人能这么做,现在这个计算机做到了,所以它一定聪明”,而完全忽略这些行为在计算机中的产生机制,尤其是它们和系统设计、以往经历、当前情境等因素的关系。比如说,尽管有理由认为一个人工智能系统可能有情感机制和审美能力(详情以后再说),那也不意味着它注定会“美我们之所美”、“爱我们之所爱”。贾府上的焦大是不爱林妹妹的,但这不说明他没有爱憎。实际上如果他表现出爱她,那反而不是真感情了。既然贾宝玉的情感和审美标准不能推广到其他人,有什么理由认为人类的情感和审美标准可以推广到其他智能物种呢?

一个领域的成果评价标准如果是不合适的,后果会很严重。不但研发工作会被误导,公众的期望也会落空,而且会错过真正有价值的方向。在人工智能领域中,这仍然是个大问题。

参考文献

[1] Alan Turing, Computing Machinery and Intelligence, Mind 49: 433-460, 1950

[2] Alan Turing, Richard Braithwaite, Geoffrey Jefferson, Max Newman, Can Automatic Calculating Machines Be Said To Think? A broadcast discussion on BBC Third Programme, January 14, 1952

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

cd1d52a49512bbed240980979d17e351.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3936.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT到底有多聪明?我测试了ChatGPT的数学能力

来源:AI前线 译者:马可薇 人人都听说过最新,也是最复杂的聊天机器人 chatGPT。而众所周知,它在英文文学等“软话题”方面甚是熟练,所以我决定测试它在数学这类“硬话题”方面的表现。你可能不知道,但我是…

什么是图灵测试?

图灵测试一词来源于计算机科学和密码学的先驱阿兰麦席森图灵写于1950年的一篇论文《计算机器与智能》。阿兰麦席森图灵1950年设计出这个测试,其内容是,如果电脑能在5分钟内回答由人类测试者提出的一系列问题,且其超过30%的回答让测试者误认为…

高校教师 | ChatGPT的23种用法

近日,ChatGPT引发舆论风暴,火遍全球,甚至隔着“防火墙”引发了中国民间的应用热潮。 作为一款生成式人工智能软件,ChatGPT可以就任何议题生成文本,完成包括回答问题,撰写文章、论文、诗歌在内的多种工作。各…

在IDE中使用Bito - 一个不需要VPN就可以使用的chatgpt

文章目录 在IDE中使用Bito什么是Bito为什么要使用BitoBito可以做什么如何在IDE中安装Bito使用Bito 在IDE中使用Bito 什么是Bito 用他自己的介绍就是: Bito’s AI helps developers dramatically accelerate their impact. It’s a Swiss Army knife of capabilit…

如何使用 AWS 和 ChatGPT 创建最智能的多语言虚拟助手

上周ChatGPT发布了,每个人都在尝试令人惊奇的事情。我也开始使用它并想尝试它如何使用AWS的AI 服务进行集成,结果非常棒! 在这篇文章中,我将逐步解释我是如何创建这个项目的,这样你也可以做到! 最重要的是…

ChatGPT编程能力实证研究

CODEWISDOM ChatGPT编程能力实证研究 刘子夕 冯洋1 陈碧欢2 娄一翎 彭鑫 陈振宇 1 fengyangnju.edu.cn; 2 bhchenfudan.edu.cn 南京大学 计算机软件新技术国家重点实验室 复旦大学 计算机科学技术学院 摘要 近年来,大型语言模型(LLM)得到了快…

chatgpt赋能python:Python如何帮你更聪明地买股票

Python 如何帮你更聪明地买股票 股票市场是一场风险与机遇并存的游戏,每位投资者都希望能够购买到高品质的股票并赚取稳定的利润。而借助 Python 编程语言,你可以更加轻松地分析市场趋势,提高股票投资的准确性和盈利能力。 一、数据分析与预…

谷歌版 ChatGPT 翻车!市值暴跌七千亿

01 前言 最近微软出品的 ChatGPT 确实引起很大的关注呀,这不,谷歌就紧跟发布了谷歌版 ChatGPT - Bard,今天带大家来看看微谷的第一波较量。 源自:机器之心 原文:https://mp.weixin.qq.com/s/1mkAlJbtYCmQcz_mV9cdoA 如…

基于ChatGPT完美替代 Grammarly润色和语法纠错的免费插件!

OpenAI Polisher Bob Plugin 简介 ChatGPT 向我们展示了 GPT 模型的伟大之处,所以我使用 ChatGPT 的 API 实现了这个用来给语言润色和语法纠错的 Bob 插件,效果拔群!完美替代 Grammarly! 使用截图 使用方法 安装 Bob (版本 > 0.50)下载此插…

ChatGPT Prompting开发实战(一)

第7章 ChatGPT Prompting开发实战 7.1 Prompting在LangChain框架中的应用 本节跟大家讲提示工程(Prompt Engineering),主要基于工业级的源码以及具体的项目,无论是工程人员,还是不具有技术背景的人员,大家多少都听说过提示词,或者频繁使用过,简单而言,当我们使用OpenA…

ChatGPT prompt指令大全

ChatGPT prompt指令大全 更多Prompt自动使用,可以在chrome插件中搜索 WebChatGPT,没有账号的,可以拉到文章最下面。 目录 担任雅思写作考官 写小说 充当 Linux 终端 充当英语翻译和改进者 充当论文润色者(拿摘要部分举例&am…

火爆出圈的OpenAI模型ChatGPT体验

1、ChatGPT简要介绍 ChatGPT是一种高效的语言模型,全称为"聊天式自动回复生成技术"(Chat-based Automatic Reply Generation Technology),用于预测人类语言的后续内容。它是基于OpenAI的GPT-3模型构建的,具…

每日一个 ChatGPT 使用小技巧系列之1 - 给出提纲,让 ChatGPT 帮你写作

我以前写过一篇文章,介绍了我日常工作和学习中使用 ChatGPT 的一些技巧: 与其整天担心 AI 会取代程序员,不如先让 AI 帮助自己变得更强大 为代码生成对应的单元测试代码 利用 ChatGPT 帮助自己研读经典框架的源代码 代码重构和性能优化 阅读…

ChatGPT最新研究:可能影响80%工作岗位,收入越高影响越大

Datawhale分享 最新:ChatGPT影响,来源:机器之心 ChatGPT 的影响涵盖所有收入阶层,且高收入工作可能面临更大的风险。 改变经济、劳动力和教育环境 和很多专家一样,Altman 担心人工智能技术的强大能力会制造过多虚假信…

爆红的chatgpt是如何诞生的?

今年,人工智能行业最大的新闻当属 DeepMind的 AlphaGo战胜了李世石,这是 AlphaGo在与人类围棋高手对战中,以总比分4比1击败李世石。 DeepMind团队公布的研究成果在 AI界引起了巨大反响。它从深度学习(Deep Learning)入…

爆火的ChatGPT太强了,写代码、改bug,网友:可取代Stack Overflow了

关于 AI 的问题,可以直接问 AI。 OpenAI 新上线的 ChatGPT 可谓是火爆出圈,这个对话模型可以回答后续问题,承认错误,挑战不正确的前提,还能帮你修改代码中的 bug…… 只要和它聊上几句,一会儿功夫它就能把…

有趣!深挖推特开源算法;ChatGPT封号对策汇总;ControlNet最全教程;搭建ChatGPT应用;构建开源项目阅读工作流 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 『推特开源了推荐算法源码』大佬分析出了11条有意思的规律…… 3月31日,Twitter 对其推荐算法进行了开源。Steven Tey 持续…

全球最大的 ChatGPT 开源替代品来了,支持 35 种语言,网友:不用费心买 ChatGPT Plus了!...

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 自去年 11 月 ChatGPT 面向公众测试以来,OpenAI 一直占据各大科技网站的头版头条,以及成为很多开发者工具的首选。ChatGPT 的落地不仅仅可以提供代码建议、总结长文本、回答问题…

对标ChatGPT的开源中文方案

目录 前言 一、Meta发布大语言模型LLaMA 二、斯坦福基于 Meta 的 LLaMA 7B 模型微调出Alpaca 三、基于TencentPretrain训练中文LLaMA大规模语言模型 四、基于斯坦福Alpaca训练中文对话大模型BELLE 五、 清华开源项目ChatGLM中文对话模型 六、基于LLaMA的开源中文语言模型…

ChatGPT 开源了第一款插件,都来学习一下源码吧!

3 月 23 日,OpenAI 又投出了一枚重磅炸弹:为 ChatGPT 推出插件系统! 此举意味着 ChatGPT 将迎来“APP Store”时刻,也就是围绕它的能力,形成一个开发者生态,打造出基于 AI 的“操作系统”! 插…