图灵测试是人工智能的标准吗？

来源：赛先生

编者按

科学就是一个可以被证伪的学说。任何一个科学论述，都要能够被实验检验。比如说，要科学地解释定义什么是自我意识，其本质就是设计一个实验。比如观察动物在镜子里看到自己时候的行为，是寻找镜子后面的另一只动物，还是知道镜子里就是自己。通过做类似的实验，我们可以判断，猫、老鼠、猴子等等有没有自我意识。

人工智能领域中，最重要的概念就是智能。但什么样的实验能够定义”智能“这个概念？大家常常利用图灵测试这个实验来定义有没有智能。但这一定义真的合适吗？真的有利于人工智能的发展吗？有没有更好的实验定义？这篇文章深入讨论了这个问题。

——文小刚

王培（美国天普大学计算机与信息科学系）

随着人工智能成为热门话题，“图灵”（Alan M. Turing，1912.6.23~1954.6.7）这个名字也逐渐广为人知。一个常见的说法是把他提出的“图灵测试”作为人工智能的标准或定义，并以此为由称他为“人工智能之父”。我下面要反驳这种说法，理由是：

（1）这个说法不符合人工智能的史实；

（2）把图灵测试作为人工智能的定义是不恰当的；

（3）其实图灵本人并不是这个意思。

我无意贬低图灵对人工智能的重大贡献，只是试图澄清一些误解，并指出这些误解在当前人工智能讨论中所造成的问题。我不希望这些问题被错误地算在图灵名下。

1图灵和人工智能到底是什么关系？

图灵大概是最早认识到“计算机”除了完成数值计算之外还能从事其它智力活动的人之一，并且是第一个对此进行了系统思考和深入分析的。有证据表明，他早在1941年就开始考虑在计算机上实现“智能”（或者说“思维”，在这个讨论中这两个词差别不大）的可能性了，并在1948年写了以“智能机器”为题的报告，尽管他最广为人知的有关著述是在1950年发表的《计算机器与智能》[1]。

在这篇历史文献中，图灵开宗明义地要大家考虑机器是否能思维的问题。为了避免“思维”一词在解释上的混乱，他主张只要计算机在语言行为（对话）上和人没有明显差别，就应该算是“能思维”或“有智能”了。这就是后来所称的“图灵测试”。他认为可以编制一个“儿童”程序，然后对其进行教育以达到成人的智力水平。图灵自己在1948年曾和朋友合作设计过一个国际象棋程序，但在他1954年去世之前没能把他关于智能机器的设想充分展开。

阿兰·图灵

“人工智能”作为一个研究领域，公认是在1956年夏的达特茅斯会议上形成的。这个只有十来个人参加的会议不但给这个领域取了名，而且涌现了其主要奠基人：麦卡锡、明斯基、纽维尔、司马贺。这四个人，以及他们分别在斯坦福、麻省理工、卡内基梅隆建立的研究中心，主导了这个领域前几十年的研究方向。他们远比图灵更有资格被称为“人工智能之父”，而图灵更适合被称为“先行者”。

比名号更重要的是：这几位对智能的理解和图灵有重要的差别。他们当中没有一个是以“通过图灵测试”作为自己研究工作的目标的，并且都或明或暗地对这个测试表示过不以为然。在达特茅斯会议的计划书中，人工智能问题被说成让计算机的行为符合人们对智能行为的认识。以此为起点，主流人工智能一直是以“让计算机解决那些人脑能解决的问题”为工作定义和划界标准的，而并不要求系统的具体行为和人不可区分。以计算机围棋为例，“把棋下好”和“把棋下的和人下的一样”是两个不同的研究目标。出于这种考虑，在主流人工智能文献中提到图灵测试时，一般都是只承认其历史价值，而否认其对研究工作的现实指导意义的。就在不久前，世界上最大的人工智能协会AAAI的机关刊物《人工智能杂志》的2016春季号还出了一期专刊来讨论图灵测试的各种替代方案。

以通过图灵测试为目标的对话程序一般称为“chatbot” 。这个词和机器人(robot)一词相近，故常被译作“聊天机器人”，但其实应当译作“聊天程序”，因为它们都是专用软件，而非专用硬件。这类工作在历史上长期被大部分人工智能研究者视为旁门左道或哗众取宠，其中最著名的例子的是魏增鲍姆在1966年编写的“伊莉莎”（ELIZA）。这个程序只凭一些简单的花招就使得很多使用者相信他们是在和一个人对话，以至于后来产生了“伊莉莎效应”这个概念，专指一个计算机系统的使用者和观察者以拟人化的思路解释系统的行为，因此赋予了该系统许多它本来根本不具有的品质。这种现象在对“阿尔法狗”的评论中又一次得到了充分展现。近来，主要拜深度学习所赐，聊天程序的研发终于被接纳成了主流人工智能的一部分，而图灵测试在这个领域中自然是一个恰当的标准。但尽管如此，这个标准也不能推广到人工智能的其它子领域。因此，至今以通过图灵测试为目标的工作仍只占人工智能领域中很小的一部分。

2图灵测试哪里不对了?

反对图灵测试的意见来自若干不同的方向。

主流人工智能既然是以“解决那些人脑能解决的问题”为目标，自然是要“解题能力”越高越好，而不在乎“解题行为”是否和人一样。如果对某个问题有更适合计算机的解决办法，那为什么还一定要像人脑那样做呢？图灵已经预料到，要通过他的测试，计算机要会装傻和撒谎才行，因为在某些方面（如算数）能力太强就不像人了。《人工智能杂志》专刊所提到的替代图灵测试的主要理由也是它往往鼓励系统采用欺骗手段，而非真正展现其认知能力。

香农（对，就是创建信息论那位）和麦卡锡在1956年的一篇文章中提出图灵测试的缺点是：“在原则上”它可以通过查一张列出所有问题和相应答案的清单来做到，因此和我们关于思维的直观不符。具有讽刺意味的是，随着计算机硬件的发展，现在的一些“智能系统”的确是按这个“原则”构建的。哲学家塞尔的“中文屋”思想试验也是假定一个计算机可以用这个平淡无奇的办法通过图灵测试，而他以此论证真正的（强）人工智能不可能实现。

如我在《当你谈论人工智能时，到底在谈论什么？》中解释的，“人工智能”固然是要造“像人脑那样工作的计算机”，但关于“在哪方面像人脑”的不同看法已经将研究引向完全不同的方向。图灵测试是要计算机在行为上像人，而主流人工智能是要在解决各种问题的能力上像人甚至超过人。这两种研究都有价值且有相互联系，但并不是一回事。这正是主流人工智能不接受图灵测试的根本原因。

我自己的研究目标既非再现人类行为，也非达到或超越人类问题求解能力，而是让计算机遵循人所体现的信息加工原则。我认为这个原则就是“在知识和资源不足时适应环境”(详见《王培专栏｜人工智能：何为“智”？》，而其它具体的“思维规律”都是建立在这个基础上的。根据这个原则，一个智能系统的行为（输出）依赖于它的经验（输入）。由于一个人工智能系统不会有和人类完全相同的经验，它就不会有和人类完全相同的行为，即使其输入-输出关系和人的基本一样。因此，我的系统不是以通过图灵测试为目标的。比如说，它对一个问题的回答取决于系统自身对此问题知道些什么，而不是一个普通人对此问题知道些什么。

3图灵错了吗?

在这个问题上最令人哭笑不得的一点是：图灵从来没有建议过把他的测试作为“思维”或“智能”的定义。

尽管图灵的文章《计算机器与智能》被广泛引用，但很多人可能只看了他开头介绍“模仿游戏”（即后来被称为“图灵测试”）的那一部分。我这么说是因为他的下面一段话很少被提到：

“难道机器不会做某些应该被说成思维但和人所做的很不同的事吗？这是个很有力的反对意见，但我们至少可以说，如果能够成功地玩模仿游戏的机器可以被构造出来，我们无需为这种反对意见而烦恼。”

这段话说的很明白：图灵把通过他的测试作为“能思维”的充分条件，而非充分必要条件（也就是定义）。这就是说和人行为一样必是能思维，但和人行为不同也未必就不算思维。在1952年参加BBC的一个广播节目时，图灵明确表示他没有试图给“思维”下一个定义，而只是想在人脑诸多性质之间“划一条线”，来区分那些智能机器需要具有的和那些不需要具有的[2]。

既然图灵没有给“思维”或“智能”下定义，而人工智能的领军人物们也没有接受这个测试，那“图灵测试是人工智能的定义”是谁说的呢？这大致是一些对人工智能半懂不懂的人士的贡献，而好莱坞也难逃其咎。一旦这个简单易懂的说法传播开来，大概谁也拿它没有办法了，更不要说图灵英年早逝，没机会反复辟谣了。

综上所述，在主流人工智能历史上，图灵测试从未被接受为标准或定义，而图灵也不是人工智能主流研究规范的奠基人，尽管他的观点的确对很多人产生了不同程度的影响。图灵测试的弊端是“和人的行为完全一样”不应被当作“智能”的必要条件。虽然实际上图灵从来也没有这个意思，他的文章的确给了不少人这种误解。

尽管如此，我仍认为图灵对人工智能做出了巨大的贡献。这体现在下列方面：

他是最早明确指出“思维”和“智能”可能在计算机上实现的人，并且清醒地看出智能机器不会和人在一切方面都相同。比如在《计算机器与智能》中，他认为一个智能机器可能没有腿或眼，这就是说一个靠轮子运动和靠声纳感觉的机器人完全可能有智能。与此相反，至今仍有不少人以为真正实现人工智能的唯一办法是全面地、忠实地复制人的一切。尽管图灵测试把这条线画的离人太近，但总是一个有意义的开端。
在《计算机器与智能》中，他分析并驳斥了9种对思维机器的反对意见。从那时（1950）至今，对人工智能的反对意见层出不穷，但细细看来都不出他的预料，只是具体表述“与时俱进”了而已。尽管图灵当年的反驳没有彻底解决问题，他的预见性仍令人惊叹。就冲这一点，他的文章就没有过时。
他认为我们应当设计一个通用学习系统，并通过教育使其拥有各种具体技能。与此相反，主流人工智能系统的能力仍主要来自于初始设计，即使目前的“机器学习”也仅限于某种特定的学习过程（详见《计算机会有超人的智能吗？》）。如果他没有那么早去世，人工智能可能会有一条不同于达特茅斯诸君所引领的路线。

在我看来，图灵的主要局限是没有看到躯体和经验对概念和信念的重要影响。一个没有腿和眼的机器人完全可以有智能，但是不会有和人类完全相同的思想，因此也就不会有和人类完全相同的行为，即使我们只关注其语言行为也是如此。如果这个系统的智力足够高，它的确可能靠对人类的知识通过图灵测试（所以这个测试可以作为智能的充分条件），但这不应该是我们说它有智能的唯一依据。

4和我们有什么关系吗?

以上分析的目的不仅仅是澄清历史事实，更是要据此评说目前的状况。

把图灵测试作为人工智能的标准或定义直接导致了对这一领域成果评价的片面化、肤浅化、娱乐化。既然一个计算机系统不可能在所有方面同等水平地和人相像，那么聚焦于其外在行为的似人程度就意味着忽略其内在机制的似人程度。在最近的新闻和讨论中不难发现这一倾向的种种表现：

以聊天程序的蒙人水平来评价其智力，
以人的智商标准来评估计算机智力发展水平，
以高考成绩来衡量计算机智能，
以在作曲或绘画上“以假乱真”的本事来体现人工智能的创造力，
以似人的“面部表情”或“肢体动作”来表现机器的“感情”。

这些工作不能说毫无意义，但仍是主要靠伊莉莎效应来赢得承认，即靠观众想“只有聪明人能这么做，现在这个计算机做到了，所以它一定聪明”，而完全忽略这些行为在计算机中的产生机制，尤其是它们和系统设计、以往经历、当前情境等因素的关系。比如说，尽管有理由认为一个人工智能系统可能有情感机制和审美能力（详情以后再说），那也不意味着它注定会“美我们之所美”、“爱我们之所爱”。贾府上的焦大是不爱林妹妹的，但这不说明他没有爱憎。实际上如果他表现出爱她，那反而不是真感情了。既然贾宝玉的情感和审美标准不能推广到其他人，有什么理由认为人类的情感和审美标准可以推广到其他智能物种呢？

一个领域的成果评价标准如果是不合适的，后果会很严重。不但研发工作会被误导，公众的期望也会落空，而且会错过真正有价值的方向。在人工智能领域中，这仍然是个大问题。

参考文献

[1] Alan Turing, Computing Machinery and Intelligence, Mind 49: 433-460, 1950

[2] Alan Turing, Richard Braithwaite, Geoffrey Jefferson, Max Newman, Can Automatic Calculating Machines Be Said To Think? A broadcast discussion on BBC Third Programme, January 14, 1952

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”