近些年来,人工智能的概念一直很热,特别是2016年谷歌研发的人工智能机器人——阿尔法狗(AlphaGo)以碾压的姿态战胜了世界围棋冠军李世石而名噪一时。人工智能仿佛一夜之间变成最热的风口,与人工智能相关的企业、产品、概念都喷涌而出,盛极一时。热潮之下,伴随着资本、巨头纷纷入局,人工智能迅速发展。但人工智能真的如宣传的那样是超越人类的智慧体吗?
图灵测试
图灵测试(The Turing test)由艾伦·麦席森·图灵提出,指测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘、麦克风)向被测试者随意提问。
进行多次测试后,如果机器让平均每个参与者做出超过30%的误判,那么这台机器就通过了测试,并被认为具有人类智能。
说的简单点就是,即一个人在不接触对方的情况下,通过一种特殊的方式,和对方进行一系列的问答,如果在相当长时间内,他无法根据这些问题判断对方是人还是计算机,那么,就可以认为这个计算机具有同人相当的智力,即这台计算机是能思维的。
这是图灵对智能问题从行为主义的角度给出的定义,图灵相信机器是可以思维的。
尤金·古斯特曼
2014 年,一款俄罗斯人开发的名叫"尤金·古斯特曼"的聊天机器人软件号称通过了图灵测试。根据英国皇家学会制定的比赛规则,在5分钟的人机对谈时间里,有超过 30% 的评委误以为它是真人,所以结论是:测试通过。
这是首个通过图灵测试的程序,它让在场33%的评判误认为"尤金·古斯曼"是一个真实的人。有人认为这场测试的时长只有5分钟,用短短5分钟来判断一个程序是否人工智能,实在过于草率。更多人则认为人工智能已经有了质的变化,在不久的将来会达到人类智慧的高度,真的像人一样与人沟通。
我看了后续的一些测试后发现,实际上这个程序并没有达到真正的智能,它用了一些语言技巧来装作自己理解了对方说的话。它并不是真的在智力行为上表现得和人类无法区分,而是尽可能地利用规则漏洞,在5分钟时长内骗过评委。
比如,充分使用人类语言中顾左右而言他的谈话技巧;习惯性地转移话题,不让人刨根问底等等。利用这些规则谈个1,2分钟还行,但一直这样的话那就未免太傻了,毕竟正常人都不会这么说话。另外,一旦涉及到人情世故、文化背景、地方特色的问题,机器人几乎就束手无策。可以看看下面对话:
尤金·古斯特曼:您好,我的朋友!有心事吗?
测试者:我不开心
尤金·古斯特曼:为何不开心?
测试者:因为今天很倒霉
尤金·古斯特曼:可以多告诉我一些吗?
测试者:在学校被老师骂
尤金·古斯特曼:我了解
测试者:然后我女朋友又不理我
尤金·古斯特曼:为何不理你?
测试者:因我们吵架了
尤金·古斯特曼:想多聊一聊吗
大概策略就是如下五步:
- 先勾引用户说话;
- 无论用户说什么,都反问 “为什么是这样呢” ;
- 无论用户说什么,都追问 “具体是什么呢”;
- 无论用户说什么,都回答 “我理解”;
- 回到第 1 步。
关于尤金·古斯特曼就不过多分析了,总之就是闹了个笑话,不过依然有不少人认为这是人工智能长足进步的表现。
现在流行的AI助手,如:微软小冰、苹果Siri、谷歌Allo、亚马逊Alexa、小米小爱同学等都是运用了类似的语言技巧,它们都是尤金·古斯特曼的现代加强版。它们给人感觉已经基本能与人沟通了,但是离真正的人类的智能还有巨大差距。
Google Duplex
在谷歌2018年度的开发者大会(Google I/O 2018)上,谷歌人工智能新应用Duplex通过图灵测试的消息引发了业界广泛热议。 谷歌宣称是"极为逆天的人工智能黑科技"。
通过Google Duplex,可以为用户虚拟一个助理秘书的角色,给发廊、饭馆等商业店面打电话,帮用户预约时间。这款AI能够模仿真人语气、语速,以流畅且自然的方式帮助用户完成美发沙龙和餐馆的预定操作。
在现场展示中,Duplex 不仅用自然流畅的语音和电话另一头的人类完成了交流,对方根本没有意识到打电话来的居然是个“AI”,其对话的自然流畅程度几乎以假乱真。 而且第二则录音中它还成功地处理了意料之外的发展状况,不仅理解了“无需预定”,还主动询问了等位的时间。
在大会的最后一天,谷歌母公司Alphabet董事长、前斯坦福校长约翰轩尼诗道出Duplex已经通过了图灵测试的消息。一石激起千层浪,一下子引爆IT界:
不过很快被人锤了,这玩意点点餐还好使,一旦和它聊些其它的话题就完全不行了。然后谷歌改口说是在"预约领域"通过了图灵测试。我就纳闷了,什么叫做在某个领域通过图灵测试,通过了就是通过了,没通过就是没通过,哪能说在某一领域通过这种话呢?这无非就是利用人工智能和图灵测试唬骗大众,过度宣传。不了解的无辜群众还以为人工智能要统治世界了。
最离谱的是,就连在"这个领域"它也未必就有演示的那么好用。2019年5月,《纽约时报》报道谷歌能够自动打电话的人工智能Duplex后面其实是有大量真人伪装。曾获赞誉“通过图灵测试”的Duplex每成功预订4次餐厅就有3次源于人工操作。而不管是谷歌还是Duplex可从未公告过有真人呼叫中心来接管这项业务。
还有一件和这类似的事件,2019年8月,《华尔街日报》就曝光一家名叫Engineer.ai的公司,该公司此前谎称大部分演示程序制作和软件生产皆是由人工智能完成,工程师仅为辅助。然而多名离职人员和现员工爆出公司内编程主要还是依靠一群以印度为主的程序员来人工完成。
华智冰
2021 年 6 月 1 日,中国首个AI虚拟学生——华智冰,正式亮相。目前由清华大学、智谱AI团队、北京智源人工智能研究院及小冰公司的联合培养。该人工智能会在清华大学计算机系知识工程实验室进行"学习和深造"。
华智冰由三方合作诞生:北京智源人工智能研究院领衔开发超大规模智能模型“悟道2.0”;智谱AI团队作为骨干参与开发“悟道2.0”,并主要开发平台应用生态;小冰公司提供全球领先的人工智能完备框架,同时负责声音、形象的开发应用。华智冰是基于“悟道2.0”诞生的中国原创虚拟学生,脸部、声音都通过人工智能模型生成;具有丰富知识、与人类有良好交互能力的机器人。
清华大学是这样来定义的:
未来,通过深度学习,使其真正主体化,让她能像自然人一样与人交流互动。这种交流对话是基于她所具备的条理性与逻辑性,结合上下文自己新生成的,而非针对预设问题与答案检索出来一些既定的回答或语句。通过深入理论研究、核心技术突破、产业相结合实现让机器像人一样思考的愿景。
2021年9月28日,“华智冰”正面出境唱歌,刷爆了朋友圈。视频里的她歌声甜美,表情动作也十分真实。她的歌声、人类生物学特征全部由人工智能完成,肢体则有团队成员进行训练完成。目前,清华华智冰的身份是清华本科生(在清华大学计算机科学与技术系知识工程实验室学习),已会创作音乐、诗词和绘画作品,还掌握四种舞姿。
其实,视频中唱歌的并非AI,而是由真人通过AI换脸得到的。拍摄时找一名女性边弹着吉他,边唱歌,然后利用换脸程序,将面部替换成经“悟道2.0”生成的华智冰的面容。如此一来,我们就可以看到虚拟学生华智冰,边弹吉他,边唱歌的画面,感叹人工智能的伟大。
有了谷歌Duplex的前车之鉴,清华大学在用词方面相当严谨,如:“希望华智冰具备超越图灵测试的通用机器认知能力”、“正在逼近图灵测试”。虽然没有说华智冰已经通过图灵测试或者说已经达到了人类智慧的高度,但给人的感觉就是"人工智能已经很接近人类水平了"、“人工智能即将超越人类了”。
强人工智能与弱人工智能
在讲强人工智能和弱人工智能之前,我们先看看人工智能的定义,比较流行的一个说法是麻省理工学院的约翰·麦卡锡在1956年的达特矛斯会议上提出的:
人工智能就是要让机器的行为看起来就像是人所表现出的智能行为一样。
仔细分析这条定义就会发现,该定义直接否定了强人工智能的可能性。当你在讨论强人工智能时,其实已经默认了它的合理性,就已经陷入了人工智能的"圈套"。不排除这种可能:既然现在达不到人工智能的高度,那我就提出弱人工智能的概念。给人的感觉就是弱的肯定会慢慢变强。就像手机一样,以前的按键机到现在的智能机。因为我们总相信事物的对立面会出现,有凹的就有凸的,有高就有矮,自然,有弱就有强。
目前对人工智能的定义大概分4类:机器“像人一样思考”、“像人一样行动”、“理性地思考”和“理性地行动”。这里“行动”应广义地理解为采取行动,或制定行动的决策,而不是肢体动作。
强人工智能是“通用型的”,这样的机器拥有人类的认知和学习能力,具有自我意识,能够处理所有类型的任务。
弱人工智能是“专用型的”,它在某个领域达到了专家级别,但是出了这个领域就无法运作了。
我们目前应用的全部是弱人工智能,即机器不具备人类的思考能力。像人脸识别、语音助手、各式各样的专家系统这些都属于弱人工智能。
引言部分提到的阿尔法狗围棋AI,这就是典型的专家系统。它在围棋领域已经达到了专家级别,甚至已经封神了,但是出了围棋这个领域它啥都不是。
还有就是目前特别热门的无人驾驶技术。熟悉的人应该知道无人驾驶分为5个等级,如下所示:
L0:驾驶者拥有百分之百的控制权,车辆没有任何安全系统辅助设备,目前绝大部分车辆属此层级;
L1:车辆拥有单个或多个独立功能电子控制系统,如自动紧急刹车系统,未来新车多属于此层级;
L2:至少有两项控制能自动化,如结合主动车距控制巡航系统与车道维持系统;
L3:车辆具有自动闪避障碍、自我导引、主动控制等功能,但驾驶者仍拥有操控权;
L4:车辆全自动驾驶,使用者仅须给定相关信息,例如目的地、路径等,车辆无法任意改为手动驾驶。
NHTSA是这么划分的,也有分为6个等级的,对比如图:
概括起来就是级别越高,人干预的越少,到了L4/5就是完全不需要人干预,从起步到停车全程自动。很多车企宣传时强调自己的自动驾驶多么多么强,出了事后改口称是辅助驾驶,是客户“理解有误”。
甚至还有些宣传自己已经达到L4级别,比如百度的Apollo系统,但实际效果让人不敢恭维,往往是演示演示效果还不错,一旦真正用起来却差强人意,不堪大用。
我们不去管是过度宣传还是理解有误,就是真的达到了完全自动驾驶的级别,那也是属于弱人工智能,就和阿尔法狗一样,在驾驶这个领域达到了专家级别。不过很多人怀疑是否能做到L5级别,因为早在2012年,谷歌已经获得了无人驾驶牌照,并成功上路。那时的宣传给人感觉就是即将达到L5级别了,仿佛人类科技已经高度发达了。但是现在9年过去了,依然远不能达到完全自动驾驶的级别。不知道这个"即将"是多久。
如果说类似于自动驾驶这种专家系统都无法做的很好的话,那强人工智能岂不是天方夜谭。
人工智能和机器学习
人工智能真正的内涵其实是“机器学习”。我们可以看看下面这张图:
人工智能的发展经历了控制论和早期的神经网络、符号推理和逻辑演算、芜杂和简约学派的对立、专家系统的崛起,以及今天的人工神经网络和深度学习。人工智能的研究曾一度处于停滞不前的状态,近些年的进步一方面得益于深度学习理论的发展,一方面得益于大数据的支持以及半导体发展使得计算机有了强大的算力,才开始改变并大幅超前。
与人工智能不同,机器学习完全合理。机器学习虽然获得了很大进步,但是这些进步几乎完全来自于有监督的机器学习,其只能解决有很多标记数据或实例数据的计算机学习问题。这种形式将机器学习局限在了非常有限的范围。当然无监督学习也在日益发展,很多人看好下一个爆点就是无监督学习。不管是有监督学习还是无监督学习,都是基于数学上的一些理论,包括概率论与数理统计、优化方法等公式定理的灵活运用。甚至有的计算机学院招研究生更偏向于本科是数学专业的,而不要软件专业或计算机专业的。
机器学习的进步离不开大数据的支持, 那些支持人工智能有无限可能的人,包括比尔盖茨和埃隆马斯克,都有同样的假设:人工智能的发展是一条单行道。他们表示,技术的进步推动着我们沿着这条单行道发展,直到计算机达到人类级别的智能。其实,即便这样,这条单行道的关键点也是“带标签的数据”。我们正在快速前进,但是朝着不同的方向发展,唯一可以确定的是,只有在一个非常特殊、有限的能力范围内才能取得进展。
总概与讨论
在本节我们讨论两个问题:人工智能的必然性和必要性。
先说必要性。华智冰的出现令人吃惊,有人说此次事件是AI领域的新里程碑,证实了现行人工智能技术进程的线路是正确的,业界确实找到了AI向人类智能演进的方法。我们可以这样思考"我们为什么要让机器看上去、听起来都像人"。
"机器是否能够思考"这个问题由来已久,图灵测试是判断强人工智能的一种方法。事实上,该测试本身在学术界就颇有争议。加州伯克利的约翰希尔勒教授在1980年的一个叫“中文房间”的著名实验中反驳了强人工智能的观点,当时引发了整个人工智能界的深思。 中文房间的描述如下:
一个对中文一窍不通,只会说英语的人被关在一个封闭、只有一个窗口的房间里,他手上有一本绝对完美的英汉手册,用来指导他以递纸条的方式翻译并回复窗外的汉语讯息。希尔勒认为,尽管房间里的人能够以假乱真,让房间外面的人相信他是一个完全懂中文的人,但客观事实是他压根不懂汉语。
上述过程中,房外人的角色相当于程序员,房中人相当于机器,而手册则相当于计算机程序。每当房外人给出一个输入,房中人便依照手册给出一个输出。而正如房中人不可能通过手册理解中文一样,机器也不可能通过程序来获得理解力。既然机器没有理解能力,那么所谓的“让机器拥有等价人类智能”的强人工智能便无从说起了。
既然如此,图灵测试的意义何在?让机器过度地拟人化的意义又何在?
在当下人工神经网络和深度学习之进程大背景下,算法的问题已经得到了充分解决,算力则成为“智能”提升的关键。 硅谷科学家雷蒙德库茨魏尔于2006年提出AI的问题在于算力,根据他的预测具有人类智能水平的机器应该已经到来了。就像现在的华智冰,我们暂且不讨论是不是在骗研究经费,就算做到和正常人一样了,那又有什么用呢?让她代替人去工作,每个人呆在家里享福就行?
如果说“达到人类的智能”是AI的终极目标,那么距离这个终点越近,人们的质疑声就越多,总结起来就是:我们为什么要让机器像人一样? 在人工智能发展史的早期阶段,就有科学家提出“我们只需用机器去解决问题,而为什么要把机器设计地像人一样?”这样的疑问。或许“像人一样的机器”有着人类本身审美上的执着,而当机器越来越像人的时候,人类却表现出无比的恐惧。
比如说:国内的社交网站上就出现了“如何看待用Duplex实施一次‘完美的’电信诈骗”这样的设问,而论题下面回复的用户几乎都陷入了沉思。科技媒体The Verge刊文称Google Duplex会扩大人性自私的一面。因为Duplex取代了一些预约工作的中间环节,而这些环节本应是人与人沟通的一部分。未来Duplex会取代更多社交,用户也许会走向人格封闭,人与人之间的距离也会越来越远。
再说必然性:必然性的意思是弱人工智能必然会发展为强人工智能。如果一台机器的唯一工作原理就是转换编码数据,那么这台机器是不是有思维的?很显然,中文房间的例子已经说明,如果机器仅仅是转换数据,而数据本身是对某些事情的一种编码表现,那么在不理解这一编码和这实际事情之间的对应关系的前提下,机器不可能对其处理的数据有任何理解。基于这一论点,希尔勒认为即使有机器通过了图灵测试,也不一定说明机器就真的像人一样有思维和意识。更何况还通不过图灵测试。
前面我们说了人工智能依托于机器学习。 神经网络确实可以完成很多不可思议的事,运用它可以进行图像识别。通过机器学习,计算机基本上已经可以独立完成这项工作。就其本身而言,它已经能够确定要寻找的模式或视觉特征的细节。机器学习实现这些目标的能力令人赞叹!但是这些与"具备思考能力"完全没有关系。
人工智能是让计算机像人一样思考,模拟人的认知。现在,我们对自己的大脑任何运转尚且知之甚少。而试图通过一个神经元接一个神经元的复制大脑,就如同科幻小说中用到“倘若”这个词一样,纯属白日做梦。内省(当你思考自己如何思考的时候)是一件有趣并且重要的事情,但是最终我们也无法得知自己的头脑中究竟发生了什么。
前面我们说过机器学习是依托于数学,而数学是非常严谨的,那么数学上是否能证明强人工智能是不可能达到的呢?很遗憾,现在还不能证明它达不到,不过也无法证明它能达到。在这种情况下,才让资本有了可乘之机,利用AI噱头欺骗大众已到达获利的目的。
事实是,“人工智能”本身就是一个谎言。只要使用这个流行语,就像在说技术的进步正在向人们预料的方向发展。为了获得像人一样的“常识”,这是一个非常诱人的目标,但也只不过是一个不切实际的承诺。
就如最近火爆的AI学生:华智冰。华智冰智商和情商双高,可以作诗、作画、创作剧本杀,还具有一定的推理和情感交互的能力。 清华大学宣称第三年就会在认知上超越人类,具备人类的智能。我们就看2023年的结果吧。其实和小度、小艺、小爱和Siri等智能语音助手一样,华智冰只是一个加强版的语音助手,但是被过度宣传,引发大众恐慌,认为AI要取代人类了,《卫报》曾报道过一篇文章《人工智能:我们就像孩子们玩炸弹》,《新闻周刊》也报道过《人工智能即将到来,它可以淘汰人类》。霍金一直坚持他自己的观点:人工智能是人类的终结…对任何人来说,正式定义包括人类认知在内的“智力范围”是无法达到的。因此这些担心纯粹杞人忧天。
至于华智冰所谓的创造也是基于已有的数据,在一定规则下的随机组合。当神经网络模型过于庞大的时候,有些细节我们无法详解掌握,所以当结果出乎我们意料时,其实是在情理之中。并不是机器产生我我们所说的认知智能和自我意识。即使它可以做到理解人类的语言,通过图灵测试,就像前面的结论一样,它依然不具有自主意识。
是时候让术语“人工智能”终止了。流行词“人工智能”弊大于利。在一定程度上,它有时可能有助于宣传,但至少在同样程度上,它误导了大众。但是也不乏有干实事的企业,我了解的阿里巴巴达摩院(阿里达摩院)里面每一项都是顶尖科技,它的定位就很清晰,AI仅仅是辅助人类处理问题,而无法达到人类智能的高度。
当然,本文最终目的还是希望不是这个行业的人不要被各种AI宣传所误导,公司拿着AI的幌子骗消费者,学校拿AI的幌子骗经费。你只要记住,人工智能永远只是辅助人类处理和解决问题,是不可能成为超越人类的存在的。
当然机器学习内容包含很多,本文无法详解展开。推荐邱锡鹏的《神经网络与深度学习》,这本书我粗看一下写的清晰有条理,最重要是比较新,有感兴趣的小伙伴可以在公众号:极客随想,内回复消息:深度学习。即可获取。