挥动奥卡姆的剃刀:“学霸”GPT-4,超越人工的智能答案有多少可信度?

e9ef7cd67eabe23b47d2d81c42097d13.png

3月14日,ChatGPT的开发机构OpenAI正式发布其里程碑之作GPT-4,紧接着百度的文心一言发布。GPT-4是一个多模态大模型(接受图像和文本输入,生成文本)。相比上一代的GPT-3,GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力。回答问题的准确性显著提高。

但是,AI所给出的“正确答案”真的是确凿的吗?如果这是一场“楚门的世界”,我们要如何去分辨真与假?

但面对我们无法确定的问题时,或者过度的依赖AI时,唯一的证伪方式,便是客观实践,实践是检验真理的唯一标准。但首先,我们应该有思辨的能力,而这要从奥卡姆剃刀定律说起。

2a5639aaf9d6d2ac9c78c57eebeb551f.png

01

上星期四……

2002 年,通达·林恩·安斯利在美国俄亥俄州被控谋杀房东。安斯利声称她以为自己活在《黑客帝国》(Matrix)电影三部曲的“母体”之中,以此为自己辩护。在这一系列好莱坞电影中,“母体”是一项计算机模拟,绝大部分人类活在其中。

人类在这个虚拟宇宙中相互交流了如此长的时间,以至于(几乎)没有人能够将模拟与现实分开。他们将模拟出来的宇宙当成了现实。

但《黑客帝国》不过是电影,而相信这部电影里的事情通常被视为不理智的表现。安斯利被认为患有精神疾病,也因此被判无罪。对很多人来说,《黑客帝国》只是虚构作品,只有精神有问题的人才会相信它是真实的。

然而,斯蒂芬·霍金等著名科学家并不惮于认真考虑《黑客帝国》中的假设。尼克·博斯特罗姆甚至提出了一个相当有说服力的论证来支持这个假设:如果技术允许的话,或许人类比起现实会更喜欢在虚拟世界中滑雪,在那里没有严寒,雪崩也不会对人身安全造成威胁。

人们可能会逐渐更偏爱虚拟宇宙,这样的话,“母体”可能就是所有足够先进的文明将迈向的未来。然而,发达的文明拥有较多的人口。所以,我们可以预计宇宙中的大部分智慧生命生活在类似“母体”的结构中。但这样的话,如果我们随机选取宇宙中的一个智慧生命个体,比如说我们自己,那么这个个体的确处于“母体”之中的概率非常接近 1。

因此,有关“母体”的假设不仅值得考虑,甚至非常可能是正确的。因此,向其赋予一个难以忽略的置信度也并非毫无合理之处!

我们甚至可以走得更远,走进那些晦涩的形而上学理论之中。有一个相当极端的理论叫作“上星期四主义”(Last - Thursdayism)。根据这个理论,整个宇宙都是上星期四创造出来的,包括整个地球、我们的所有文明、所有古迹、所有书籍,甚至所有回忆。如果你相信自己去年夏天在尼日利亚度过了一个假期,那只是因为在上个星期四一切被创造出来的时候,你的大脑包含着在尼日利亚度假的回忆。

更厉害的是,上星期四主义是无法证伪的,而且完全合乎物理法则。无论我们将来观察到什么现象,都可以在上个星期四找到它的原因。

能恰如其分地用于否定上星期四主义和“母体”假设的经典思想并不是波普尔的哲学,而是奥卡姆剃刀,这个名字来自哲学家奥卡姆的威廉。我们也把它叫作节俭原则、经济原则或者简洁原则。在 1319 年,奥卡姆这样写道:“Pluralitas non est ponenda sine necessitate.”意即“如无必要,勿增实体”。换句话说,简洁的理论更可取。

但是,我们其实很难看出为什么上星期四主义在简洁程度上比不上“可观测宇宙在 130 亿年前突然出现,然后产生了星系、恒星、行星、生物以及人类大脑这些复杂事物”这个替代理论。奥卡姆的简洁原则尽管表面看似简单,但实际并不单纯!看上去简单的东西不一定简单,而看上去复杂的东西也不一定复杂!

事实上,要严谨理解理论简洁性,必须用到算法复杂度之类的有关复杂度的理论。所以,要正确描述奥卡姆剃刀的话,所罗门诺夫的工作似乎是无法避开的基石。

49e54d68b32a14a14daea9ba7f1fd642.png

02

足球里没有命中注定

但现在我们先着重阐述奥卡姆剃刀为何至关重要,特别是在构筑预测性理论这方面。统计学与机器学习方面的研究者需要这些预测性理论,而他们发现,如果没有奥卡姆剃刀的话,就会经常陷入所谓的“过度拟合”(overfitting)陷阱之中束手无策,我们也可以把它翻译成“过度诠释”。

要理解过度拟合带来的不良后果以及奥卡姆剃刀(有可能)扮演的“救世主”角色,我们先讲一点闲话,看看一个处于过度拟合统治之下的领域:体育。

加时赛已经开始了,吉尼亚克射中葡萄牙队右边门柱的景象仍然萦绕在法国球员和球迷的心头。2016 年欧洲杯法国对葡萄牙这场决赛对法国来说似乎胜利在望,毕竟在之前法国本土举办的两次大型国际足球赛事中,法国队都赢到了最后——除了有一次在第二次世界大战之前举办的赛事中落败,但那完全是另一个时代了。

另外,法国在 1984 年和 2000 年都赢得过欧洲杯,就好像冥冥之中有种规律,会保证法国每 16 年都能夺得欧洲杯。最后,法国队的历史证明,只有在拥有一位特别出众的球员时,他们才能取得最终胜利。在 1984 年欧洲杯是普拉蒂尼,在 1998 年世界杯与 2000 年欧洲杯是齐达内,而在 2016 年欧洲杯大出风头的则是格列兹曼。

然而在加时赛结束后,在这场决赛中进了唯一一球的却是葡萄牙。葡萄牙成了欧洲杯冠军,推翻了一切预言以及一切看似已然确立的统计规则。统计骗了我们!

但统计也许没有骗人。报纸标题写着,2016 年欧洲杯总是令人大跌眼镜。在四分之一决赛中,德国首次在国际足球锦标赛中击败意大利。在半决赛中,法国战胜了德国,这是法国自 1958 年世界杯季军战以来对阵德国的第一场胜利。葡萄牙在此前对阵法国的所有赛事中惨遭十连败,这次决赛是他们首次战胜法国队。这些黑马都获得了胜利。

格列兹曼似乎度过了完满而引人注目的一年,而且他自身的表现也让他成为金球奖获得者的大热门,这就像是足球界的诺贝尔奖。然而在 2016 年欧洲杯中,格列兹曼在打败曼努埃尔·诺伊尔带领的德国队之后,却在决赛中输给了克里斯蒂亚诺·罗纳尔多带领的葡萄牙队。

而几个月之前,他的俱乐部马德里竞技在欧洲冠军联赛中,继打败曼努埃尔·诺伊尔所属的拜仁慕尼黑后,却在决赛中输给了克里斯蒂亚诺·罗纳尔多所属的皇家马德里。几个月之后,获得当年金球奖的是克里斯蒂亚诺·罗纳尔多——格列兹曼只排第三名。

我刚才提到的这些分析在体育新闻中都很常见,其中统计数字的用途是揭示那些神秘、惊人甚至令人不安的规律。然而对于机器学习的专家来说,这些分析可能没有任何价值,因为它们很可能是一种过度拟合。

的确,如果观察足球历史并摆弄过往的比赛统计数据的话,人们总是能找到令人瞩目的统计规律。每一个新结果都会摧毁其中的某些规律,比如法国每 16 年赢得一次欧洲杯,但可能成立的统计规律足够多,不会出现所有规律都失效的情况。恰恰相反,数据累积得越多,摆弄数据获得虚假统计规律的方法就越多。

这就是过度拟合出现之处。如果事后解释的数目比数据增长得还快,那么无论数据是什么,我们都能找到办法解释它们。体育评论员花时间比较所有运动员在所有比赛中的所有信息时通常就是这种情况。这就是为什么每过几天我们就会发现某位运动员创造了新纪录。

757f8184c65cc3000469e3f06a145d34.png

03

过度诠释的灾难

泰勒·维根在他的网站“虚假相关”(Spurious Correlation)上讽刺了这种过度拟合的现象。维根喜欢对网上的大量时序数据进行比较,系统地从中寻找那些高度显著的相关关系,然而这些相关关系在理论上如此不可能发生,实在无法让人认真对待。

通过这种方法,我们可以发现尼古拉斯·凯奇出演电影最多的年份就是泳池中溺亡人数最多的年份,而人造奶油消费较高的年份往往伴随着美国缅因州的高离婚率;此外,某年选出的美国小姐年龄越大,当年因烫伤而死亡的人数就越多。幸运的是,即使在这些统计结果广为人知之后,政治家也没有尝试打断尼古拉斯·凯奇的电影生涯、禁止人造奶油或者向美国小姐的评委施加压力……

泰勒·维根展示的这些事例非常令人着迷,原因正是人们倾向于否定任何因果联系,即使这些联系有着明确的相关性。这些例子作为教育素材非常出色,可以提醒人们相关性不等于因果,特别是在过度拟合的可能性很高的时候——而我们的情况正是这样,因为用于测试相关性的数据集个数远远大于每个数据集中的数据个数。在这里,相关性就相当于那些事后解释,而它们的确远远大于每种数据的抽样大小。

然而,面对任何显著相关性都否定因果关系的存在不是我们大部分人会做出的反应,而过度拟合的陷阱也并不仅限于体育领域。我们在新闻中也能经常看到大量的过度诠释,人们对其非常认真,而它们导致的后果可能相当严重。

为了教育大众,FiveThirtyEight 网站提供了一个界面,你可以在其中轻松摆弄与美国政治相关的数据。在捣鼓几下之后,你可以找到一组数据证明你支持的党派对于美国经济有着正面影响;而更厉害的是,只需要花几秒,你就能找到一项 9513ff5cc62a3d569a439ecd84022455.png 值超过了“科学方法”所需阈值的数据!也就是说,这项数据足够显著,可以发表在科学期刊上——那么显然也够格发表在《纽约时报》上!

FiveThirtyEight 的方法能够得出任何预先给定的结论,因为这个网站提供了大量方法来衡量某个政治党派对经济的影响。那里有不同的经济指标(失业率、通货膨胀、国内生产总值、金融市场)、权力机关中各党派在不同位置的代表(总统、州长、参议员、众议员),还有各种对这些领导者的相对重要性的比较方法,人们甚至还可以选择是否将经济衰退纳入考虑。

最重要的是,人们可以选择各种参数的组合,比如说同时考虑失业率和国内生产总值,因此这个网站可以提供高达 2048 个关于某个政治阵营如何影响经济的可能解释。

然而你要记得,即使真正显著的效应并不存在,9f1b339dca60a59b50f28023eb3b560c.png 值方法每 20 次就会有一次得出显著的结果!因此,在这个情况下,我们预计会有一百多项统计满足可以发表的科研标准!更奇怪的是,如果再摆弄一下网站上的数据,我们就会察觉到,要得到无论是对民主党有利还是对共和党有利的显著统计结果都很容易。

也就是说,只要对 FiveThirtyEight 上的数据捣鼓足够长的时间,你就可以轻松发表一篇题为《证明 9b90e2393e4f22203c47ca88025d8747.png 会损害经济的 50 个统计数据》的“标题党” 文章,无论 70ce883db4dbfa20e2630fe61371c146.png 是民主党还是共和党!

这些计算非常粗略,并非真正正确,但也大概说明了我们能从 FiveThirtyEight 提供的分析工具中得到些什么。

但 FiveThirtyEight 的网页界面实际上能做的非常有限。如果一位记者受到编辑部的压力,而自己又对计算机足够熟悉,或者认识一位足够熟悉计算机的朋友,那么他很容易就能生成上万甚至上亿种某个政治阵营对经济的影响的可能解释,足够在接下来的一百年里每天都发表上万条统计学上的显著结论。这就是过度拟合贻害深远之处。

在探索言之有理的解释时,无论为什么立场辩护,人们都必然能找到有显著性的统计数据作为佐证——人们甚至通常不会意识到这些统计数据的发现并没有什么神奇之处。即使每个统计数据都不太可能具有显著性,但所有统计数据都没有显著性更不可能。

这个简化后的结论解释了为什么在社会话题、种族主义相关政策、恐怖主义、粮食与宗教等话题中会出现众多互相冲突的文章。毕竟某个主题在人群中引发的好奇心越大,就会有越多的记者花时间研究这个主题。这是一个恶性循环,恶果就是会产生互不相容的信念。

这些信念的基础几乎完全来自过度拟合,但我们中的大部分人看不见这种过度拟合,因为我们读到的只是记者熟练地采集并选择出来的具有显著性的统计数据,而这些记者又被老板逼着要引起轰动。

目前,绝大部分对自己深信不疑的活动分子一直被困于过分拟合这个陷阱中,无法脱身。当人们要为自己的立场辩护时,只需探索足够多的可能解释,就能从中找到似乎能论证这个立场的解释。只要人们花足够长的时间搜索,总会找到一个事后编造的解释。

不幸的是,据心理学家乔纳森·海特所说,社会科学中的实验一次又一次表明,人类总是先选好立场,然后再用(自己相信是)理性的论据来为自己的立场辩护。理性对我们来说只是一种工具,用于为我们预先建立好的信念寻找或者“喷出”解释。然而,这些事后的解释无处不在,只需要一个足够好的理由,我们就会对自己想要相信的东西深信不疑。

这就是我们不断在犯的错误,这就是迷信与超自然信仰出错的地方,这也是上星期四主义有问题的地方。

对于所有新观察结果来说,都存在一个新的解释,可以将这个观察结果变得与上星期四主义相容。实际上,上星期四主义的信奉者在解释这个围绕着我们的世界时,最终发展出的宇宙模型都会与科学家们构筑的宇宙模型一样。但这样的话,上星期四主义这个假设就会变得多余,它无法让人们解释该理论其他部分无法解释的东西。正因为这个假设是多余的,所以奥卡姆剃刀会把它剃掉。

你现在也明白了,奥卡姆剃刀是对抗过度拟合倾向的工具。奥卡姆剃刀提示我们,当每次发现新数据时,与其在相互竞争的各种理论之间来回切换,不如忽略那些过于复杂的理论,哪怕这会导致所有数据不能得到完美解释。毕竟,一般来说数据的成因众多,要进行完美的解释简直是天方夜谭。

  推荐阅读

dddfafb26b2bb631b79666eb62d70675.png

作者:黄黎原(Lê Nguyên Hoang)

译者:方弦

法国数学类科普书、大学数学参考及教材类图书畅销书目

有人生前波澜不惊,死后却名声大振,贝叶斯就是其中之一。

以他命名的“贝叶斯定理”堪称一座知识宝库,从神经科学到人工智能,无所不及。

f7813ae1445b9365a49865205d30ba62.jpeg

c845201e5bdddc8ea6f80bc71c1ab646.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13874.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高考262分却发4篇SCI论文,脑瘫小伙在985高校「旁听」12年,修完本科到博士所有课程...

Pine 萧箫 发自 凹非寺量子位 | 公众号 QbitAI 高考仅262分,却发了5篇数学期刊论文。 这是一位脑瘫小伙的真实经历。 不仅如此,他还修完了从本科到博士的所有课程,甚至达到985高校申请博士学位的要求: 至少发两篇SCI。 消息一出&a…

假设ChatGPT去参加高考......

ChatGPT(全名:Chat Generative Pre-trained Transformer),美国OpenAI 研发的聊天机器人程序 ,于2022年11月30日发布 。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行…

chatgpt和openai的 Image generation(图像生成)介绍

OpenAI的图像生成(Image generation)技术是一种基于深度学习的计算机视觉技术,可以根据输入的文字或者其他的视觉信息,自动生成符合描述或者语义的图像。OpenAI的图像生成技术利用了深度生成模型,如GAN(Gen…

当我在ChatGPT上问重建大师,它居然这样回答我

最近,ChatGPT风靡全球,现象级走红至各大社交媒体。作为最快突破1亿月活量的消费者应用,是怎么样理解重建大师的呢? 今天小编与ChatGPT展开对话,它告诉我: 短短不到一分钟时间,ChatGPT已经概括出…

微软多模态ChatGPT来了?搞定看图答题、智商测验等任务!

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【计算机视觉】微信技术交流群 转载自:机器之心 | 编辑:杜伟、陈萍 从大型语言模型(LLM)到多模态大型语言模型(MLL…

【ChatGPT+Python】Landsat卫星图像黑边去云及旋转校正

引言 下图是一张Landsat图像的示例(右图)。我们可以明显地看到四周的黑边和倾斜的角度。这是由于卫星传感器成像导致的。一般情况下,我们是不需要去除黑边和选择的,因为这样做之后投影信息和位置信息就不正确了。但对于做深度学习…

AI聊天机器人公司Character获1.5亿美元 公司估值10亿美元

雷递网 乐天 3月24日 AI聊天机器人初创公司Character.AI日前宣布完成1.5亿美元,估值为10亿美元,领投方为Andreessen Horowitz。 Character.AI计划将使用这笔资金来训练其自建模型并扩充22人的团队。 Character.AI由前谷歌研究人员 Noam Shazeer 和 Danie…

“AI产品经理大本营”六周年活动明天开启!(最后的优惠价格窗口+三大内容产品发布)...

明天(5月9日,周二),将开启咱们社群“AI产品经理大本营”六周年活动——“AI产品经理的新起点 2.0”! 下面将介绍三个方面: 1、“AI产品经理大本营”的三大会员权益体系(价值XXXX元) …

AI绘图软件分享:Midjourney 基础教程(一)

大家伙,我是权知星球,今天跟大家分享一下最近AI绘图爆火的软件工具Midjourney的使用教程。 Midjourney基础教程(⼀):Midjourney 使⽤准备 Midjourney是⼀个AI绘画⼯具,可以使⽤⽂字描述,⽣成…

阿愚呱呱作为一个非技术人员,是如何做到不到3年时间成为RPA行业的一个头部IP的?

Part1RPA帮入门训练营操作手册(问题集锦) 1禁用edge浏览器再重启 1.winR (win是键盘最左边Ctrl和Alt之间的按键) 2.输入msconfig 3.启动 4.打开任务管理器 5.选中edge浏览器 6.点击禁用 7.重启 2注册并下载uibot https://www.uibot.com.cn/ 3谷歌浏览器下…

“AI信息/认知”领先时间窗,可达2年?3个例证及12月的57篇精华汇总 | 星球月报...

最近被朋友敲打了下,酒香也怕巷子深,他建议的对…… 之前也有同学私下说,咱们星球“AI产品经理大本营”的日更AI干货,不仅是节省时间,更有体会到“圈内人”的感觉。 我后来汇总过,“AI信息/认知”领先外部时…

韭菜GPT:「旧世界」的开发者们,给OpenAI上了一课

OpenAI 官方 app ChatGPT 上架美区 App Store,一夜之间登顶 App Store 免费榜。 据 Sensor Tower 的数据,5 月 19 日当天,ChatGPT 收入排名生产力榜单第 4 名,App Store 总榜第 94 名。 可想而知,这个数据在未来一段时…

微软赢疯了,Office AI工具定价破天花板,每人每月30美元!

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) AI 的尽头,莫非是付费订阅? 昨天,微软在全球合作伙伴大会上披露,Microsoft 365 Copilot 将统一定价为每个用户 30 美元/月(约…

上云一年烧掉320万美元,Ruby on Rails 之父:“下云”成功,五年能省700万美元!...

高达320万美元一年的云计算费用,这家公司选择“下云”后,CTO 粗略算了一下,每年至少能节省一百五十万美元。即使预留 50 万美元用于意外开支,5 年也能节省 700 万美元的费用。 整理 | 梦依丹 出品 | CSDN(ID&#xff…

ofo小黄车已彻底无法登录;初代 iPhone 拍出 6.3 万美元天价;Linux 6.3 合并了硬件噪声工具|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

谷歌不跟 ChatGPT 的风,为什么?梦幻AI头像生成,你玩了没?氮化铌或让未来个人电脑量子化...

本周,AI业界有哪些新鲜事? 产业界 GitHub Copilot 推出企业版,但侵权等问题还需解决 根据GitHub近日发布的一份新闻稿:"我们很高兴为企业带来GitHub Copilot,它具有简单而灵活的许可管理、组织范围内的策略控制和…

在ChatGPT中建立一个虚拟机

内容部分翻译自:https://www.engraved.blog/building-a-virtual-machine-inside/ 除非你一直生活在岩石下,否则你已经听说过OpenAI开发的这个新的ChatGPT助手。你可能知道它在解决智商测试、解决leetcode问题或帮助人们写LateX方面的能力。它是人们检索…

ChatGPT对健康医疗意味着什么?

ChatGPT可能是有史以来增长最快的消费者互联网应用程序。OpenAI开发的人工智能聊天机器人于11月推出,仅两个月就达到了1亿用户。它空前的流行可归因于其令人印象深刻的功能。 ChatGPT可以做什么,为什么如此受欢迎? 人工智能曾经是科幻小说中…

我问了鹅厂程序员:你们工作中怎么用ChatGPT?如何高效Prompt?

👉腾小云导读 当你还在错误使用对话 AI 工具如 GPT,可能会觉得其作用不过是知识平移总结或简单问答。实际上,当了解先进的用法、知悉如何做到 better prompt,你会发现:AI 不是来替代你的,是来帮助你更好工作…

[Claude]-Chatgpt最强对手来袭

Chatgpt最强对手来袭 这货名叫Claude,是由openai前员工创建的,对标chatgpt,且响应速度要比chatgpt免费版好很多。最近,Claude 突然开放了申请,并且更新支持中文。据说它的 API 仍然是那种不限量、免费的类型哦~ 尽管如…