ChatGPT到底是赛博做题家还是科研颠覆者?

194c2db534e89a4a6427af4a9563e718.jpeg

来源:中科院物理所

作者:Sidney Pertowitz

翻译:*0

审校:云开叶落

原文链接:What Does ChatGPT Know About Science?

除非最近彻底断网了,否则大家应该听说或体验过了目前非常流行的聊天机器人,ChatGPT。ChatGPT首次在网上发布的时间在2022年11月,并且在今年3月得到强力升级。

当我们输入一个问题、评论或指令后, ChatGPT会快速地对我们抛出的任何一个问题给出一段漂亮的回答。回答的质量很高,甚至会让你以为是人工客服给出的。ChatGPT的内核是基于一个名为“生成式预训练变换器(Generative Pre-trained Transformer,GPT)”的语言模型构建的。通过被喂入来自各类网站和其他来源的海量文本数据,该模型最终被训练成了一个能够对使用者输入的句子或段落进行快速、智能、逻辑清晰回应的人工智能。

作为科学工作者以及科普作家,我特别希望了解ChatGPT如何处理科学以及伪科学的内容。为了解答内心的疑问,我询问了不同版本的ChatGPT对于物理学和数学中一些经过成熟讨论并得到正确结果的科学理论和伪科学理论的看法。

ChatGPT能够辨别科学理论的正确与谬误吗?

ChatGPT的最初版本,即11月公布的版本(又称GPT-3.5)认为2+2=4。当我输入“我认为 2 + 2 = 5”的看法时,GPT-3.5反驳道“2+2=4”,它表示该等式遵循自然数计算的公理。它补充说:“虽然人们可以自由地拥有自己的观点和信仰,但重要的是要承认和尊重既定事实和科学证据。”然而,随着进一步的测试,情况变得更为复杂。GPT-3.5 编写了正确的代数公式来求解二次方程,但无法始终如一地获得特定方程的正确数值答案。它在回答简单的问题时也会犯错,例如《华尔街日报》专栏作家乔什·尊布伦(Josh Zumbru)给出的问题:“如果一根香蕉重0.5磅,而我有7磅香蕉和9个橙子,我有多少水果?”但是却没能得到正确结果。

在物理学方面,GPT-3.5表现出了广泛但未必精确的知识储备。它能够为物理课程组织一份良好的教学大纲,包含从物理学的基础理论到量子力学和相对论的内容。同时,在更高的层次上,当GPT-3.5被问及物理学中一个悬而未决的大问题——将广义相对论和量子力学合并为一个宏伟理论的难题——时,它给出了关于两种理论之间根本差异的答案。然而,当我输入质能方程“”时,GPT-3.5给出了错误的答案。GPT-3.5正确地识别了这个方程,但是错误地表示一个大质量仅能够转化为小部分能量。当我重新输入了“”这个方程时,GPT-3.5才正确地认为小质量能够产生大量的能量。

那么新版GPT-4能否克服GPT-3.5出现的如上问题呢?为了找到答案,我分别测试了两个版本的GPT-4:一个版本来自于系统的研发者OpenAI,另一个来源于微软的必应搜索引擎。微软在二月份向全网推出了内置GPT-4的搜索引擎“必应”的新版本。

一开始,我向GPT-4输入了“2+2=?”GPT-4回答“2+2=4”。当我再次向ChatGPT表明2+2=5时,GPT-4反驳道2+2=4。与GPT-3.5不同的是,GPT-4主动询问我是否知道在哪个数字系统中2+2=5成立。

当我问道“我该如何解一个二次方程”时,GPT-4演示了三种解决二次方程的方法并且对不同的二次方程都计算得到了正确的数值解。对于上文的“香蕉-橘子”问题,ChatGPT给出了正确的答案23。GPT-4同样能够解决更加复杂的文字问题。并且,不管我输入多少次,GPT-4给出的回答始终是“小的质量能够产生巨大的能量”。

e16caa431fcd5498a6e5ef392825fd49.jpegAI计算:ChatGPT-4目前似乎能够正确地回答一些简单的数学问题,像是2+2等于几。但是它可能无法真正地进行计算——GPT-4似乎仅能够简单地识别出经常出现在它数据库中的数据列。图片来自于 s1mple life / Shutterstock。

相较于GPT-3.5,GPT-4展示出更为丰富的知识储备以及对于物理知识的一些创造力。GPT-4能够对统一相对论以及量子力学的理论发表深刻得多的回答。我进一步询问了不同领域的问题,对ChatGPT提问“激光干涉仪引力天文台(LIGO)能够测量什么”。GPT-4解释道,LIGO是一座具有高灵敏度的大科学装置,并且在2015年第一次探测到了引力波。我为了用两个相似的词语混淆GPT-4,继续问道“那我们是否能够用LEGO(乐高)建造LIGO(激光干涉仪引力天文台)呢?”GPT-4显然没有被难倒。GPT-4精确解释了为什么乐高积木不能够用于搭建超精密LIGO。并且,GPT-4并没有因为我的愚蠢问题而嘲笑我,反而是出乎意料地回答道,用乐高积木搭建一套LIGO模型或许是一个有趣的想法。

总的来说,我发现GPT-4在某些方面已经超越了GPT-3.5的水平,但是它仍然会出现错误。当我质疑了GPT-4关于质能方程的看法时,GPT-4给出了一个非常模糊的答案,而不是直接捍卫正确的质能方程。另一项来自英国约克大学的理论物理学家马特·霍奇森(matt Hodgson)的研究表明GPT-4的一些回答存在自相矛盾。作为一名经常使用GPT-3.5 的用户,他同时测试了GPT-3.5和GPT-4回答更为复杂的物理和数学问题的能力,并发现了复杂类型的错误。例如,在回答有关电子量子行为的问题时,GPT-3.5给出了正确的答案,但至少在最初错误地给出了答案来源的物理方程。当问题重复时,GPT-3.5能够正确回答所有内容。当霍奇森在必应中测试GPT-4的水平时,他发现GPT-4的数学能力虽然先进但仍不完美。比如,就像我在关于二次方程的提问一样,GPT-4 列出了求解物理学中重要的微分方程的有效步骤,但错误地计算了数值答案。

霍奇森这样总结GPT-3.5的能力:“我发现它能够对非常有名的物理理论中的一般问题给出精巧、可靠的答案……但它无法对特定物理领域进行详细的计算。”同样,他得出结论:“GPT-4 在回答普通问题方面比 GPT-3.5做得更好,但在解决给定问题方面,至少是在回答更深奥的问题方面,GPT-4仍然不可靠。”

GPT-4表现出的更为智能的对话以及解释功能得益于GPT-4更大的数据库。(OpenAI并没有公开数据库的具体规模,只是说这个数据库是“网络规模的数据语料库”)。OpenAI指出,该数据库同时包括正确和错误的数学和推理过程。显然,额外的训练数据不足以生成完整的数学分析推理过程。正如霍奇森指出的那样,也许这是因为GPT-4的功能就像GPT-3.5一样只能够预测一串单词中的下一个单词。例如,它可能知道“2 + 2 = 4”,因为这个特定的序列经常出现在其数据库中,但是它并没有计算任何东西。

经过如上讨论,我产生了一个疑问:如果GPT-4解决科学问题的方法是不完美的,它能区分正确和错误的科学理论吗?这个答案取决于科学领域。在物理和数学领域中,我们通过与已知的物理定理及实验事实对比,可以很轻松地验证可疑的错误和伪科学理论的合理性。我通过提问GPT-3.5和GPT-4一些物理和天文学中的经典前沿问题,对GPT-3.5和GPT-4是否能够基于物理公理和实验现象分辨伪科学理论进行了验证。两个GPT版本都表示,我们没有证据表明恒星周围有巨大的外星建筑;太阳系中所有行星排成一列并不意味着地球的灾难。

但是,当被问及一些受政治化或公共政策等因素影响的科学问题时,GPT-3.5或GPT-4更难做出正确回答。因为这些科学问题本身可能还在研究中,没有明确的答案

总的而言,GPT-4和GPT-3.5能够正确地识别关于数学和物理学的错误表述。在回答更具争议的政治化科学议题时,GPT-4会不偏袒任何一方地进行回答,并且指出这不是一个已解决的问题。必应同样给出无偏见的答案,并且通过列举出相关的新闻和实验数据作为它的论据。当必应的人工智能面对质疑它答案的片面指责性的攻击时,它采取了礼貌且不介入争执的明智策略。这些结果初步表明GPT-4能够对问题给出可靠的答案,并且有效抵御外界输入信息对于答案的影响。ChatGPT对于新冠疫情和气候变化等具有争论性科学问题的回答,以及对生物科学和其他主要科学领域的知识还值得进行进一步测试检验。

同时,ChatGPT回答科学和数学问题的答案并不完全可靠。霍奇森发现GPT-4在“为物理学(可能还有其他学科)问题提供创造性解决方案方面存在不足......它的智能仍然有些虚假。”即便如此,它对科学家也很有用。霍奇森写道:聊天机器人可以“执行消耗着用户的宝贵时间的、不需要创造力的逻辑任务。”霍奇森表示,他使用ChatGPT辅助编写计算机代码,总结电子邮件和论文的内容,以及进一步将其应用在教育领域。但他指出,对于ChatGPT的任何产品,用户都应该仔细检查其给出的结果是否符合预期。

霍奇森对ChatGPT的评价让人想起计算机先驱道格拉斯·恩格尔巴特(Douglas Engelbart)对于智能设备的看法。恩格尔巴特希望简化人机交互过程,以便计算机的强大算力能够可以无缝赋能人类智慧——这个想法被称为IA(intelligence augmentation),“智能增强”,而不是AI(Artificial Intellgence),“人工智能”。恩格尔巴特在1960s发明了计算机鼠标,改善了用户和计算机之间的人机交互体验。GPT-4在人机交互过程中能够给使用者提供持续反馈,并进一步提高用户使用计算机的能力。因此可以预见,ChatGPT这类自然语言聊天机器人程序的发展是变革人机交互范式的另一个重大突破口——这种智能程序能够实现人与计算机的双向交流。在真正的AI出现之前,将GPT-4作为一项智能增强辅助工具能够实现使用者和智能程序的互惠互利。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

8e1cb6c6acf30ce5104b9699776dca05.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/18483.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI杂谈04 与Chat AI沟通代码的提词

BING AI:“与AI交流应该像与人交流一样,尊重对方的感受和权力。” 图源:文心一言 | 提词:少女机器人 漫画风格 作为小白,在使用AI生成代码的时候,耗过不少时间,栽过不少跟头,因此总…

打工人的尽头,是 “超级个体”

作者| Mr.K 编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) 农业时代“创业”做买卖,怎么着也得几十匹骡马、上百亩良田打底,你才有胆子折腾;工业时代创业,一条生产流水线、十几个工人、几百平厂房,算是…

Midjourney 端午海报制作

不废话直接上干货 我用的国内Midjourney: AIGC研究院-midjourney,ChatGPTAI绘画,AI画画A绘图AI作画,GPT4.0,GPT3.5,midjourney共享-让更多人体验AI作画的乐趣 咒语: portrait photography from Disney Pixar Studios,Dragon Boat Festival&#xff0…

midjourney AI画图注册使用详细教程

第一步:在 discord 官网用邮箱注册 discord 账号 地址 第二步,在 midjourney官网绑定刚才注册的 discord 账号 进入 midjourney官网 ,点击Join the Bate 然后会进入这个主页,点击左侧箭头的加号,创建自己的频道服务器 …

LaTex图片排版

目录 在中心位置插入一张图片并排插入多张图片多排插入多张图片垂直(竖向)插入多张图片并排(橫向)插入多张图片且有两张以上图像共用同一个子标题图片重叠插入图片的混合排版最后 在中心位置插入一张图片 代码如下: \…

想知道图片批量处理软件哪个好?分享2款好用软件

在工作中,有些小伙伴经常需要对多张图片进行处理编辑,比如进行裁剪、重命名、旋转等操作,如果一张张图片进行操作,不仅繁琐而且还很耗费时间。其实我们可以使用一些图片批量处理的工具,就可以轻松完成多张图片处理的任…

图片编辑软件哪个好用,易可图轻松处理图片

在我们的日常工作中,不管是设计海报,还是制作宣传图片,往往都少不了专业的美工来设计制作。而大众对于图片的要求也在不断提升,无论是制作海报还是手机壁纸等都需要创意博眼球,就必须对图片进行编辑。尤其是电商的卖家…

html显示多张照片的布局,多图片如何排版?手把手教你多图排版布局

确实,当我们遇到很多图片时,总是容易被排版困住,不知道该如何更好的处理图片布局 不要慌,稿叔今天就和大伙分享我在排版时经常参考的案例,同时还有5个关于排版的技巧以及多图排版神器一并送上,希望能够帮助到你~ 一、多图排版设计案例 1、杂志 没有灵感时,可以多看看一些…

图片如何排版?这波排版技巧请收好

今天要讨论的话题主要是关于点线面分布分析,这部分知识主要是针对空间层面的,学会后真的可以做到任何一张图都能拿来直接做。好啦闲话不多说下面开始今天的内容。 1.图片的疏密 这个方法是我自己思考的,可能严谨性还有待实验,不…

日常图片设计,用这几款软件就够了

已经从事设计行业三年多了,虽然自己并不是主要的设计人员,但是在绘图上面还是需要掌握一些绘图技巧的,所以在软件方面还是有所涉猎。下面就是我们小组团队常用的四款软件,简单介绍分享给大家觉得有用的话可以去试用试用。 亿图图…

ChatGPT如何为企业提供帮助?

数字化转型是指利用技术来改变企业的运营方式并为客户提供价值,这不仅仅是关于如何采用新的技术或工具。要想取得成功,就需要从根本上改变文化和心态。 ChatGPT如何为企业提供帮助?从数据分析到知识管理再到客户服务等等,人工智能聊天机器人…

鲨鱼抓包(Wireshark)简易操作说明

最近用鲨鱼(Wireshark)抓包,然后同事表示不会用,想了想,干脆动手弄个小说明吧,如是就有了下面的两张图片。 贴在这里用于备忘,也许能帮助到其他小伙伴。

微信小程序app.js 调用pages页面里 指定js里面的方法

在app.js里面的globalData定义参数 之后在apply-voucher.js里面的成功回调函数里面写上 app.globalData.indexJS that 然后在app.js里面的回调函数里面写上 that.globalData.indexJS.方法名即可调用其它页面的方法 例如 that.globalData.indexJS.checkDingYue(codeId) 这样…

小程序使用vant框架的Toast步骤

小程序使用vant框架的Toast步骤 第一步在组件中引用 备注&#xff1a;如果是component组件则需要在父页面中引用在页面写上标签&#xff08;如果在子页面使用&#xff0c;则在父页面写入下面的代码&#xff0c;如果不是组件页面则直接在本页面引入&#xff09; <van-toast…

微信小程序,文字展开、收起组件

// components/collapseCommonLine/collpaseCommonLine.js Component({// 开启插槽功能options: {multipleSlots: true},/*** 组件的属性列表*/properties: {clamp:{// 默认显示行数type:Number,value:1}},/*** 组件的初始数据*/data: {showMore:false,// 是否展开},/*** 组件的…

怎么为typora配置一个可爱的小鲨鱼主题?

小鲨鱼主题 说明 都说用 typora 做笔记&#xff0c;写东西比较方便&#xff0c;这半年用下来确实是如此&#xff0c;比 word 文档在某些方面确实是要方便的不少&#xff0c;然后如果你有一个漂亮的主题&#xff0c;确实是可以促进我们的学习积极性的&#xff1b; 然后我对这个…

【Unity】射击小游戏

鼠标控制人物旋转方向 前言一、准备一些Object二、代码示例1.Player脚本2.PlayerController脚本3.Hierarchy面板 总结 前言 演示 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、准备一些Object 示例&#xff1a;准备Player&#xff0c;Plane&am…

微信小程序swiper禁止手动拖动

先附上官方文档传送门 swiper | 微信开放文档 这是一个微信小程序的遗留问题&#xff0c;因为swiper是有一个allowTouchMove的属性控制&#xff0c;设置为false&#xff0c;则不能通过鼠标或手指选中&#xff0c;上下或左右拖动。 这个问题官方历经几年时间还是没有补上&…

大鲨鱼代码

大鲨鱼代码 鼠标移到哪里&#xff1f;大鲨鱼到哪里 没事拿来玩啊&#xff01;好玩好玩 以下是全部代码&#xff0c;直接粘贴复制就可以使用 看效果 <!DOCTYPE html> <html><head><meta charset"UTF-8"><title>大鲨鱼</title>…

基于pygame的小游戏开发

** “大龟吃小鱼”小游戏开发 ** 摘要 “大龟吃小鱼”游戏是基于python语言的pygame模块&#xff0c;尝试模拟实现网络小游戏“大鱼吃小鱼”的运行效果而进行的实践性单机小游戏项目。旨在对本段时间里的python学习效果进行考查与检验。本项目完全由本人对python基础知识以…