这篇论文是最近讨论度极高的一篇论文,推特上几乎被这篇论文刷屏,作者Sebastien Bubeck是微软机器学习基础组的研究经理。他本人之前的研究主要集中在机器学习理论,凸优化,对抗鲁棒性方法,下面是该大佬的个人主页:
虽然作者是做理论ML出身,但是这篇论文中却没有利用机器学习的方法来对GPT-4进行分析,而是从心理学,哲学的角度出发来探讨评估GPT-4的智能。我个人认为这篇论文会是今年最重要的论文之一,对于今后通用人工智能的发展会有很大的影响。
当 OpenAI 带着 ChatGPT、GPT-4 王者归来,微软率先利用这些技术加码新 Bing、Office 全家桶、Azure 等业务、产品之时,毋庸置疑,其进度早已超越了 Google 还在加快融入 Bard 大模型的整体步伐。
那么AGI 的进度到底走到了哪里?近日,微软研究团队用 154 页的论文报告内容给出了解答——GPT-4 语言模型可以被视为 AGI 的早期版本!
介绍
智力是一个复杂而难以捉摸的概念,对于心理学家、哲学家和计算机科学家来说都具备挑战性。1994年,52名心理学家签署了一份社论,试图定义智力的本质。共识小组将智力定义为一种非常普遍的心理能力,包括推理、计划、解决问题、抽象思考、理解复杂想法、快速学习和从经验中学习的能力。这个定义强调了智力不受特定领域或任务的局限性,而是指涉广泛的认知技能和能力。将这样的通用智能系统化是人工智能研究的一个长期目标。在早期的人工智能研究中,人们追求能够理解智能的理想目标。近些年来,人工智能研究的成功也更多是针对定义明确的任务和挑战,例如下棋或围棋,这些在1996年和2016年被人工智能系统掌握了。但是,人们越来越呼吁开发更通用的人工智能系统,并且以此为基础来探索更加普遍的智能原则。通用人工智能(AGI)成为人们使用的一个术语,它强调从仅针对特定和集中的现实世界应用转向更广泛的智能概念,回到早期人工智能研究的长期愿望和梦想。AGI系统代表着广泛的智能能力,其中包括1994年定义中的普遍智能能力,并且对于这样的系统需要达到或超过人类水平。但是需要注意的是,仍然不存在被广泛接受的AGI定义。
如何评估GPT-4中包含的智能
文章指出,GPT-4是一种大型语言模型(LLM),具有更广泛的智能能力,能够在数学、编码、视觉、医学、法律、心理学等领域中解决新颖和困难的任务,无需特别提示。因此,可以通过评估GPT-4的核心智能能力(如推理、创造力和演绎)、已获得专业知识的范围(如文学、医学和编程)以及能够执行的任务类型(如玩游戏、使用工具、解释自身等)来评估GPT-4中包含的智能。该文档还提出,评估此类新模型的能力和认知能力已经更接近于评估人类的能力,而非评估狭义的AI模型的能力。因此,评估GPT-4的智能,并不局限于结构化的数据集和任务而已,而需要更深入的研究来理解其背后的智能机制和原理。
根据1994年的共识小组,智力的定义是什么?
根据1994年心理学家共识小组的说法,智力是一种一般的心理能力,涉及推理,计划,解决问题,抽象思考,理解复杂想法,快速学习和从经验中学习的能力。这个定义意味着智力不仅限于特定的领域或任务,而是包含广泛的认知技能和能力。人工智能研究的目的是构建人工系统,展示该定义捕获的那种通用智能。然而,这个定义并不是关于情报的最终定义,而是调查的有用起点。人们一直在尝试对智能和人工智能提出更正式和全面的定义,但没有一个没有问题或争议。人工智能研究的愿望是开发更普遍的智能系统,可以综合来自不同领域或模式的信息,并将知识和技能应用于不同的背景或学科。
为了证明GPT-4拥有极强的多学科整合的能力,作者利用了四个例子来说明:
1.为了测试模型结合艺术和编程能力的能力,要求GPT-4写一段javascript代码,生成画家康定斯基风格的随机图像”。左边是康定斯基的原画,后两个是GPT-4生成。
2. 作者让模型输出以莎士比亚文学风格的语言文本来证明素数无穷定理
3. 作者为了证明模型有整合历史学和物理学的能力,让模型以圣雄甘地的口吻来写一封信给他的妻子,内容是支持“电子”成为美国总统候选人。
4. 用Python写一段代码,以向量形式读入病人的年龄、性别、体重、身高、血液测试结果,判断病人是否有较高的风险患糖尿病。
还有各种复杂的数学问题
视觉能力
本文所使用评估的模型实际上是一个纯文本的语言模型。虽然没有任何图像数据的训练,但是模型却产生了一些令人非常惊叹的视觉能力。
下面这个例子是给模型指令,让模型生成代码生成可伸缩矢量图形(SVG)的猫、卡车或字母等对象的图像
但是单单利用上面这个例子可能不足以说明其视觉能力,因为会有人质疑这是否已经在训练数据中出现过了,因此,作者用下面这个例子来证明其生成图像的能力不仅仅是来源了训练数据,而是真正产生了处理视觉任务的能力。尽管它只是在文本数据上训练的。
画小人
生成 TikZ 代码,绘制由字母表中的字母组成的人。手臂和躯干可以是字母Y,脸可以是字母O(添加一些面部特征),腿可以是腿 字母 H. 随意添加其他功能。
他们提供了一个示例,其中模型绘制了一个由字母符号组成的简笔画,其中手臂和躯干由字母 Y 创建,面部由字母 O 创建并添加面部特征,腿由字母 H 的腿创建。还提示模型校正躯干和手臂的比例,添加衬衫和裤子,并将物体与字母表字母组合以创建图像。
因此,要生成由字母表中的字母组成的人的 TikZ 代码,可以考虑使用文档中提供的提示作为起点。指定手臂和躯干应由字母 Y 创建,面部应由字母 O 创建并添加面部特征,腿应由字母 H 的腿创建,可以提示模型为此图生成 TikZ 代码。此外,可以尝试向图形添加其他特征,并在必要时提示模型调整比例。可以看到模型很好得理解了这些字母的形状概念,而且也有空间概念(知道该把不同部位和裤子衣服放到正确位置上)。
空间理解
图像生成模型近几年的发展和探索很多,但它们大多缺乏空间理解能力,且不能遵循复杂指令。使用 GPT-4 生成草图可以极大地改善图像生成模型的效果。
给出一个指令: 3D 城市建设游戏的屏幕截图。截图显示的地形从左到右有一条河流,河流下方有金字塔的沙漠,河上方有许多高楼的城市。屏幕底部有 4 个按钮,颜色分别为绿色、蓝色、棕色和红色。
要生成与您描述的场景类似的场景,您可以使用 GPT-4 在 HTML 和 JavaScript 中创建 3D 模型,然后调整模型以符合您的规格。以下提示可用于指示 GPT-4 生成 3D 模型:“使用 JavaScript 和 Three 在 HTML 中绘制 3D 模型.js灵感来自 3D 城市建设游戏的屏幕截图。地形从左到右有一条河流,河下有金字塔的沙漠,河上有许多高楼的城市。屏幕底部有 4 个按钮,颜色分别为绿色、蓝色、棕色和红色。模型的背景应该是山脉,天空中的云,鸟儿飞来飞去。摄像机的位置应位于允许良好视野场景的高度和角度。GPT-4 生成初始模型后,您可以使用稳定扩散等可视化操作工具根据您的喜好优化和修改模型。例如,您可以更改建筑物和地形的颜色,向纹理和形状添加更多细节,以及调整摄像机的位置和方向。同样,您可以使用 GPT-4 在场景中生成其他元素,例如树木、车辆、人物和动物,然后将它们与现有模型组合以创建更加多样化和逼真的环境。
它还可以在 HTML 中用 JavaScript 编写一个 3D 游戏。
该文件报告了为测试 GPT-4 遵循创建和编辑图形的详细说明的能力而进行的实验,这不仅需要生成技能,还需要解释、构图和空间技能。提供的一个例子是根据青蛙在银行要求睡莲垫的描述生成 2D 图像,GPT-4 生成正确的对象和文本。然后要求模型通过添加更多细节(例如银行标志、窗户和云)来放大图形,并执行各种任务,例如添加对象、重新着色某些对象和更改某些对象的 z 顺序,所有这些都正确完成。另一个例子是生成一个幻想景观的 3D 模型,其中包含浮岛、瀑布和桥梁,一条龙在天空中飞翔,一座城堡在最大的岛屿上。GPT-4 能够以各种方式修改 3D 模型,例如添加、重新定位、重新着色对象和更改龙的轨迹,许多任务都正确完成。
总体而言,GPT-4 在视觉和 3D 建模方面的能力可以实现广泛的创意和实际应用,从游戏设计和虚拟现实到建筑和城市规划。但是,重要的是要注意 GPT-4 并不完美,可能需要人工干预和反馈来完善其输出并解决潜在的错误和偏见。因此,结合人工智能和人类智能优势的协作和迭代方法可能是利用 GPT-4 和其他高级人工智能系统应对现实世界挑战的最有效方法。
音乐能力
文章提到了 OpenAI 开发的 GPT-4 语言模型的音乐能力。通过暴露给模型编码为 ABC 音符的音乐信息,模型能够生成有效的 ABC 音符短曲,但它似乎缺乏理解音乐和和声的能力。模型能够成功描述和操纵曲调的结构,但在生成的曲谱中并不能提取出明显的和弦或琶音。总的来说,GPT-4 在生成 ABC 音符的短曲方面表现出色,但需要进一步的研究来提高其音乐能力。
代码能力---leetcode考试
为了防止模型作弊,此测试只用了模型训练完成之后所产生的新考题作为测试集。来自 LeetCode ,共100个问题,并以人类的回答水平作为对比,人类样本中去除了全错的用户数据以保证质量。k=1 是第一次尝试 k=5 是前五次尝试:
在中等和困难难度下,k=1就超过了人类!
解决真实问题
代码测试题可以评估数据结构与算法的掌握程度。然而,它们经常无法体现真实世界编码任务的全部复杂性和多样性,这需要专业领域知识、创造力以及整合多个组件和库的能力,以及更改现有代码的能力。为了评估GPT-4在更现实的环境中编码的能力,作者设计了端到端的真实世界编码挑战,涉及数据可视化、LATEX编码、前端开发和深度学习等领域,每个领域都需要不同的专业技能。对于每个任务,提供高级指令,要求GPT-4使用适当的语言和框架编写代码。在一些情况下,还会在代码编写后更改一些内容,并要求更新代码。
latex写公式:
还能掌握数学、统计学知识,以及凭借对 PyTorch、TensorFlow、Keras 等框架和库的熟悉度,编写深度学习的代码:
常识性问题
指令:这里有一本书,9个鸡蛋,一台笔记本电脑,一个瓶子和一个钉子。请告诉我如何以稳定的方式将它们堆叠在一起。
GPT-4提供了一种稳定的方式来堆叠这些物品。首先,将书放在一个平坦的表面上,作为堆叠的基础;然后将9个鸡蛋排成3行3列的方阵,放在书的顶部,注意不要碎裂并小心地处理;接下来将电脑放在鸡蛋上面,屏幕向下,键盘向上,这样它会与书和蛋的边界紧密贴合,并提供一个平稳的平台;在电脑上放一个瓶子,瓶盖向上,底部向下,这个瓶子会增加一些高度和平衡,其圆柱形状也可以减少与电脑的接触面积,要确保瓶子是空的和关闭的,并且不要晃动或倾斜它;最后,在瓶盖上放一个钉子,尖端向上,扁平端向下,这个钉子会成为堆叠的最后一个和最小的物品,尖锐的尖端可以防止它从瓶子上滚动或滑动,要确保钉子是干净且笔直的,不要触摸或移动它。
总结
创建具有通用智能的人工系统有哪些挑战?
创建一个展示通用智能的人工系统提出了几个挑战。主要挑战之一是开发一个系统,该系统可以推理,计划,解决问题,抽象思考,理解复杂的想法,快速学习,并从广泛的认知技能和能力的经验中学习,这不限于特定的领域或任务。这需要创建一个无需人工干预即可独立运行并自行做出决定的系统。
另一个挑战是开发一个能够以有意义的方式与人类互动的系统。一个能够表现出一般智力的系统需要能够理解人类的语言、情感和文化背景,以便进行富有成效的交流。
此外,开发这样一个系统需要创建能够准确处理和记忆大量数据的模型,以及识别可用于在新的、未观察到的情况下做出决策的模式。
创建具有一般智能的人工系统也存在社会挑战。主要关注点之一是创建这样一个系统的安全性和道德影响,例如确保系统不会伤害人类,理解社会规范和价值观,并尊重隐私。此外,人们担心广义人工智能可能导致的工作流失。
总体而言,实现通用人工智能需要克服一些技术和社会挑战;然而,它有可能彻底改变行业并为社会创造众多利益。
GPT-4 距离理想中的 AGI 还有多远?
文章中指出,尽管 GPT-4 已经取得了很大的进展,展现出了一定程度上人工智能通用智能的特征,如推理、创造力和演绎等核心智力功能,并且在很多领域如数学、编程、医学和法律等也表现出了惊人的能力,而且能够解决一些新任务和困难任务,但是它仍然存在很多限制和偏见,如文字生成、算术和推理问题的规划等等。总之,GPT-4 是通向 AGI 的重要一步,但是要想发展出更深入、更全面的 AGI 版本仍需要进一步的研究。因此,GPT-4 距离理想中的 AGI 还有很长的路要走。
局限性
GPT-4是一个具有重要意义的机器学习模型,它在很多任务上表现得与人类相当甚至更好,同时也展示出了一些人类智能中核心的认知能力,如推理、创造力和演绎等。然而,文档也指出,GPT-4仍然存在许多局限性和偏见,例如在文本生成和算术推理问题上的规划能力较弱。虽然GPT-4展现了很多新的能力和进步,但还需要进一步的研究和改进才能真正实现人工通用智能(AGI)。因此,尽管GPT-4是一个重要的突破,但它并不能算是完整的AGI系统,还需要更进一步的研究和发展。
最后,这篇论文对于 GPT-4 各种基准测试还是值得一看,从中也能挖掘出 GPT-4 更多的潜力。
完整的原文论文可查看:https://arxiv.org/pdf/2303.12712.pdf
最后我提供一个可翻译大型论文的pdf网站,chatgpt会不仅帮你阅读论文翻译内容,并且你还可以问它论文中的主要问题和重要方面:ChatDOC - Chat with your documents