背景
ChatGPT 点燃了科技行业的明灯,从他发布那天起, AI 下一步的发展已经成为最热门的话题之一,ChatGPT 是否已经是 AI 的一个突破?下一个大突破是否再等十年?
就在 2023年3月15日 凌晨,OpenAI 发布了多模态预训练大模型 GPT-4, 宣告"ChatGPT 只是开始",果然能打破 ChatGPT 的,目前只有 OpenAI 自己。
GPT-4的发布中提到的突破
正如介绍视频中 OpenAI 工程师所说「GPT-4 是世界第一款高体验,强能力的先进AI系统,我们希望很快把它推向所有人」,似乎是想一口气终结这场游戏。
和我比考试你们弱爆了
现象
GPT-4 在各种专业测试和学术考核上碾压的几乎所有考生和原来的 GPT-3.5。
例如在 SAT 考试上它通过了模拟律师考试,且分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。
分析
OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整 ,从而在真实性、可控性等方面取得了有史以来最好的结果。
有趣的是,GPT-3.5 和 GPT-4 之间的区别很微妙。当任务的复杂性达到足够的阈值时,差异就会出现 ——GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。为了了解这两个模型之间的差异,OpenAI 在各种基准和一些为人类设计的模拟考试上进行了实验。
OpenAI 还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型,以及大多数 SOTA 模型:
我能玩梗图
现象
GPT-4 可以接受文本和图像形式的 prompt,新能力与纯文本设置并行, 允许用户指定任何视觉或语言任务
比如给 GPT-4 一个长相奇怪的充电器的图片,问为什么这很可笑?
GPT-4 的回答是:VGA 线充 iPhone。(能从图片中识别到有效信息)
给 GPT-4 一个数据图表(存图片)和询问他格鲁吉亚和西亚的人均每日肉类消费请计算平均数的数学问题时
GPT-4 的回答是:完全准确,而不再像原来 ChatGPT 一样胡言乱语
分析
GPT-4 在人类给定由散布的文本和图像组成的输入的情况下生成相应的文本输出(自然语言、代码等)。在一系列领域 —— 包括带有文本和照片的文档、图表或屏幕截图上 ——GPT-4 展示了与纯文本输入类似的功能。此外,它还可以通过为纯文本语言模型开发的测试时间技术得到增强,包括少样本和思维链 prompt。
谁说我不会数学?
现象
如果你使用过ChatGPT,你应该知道他对数学物理等问题十分不友好,好总是 "胡说八道",但 GPT-4 已经可以完成复杂的数学物理问题了!
当给他一道物理问题时,GPT-4 能否简单的回答,这恐怕不少学物理的学生都不会做吧(手动狗头)
我会 "量子波动速读"
现象
如果你给GPT-4 提供一段非常长的信息(如学术论文),GPT-4 能迅速读完收集里面的信息,并根据你的提问回答相关问题。
如果你给它 InstructGPT 的论文
要求 GPT-4 解释他的总结摘要
甚至可以指定论文中的某个图对他进行发文
....
除此之外,GPT-4 还有很多现象级的突破,主要在强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化;数学物理等计算能力的提升等
技术升级
图片输入
研究人员用学术的 Benchmark 视角来解读 GPT-4 的看图能力,然而这已经不够了,他们还能不断发现该模型可以令人兴奋地处理新任务 —— 现在的矛盾是 AI 的能力和人类想象力之间的矛盾。
可控性
与具有固定冗长、平静语气和风格的经典 ChatGPT 个性不同,开发人员(以及 ChatGPT 用户)现在可以通过在「系统」消息中描述这些方向来规定他们的 AI 的风格和任务。
系统消息允许 API 用户在一定范围内定制化实现不同的用户体验。OpenAI 知道你们在让 ChatGPT 玩 Cosplay,也鼓励你们这样做。
局限性
尽管功能已经非常强大,但 GPT-4 仍与早期的 GPT 模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然会产生幻觉、生成错误答案,并出现推理错误。
目前,使用语言模型应谨慎审查输出内容,必要时使用与特定用例的需求相匹配的确切协议(例如人工审查、附加上下文或完全避免使用) 。
总的来说,GPT-4 相对于以前的模型(经过多次迭代和改进)已经显著减轻了幻觉问题。在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%:
GPT-4 在 TruthfulQA 等外部基准测试方面也取得了进展,OpenAI 测试了模型将事实与错误陈述的对抗性选择区分开的能力,结果如下图所示。
实验结果表明,GPT-4 基本模型在此任务上仅比 GPT-3.5 略好;然而,在经过 RLHF 后训练之后,二者的差距就很大了。以下是 GPT-4 的测试示例 —— 并不是所有时候它都能做出正确的选择。
该模型在其输出中可能会有各种偏见,OpenAI 在这些方面已经取得了进展,目标是使建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观。
GPT-4 通常缺乏对其绝大部分数据截止后(2021 年 9 月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,比如在它生成的代码中引入安全漏洞。
GPT-4 预测时也可能出错但很自信,意识到可能出错时也不会 double-check。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过 OpenAI 目前的后训练(post-training)过程,校准减少了。
风险
OpenAI 表示,研究团队一直在对 GPT-4 进行迭代,使其从训练开始就更加安全和一致,所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。
GPT-4 有着与以前的模型类似的风险,如产生有害的建议、错误的代码或不准确的信息。同时,GPT-4 的额外能力导致了新的风险面。为了了解这些风险的程度,团队聘请了 50 多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家,对该模型在高风险领域的行为进行对抗性测试。这些领域需要专业知识来评估,来自这些专家的反馈和数据为缓解措施和模型的改进提供了依据。
附 参考内容
https://openai.com/product/gpt-4
https://mp.weixin.qq.com/s?biz=MzA3MzI4MjgzMw==&mid=2650870948&idx=1&sn=3212389008c3c47d4394b0400bc143f9&chksm=84e4d0dab39359cc4277e2b1388951c589fb79b48b62d2b38d3c66b0d5e4c9cca34d769a0bc6&mpshare=1&scene=23&srcid=0315AQY8Yz2fSnyYJiF8HIxA&sharer_sharetime=1678847370072&sharer_shareid=4025f15e1e1da44a629e0a5346fe4e02#rd