【CSDN 编者按】OpenAI 总裁格雷格・布罗克曼:GPT-4 并不完美但绝对与众不同。
原文链接:https://techcrunch.com/2023/03/15/interview-with-openais-greg-brockman-gpt-4-isnt-perfect-but-neither-are-you/
未经允许,禁止转载!
整理 | 王子彧
出品 | CSDN(ID:CSDNnews)
3月15日,继 ChatGPT 展现了惊人的实力之后,OpenAI 又扔下了一颗核弹:备受期待的史上最强人工智能大模型 GPT-4 发布了。
据 TechCrunch 消息,OpenAI 联合创始人兼总裁格雷格・布罗克曼在接受记者凯尔·威格斯采访时表示,GPT-4 并不完美但绝对与众不同,并且他还在采访中透露,OpenAI 正在测试 GPT-4 高级版本,是普通 GPT-4 储存内容能力的 5 倍。本文对这篇采访进行了编译,以飨读者。
关键改进:多模态能力
GPT-4 在其前身 GPT-3 的基础上,对很多方面做了关键性的改进。例如提供了更多真实的声明,并允许开发者更容易设计其风格和行为。同时,GPT-4 也是多模态的,它可以可以接受图像作为输入并生成标题、分类和分析。
但 GPT-4 也有局限性。和 GPT-3 一样,该模型对事实产生了 "幻觉",并出现了基本的推理错误。OpenAI 在自己的博客上举了个例子, GPT-4 将“猫王”埃尔维斯・普雷斯利(Elvis Presley)描述为 "一个演员的儿子",但事实是他的父母都不是演员。
当被问及如何比较 GPT-4 和 GPT-3 时,格雷格・布罗克曼说了一个词:与众不同。他解释到:“尽管 GPT-4 还存在很多问题和错误,但绝对与众不同,你可以看到其在微积分或法律等技能方面的提升。虽然它曾在某些领域表现很糟糕,但现在已经达到超越常人的水准。”
测试结果验证了格雷格・布罗克曼的观点。在高考微积分考试中,GPT-4 得了 4 分, GPT-3 得了 1 分,而介于 GPT-3 和 GPT-4 之间的中间模型 GPT-3.5,得了 4 分。
在分析 GPT-4 的能力时,OpenAI 还让该模型参加了统一律师考试、法学院入学考试(LSAT)、研究生入学考试(GRE)的定量、口头推理、分析写作考试以及和各种 AP 科目考试等测试。结果显示,GPT-4 在大多数这些专业和学术考试中表现与人类水平相当。这意味着,如果 GPT-4 是一个仅凭应试能力来判断的人,它可以进入法学院,而且很可能也能进入许多大学。
不仅如此,GPT-4 更受人关注的是上面提到的多模态。GPT-3 和 GPT-3.5 只能接受文本提示(例如 "写一篇关于长颈鹿的文章"),而 GPT-4 可以同时接受图片和文本的提示来完成一些动作(例如识别在塞伦盖蒂拍摄的长颈鹿图像,并给出基本的内容描述。)
这是因为 GPT-4 是在图像和文本数据上训练的,而它的前身只在文本上训练。OpenAI 说,训练数据来自 "各种合法授权的、公开可用的数据源,其中可能包括公开可用的个人信息",但当被问具体细节时,格雷格・布罗克曼避而不谈。(训练数据曾使 OpenAI 陷入法律纠纷)。
超强优势:图像理解能力
GPT-4 有超强的图像理解能力。例如,输入提示“这张图片有什么好笑的?GPT-4 会将整张图片分解,并正确地解释了这个笑话的笑点。
目前,只有一个合作伙伴可以使用 GPT-4 的图像分析功能,一个名为 Be My Eyes 的视力障碍者的辅助应用程序。布罗克曼说,在 OpenAI 评估风险和利弊的过程中,无论何时,更广泛的推广都将是“缓慢而有意的”。他还认为,"有一些政策问题我们需要解决,如面部识别和如何对待人的图像。我们需要弄清楚危险区在哪里,红线在哪里,再随着时间的推移找到答案。"
OpenAI 在其文本到图像转换系统 Dall-E 2 上也遇到了类似伦理困境。在最初禁用该功能后,OpenAI 允许客户上传人脸,用 AI 驱动的图像生成系统对其进行编辑。当时,OpenAI 声称,其安全系统的升级使面部编辑功能成为可能,因为它将深度造假以及试图创建性、政治和暴力内容的潜在危害降到最低。
另一个长期问题是防止 GPT-4 在无意中被用于可能造成伤害的方式使用。在该模型发布几小时后,以色列网络安全初创公司 Adversa AI 发布了一篇博客,演示了绕过 OpenAI 的内容过滤器并让 GPT-4 生成钓鱼电子邮件、对同性恋者的攻击性描述以及其他令人反感文本的方法。
在语言模型领域,这并不罕见。Facebook 母公司 Meta 的聊天机器人 BlenderBot 和 OpenAI 的 ChatGPT 也曾被诱惑输出不恰当的内容,甚至透露了其内部工作的敏感细节。但包括记者在内的许多人都希望,GPT-4 可能会在这方面带来重大改进。
当被问及 GPT-4 的稳健性时,布罗克曼强调,该模型已经通过六个月的安全培训。在内部测试中,与 GPT-3.5 相比,它对 OpenAI 的使用政策不允许的内容请求的回应率降低了 82%,对 "事实 "的回应率提高了 40% 。
布罗克曼说:"我们花了很多时间试图了解 GPT-4 的能力,我们不断地进行更新,包括不断改进,这样模型就更有扩展性,以达到人们希望它拥有的任何个性或模式。"
不足之处
坦率地说,早期的现实测试结果并不是那么让人满意。除了 Adversa AI 测试之外,微软的聊天机器人 Bing Chat 也被证明非常容易受到越狱影响。使用精心设计的输入,用户能够让该聊天机器人表达爱意,发出威胁伤害,为大屠杀辩护和编造阴谋论。
布罗克曼并不否认 GPT-4 在这方面的不足,但他强调了该模型的缓解性转向工具,包括被称为“系统”消息的 API 级功能。系统消息本质上是为 GPT-4 的交互设定基调并建立界限的指令。例如,一条系统消息可能是这样写的:“你是一位总是以苏格拉底风格回答问题的导师。你永远不会给学生答案,而是总是试着提出正确的问题,帮助他们学会独立思考。”
我们的想法是,系统消息充当护栏,防止 GPT-4 偏离轨道。布罗克曼说:“真正弄清楚 GPT-4 的语气、风格和本质一直是我们关注的焦点。我认为我们开始更多地了解如何进行工程设计,了解如何拥有一个可重复的过程,让你得到对人们真正有用的可预测结果。”
布罗克曼还提到了 Evals,这是 OpenAI 最新的开源软件框架,用于评估其 AI 模型的性能,这是 OpenAI 致力于“增强”其模型的一个标志。Evals 允许用户开发和运行评估 GPT-4 等模型 的基准测试,同时检查其性能,这是一种众包的模型测试方法。
布罗克曼说:“通过 Evals,我们可以更好地看到用户关心的用例,并可以对其进行测试。我们之所以开源这个框架原因之一是我们不再每隔三个月发布一个新模型以不断改进。你不会制造你不能测量的东西,对吧?当我们推出新版模型,我们至少可以知道发生了哪些变化。”
布罗克曼还被问道,OpenAI 是否会补偿人们用 Evals 测试其模型?他不肯承诺,但他确实指出,在有限的时间内,OpenAI 允许选定的 Eevals 用户提前访问 GPT-4 API。
关于未来:GPT-4 的另一个版本
布罗克曼的谈话还谈到了 GPT-4 的上下文窗口,指的是模型在生成其他文本之前可以考虑的文本。OpenAI 正在测试 GPT-4 的另一个版本,它可以 "记住 "大约 50 页的内容,是普通的 GPT-4 所能容纳内容的 5 倍,是 GPT-3 的八倍。
布罗克曼认为,扩大的上下文窗口会带来新的、以前没有探索过的应用,特别是在企业中。他设想了一个为公司打造的 AI 聊天机器人,利用来自不同来源的各部门的员工的背景和知识,以一种非常明智但具有对话性的方式回答问题。
这不是一个新概念。但布罗克曼提出的理由是,GPT-4 的答案将比今天的聊天机器人和搜索引擎的答案有用得多。他说:“以前,模型根本不知道你是谁,你对什么感兴趣等。而有了更大的上下文窗口肯定会让它的能力变强,从而更好的为人们提供服务支持。”
☞万万没想到|2023 智能大屏创意征集赛再启航!
☞谷歌反击战!开放大语言模型 PaLM API,让 AI 帮你“打工”
☞多模型大模型 GPT4 发布:看得懂梗图,考得上律师