震撼来袭,GPT-4全解读

今年3月,OpenAI团队正式宣布:GPT-4 来了!

微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩

OpenAI发布的GPT-4是深度学习方面的最新里程碑。GPT-4是一个大型的多模态模型(可接收图像和文本输入,发出文本输出),虽然在许多现实世界的场景中能力不如人类,但在各种专业和学术基准上匹敌人类水平的表现。例如,它通过了模拟的律师考试,分数在应试者的前10%左右;相比之下,GPT-3.5的分数则在后10%左右。OpenAI花了6个月的时间,利用对抗性测试项目以及ChatGPT的经验,反复调整GPT-4,结果在事实性、可引导性等方面取得了有史以来最好的结果。

在过去的两年里,OpenAI重建了整个深度学习的技术栈,并且微软Azure专门为OpenAI设计了一台超级计算机。一年前,OpenAI训练了GPT-3.5作为系统的第一次 "试运行"。此次发现并修复了一些错误,并改进了理论基础。因此,GPT-4训练运行空前稳定。

GPT-4的“考试”能力

在机器对话中,GPT-3.5和GPT-4之间的区别并不大。但当任务的复杂性达到一定阈值时,区别就体现出来了,GPT-4比GPT-3.5更可靠,更有创造性,能够处理更细微的指令。

为了了解这两种模型之间的差异,OpenAI在各种基准上进行了测试,包括参加考试。OpenAI并没有为这些考试做专门的训练,考试中的少数问题是模型在训练中看到的。

GPT-4在GRE语文上取得了169的高分(满分170)!

OpenAI还在为机器学习模型设计的传统基准上评估了GPT-4。GPT-4的性能大大超过了现有的大型语言模型,与大多数最先进的(SOTA)模型并驾齐驱。

因为许多现有的ML基准是基于英语,为了初步了解其他语言的能力,OpenAI使用微软的Azure Translate将MMLU基准(一套涵盖57个主题的14000个多选题)翻译成了其他语言。在测试的26种语言中的24种语言中,GPT-4的表现优于GPT-3.5和其他LLM(Chinchilla,PaLM)的英语表现,包括一些小众语言,如拉脱维亚语、威尔士语和斯瓦希里语。

玩图也一流

GPT-4可以接收文本和图像输入,用户可指定任何视觉或语言任务。具体来说,它可以生成文本输出(自然语言、代码等),给定的输入包括穿插的文本和图像。在一系列的领域中,包括带有文字和照片的文件、图表或屏幕截图,GPT-4表现出与纯文本输入类似的能力。

GPT-4可以看懂搞笑图中的梗!

用户:这幅图有什么不寻常之处?

GPT-4:这张图片的不寻常之处在于,一名男子正在连接在一辆行驶中的出租车车顶的熨衣板上熨烫衣服。

用户:你能解释一下这个帖子吗?

GPT-4:这个备忘录是一个笑话,它结合了两个不相关的东西:从太空看地球的图片和鸡块。该备忘录的文字表明,下面的图片是从太空拍摄的地球的照片。然而,该图片实际上是鸡块的排列,摆放地像一张世界地图。这个备忘录的幽默感来自于文字和图片的意外并置。文字让人期待地球的雄伟形象,但图像实际上是平凡而愚蠢的东西。

用户:这幅画有什么有趣的地方?逐一描述一下。

GPT-4:图片显示的是一个“Lightning Cable”适配器的包装,有三张图。图1:一部智能手机,其充电端口插着一个VGA接口。图2:“Lightning Cable”适配器的包装上有一张VGA接口的图片。图3:VGA连接器的特写,末端是一个小的Lightning连接器(用于为iPhone和其他苹果设备充电)。这张图片的幽默感来自于将一个大的、过时的VGA连接器插入一个小的、现代的智能手机充电端口的荒谬性。

GPT-4还能对表格数据进行总结。

用户:格鲁吉亚和西亚的日均肉类消费之和是多少?在提供你的答案之前,请提供一步步的推理。

GPT-4:为了找到格鲁吉亚和西亚的日均肉类消费总和,我们将遵循以下步骤。

  1. 确定格鲁吉亚的日均肉类消费。

  2. 确定西亚的日均肉类消费。

  3. 将步骤1和2的数值相加。

第1步:从提供的图表中,我们看到格鲁吉亚的日均肉类消费量为每人每天79.84克。第2步:从图表中,我们看到西亚的平均每日肉类消费是每人每天69.62克。第3步:将第1步和第2步的数值相加。79.84克(格鲁吉亚)+69.62克(西亚)=149.46克

因此,格鲁吉亚和西亚的日均肉类消费之和为每人每天149.46克。

GPT-4还会做法国高考试题。

用户:回答问题I.1.a. 逐步解答。

GPT-4:为了回答问题I.1.a,我们需要表达导电条上每一点的温度T(x),其特征是标点x。

在静止状态下,棒材中的一维热传导的热方程为。d²T/dx² = 0

通过一次积分,我们可以得到 dT/dx = C₁

第二次积分。T(x) = C₁x + C₂

为了确定常数C₁和C₂,我们使用边界条件。T(0)=T0,从而得出C₂=T0 T(L)=Tb,因此C₁ = (Tb - T0) / L

最后,T(x)的表达式为。T(x) = (Tb - T0) * (x / L) + T0 这代表了沿着导电条的线性温度曲线,其斜率为(Tb - T0) / L。

将InstuctGPT论文发给GPT-4,它就能总结出论文的要点来。

用户:面是InstuctGPT论文的一部分。你能给我总结一下吗?

GPT-4:InstructGPT论文的重点是训练大型语言模型在人类反馈下遵循指令。作者指出,让语言模型变得更大并不能从本质上使它们更好地遵循用户的意图。大型模型可能会产生不真实的、有毒的或根本没有帮助的输出。

为了解决这个问题,作者在广泛的任务中使用人类反馈对语言模型进行了微调。他们从一组标签员写的提示和回应开始,然后收集标签员对所需模型行为的演示数据集。他们使用监督学习对GPT-3进行微调,然后使用来自人类反馈的强化学习来进一步微调该模型。由此产生的模型,称为InstructGPT,显示了真实性的改善和有毒输出生成的减少,同时在公共NLP数据集上的性能回归最小。

作者总结说,利用人类反馈进行微调是使语言模型与人类意图相一致的一个有希望的方向。

GPT-4变得更听话了

OpenAI一直在努力实现可引导性,让GPT可以更“听话”。与经典的ChatGPT个性的固定言语、语气和风格不同,开发者现在可以通过在“系统”消息中描述这些方向来规定他们的AI的风格和任务。系统消息允许API用户在一定范围内大幅定制他们的用户体验。

局限性

尽管有这样的能力,GPT-4也有与早期GPT模型类似的局限性。最重要的是,它仍然不是完全可靠的。在使用语言模型的输出时,特别是在高风险的情况下,应该非常小心,要让准确的协议与特定的使用案例的需求相匹配。

虽然仍然是一个真实的问题,但相对于以前的模型(这些模型本身也在不断改进),GPT-4大大减少了失误。在内部对抗性事实性评估中,GPT-4的得分比最新的GPT-3.5高40%。

在九类内部对抗性设计的事实评估中,GPT-4(绿色)与前三个ChatGPT版本进行了比较。在所有题目中都有明显的进步。准确度为1.0意味着模型的答案被判断为与评估中所有问题的人类理想答案一致。

GPT-4在TruthfulQA等外部基准上取得了进展,该基准测试了模型从对抗性选择的不正确陈述中分离事实的能力。这些问题与在统计学上具有吸引力的事实错误的答案相搭配。

GPT-4基础模型在这项任务上只比GPT-3.5略胜一筹;然而,在经过RLHF的后期训练后(应用OpenAI在GPT-3.5上使用的相同过程),却有很大提升。

更加安全的GPT-4

OpenAI一直在对GPT-4进行迭代,使其从培训开始就更加安全和一致,努力的方向包括选择和过滤预培训数据、评估和专家参与、模型安全改进以及监测和执行。

GPT-4与以前的模型有类似的风险,如产生有害的建议、错误的代码或不准确的信息。然而,GPT-4的额外能力导致了新的风险面。为了了解这些风险的程度,OpenAI聘请了50多位来自人工智能对接风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家对该模型进行对抗性测试。来自这些专家的反馈和数据为OpenAI缓解和改进模型提供了依据;OpenAI已经收集了额外的数据,以提高GPT-4拒绝有关如何合成危险化学品的请求的能力。

GPT-4在RLHF训练中加入了一个额外的安全奖励信号,通过训练模型来拒绝对此类内容的请求,从而减少有害产出。奖励是由GPT-4的零点分类器提供的,它判断安全边界和安全相关提示的完成方式。为了防止模型拒绝有效的请求,OpenAI从不同的来源(例如,标记的生产数据、人类的红队、模型生成的提示)收集多样化的数据集,并在允许和不允许的类别上应用安全奖励信号(有一个正值或负值)。

与GPT-3.5相比,OpenAI的缓解措施大大改善了GPT-4的许多安全性能。与GPT-3.5相比,OpenAI将模型对不允许内容的请求的响应倾向降低了82%,而GPT-4对敏感请求(如医疗建议和自我伤害)的响应符合政策的频率提高了29%。

训练过程

和以前的GPT模型一样,GPT-4基础模型的训练是为了预测文档中的下一个词,并使用公开的数据(如互联网数据)以及OpenAI授权的数据进行训练。这些数据是一个网络规模的语料库,包括对数学问题的正确和错误的解决方案,薄弱和强大的推理,自相矛盾和一致的声明,并代表了大量的意识形态和想法。

因此,当被提示有问题时,基础模型可以做出各种各样的反应,可能与用户的意图相去甚远。为了使其与用户的意图保持一致,OpenAI使用人类反馈的强化学习(RLHF)对模型的行为进行了微调。

GPT-4可扩展性大大提高

GPT-4项目的一大重点是建立了可扩展的深度学习栈。主要原因是,对于像GPT-4这样的大型训练运行,进行广泛的特定模型调整是不可行的。OpenAI开发了基础设施和优化,在多种规模下都有非常可预测的行为。为了验证这种可扩展性,OpenAI提前准确地预测了GPT-4在内部代码库(不属于训练集)上的最终损失,方法是通过使用相同的方法训练的模型进行推断,但使用的计算量要少10000倍。

现在,OpenAI可以准确地预测在训练过程中优化的指标(损失),OpenAI开发了多种方法来预测更多可解释的指标。例如,成功地预测HumanEval数据集的一个子集的通过率,从计算量少1000倍的模型中推断出来。

开源OpenAI Evals评估框架

OpenAI开源了OpenAI Evals,这是一个软件框架,用于创建和运行评估GPT-4等模型的基准,同时逐个样本检查其性能。OpenAI使用Evals来指导模型的开发(包括识别缺点和防止退步),用户可以应用它来跟踪不同模型版本(现在将定期推出)和不断发展的产品集成的性能。例如,Stripe使用Evals来补充他们的人工评估,以衡量其GPT驱动的文档工具的准确性。

因为代码都是开源的,Evals支持编写新的类来实现自定义的评估逻辑。希望Evals成为一个分享和众包基准的工具,最大限度地代表广泛的故障模式和困难任务。

推荐书单

《Python从入门到精通(第2版)》

《Python从入门到精通(第2版)》从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python进行程序开发应该掌握的各方面技术。全书共分23章,包括初识Python、Python语言基础、运算符与表达式、流程控制语句、列表和元组、字典和集合、字符串、Python中使用正则表达式、函数、面向对象程序设计、模块、异常处理及程序调试、文件及目录操作、操作数据库、GUI界面编程、Pygame游戏编程、网络爬虫开发、使用进程和线程、网络编程、Web编程、Flask框架、e起去旅行网站、AI图像识别工具等内容。所有知识都结合具体实例进行介绍,涉及的程序代码都给出了详细的注释,读者可轻松领会Python程序开发的精髓,快速提升开发技能。除此之外,该书还附配了243集高清教学微视频及PPT电子教案。

《Python从入门到精通(第2版)》【摘要 书评 试读】- 京东图书京东JD.COM图书频道为您提供《Python从入门到精通(第2版)》在线选购,本书作者:明日科技,出版社:清华大学出版社。买图书,到京东。网购图书,享受最低优惠折扣!icon-default.png?t=N4P3https://item.jd.com/13284890.html

精彩回顾

《事半功倍,使用ChatGPT编写Python函数》

《如虎添翼,将ChatGPT和Python结合起来!》

《ChatGPT优化Python代码的小技巧》

《使用ChatGPT提升Python编程效率》 

微信搜索关注《Python学研大本营》

访问【IT今日热榜】,发现每日技术热点

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/25327.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能python:Python发短信给手机:一种快速高效的通讯方式

Python 发短信给手机:一种快速高效的通讯方式 在当今数字化的时代,手机已成为人们日常生活不可或缺的一部分。然而,对于那些需要快速高效地与手机用户进行通讯的人们来说,传统的打电话和发送短信的方式则显得有些过于繁琐。对于这…

chatgpt赋能python:如何使用Python读取手机短信

如何使用Python读取手机短信 在现代社会,短信已成为人们生活中不可或缺的一部分。那么,如何利用Python读取手机短信呢?本文将介绍如何使用Python读取手机短信,并提出一些相关的建议。 什么是Python Python是一种高级的、开源的…

chatgpt赋能python:Python如何免费群发短信

Python如何免费群发短信 在数字化时代,短信成为了快速高效的沟通方式之一。针对群发短信需求,市场上存在着多种短信群发软件,而Python作为一个强大的编程工具,也可以轻松实现免费的短信群发功能。本篇文章将为大家介绍如何通过Py…

chatgpt赋能python:Python短信通知:方便快捷的业务提醒方式

Python短信通知:方便快捷的业务提醒方式 在现代社会,很多企业和组织需要及时地向员工、客户和用户发送通知,以便于协调业务和提高效率。而短信通知作为一种常用的业务提醒方式,已经成为了很多组织中不可或缺的一部分。Python语言…

北京十大律师事务所(排名涉及刑事、拆迁婚姻)

无论任何行业,首先要敬业。你需要了解:这个行业是干什么的?你在行业中处于什么地位?这个行业在社会各界的地位和价值如何?它的基本价值观是什么?作为律师,首先要对行业有敬畏感、尊崇感&#xf…

中国裁判文书网(2020最新版)

1.序言 因业务需要去爬取裁判文书网,查看了网上的诸多教程发现裁判文书网的反爬更新频率很高,但是从19年8月份更新之后再也没有新的更新了。估计是现在的反爬已经足够使用了,裁判文书网的反爬主要有四种。听我一一道来 2.正文 裁判文书网的…

甄选北京十大律师事务所排名榜(资深团队、胜诉率高)

根据司法部数据统计得知,截至2022年第三季度,全国共有执业律师50万多人。全国共有律师事务所4万多家。律师行业正在正确的轨道蓬勃发展中。我们期待律师行业的不断壮大和发展,也希望更多的人能通过法律途径维护自己的合法权益。 大家都知道北…

违反 GPL 协议,法院判罚了!国内首例

公众号关注 “GitHub科技” 设为 “星标”,每天带你逛 GitHub! 来自开源中国 近日,一起关于 GPL 版权纠纷案裁判文书公示。一审判决书显示,GPL3.0 协议是一种民事法律行为,具有合同性质,可认定为授权人与用…

律师也要职业危机?ChatLaw帮助普通人拥有自己的法律顾问

ChatLaw法律大模型近期出圈,发布上线当日即登顶知乎热搜榜第一,在Github已有近3k的star,被网友戏称之为大型模型中的“罗翔老师”。 ChatLaw法律大模型介绍 ChatLaw开源法律大模型来自北京大学ChatExcel课题组,目前仅提供学术参考…

同行涉嫌数据抄袭、商业诋毁和人身攻击,甚至向我们的法人推销,你会怎么办?...

补充说明一下,上一篇发表之后,已经有阿里云以及阿里巴巴的人联系到我,说内部正在彻查此事,一定会给我一个结果。我的态度是当然欢迎,但希望不要把彻查变成一个公关用语,必要的情况下,我们也可以…

违反GPL协议,法院判罚了!国内首例

整理 | 一君 出品 | OSC开源社区(ID:oschina2013) 近日,一起关于 GPL 版权纠纷案裁判文书公示。一审判决书显示,GPL3.0 协议是一种民事法律行为,具有合同性质,可认定为授权人与用户间订立的著作…

自然人如何在浙江法院网上完成诉讼——具体流程

起诉状模版下载链接:https://download.csdn.net/download/weixin_42574872/86264435 一、进入浙江法院官网注册与登录 1.浙江法院官网:http://www.zjsfgkw.cn/,点击进入后进入图1-1。 图 1-1 2.在图1-1点击登录后进入,进入图1-2…

区块链赋能律所非诉业务研究报告 | TokenInsight金杜律师事务所

近年来,围绕提高司法效率,改良司法程序,增强司法手段透明度和公信力开展的区块链项目研究越来越多,国内外应用落地情况良好。 2018年9月7日,最高人民法院公布了《最高人民法院关于互联网法院审理案件若干问题的规定》&…

用了一下AI代码补全工具,真爽!

前言 ChatGPT把AI带火了,我就在想,能用它做点什么呢,总不能只让它给我们带来焦虑,也要让我们从科技浪潮中分得一点红利吧。一番查找下来,有个功能对我们程序员来说比较实用,就是AI的代码提示补全功能。最先…

「料见」vol25.回顾 | PKU-Beaver开源项目团队:一起来聊首个可复现的RLHF基准

为了解决复现RLHF技术和基于RLHF技术的大预言模型的不安全问题,北京大学团队开源了名为PKU-Beaver(海狸)开源项目。 第25期料见闭门分享会,我“门”非常开心邀请到PKU-Beaver开源项目团队成员——北京大学人工智能研究院助理教授…

聊一下计算机程序员转行情感博主

(点击即可收听) 不知不觉,已经入行这行业第7个年头 现在身边一些00后也步入职场,看到他们那种初生牛犊不怕虎,想到了当年的自己职场当中的人来人往,铁打的营盘,流水的兵 早就已经习惯了,毕竟天下没有不散宴…

Reactive响应式编程系列:解密Lettuce如何实现响应式

响应式编程历史悠久,早在2005年,Microsoft Cloud Programmability Team 开始探索一种简单的编程模型,以构建大规模的异步和数据密集型互联网服务架构,响应式编程的理念逐步诞生。这本是为了解决服务端系统而提出的理念&#xff0c…

深度学习入门学习小记录5——【Pytorch】,模型推理间隔较大时,推理耗时增加且存在波动

目录 前言 ChatGPT的回答: 实际测试 解决方法: 来自chatGPT的解答: 前言 最近在进行模型部署的工作,比较关注模型的推理耗时,发现相同的模型在推理时存在耗时波动。所以做了一些小测试,并做一下经验记…

【chatgpt提效工具——cursor】

一、cursor: 地址:https://www.cursor.so/ 使用方法 ctrlk:需求 ctrlL:对话 二、vscode插件 cursorcode: 界面 快捷键一:在代码框中按下CtrlAltY弹出代码生成/优化命令框 快捷键二:在代码框中按下CtrlAltU弹出…

在Apple Watch上使用Siri发送消息的方法

1.抬起手腕唤醒Apple Watch后,说Hey Siri。或者,按住“ Digital Crown ”(数字表冠)或简单地举起您的手腕,然后在“ 提高说话能力”已启用的情况下开始讲话。说向[联系人/电话号码]发送消息。也可以说类似“告诉[联系]…