GPT-4炸圈--多模态大模型

前言

在chatGPT如火如荼的时候,OpenAI又上演了王者归来的戏码,重磅发布了GPT-4。GPT-4是作为“帮你写代码”和你“肆意聊天”的chatGPT的基础模型GPT-3的升级版,是一个新的里程碑。

GPT-4 是一个大型多模态模型,虽然很多能力还不能达到人类水平,但是某些专业和学术领域的表现已经可以媲美人类高水平了。

GPT-4 是 OpenAI 花了 6 个月的时间,利用对抗性测试程序和 ChatGPT 中积累的经验迭代调整,模型尽管远非完美,但该模型“比以往任何时候都更具创造性和协作性”,并且“可以更准确地解决难题”。

本文主要内容参考自官方Blog和技术报告,具体参考:

官方 Blog 地址:GPT-4

https://openai.com/research/gpt-4

官方 ChatGPT Plus 体验地址

https://chat.openai.com/auth/login?next=/chat

官方技术报告地址

https://cdn.openai.com/papers/gpt-4.pdf

官方视频案例地址

https://www.youtube.com/live/outcGtbnMuQ?feature=share

GPT-4官宣

3 月 14 日晚间,OpenAI 宣布发布 GPT-4。

OpenAI 联合创始人 Sam Altman 表示,它是“迄今为止功能最强大、最一致的模型”,能够使用图像和文本。

OpenAI表示在过去两年里,他们重构了整个深度学习堆栈,并与Azure合作,共同设计了一台超级计算机。一年前,OpenAI训练了GPT-3.5,作为整个系统的首次 "试运行",具体来说,我们发现并修复了一些错误,并改进了之前的理论基础。因此,我们的GPT-4训练、运行空前稳定,成为我们首个训练性能可以进行提前准确预测的大模型。随着我们继续专注于可靠扩展,以帮助OpenAI能够持续提前预测未来,并且为未来做好准备,我们认为这一点,对安全至关重要。

在油管的视频演示中,我们可以看到GPT-4 可以总结文章、写代码、报税、写诗、写网页,十八般武艺样样精通的模样让人震撼。

大模型与多模态

GPT-4这次发布的一大亮点就是不仅能理解文字,还能识别图片内容、看得懂图梗,让人不禁拍案叫绝。至于为什么能识别图片内容,还能进行理解和推理,就得聊聊多模态。

多模态:简单来说,就是指模型可以处理多种结构/类型的数据,可接收多种类型的数据源,例如GPT-4,它既可以处理你输入的文本,也可以处理你上传的图片。

大模型:大模型又被称作基础模型,最大的特点是大规模,参数量大,数据集庞大,多架构框架复杂,训练机器和维护的成本都很高。

大模型现今的参数量级应该能到千亿级别的,例如GPT,从GPT-1到GPT-3,模型的参数量从1.1亿个增长到了1750亿个,几年的时间内增长了一千多倍。

参数量级爆炸式的增长的根因在于Transformer网络提出后,研究人员惊讶地发现,模型参数量的不断提升,会让模型的能力持续提高。于是在人们偏执地笃信下模型中加入越来越多的参数,导致模型规模屡创新高,甚至于参数在底层模型中的意义具体是什么也无法得知,模型准确率提升也依赖于后期的参数的不断调优,被戏称为调参工作。

大模型的另一个特点——“无监督预训练”。大模型参数量大、结构大,还需要大量的数据集进行训练,而对如此庞大的数据进行人工标注显然是困难的。因此,针对大模型的特性,往往会采用“无监督预训练”(亦称“自监督学习”)模式,可以让模型在海量数据中自行学习,无需人类干预,这让模型可以快速地在训练中成长,提高了训练效率。在预训练后,还会对大模型进行RLHF(人类反馈强化学习),在这个阶段则引入了大量的人工校准,通过数据标注等方式帮助模型进化,进一步提升模型的推理能力。

GPT-4能力

在这一环节我们将见证GPT-4的强大,在专业考试、图像理解、漫画理解等方面的强大之处。同时GPT-4的强大也有些微妙之处,在简单闲聊时,也许不容易发现GPT-3.5和GPT-4之间的区别。但当任务复杂度达到一定阈值时,GPT-4的可靠,创造力和强大的理解能力就突出出来了。

下面我们就来看下在各种不同的基准上的测试结果,包括模拟最开始那些为人类设计的考试,通过使用最新的公开测试(就奥数和AP等等考试)还包括购买2022-2023年版的练习考试来进行,OpenAI官方表示他们并没有为这类考试给模型做专门的培训,但考试中小部门的问题会在模型训练过程中存在的,但他们认为下列结果是有代表性的。

模拟考试

传统基准测试

GPT-4大大超过现有的大语言模型,与多数最先进的(SOTA)模型并驾齐驱,详细指标如下:

多语言能力

由于现有的大多数ML基准是用英语编写的,为了初步了解其他语言的能力,我们使用Azure Translate将MMLU基准:一套涵盖57个主题的14000个选择题,翻译成了各种语言。在测试的26种语言中的24种语言中,GPT-4的表现优于GPT-3.5和其他大模型(Chinchilla,PaLM)的英语表现,这种优秀表现还包括类似拉脱维亚语、威尔士语和斯瓦希里语等等。

视觉理解

GPT-4 可以接受文本和图像输入,允许用户指定任何视觉或语言任务,包括带有文本和照片的文档、图表或屏幕截图等,GPT-4 展示了与纯文本输入类似的功能,生成文本输出。官网提到了还可以通过为纯文本语言模型开发的测试技术(包括 few-shot 和 prompt)来增强。图像输入仍然是处于研究阶段没有公开,我们来看下几个官方的案例:

能理解图中的梗

理解法语题目,并完整解答

看纸质论文总结摘要

看懂漫画

局限性

尽管能力惊人,不过幻觉、推理错误等问题在GPT-4上仍存在。但与早期的GPT 模型相比,经过多轮的迭代和优化已显著减少幻觉问题的产生,在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%,如下图所示(绿色代表GPT-4):

GPT-4 在 TruthfulQA 等外部基准测试方面也取得了进展,OpenAI 测试了模型将事实与错误陈述的对抗性选择区分开的能力,结果如下图所示:

实验结果表明:GPT-4 基础模型在此任务上比GPT-3.5略好,但经过 RLHF 后训练之后,GPT4 效果更显著。

GPT-4 数据集还是2021 年 9 月的,所以其对之后发生的事件了解有限,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,比如在它生成的代码中引入安全漏洞。

GPT-4 预测出错时依然很自信,在可能出错时也不会再次确认。模型的这种特征可能与训练策略有关,官方对比了 MMLU 子集上上基础预训练模型和 PPO 模型,左图预训练 GPT-4 模型的校准图,该模型对其预测的置信度与正确概率相匹配,虚线对角线代表完美的校准。右图训练后 PPO GPT-4 模型的校准图,训练后对校准造成很大的影响。

风险及缓解措施

GPT-4 引入的图片识别等新能力方面也带来了新的隐藏风险,为了了解这些风险的程度,团队聘请了 50 多位来自人工智能安全、网络安全、生物风险、信任和安全以及国际安全等领域的专家,对该模型在高风险领域的行为进行对抗性测试。这些领域需要专业知识来评估,来自这些专家的反馈和数据为缓解措施和模型的改进提供了依据。

GPT-4 在 RLHF 训练中加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害的输出。奖励模型是 GPT-4 零样本分类器,根据安全相关提示判断安全边界和完成方式。为了防止模型拒绝有效的请求,团队从各种来源(例如,标注的生产数据、人类的红队、模型生成的 prompt)收集多样化的数据集,在允许和不允许的类别上应用安全奖励信号(有正值或负值)。

这些措施大大在许多方面改善了 GPT-4 的安全性能。与 GPT-3.5 相比,模型对不允许内容的请求的响应倾向降低了 82%,并对敏感内容请求的符合安全监管提高了 29% 。

训练过程 

官方资料没有讲模型参数和数据规模,没有讲任何技术原理。简单讲了一下 GPT-4 基础模型与 GPT 系列模型一致,GPT-4基础模型的训练是为了预测文档中的下一个单词,并使用公开可用的数据(例如互联网数据)以及我们已获得许可的数据进行训练。这些数据是来自于极大规模的语料库,包括数学问题的正确和错误的解决方案,弱的和强的推理,自相矛盾的和一致的声明,以及种类繁多的意识形态和想法。模型的能力主要来自预训练过程,RLHF 不会提高模型测试的考试成绩,有时实际上会降低考试成绩。模型一些意图对齐及风格转变等来自于 RLHF 和工程设计。

可预测扩展的深度学习栈

GPT-4项目的一大重点是建立一个可预测扩展的深度学习栈。主要原因是对于像GPT-4这样非常大的训练模型,做大量的特定模型调整是不可行的。OpenAI开发团队对基础设施进行了开发和优化,在多种规模下都有非常可预测的行为。为了验证这种可扩展性,通过使用相同的方法训练的模型进行推断,提前准确地预测了GPT-4在我们内部代码库(不属于训练集)中的最终损失,但使用的计算量要少10000倍:

准确预测未来的机器学习能力是安全的一个重要部分,让人们了解对未来系统的期望,这应该成为领域的一个共同目标。

总结

这一次OpenAI对GPT-4的公开内容并未涉及模型参数、数据集、技术原理等核心部分,仅公开了评测结果,识图能力的演示和一些优化后的数据,总体来讲并不是很open。但GPT-4在多模态上的惊艳表现,识图能力,更具创造性和逻辑性的回答又实实在在地圈了一波粉。GPT-4在智能方面的大幅能力跃迁也是让人眼前一亮,在某些专业领域的能力已达到人类高水平表现,比如托福考试,奥赛等。当然还有10秒内造出一个网站,60秒内完成一个游戏开发的神作。

GPT-4发布的时间点也比较有意思,正好是百度文心一言的发布会前夕,不知是否是刻意为之,但文心一言的一个立足点是最理解汉语的大模型,让我们对文心一言的能力拭目以待。

最后我还想问各位老板和开发者,GPT-4产出的代码我们是否还关心是高质量代码呢,还是只关心它的产出效率???

微信公众号首发,欢迎关注:江湖修行。第一时间与本人技术交流。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15489.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新bing可以在你指出它给出的代码的错误后马上改正

我在新bing中问了一个问题: dart中怎么用正则表达式寻找字符串中第一个数值的位置。 在运行bing给出的代码后,发现是错误的,经过检查,我找出了bing错误的代码行。我把改正后的内容告诉bing后,bing马上明白自己错哪儿了…

ChatGPT | Bing | Google Bard | 讯飞星火 | 到底哪家强?实测

最近AIGC战场依然热闹,微软的new bing、Google的Bard、国内的讯飞星火认知大模型,都接连上阵,我们对比ChatGPT一起来看看,我把实际使用测试结果发出,供大家参考。有些测试结果可能会出乎大家的预料哦… 今天我们暂时主…

new bing 对比 chatgpt

使用CombineFileInputFormat将多个小文件合并为一个输入分片 -

ChatGPT 和 Bing Chat两者之间的比较,看完你就懂了

目录 一、ChatGPT 1.1 介绍 1.2 特点 1.3 使用场景 二、 Bing Chat 2.1 介绍 2.2 功能特点 2.3 使用场景 三、对比 一、ChatGPT 1.1 介绍 ChatGPT是一款基于人工智能技术的语言模型应用,由美国人工智能研究实验室OpenAI在2022年11月30日推出。该模型是一种…

chatgpt赋能python:Python图片改名:优化您的网站图片SEO

Python图片改名:优化您的网站图片SEO 如果您是一个有网站运营需求的开发者,那么您一定知道如何优化您的网站来获得更好的访问量和流量。但是,您是否考虑过优化您的网站图片以提高SEO排名呢? 在这篇文章中,我们将介绍…

【ChatGPT的小妙招】结合Excel的vbs开发者工具达成对Excel文件的处理

【ChatGPT的小妙招】结合Excel的vbs开发者工具达成对Excel文件的处理 使用ChatGPT处理Excel文件的原理例子(翻译整合)操作方法1. 对整份Excel工作簿进行翻译2. 进入ChatGPT对话框,描述需求3. 打开两个Excel表格4. 打开Excel的开发工具5. 打开…

chatgpt赋能python:Python函数改名:为什么需要改名以及如何改名

Python函数改名:为什么需要改名以及如何改名 在Python编程中,函数是非常常见和重要的代码语句,用于完成特定的任务或操作。然而,在实际开发中,我们可能需要对已有函数进行改名,这个过程可能并不简单&#…

chatgpt赋能python:Python文件夹怎么改名:终极指南

Python文件夹怎么改名:终极指南 如果你是一名Python程序员,你一定会不断地创建、修改和管理文件夹。而有时候,你可能需要给文件夹改名,比如重命名一个项目文件夹,或者把文件夹名字改得更加符合你的工作流程。本文将为…

chatgpt赋能python:Python更名到底是否必要?

Python更名到底是否必要? 在社交媒体上,Python社区爆发了一系列的关于Python是否更名的讨论。这一讨论的背景是:是否称呼"Python"的原则可能对一些人造成冒犯。因此,Python的创始人们开始考虑是否需要对Python进行更名…

用不好ChatGPT、sd画图太挫?请收藏好这份Prompt大全

有人说:“也许,未来我们都是Prompt工程师!” 这句话还是有一定道理的,在AI技术如火如荼的今天,最大程度利用好AI能够帮助我们提升不少效率。 群里经常有小伙伴对ChatGPT表示不屑,“不过如此”等等&#xf…

chatgpt赋能python:在画布中间画图的Python技巧

在画布中间画图的Python技巧 在Python中,绘图是数据可视化和图形表示的一种重要方式。然而,在绘制图表时,我们需要让图表的中心点位于画布的正中心,而不是依靠手动计算像素值来实现。这不仅让图表更易读,还提高了可视…

GPT-4不披露技术细节,马斯克批判其背离初心,OpenAI不“open“了

编|蛋酱 源|机器之心 除了行业竞争层面的担忧,OpenAI 首席科学家透露了不开源的另外一个原因:模型越强,安全隐患也越多。 3月15日凌晨,OpenAI 出人意料地发布了 GPT-4。 这次发布令科技界颇感意外&#xff…

一个人也可以是【大厂】,三年程序员的生活规划心路分享!

自从工作之后,我就经常思考以下这些问题: 还有多久退休?明天可以退休吗?地球什么时候爆炸?我什么时候可以暴富辞职?我真的需要这份工作吗? 要问是从什么时候开始有这些问题的,大概…

免费的ai绘图工具+初级教程

ChatGPT云炬学长 ​关注 由于我们还有很多小伙伴资金匮乏,没有体验到Midjourney 这样的绘图工具,尽管现在AI生成工具已经遍地开花,也几乎是0代码操作,但对于小白来说还是有许多门槛阻碍了我们完美体验AI生成的魅力。 那么&…

ChatGLM-6B本地cpu部署

ChatGLM-6B是清华团队研发的机器人对话系统,类似ChatGPT,但是实际相差很多,可以当作一个简单的ChatGPT。 ChatGLM部署默认是支持GPU加速,内存需要32G以上。普通的机器无法运行。但是可以部署本地cpu版本。 本地部署,需…

Python学习之路(爬虫基础)

Python学习之路(爬虫基础) 前两部分已经更新了python我认为一些比较难以区分开来的数据类型已经针对excel及csv文件的操作,在涉及到神经网络训练亦或是数学建模中,前面所提到的两部分往往至关重要。数据格式不清晰操作不正确或者…

计算机专业学生如何确定自己的方向

关于计算机专业学生如何确定自己的方向是一件很重要的事情,我自己也是大学大一开学自己慢慢摸索的,摸索了快一年确定了自己的方向C和Linux服务器开发,所以我会把我所认知的分享出来,关于还不知道自己方向的还在迷茫的同学希望这编…

【AI编程工具合集】42 款 AI 代码助手工具大盘点!开发效率神器!

0. 未来百科 未来百科(https://nav.6aiq.com),是一个知名的AI产品导航网站 —— 为发现全球优质AI工具而生 。目前已 聚集全球3000优质AI工具产品 ,旨在帮助用户发现全球最好的AI工具,同时为研发AI垂直应用的创业公司提供展示窗口&#xff0c…

chatgpt赋能python:PythonTile:一种强大的界面构建工具

Python Tile:一种强大的界面构建工具 Python Tile是一种基于Python编程语言的界面构建工具,其目的是帮助开发者快速创建精美的用户界面,从而提高应用程序的用户体验。本文将介绍Python Tile的功能和优势,并讨论其在实际开发中的应…

chatgpt赋能python:Python代码出现错误?别慌!这里有一些有用的调试技巧和工具!

Python代码出现错误?别慌!这里有一些有用的调试技巧和工具! Python作为一种高级编程语言,简单易学,便于使用。但是,像所有语言一样,Python代码可能会出现错误。在这篇文章中,我将介…