GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福

【导读】OpenAI的GPT-4在万众瞩目中闪亮登场,多模态功能太炸裂,简直要闪瞎人类的双眼。李飞飞高徒、斯坦福博士Jim Fan表示,GPT4凭借如此强大的推理能力,已经可以自己考上斯坦福了!

果然,能打败昨天的OpenAI的,只有今天的OpenAI。

刚刚,OpenAI震撼发布了大型多模态模型GPT-4,支持图像和文本的输入,并生成文本结果。

号称史上最先进的AI系统!

GPT-4不仅有了眼睛可以看懂图片,而且在各大考试包括GRE几乎取得了满分成绩,横扫各种benchmark,性能指标爆棚。

OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整 ,从而在真实性、可控性等方面取得了有史以来最好的结果。

大家都还记得,2月初时微软和谷歌鏖战三天,2月8日微软发布ChatGPT版必应时,说法是必应「基于类ChatGPT技术」。

今天,谜底终于解开了——它背后的大模型,就是GPT-4!

图灵奖三巨头之一Geoffrey Hinton对此赞叹不已,「毛虫吸取了营养之后,就会化茧为蝶。而人类提取了数十亿个理解的金块,GPT-4,就是人类的蝴蝶。」

顺便提一句,ChatGPT Plus用户现在可以先上手了。

考试几乎满分,性能跃迁炸天

在随意谈话中,GPT-3.5和GPT-4之间的区别是很微妙的。只有当任务的复杂性达到足够的阈值时,差异就出现了,GPT-4比GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。

为了了解这两种模型之间的差异,OpenAI在各种基准测试和一些为人类设计的模拟考试上进行了测试。

GPT-4在各种考试中,有几个测试几乎接近了满分:

  • USABO Semifinal 2020(美国生物奥林匹克竞赛)

  • GRE Writing

以美国 BAR律师执照统考为例,GPT3.5可以达到 10%水平,GPT4可以达到90%水平。生物奥林匹克竞赛从GPT3.5的31%水平,直接飙升到 99%水平。

此外,OpenAI 还在为机器学习模型设计的传统基准上评估了 GPT-4。从实验结果来看,GPT-4 大大优于现有的大型语言模型,以及大多数 SOTA 模型:

另外,GPT-4在不同语种上的能力表现:中文的准确度大概在 80% 左右,已经要优于GPT-3.5的英文表现了。

许多现有的 ML 基准测试都是用英语编写的。为了初步了解GPT-4其他语言的能力,研究人员使用 Azure翻译将 MMLU 基准(一套涵盖57个主题的14000个多项选择题)翻译成多种语言。

在测试的 26 种语言的 24 种中,GPT-4 优于 GPT-3.5 和其他大语言模型(Chinchilla、PaLM)的英语语言性能:

OpenAI表示在内部使用 GPT-4,因此也关注大型语言模型在内容生成、销售和编程等方面的应用效果。另外,内部人员还使用它来帮助人类评估人工智能输出。

对此,李飞飞高徒、英伟达AI科学家Jim Fan点评道:「GPT-4最强的其实就是推理能力。它在GRE、SAT、法学院考试上的得分,几乎和人类考生没有区别。也就是说,GPT-4可以全靠自己考进斯坦福了。」

(Jim Fan自己就是斯坦福毕业的!)

网友:完了,GPT-4一发布,就不需要我们人类了……

读图做题小case,甚至比网友还懂梗

GPT-4此次升级的亮点,当然就是多模态。

GPT-4不仅能分析汇总图文图标,甚至还能读懂梗图,解释梗在哪里,为什么好笑。从这个意义上说,它甚至能秒杀许多人类。

OpenAI称,GPT-4比以往模型都更具创造力和协作性。它可以生成、编辑和迭代用户进行创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。

GPT-4可以将图像作为输入,并生成标题、分类和分析。比如给它一张食材图,问它用这些食材能做什么。

另外,GPT-4能够处理超过25,000字的文本,允许用长形式的内容创建、扩展会话、文档搜索和分析。

GPT-4在其先进的推理能力方面超过了ChatGPT。如下:

梗图识别

比如,给它看一张奇怪的梗图,然后问图中搞笑在哪里。

GPT-4拿到之后,会先分析一波图片的内容,然后给出答案。

比如,逐图分析下面这个。

GPT-4立马反应过来:图里的这个「Lighting充电线」,看起来就是个又大又过气的VGA接口,插在这个又小又现代的智能手机上,反差强烈。

再给出这么一个梗图,问问GPT-4梗在哪里?

它流利地回答说:这个梗搞笑的地方在于「图文不符」。

文字明明说是从太空拍摄的地球照片,然而,图里实际上只是一堆排列起来像地图的鸡块。

GPT-4还能看懂漫画:为什么要给神经网络加层数?

它一针见血地点出,这副漫画讽刺了统计学习和神经网络在提高模型性能方法上的差异。

图表分析

格鲁吉亚和西亚的平均每日肉类消费量总和是多少?在给出答案前,请提供循序渐进的推理。

果然,GPT-4清楚地列出了自己的解题步骤——

1. 确定格鲁吉亚的平均每日肉类消费量。

2. 确定西亚的平均每日肉类消费量。

3. 添加步骤1和2中的值。

做物理题

要求GPT-4解出巴黎综合理工的一道物理题,测辐射热计的辐射检测原理。值得注意的是,这还是一道法语题。

GPT-4开始解题:要回答问题 I.1.a,我们需要每个点的温度 T(x),用导电棒的横坐标x表示。

随后解题过程全程高能。

你以为这就是GPT-4能力的全部?

老板Greg Brockman直接上线进行了演示,通过这个视频你可以很直观的感受到 GPT-4的能力。

,时长01:18:50

最惊艳的是,GPT-4对代码的超强的理解能力,帮你生成代码。

Greg直接在纸上画了一个潦草的示意图,拍个照,发给 GPT说,给我按照这个布局写网页代码,就写出来了。

另外,如果运行出错了把错误信息,甚至错误信息截图,扔给GPT-4都能帮你给出相应的提示。

网友直呼:GPT-4发布会,手把手教你怎么取代程序员。

顺便提一句,用GPT-4还可以进行报税 。要知道,每年美国人要花好多时间金钱在报税上面。

训练过程

和以前的GPT模型一样,GPT-4基础模型的训练使用的是公开的互联网数据以及OpenAI授权的数据,目的是为了预测文档中的下一个词。

这些数据是一个基于互联网的语料库,其中包括对数学问题的正确/错误的解决方案,薄弱/强大的推理,自相矛盾/一致的声明,足以代表了大量的意识形态和想法。

当用户给出提示进行提问时,基础模型可以做出各种各样的反应,然而答案可能与用户的意图相差甚远。

因此,为了使其与用户的意图保持一致,OpenAI使用基于人类反馈的强化学习(RLHF)对模型的行为进行了微调。

不过,模型的能力似乎主要来自于预训练过程,RLHF并不能提高考试成绩(如果不主动进行强化,它实际上会降低考试成绩)。

基础模型需要提示工程,才能知道它应该回答问题,所以说,对模型的引导主要来自于训练后的过程。

GPT-4模型的一大重点是建立了一个可预测扩展的深度学习栈。因为对于像GPT-4这样的大型训练,进行广泛的特定模型调整是不可行的。

因此,OpenAI团队开发了基础设施和优化,在多种规模下都有可预测的行为。

为了验证这种可扩展性,研究人员提前准确地预测了GPT-4在内部代码库(不属于训练集)上的最终损失,方法是通过使用相同的方法训练的模型进行推断,但使用的计算量为1/10000。

现在,OpenAI 可以准确地预测在训练过程中优化的指标损失。例如从计算量为1/1000的模型中推断并成功地预测了HumanEval数据集的一个子集的通过率:

还有些能力仍然难以预测。比如,Inverse Scaling竞赛旨在找到一个随着模型计算量的增加而变得更糟的指标,而 hindsight neglect任务是获胜者之一。但是GPT-4 扭转了这一趋势:

OpenAI认为能够准确预测未来的机器学习能力对于技术安全来说至关重要,但它并没有得到足够的重视。

而现在,OpenAI正在投入更多精力开发相关方法,并呼吁业界共同努力。

贡献名单

就在GPT-4发布的同时,Open AI还公开了GPT-4这份组织架构及人员清单。

上下滑动查看全部

北大陈宝权教授称,

再好看的电影,最后的演职员名单也不会有人从头看到尾。Open AI的这台戏连这个也不走寻常路。毫无疑问这将是一份不仅最被人阅读,也被人仔细研究的「演职员」(贡献者) 名单,而最大的看头,是详细的贡献分类,几乎就是一个粗略的部门设置架构了。

这个很「大胆」的公开其实意义挺深远的,体现了Open AI背后的核心理念,也一定程度预示了未来进步的走向。

参考资料:

https://openai.com/product/gpt-4

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16861.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT4发布,有哪些升级和应用?

引言: GPT-4是OpenAI GPT系列研究最新里程碑,GPT-4接受图像和文本输入, 是一个大型多模态模型(接受图像和文本输入,输出为文本)。本文结合OpenAI官方Blog、技术报告微软Copilot发布会内容,详细介…

OpenAI推出GPT-4:功能强过ChatGPT 能玩梗图还能做网页

雷递网 雷建平 3月15日 在人们还在熟悉ChatGPT之际,人工智能企业OpenAI又推出了更强大的GPT-4,也被称为“王炸”产品。OpenAI CEO Sam Altman 称,GPT-4 是“我们迄今为止最强大、对齐最好的模型”。 OpenAI总裁Greg Brockman说:“…

日读300篇文献的技巧

感觉自己看文章很慢,有时候也抓不住重点。 如果是英文文献的话,可能还要有点难度,毕竟英语渣渣还是需要有中文-》英文的转换过程。 最近在搞毕业论文的时候,发现了一个非常好玩的东西,大大提升了我看文章搞科研&#x…

ChatPDF也来了!一键上传文件即可解读,复制粘贴都省了

来源丨网络 ChatGPT生产力,再进阶! 现在,甩一个PDF过去,它能自己读,你只负责提问就行。 一篇满是专业词汇的论文,它三言两语就能解释清楚,还都是中文大白话。 而且准确性很赞! 论文中…

ChatGPT的5月大事记

(5-11)Google 举办 I/O 开发者大会,Google版ChatGPT史诗级更新 整场大会,Google 共提及「AI」一词近 200 次,几乎把 AI 写进了包括 Gmail、搜索、Pixel 等所有产品里面,迫切地想向所有人证明自己仍在 AI 最…

励志小哥抢先搞定GPT读图功能,单卡就能实现新SOTA,代码已开源|CVPR2023

Pine 发自 凹非寺来源 | 量子位 QbitAI 能读图的GPT-4震撼发布了!但要用它还得排队。。。 不如先试试这个~ 加上一个小模型,就能让ChatGPT、GPT-3这类目前只能理解文本的大语言模型轻松读图,各种刁钻的细节问题都能手拿把掐。 并且…

杭电小哥抢先搞定GPT读图功能,单卡就能实现新SOTA,代码已开源|CVPR2023

Pine 发自 凹非寺量子位 | 公众号 QbitAI 能读图的GPT-4震撼发布了!但要用它还得排队。。。 不如先试试这个~ 加上一个小模型,就能让ChatGPT、GPT-3这类目前只能理解文本的大语言模型轻松读图,各种刁钻的细节问题都能手拿把掐。 并…

网络带宽/吞吐量/chariot介绍

吞吐量是指在没有帧丢失的情况下,设备能够接受并转发的最大数据速率。

Linux网络性能评估工具iperf 、CHARIOT测试网络吞吐量

目录 一、 Iperf能做什么 1、TCP方面 2、UDP方面 二、 Iperf的安装与使用 1.安装iperf 2.iperf参数介绍 三、 Iperf应用实例 1.测试TCP吞吐量 2 . 测试UDP丢包和延迟 四、利用IXCHARIOT进行网络测速 网络性能评估主要是监测网络带宽…

用Speedtest-Tracker跟踪上网速度

什么是 Speedtest-Tracker ? Speedtest-Tracker 每小时运行一次 speedtest 检查,并将结果绘制成图表。后端使用 Laravel 编写,前端使用 React。它使用 Ookla 的 speedtest cli 包获取数据,并使用 Chart.js 绘制结果。 从功能上看和…

chatgpt赋能Python-pythongpu加速

Python GPU加速:让你的Python应用飞速运行 介绍 Python是一种高级编程语言,具有易于学习、易于使用和强大的功能。作为一门解释型语言,Python会在运行时逐行解释程序代码,而这种解释方式会导致Python在运行速度上较慢。在需要大…

Jasper狂飙:AIGC现象级应用的增长秘笈

随着ChatGPT开放自己的API,不少人开始期待AIGC应用大爆发。不过与大模型的进展类似,中国在AIGC应用上也滞后了。 在ChatGPT出来前,AIGC应用在国外率先开枝散叶,除了Google、Meta这些科技巨头外,有OpenAI,做…

2023年有哪些技术值得我们关注呢?chatgpt/AI/机器学习/5G/区块链

2023年,除了云原生之外还会涌现出很多新的技术和趋势,以下是其中一些可能的技术和趋势: 5G技术: 随着5G网络的普及,将会出现更多5G相关的应用和场景,例如智能家居、无人驾驶、虚拟现实等。 AI和机器学习&am…

中二青年付杰的逆袭故事:从二本生到 ICLR 杰出论文奖,我用了20年

二本出身,读了两个硕士才在29岁开始读博,39岁才结束博士后研究的付杰形容,他的20年就像个体与系统的博弈: 在一些机器学习的文章中,研究者会根据训练初始阶段 Training Curve(训练曲线)的模式来…

SpringBoot如何整合RabbitMQ

[版权申明] 非商业目的注明出处可自由转载 出自:shusheng007 文章目录 概述rabbitmq简介SpringBoot整合安装rabbitmq初级用法高级用法配置交换器与队列发送消息消费消息测试 总结 概述 好久没有写博客了,终日忙于生计,真是人过30不如狗啊&am…

《不要挑战人性》笔记(一)

恒河猴实验 代母实验 将刚出生的小猴子与母亲分开,让它与绒布妈妈跟铁丝妈妈生活在一起。铁丝妈妈身上有食物,绒布没有食物,小猴子更喜欢绒布妈妈,即使它在铁丝妈妈那里得到了食物。绒布妈妈身上设置机关,攻击小猴子&a…

2022年最新嘟嘟早教卡小程序源码+附带后台管理

源码说明 【嘟嘟早教卡】是专门为 3-6 岁婴幼儿童学习普通话、英语研发的早教启蒙认知识字的小程序,这里是后端源码,由 Laravel、Tailwind CSS 及 AlpineJS 构建而成。 关于项目 该项目包括了管理后台以及小程序接口,想法源于小时候玩的认知卡片&#xf…

go语言实现加减法出题器(再也不用担心孩子学习了)

需求:孩子做题需要我出题,我不想出。 为什么不用我熟悉的java,go可以直接生成exe文件。 Windows执行程序链接 set_quest.exe https://www.aliyundrive.com/s/yP3GuhTZoGD 点击链接保存,或者复制本段内容,打开「阿里…

计算机应用课程的专业建议,计算机应用技术专业课程衔接问题论文

计算机应用技术专业课程衔接问题论文 摘要::对中高职教育来说,课程衔接是维系教育质量的关键。做好课程衔接不仅有助于推动职业教育的纵向发展,同时也能够提高学生的职业技能。现本文从中高职计算机专业课程衔接必要性探讨出发,分…

成长杂志成长杂志社成长编辑部2022年第7期目录

成长杂志成长杂志社成长编辑部2022年第7期目录 前沿视点 加强学校基建项目建设与管理工作的策略分析 (3) 陈志捷 新时代背景下高职院校新进教师师德师风建设机制探究 (6) 李硕 工匠精神培养与中职思想政治教育的融合探究 (9) 袁梅 数字经济时代高等教育面临的挑战及…