GPT-4震撼来袭,ChatGPT已成过去?

背景

ChatGPT 点燃了科技行业的明灯,从他发布那天起, AI 下一步的发展已经成为最热门的话题之一,ChatGPT 是否已经是 AI 的一个突破?下一个大突破是否再等十年?
就在 2023年3月15日 凌晨,OpenAI 发布了多模态预训练大模型 GPT-4, 宣告"ChatGPT 只是开始",果然能打破 ChatGPT 的,目前只有 OpenAI 自己。

GPT-4的发布中提到的突破

正如介绍视频中 OpenAI 工程师所说「GPT-4 是世界第一款高体验,强能力的先进AI系统,我们希望很快把它推向所有人」,似乎是想一口气终结这场游戏。

和我比考试你们弱爆了

现象

GPT-4 在各种专业测试和学术考核上碾压的几乎所有考生和原来的 GPT-3.5。

例如在 SAT 考试上它通过了模拟律师考试,且分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。

分析

OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整 ,从而在真实性、可控性等方面取得了有史以来最好的结果。

有趣的是,GPT-3.5 和 GPT-4 之间的区别很微妙。当任务的复杂性达到足够的阈值时,差异就会出现 ——GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。为了了解这两个模型之间的差异,OpenAI 在各种基准和一些为人类设计的模拟考试上进行了实验。

OpenAI 还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型,以及大多数 SOTA 模型:

我能玩梗图

现象

GPT-4 可以接受文本和图像形式的 prompt,新能力与纯文本设置并行, 允许用户指定任何视觉或语言任务
  1. 比如给 GPT-4 一个长相奇怪的充电器的图片,问为什么这很可笑?

GPT-4 的回答是:VGA 线充 iPhone。(能从图片中识别到有效信息)

  1. 给 GPT-4 一个数据图表(存图片)和询问他格鲁吉亚和西亚的人均每日肉类消费请计算平均数的数学问题时

GPT-4 的回答是:完全准确,而不再像原来 ChatGPT 一样胡言乱语

分析

GPT-4 在人类给定由散布的文本和图像组成的输入的情况下生成相应的文本输出(自然语言、代码等)。在一系列领域 —— 包括带有文本和照片的文档、图表或屏幕截图上 ——GPT-4 展示了与纯文本输入类似的功能。此外,它还可以通过为纯文本语言模型开发的测试时间技术得到增强,包括少样本和思维链 prompt。

谁说我不会数学?

现象

如果你使用过ChatGPT,你应该知道他对数学物理等问题十分不友好,好总是 "胡说八道",但 GPT-4 已经可以完成复杂的数学物理问题了!
  1. 当给他一道物理问题时,GPT-4 能否简单的回答,这恐怕不少学物理的学生都不会做吧(手动狗头)

我会 "量子波动速读"

现象

如果你给GPT-4 提供一段非常长的信息(如学术论文),GPT-4 能迅速读完收集里面的信息,并根据你的提问回答相关问题。
  1. 如果你给它 InstructGPT 的论文

要求 GPT-4 解释他的总结摘要

甚至可以指定论文中的某个图对他进行发文

....

除此之外,GPT-4 还有很多现象级的突破,主要在强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化;数学物理等计算能力的提升等

技术升级

图片输入

研究人员用学术的 Benchmark 视角来解读 GPT-4 的看图能力,然而这已经不够了,他们还能不断发现该模型可以令人兴奋地处理新任务 —— 现在的矛盾是 AI 的能力和人类想象力之间的矛盾。

可控性

与具有固定冗长、平静语气和风格的经典 ChatGPT 个性不同,开发人员(以及 ChatGPT 用户)现在可以通过在「系统」消息中描述这些方向来规定他们的 AI 的风格和任务。

系统消息允许 API 用户在一定范围内定制化实现不同的用户体验。OpenAI 知道你们在让 ChatGPT 玩 Cosplay,也鼓励你们这样做。

局限性

尽管功能已经非常强大,但 GPT-4 仍与早期的 GPT 模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然会产生幻觉、生成错误答案,并出现推理错误。

目前,使用语言模型应谨慎审查输出内容,必要时使用与特定用例的需求相匹配的确切协议(例如人工审查、附加上下文或完全避免使用) 。

总的来说,GPT-4 相对于以前的模型(经过多次迭代和改进)已经显著减轻了幻觉问题。在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%:

GPT-4 在 TruthfulQA 等外部基准测试方面也取得了进展,OpenAI 测试了模型将事实与错误陈述的对抗性选择区分开的能力,结果如下图所示。

实验结果表明,GPT-4 基本模型在此任务上仅比 GPT-3.5 略好;然而,在经过 RLHF 后训练之后,二者的差距就很大了。以下是 GPT-4 的测试示例 —— 并不是所有时候它都能做出正确的选择。

该模型在其输出中可能会有各种偏见,OpenAI 在这些方面已经取得了进展,目标是使建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观。

GPT-4 通常缺乏对其绝大部分数据截止后(2021 年 9 月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,比如在它生成的代码中引入安全漏洞。

GPT-4 预测时也可能出错但很自信,意识到可能出错时也不会 double-check。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过 OpenAI 目前的后训练(post-training)过程,校准减少了。

风险

OpenAI 表示,研究团队一直在对 GPT-4 进行迭代,使其从训练开始就更加安全和一致,所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。

GPT-4 有着与以前的模型类似的风险,如产生有害的建议、错误的代码或不准确的信息。同时,GPT-4 的额外能力导致了新的风险面。为了了解这些风险的程度,团队聘请了 50 多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家,对该模型在高风险领域的行为进行对抗性测试。这些领域需要专业知识来评估,来自这些专家的反馈和数据为缓解措施和模型的改进提供了依据。

参考内容

https://openai.com/product/gpt-4
https://mp.weixin.qq.com/s?biz=MzA3MzI4MjgzMw==&mid=2650870948&idx=1&sn=3212389008c3c47d4394b0400bc143f9&chksm=84e4d0dab39359cc4277e2b1388951c589fb79b48b62d2b38d3c66b0d5e4c9cca34d769a0bc6&mpshare=1&scene=23&srcid=0315AQY8Yz2fSnyYJiF8HIxA&sharer_sharetime=1678847370072&sharer_shareid=4025f15e1e1da44a629e0a5346fe4e02#rd

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/9395.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGpt入门指南:用提示词构建网站和应用

这个系列专题文章将教你如何使用OpenAI的GPT-4和Midjourney进行设计和编码。文章包括提示词、源代码、灵感、设计等内容。它非常适合初学者,即使对该领域没有什么了解也可以建立自己的应用程序(0经验代码和设计也能上手)。我会提供指导和入门…

别担心ChatGPT距离替代程序猿还有距离

经过多天对chat-GPT在工作的使用,我得出一个结论,它睁眼瞎说就算了,它还积极认错,绝不改正,错误答案极具误导性,啥也不说了,请看图。 经过N次较量它固执的认为 0011 1101 0110 0101在最高位是左…

Yann LeCun:不在乎社会规范,ChatGPT离真正的人还差得远

ChatGPT 虽能对答如流、花样百出,但离真正的人还差多远?深度学习三巨头之一的 Yann LeCun 等人撰文,对这一问题进行了深入探讨。 2022年底OpenAI推出ChatGPT,其爆火程度一直持续到今天,这个模型简直就是行走的流量&…

为何ChatGPT如此擅长编造故事?

“幻觉”——人工智能中的一个偏见性术语 AI聊天机器人(如OpenAI的ChatGPT)依赖于一种称为“大型语言模型”(LLM)的人工智能来生成它们的响应。LLM是一种计算机程序,经过数百万文本源的训练,可以阅读并生成“自然语言”文本语言,就像人类自然…

chatgpt赋能python:Python代码出错:常见的错误和如何避免它们

Python 代码出错:常见的错误和如何避免它们 在Python编程中,即使那些经验丰富的工程师也会遇到代码出错的情况。让我们一起探讨一下常见的Python代码错误以及如何避免它们。 代码缩进错误 Python是一种使用缩进来区分代码块的语言。如果缩进出现问题&…

真会玩:莫言用ChatGPT为余华写了一篇获奖词

5月16日,《收获》杂志65周年庆典暨新书发布活动在上海舞蹈中心举行。 典礼现场,余华凭借《文城》获得收获文学榜2021年长篇小说榜榜首。 作为老友,莫言在颁奖时故意卖了个关子:“这次获奖的是一个了不起的人物,当然了&…

《HelloGitHub》第 87 期

兴趣是最好的老师,HelloGitHub 让你对编程感兴趣! 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 https://github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等,涵盖多种编程语言 …

如何成为世界级软件公司

【CSDN 编者按】该文是指标管理与数据分析平台供应商Kyligence CEO 韩卿(Luke) 在公司6周年时撰写的全员信,就目前行业现状、未来行业竞争格局以及应对之道都有非常精彩的讨论,转发,以飨读者。 作者 | LukeKyligence …

让语言学习更简单的 WordFlow

作为一个英语并不是那么特别好的计算机专业学生,长期积累英语的学习对个人发展还是有意义的。简单来说,我在语言上最大的两个问题,一个自己「不理解」,另一个是自己「不会表达」。 上述两个问题主要体现在口语层面,而…

chatgpt赋能Python-pythonista免费

Pythonista - 一个强大的Python开发工具 Python是一种广泛使用的高级编程语言,它是一门易于学习,代码简洁,易于阅读和编写的语言。 Python具有许多强大的库和框架,可以轻松地处理各种任务。 Pythonista是一款专门为 iOS 设备开发…

在iPhone/iPad端运行DebianLinux系统【iSH-AOK】

【最后一次更新:2023.4.08】 请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,作者不为此承担任何责任~ 文章目录 1.前言 2.简介 2.2iSH-AOK介…

【User-Agent】解决HttpClient发送请求时候403或者被拦截

最近在跟第三方调试接口时被拒绝了,但是使用浏览器或postman直接调用皆有返回: 使用浏览器调用,正常返回json; 使用postman调用,正常返回json: 通过后台程序调用,返回html: 解决方案…

量化数据分析有多厉害?

Python的热度一直高居不下!除了数据分析,还有运维、自动化测试、后端开发、机器学习...Python的用武之地真的太多了!而量化更是Python的一种高级应用! 什么是量化? 我们利用计算机技术,通过建模分析、优化参…

一文了解模型量化中的QAT和PTQ

一文了解模型量化中的QAT和PTQ 由于前一段时间在做模型的转换工作,实际部署的时候需要一些模型加速的方法,常用的有各家的inference框架,如mnn,tnn,tensorrt等,这些框架除了fp32精度外,都支持了int8的精度&#xff0c…

python量化分析

python量化分析 1 环境配置 Python 3.10 Numpy、Pandas、Tushare、xlwt 2 获取K线数据 #适用场景:1)已经有合适的标的,寻找合适买点 #2)网格交易中,寻找买点 #3)娱乐可用,不构成投资参考 #缺…

数据分析--07:金融量化

데이터 분석--07: 재무 수량화 一、金融介绍1、金融2、金融工具1.期货2.黄金3.外汇4.投资基金5.股票股票的作用 3、股票分类1.收益分类2.上市地区分类3.股票市场的构成4.影响股票的因素5.A股买卖 4、金融分析1.基本面分析2.技术面分析 5、金融量化投资1.为什么需要量化交易&…

聊聊量化分析

当你能够量化讨论的事物,并且可以用数字描述它,你就对它有了深入了解。但如果你不能用数字描述,那你的头脑根本没有跃迁到科学思考的状态。 ——英国物理学家 开尔文勋爵 1、两个量化case 测试地球周长:按照相似三角形的比例关系&…

【CHATGPT】登不上去,报错429,怎么办

节点更换了,浏览器缓存也清除了,还是不行

我,ChatGPT,站在谷歌的肩膀上,让谷歌紧张

ChatGPT的最大意义,在于它向在技术短缺状态中停留了大半个世纪的AI研发者们,传达了这样的信号:是时候走出实验室,拥抱人类,与人类开展有效互动的时候了。 在谷歌加持的类ChatGPT产品Bard回答问题出错后,它的…

ChatGPT:为什么它对所有行业都如此重要,它会杀死谷歌吗?

ChatGPT:为什么它对所有行业都如此重要,它会杀死谷歌吗? 想象一下,如果您与之交互的系统能够真正理解您并回答您提出的任何问题。该系统可以为您进行复杂的分析,像开发人员一样编写代码,甚至提供心理健康支持。2022年不再是幻想,而是现实,这个系统叫做ChatGPT。 ChatG…