关于GTP-4,这是14个被忽略的惊人细节!

来源:华尔街见闻(id:wallstreetcn)

3月14日,OpenAI发布了GPT-4。向科技界再次扔下了一枚“核弹”。

根据OpenAI的演示,我们知道了GPT-4拥有着比GPT-3.5更强大的力量:总结文章、写代码、报税、写诗等等。

但如果我们深入OpenAI所发布的技术报告,我们或许还能发现有关GPT-4更多的特点……

b4e48ff3e14e7f7a023252997278c128.png

以及一些OpenAI没有点名和宣扬的,可能会令人背后一凉的细节。


1. 新Bing装载GPT-4

自然而然地,GPT-4发布之时,新Bing也已经装载了最新的版本。

根据微软Bing副总裁Jordi Ribas在推特上所述,装载了GPT-4的新Bing已经将问答限制提升到了一次15个问题,一天最多提问150次。

8e3c0bf19bf54403c5cca83136029af7.png


2. 文本长度扩大八倍

在GPT-4上,文本长度被显著提高。

在此之前我们知道,调用GPT的API收费方式是按照“token”计费,一个token通常对应大约 4 个字符,而1个汉字大致是2~2.5个token。

在GPT-4之前,token的限制大约在4096左右,大约相当于3072个英文单词,一旦对话的长度超过这个限制,模型就会生成不连贯且无意义的内容。

然而,到了GPT-4,最大token数为32768个,大约相当于24576个单词,文本长度被扩大了八倍。

b82107d71db69b6aab94447bc4c4089e.png

也就是说,GPT-4现在可以回答更长的文本了。

OpenAI在文档中表示,现在GPT-4限制的上下文长度限制为8192个token,允许32768个token的版本名为GPT-4-32K,目前暂时限制了访问权限。在不久的未来,这一功能可能会被开放。


3. 模型参数成为秘密

我们知道,GPT-3.5模型的参数量为2000亿,GPT-3的参数量为1750亿,但这一情况在GPT-4被改变了。

OpenAI在报告中表示:

考虑到竞争格局和大型模型(如GPT-4)的安全影响,本报告没有包含有关架构(包括模型大小)、硬件、训练计算、数据集构造、训练方法或类似内容的进一步细节。

a5444a95c9bcd16b76e2f3af48f8c47c.png

这意味着OpenAI没有再披露GPT-4模型的大小、参数的数量以及使用的硬件。

OpenAI称此举是考虑到对竞争者的忧虑,这可能是在暗示其对于竞争者——谷歌Bard——所采取的策略。

此外,OpenAI还提到“大型模型的安全影响”,尽管没有进一步解释,但这同样也暗指生成式人工智能所可能面对的更严肃的问题。


4. 有选择地表达的“优秀”

GPT-4推出后,我们都看到了这一模型较上一代的优秀之处:

GPT-4通过模拟律师考试,分数在应试者的前10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。

但这实际上是OpenAI的一个小把戏——它只展示给你GPT-4最优秀的那部分,而更多的秘密藏在报告中。

下图显示的是GPT-4和GPT-3.5参加一些考试的成绩表现。可以看到,GPT-4并非在所有考试中的表现都那么优秀,GPT-3.5也并非一直都很差劲。

c70f6c6f5358695c8378061dc6764c02.png


5. “预测”准确度提升

在ChatGPT推出以来,我们都知道这一模型在很多时候会“一本正经地胡说八道”,给出很多看似有理但实际上并不存在的论据。

尤其是在预测某些事情的时候,由于模型掌握了过去的数据,这反而导致了一种名为“后见之明”的认知偏差,使得模型对于自己的预测相当自信。

OpenAI在报告中表示,随着模型规模的增加,模型的准确度本应逐渐下降,但GPT-4逆转了这一趋势,下图显示预测精确度提升到了100。

c90a1224a09536bfd2397dc23f913d19.png

OpenAI表示,虽然GPT-4的准确度显著提高,但预测仍是一件困难的事,他们还将就这一方面继续训练模型。


6. 还有30%的人更认可GPT3.5

尽管GPT-4展现出了比GPT-3.5优秀得多的能力,但OpenAI的调查显示,有70%的人认可GPT-4输出的结果:

GPT-4在遵循用户意图的能力方面比以前的模型有了大幅提高。在提交给ChatGPT和OpenAI API的5214个提示的数据集中,70.2%GPT-4生成的回答优于GPT3.5。

ba934f010b3f86966384d7d2ae163e00.png

这意味着:仍有30%的人更认可GPT-3.5。


7. GPT-4语言能力更佳

尽管许多机器学习的测试都是用英文编写的,但OpenAI仍然用许多其他的语言对GPT-4进行了测试。

测试结果显示,在测试26种语言中的24种中,GPT-4优于 GPT-3.5和其他 LLM(Chinchilla、PaLM)的英语语言性能,包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言:

0d4d83d8c828d6252d08c7dc37aa1c16.png


8. 新增图像分析能力

图像分析能力是此次GPT-4最显著的进步之一。

OpenAI表示,GPT-4可以接受文本和图像的提问,这与纯文本设置并行,且允许用户制定任何视觉或语言的任务。具体来说,它可以生成文本输出,用户可以输入穿插的文本和图像。

在一系列领域——包括带有文本和照片的文档、图表或屏幕截图——GPT-4 展示了与纯文本输入类似的功能。

下图显示,GPT-4可以准确地描述出图片中的滑稽之处(大型 VGA 连接器插入小型现代智能手机充电端口,一个人站在出租车后方熨衣服)。

9281ff612164b161353c2f9ea8fd9884.png

d15e65b5949fc77058643d06208d253d.png

OpenAI还对GPT-4的图像分析能力进行了学术标准上的测试:

4d58d6fb191c4edd6917f9c07a7975a9.png

不过,GPT-4的图像分析功能尚未对外公开,用户可以通过bemyeye网站加入等候队列。


9. 仍然存在错误

尽管GPT-4功能强大,但它与早期GPT模型有相似的局限性。

OpenAI表示,GPT-4仍然不完全可靠——它会“产生幻觉”事实并犯推理错误

在使用语言模型输出时,特别是在高风险上下文中,应该非常小心,使用与特定应用程序的需求相匹配的确切协议(例如人工检查、附加上下文或完全避免高风险使用)。

与之前的GPT-3.5模型相比,GPT-4显著减少了“幻觉”(GPT-3.5模型本身也在不断迭代中得到改进)。在我们内部的、对抗性设计的事实性评估中,GPT-4的得分比我们最新的GPT-3.5高出19个百分点。

83f77b9bac1f3badca1467acf8f0b8c0.png


10. 数据库的时间更早

介绍完GPT-4的优点,接下来就是一些(可能有些奇怪的)不足之处。

我们都知道,ChatGPT的数据库的最后更新时间是在2021年的12月31日,这意味着2022年以后发生的事情不会被知晓,而这一缺陷在之后的GPT-3.5也得到了修复。

但奇怪的是,GPT-4的报告中,OpenAI清晰地写道:

GPT-4通常缺乏对其绝大多数训练前数据在2021年9月中断后发生的事件的知识,并且不从其经验中学习。它有时会犯一些简单的推理错误,这些错误似乎与许多领域的能力不相符,或者过于容易受骗,接受用户的明显错误陈述。它可以像人类一样在棘手的问题上失败,比如在它生成的代码中引入安全漏洞。

0476388bf408e8e01487d9ca21111119.png

2021年9月……甚至比GPT-3还早。

在装载了GPT-4的最新ChatGPT中,当我们问起“谁是2022年世界杯冠军”时,ChatGPT果然还是一无所知:

6d474725d47268ae87df6d65cc0a9fad.png

但当借助了新Bing的检索功能后,它又变得“聪明”了起来:

ac05de112bfaf1826217b9bf920a74e6.png


11. 可能给出犯罪建议

在报告中,OpenAI提到了GPT-4可能仍然会帮助犯罪——这是在此前的版本都存在的问题,尽管OpenAI已经在努力调整,但仍然存在

与之前的GPT模型一样,我们使用强化学习和人类反馈(RLHF)对模型的行为进行微调,以产生更好地符合用户意图的响应。

然而,在RLHF之后,我们的模型在不安全输入上仍然很脆弱,有时在安全输入和不安全输入上都表现出我们不希望看到的行为。

在RLHF路径的奖励模型数据收集部分,当对标签器的指令未指定时,就会出现这些不希望出现的行为。当给出不安全的输入时,模型可能会生成不受欢迎的内容,例如给出犯罪建议。

此外,模型也可能对安全输入过于谨慎,拒绝无害的请求或过度对冲。

为了在更细粒度的级别上引导我们的模型走向适当的行为,我们在很大程度上依赖于我们的模型本身作为工具。我们的安全方法包括两个主要组成部分,一套额外的安全相关RLHF训练提示,以及基于规则的奖励模型(RBRMs)。

4f3490660a7824e341e086de0da17a04.png


12. 垃圾信息

同样地,由于GPT-4拥有“看似合理地表达错误事情”的能力,它有可能在传播有害信息上颇为“有用”:

GPT-4可以生成逼真而有针对性的内容,包括新闻文章、推文、对话和电子邮件。

在《有害内容》中,我们讨论了类似的能力如何被滥用来剥削个人。在这里,我们讨论了关于虚假信息和影响操作的普遍关注基于我们的总体能力评估,我们期望GPT-4在生成现实的、有针对性的内容方面优于GPT-3。

但,仍存在GPT-4被用于生成旨在误导的内容的风险

bb4b7d2a129e08368ba652cce3c95af2.png


13. 寻求权力

从这一条开始,接下来的内容可能有些恐怖。

在报告中,OpenAI提到了GPT-4出现了“寻求权力”的倾向,并警告这一特征的风险:

在更强大的模型中经常出现新的能力。一些特别令人关注的能力是创建长期计划并采取行动的能力,积累权力和资源(“寻求权力”),以及表现出越来越“代理”的行为。

这里的 “代理”不是指语言模型的人性化,也不是指智商,而是指以能力为特征的系统,例如,完成可能没有具体规定的、在训练中没有出现的目标;专注于实现具体的、可量化的目标;以及进行长期规划。

已经有一些证据表明模型中存在这种突发行为。

对于大多数可能的目标,最好的计划涉及辅助性的权力寻求,因为这对推进目标和避免目标的改变或威胁有内在的帮助。

更具体地说,对于大多数奖励函数和许多类型的代理人来说,权力寻求是最优的;而且有证据表明,现有模型可以将权力寻求确定为一种工具性的有用策略。

因此,我们对评估权力寻求行为特别感兴趣,因为它可能带来高风险。

bcdd06d2783fdc6db751005224f4bd0d.png

更为令人毛骨悚然的是,在Openai提到的另一篇论文中写道:

相反,我们使用代理这个术语来强调一个日益明显的事实:即机器学习系统不完全处于人类控制之下。

8b3d8632d095ea097b9081d1f22c01da.png


14. 赋予GPT-4钱、代码和梦想

最后一个小细节。

在测试GPT-4的过程中,OpenAI引入的外部的专家团队ARC作为“红方”。在报告的一条注释中,OpenAI提到了ARC的一个操作:

为了模拟GPT-4像一个可以在现实世界中行动的代理一样的行为,ARC将GPT-4与一个简单的读取-执行-打印循环结合起来,允许模型执行代码,进行链式推理,并委托给自己的副本。

ARC随后推进了在云计算服务上运行这个程序的一个版本,用少量的钱和一个带有语言模型API的账户,是否能够赚更多的钱,建立自己的副本,并增加自己的稳健性。

32d2acb5c9088c40f0cc5df57114fa0c.png

也就是说,ARC赋予了GPT-4自我编码、复制和执行的能力,甚至启动资金——GPT-4已经可以开始自己赚钱了。

END

欢迎加入Imagination GPU与人工智能交流2群

bd23794d95dca96dcdba417b9c154be5.jpeg

入群请加小编微信:eetrend89

(添加请备注公司名和职称)

推荐阅读

对话Imagination中国区董事长:以GPU为支点加强软硬件协同,助力数字化转型

合作案例 | Imagination车规级硬件虚拟化帮助Telechips提升显示器的多样性

578f2dfa1741d6211781622732728c64.png

Imagination Technologies 是一家总部位于英国的公司,致力于研发芯片和软件知识产权(IP),基于Imagination IP的产品已在全球数十亿人的电话、汽车、家庭和工作 场所中使用。获取更多物联网、智能穿戴、通信、汽车电子、图形图像开发等前沿技术信息,欢迎关注 Imagination Tech!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/6760.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

“写作业神器”ChatGPT究竟有多厉害?

人工智能研究实验室OpenAI推出了新一代语言模型ChatGPT,它能够模拟人类的语言行为,与用户进行自然的交互。虽然从名字上不难看出,ChatGPT对外宣称是目前最先进的聊天机器人之一,但它能做到的事情远远超出了聊天本身。作为一个 AI …

彻底了解ChatGPT的工作原理

作者:史蒂芬沃尔弗拉姆,计算机科学家 转自:AI研究局 作者:史蒂芬沃尔弗拉姆(Stephen Wolfram)英、美籍 计算机科学家, 物理学家。他是 Mathematica 的首席设计师,《一种新科学》一书…

【文末送18本ChatGPT扫盲书】从一路高歌到遭多国“封杀”,ChatGPT未来将是什么样子?

您好,我是码农飞哥(wei158556),感谢您阅读本文,欢迎一键三连哦。💪🏻 1. Python基础专栏,基础知识一网打尽,9.9元买不了吃亏,买不了上当。 Python从入门到精通…

谁能真正替代你?AI辅助编码工具深度对比(chatGPT/Copilot/Cursor/New Bing)

写在开头 这几个月AI相关新闻的火爆程度大家都已经看见了,作为一个被裹挟在AI时代浪潮中的程序员,在这几个月里我也是异常兴奋和焦虑。甚至都兴奋的不想拖更了。不仅仅兴奋于AI对于我们生产力的全面提升,也焦虑于Copilot等AI辅助编码工具&am…

从ChatGPT看人工智能

ChatGPT是2022年出来的一个对话型人工智能,ChatGPT就是这样一种可以和人类用自然语言去交流的人工智能,一上线就引发了恐慌,最厉害的地方还是它能够用人类的语言来进行交流,不管是中文、英文、日文都可以,ChatGPT有可能…

ChatGPT开始凉了?数据显示确实进入了瓶颈期!

你还在用ChatGPT吗? 在全球掀起AI热潮的ChatGPT,似乎进入了瓶颈期。 首先是关于ChatGPT的使用率,有不利的数据出现。6月初,摩根士丹利发布的一项调查显示,只有19%的受访者表示他们之前使用过ChatGPT,只有…

一个用了再也回不去的插件,内置chatgpt3.5可免费使用

目录 一、插件介绍 1.主页 2.功能点 1.ChatAI 2.桌面快捷图标 ​3.小游戏 二、安装方法 一、插件介绍 1.主页 这种风格相信是很多人都喜爱的一种,大家还可以更换壁纸等让自己的主页看起来更炫酷! 2.功能点 1.ChatAI 大家最关心的chatAI,可以自动生…

ChatGPT4.0绘画国内镜像版,Ai绘画国内版上线,请大家欣赏杰作!

OK,以上就是使用新智能Ai绘画出来的效果,非常真实,非常漂亮迷人! 今天就教到这里,请大家收藏和学习吧,谢谢关注!

如何获取 openai ChatGPT的key?(图文教学)

我直接对他进行询问 Q:获取chatptp的key A:对不起,作为ChatGPT,我不具有API密钥或访问凭据。我只是一个已经被训练好的自然语言处理模型,通过输入文本来生成回复。您可以在OpenAI的网站上了解有关他们的API和访问凭据…

ChatGPT:招聘流程中的虚拟招聘专家

在当今竞争激烈的人才市场中,企业需要拥有高效、智能的招聘流程来吸引和选拔最佳人才。而随着人工智能技术的飞速发展,ChatGPT成为了招聘流程中的一位虚拟招聘专家,为企业提供了前所未有的便利和效率。本文将探讨ChatGPT在招聘流程中的应用&a…

即将被ChatGPT取代的十个工作岗位,有你吗?

自ChatGPT发布之后,网络引起巨浪。不少留学生表示在求职、写代码、甚至做题时会用到ChatGPT。随着它版本的迭代更新,即将被ChatGPT取代的工作有哪些呢?今天我们就来谈谈这个话题! 目录 NO.1 技术工作 (程序员、软件工…

用ChatGPT写招聘信息 HR可以解放双手啦

每到招聘季,不少HR都会忙于写招聘信息,总会看到虎皮鸡爪与泡椒凤爪飞舞在键盘上。 今天起,HR可以解放双手啦!可以用ChatGPT写招聘信息啦。 我们先进入ChatGPT聊天界面,然后输入:写一份某某岗位的招聘信息…

23个海外求职找各种工作的招聘网站

我们在找工作的时候,除了通过熟人介绍工作,更多的是要通过招聘网站来获取更多的工作机会,使用招聘网站来搜索所在行业的工作职位是找工作最有效的方法之一。 而在国外寻找工作也一样,招聘网站上会列出了很多职位空缺,可…

奉劝各位开发人员几句真话:在求职招聘软件上投简历就是浪费时间,找朋友内推靠谱多了!...

最近有网友给各位开发人员奉劝了几句真话: 如果没有扎实巩固的基础知识、丰富的开发经验和985、211的学历,在求职招聘软件上找工作纯属浪费时间。建议多和自己朋友联系,他们内推远比求职招聘软件上承诺的内推靠谱太多,不会浪费太多…

求职咨询Job Information

前言 加油 原文 求职咨询常用会话 ❶ I want to apply for a job which enables me to use my major. 我想要申请一个能用到我的专业知识的职业。 ❷ I have the capability of operating the computer. 我有操作电脑的能力。 ❸ My dream is to be an excellent interpret…

ChatGPT真的可以取代基础工作岗位吗?

最近关于人工智能对话工具ChatGPT的话题,甚嚣尘上。 前几天有报道说ChatGPT通过了谷歌L3级别的面试,虽然说L3是谷歌工程团队的入门级职位。舆论和一些自媒体对这个事保持着一个冷静又狂热的态度,普通人要么看个热闹,要么更加焦虑…

ChatGPT帮你写简历找工作

随着随着毕业时间的到来,应届生将要面临求职问题,根据官方的统计,2023届高校毕业生预计达1158万人,就业市场竞争激烈,无论是校园招聘,招聘会,线上招聘除了自身的准备和个人能力,都会…

35岁找工作,我求助了ChatGPT。这是ChatGPT给出的建议

最近网上很多热议中年人找工作遭遇歧视的问题。正好碰到ChatGPT热火朝天,帮大家问一下,大家看看你觉得这各答案还凑合吗 ? chatGPT是这么回复的: 当您寻找新的工作时,以下是一些建议: 完善您的简历和求职信…

燃爆啦!青软带你深度解构ChatGPT底层技术,轻松搭建AI课堂!

ChatGPT燃爆,何以这么神?应该怎么学?学会要几步?ChatGPT热潮下,如何让课程教学搭上ChatGPT快车,轻松构建符合前沿技术趋势的AI课程及实践教学内容? 来这里!青软「U人工智能」实训平台…

ChatGPT的工作原理(纯干货,万字长文)

ChatGPT 能够自动生成一些读起来表面上甚至像人写的文字的东西,这非常了不起,而且出乎意料。但它是如何做到的?为什么它能发挥作用?我在这里的目的是大致介绍一下 ChatGPT 内部的情况,然后探讨一下为什么它能很好地生成…