GPT-4 被曝“变蠢”!为了降本,OpenAI 偷偷搞“小动作”?

9e38f103097ff53b941c466168ac9af3.gif

整理 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

“你们有没有觉得,最近 GPT-4 的质量有所下降?”

早在今年 5 月中旬开始,就有 GPT-4 用户在 OpenAI 的在线开发者论坛中发帖,表示 GPT-4 好像开始“变蠢”了:

“我使用 ChatGPT 已经有一段时间了,自 GPT-4 发布后,我就成为了 GPT Plus 用户。我一般会用 GPT-4 来助力长篇内容的分析和创作。过去,GPT-4 似乎能很好地理解我的要求。但现在,它似乎失去了对信息的跟踪,给了我很多错误的信息,误解我要求的情况也越来越多……目前,GPT-4 感觉更像 GPT-3.5。

有没有其他人注意到这一点,还是说只有我偶然遇到了这个问题?”

ecec587e57b54e2f229589f8c03421cf.png

事实证明,这位 GPT-4 用户并不是一个人——该帖下,许多用户都留言称:“我也很有同感!”

339fef26393b51f9345dfa1e8e09486f.png

问题百出的新版 GPT-4

根据许多使用者的反馈,GPT-4 除了在长篇内容的分析和创作上表现有所退步,在写作质量上也有所下滑。

Roblox 的产品负责人 Peter Yang 在推特上表示,GPT-4 模型的输出更快了,但质量变差了:“只是简单的问题,例如让写作更清晰简洁并提供想法……在我看来,写作质量下降了。”

a75ad89b63966faa038d224580972458.png

在讨论/评估复杂的逆问题、不同的变化率或变化模式以及时空变异性时,最新版 GPT-4 的逻辑能力明显下降。

“在 GPT-4 更新之前,我很少收到错误的回复,但现在我必须仔细检查所有输出(即,现在双重否定条件有时不能适当地转换为肯定条件)。我认为这些错误更类似于 GPT-3.5,而不是之前的 GPT-4 推理水平。”

a949b7d592fd79d27fccaec1aaaddf04.png

甚至在编码能力上,新版 GPT-4 的输出质量也不如以往。

一位用 GPT-4 为网站编写功能代码的开发者抱怨:“目前的 GPT-4 很令人失望。这就像开了一辆法拉利一个月,然后突然变成了一辆破旧的皮卡,我不确定我是否会愿意继续为此付费。”

另一位开发者也提到现在的 GPT-4 会循环输出代码:“完全糟透了,GPT-4 开始一遍又一遍地循环输出代码或其他信息。我让它写代码,它写到一个点,突然来个"````",然后又开始!和以前相比,它现在简直就是个白痴。”

38d4f21189dff3472378af9624450ba7.png

除此之外,在推特和 OpenAI 的在线开发者论坛中,也不断有用户反映新版 GPT-4 逻辑弱化、产生很多错误响应、无法跟踪提供的信息、不遵循说明要求、忘记在基本软件代码中添加括号、只记住最近的提示等种种问题。

对于 GPT-4 突然“降智”的表现,有用户提出猜测:“当前版本感觉跟刚推出时的版本大不相同,我猜 OpenAI 为了容纳更多客户选择在质量上妥协!”

如此看来,如今用户对于 GPT-4 的评价确实比不上它刚出道时的“风评”巅峰期。

497f071af6a9b87f8726a873b91dc29b.png

GPT-4 变快了,却也变“蠢”了

去年年底基于 GPT-3.5 的 ChatGPT 横空出世,其卓越的生成能力掀起了一股 AIGC 热潮,因此今年 3 月 OpenAI 公布比 GPT-3.5 更强大的 GPT-4 时,全世界都为之惊叹。

当时,GPT-4 被称之为“史上最强大的 AI 模型”,尤其多模态的特点,意味着它既能理解图像,也能理解文字输入,于是迅速成为了开发人员和其他技术业内人士的首选模型,也产生了更多对 GPT-4 的赞誉:10 秒生成一个网站、通过最难美国法考、满分通过 MIT 本科数学考试……

不过在人们惊叹于 GPT-4 的强大之时,其产生的费用及响应速度也令不少人感到震惊。对此,Lamini(一家帮助开发者建立定制大型语言模型的初创公司)的首席执行官 Sharon Zhou 表示:“GPT-4 虽然速度慢,但非常准确。”

一直到 5 月份,GPT-4 还一直保持着“又慢又贵但很准确”的状态——后来,GPT-4 响应变快了,与此同时用户对其性能下降的质疑也爆发了。

对于这个现象,包括 Sharon Zhou 在内的几位 AI 专家认为:OpenAI 可能正在创建几个较小的 GPT-4 模型,这些模型的作用与大型模型类似,但运行成本较低。

a665f4589231dfc158ebca866be4bec2.png

专家推测:或许与 MoE 技术有关

根据 Sharon Zhou 的介绍,这种方法被称为 Mixture-of-Experts(MoE),即混合专家系统。MoE 技术是在神经网络领域发展起来的一种集成学习技术,也是目前训练万亿参数量级模型的关键技术——由于现阶段模型规模越来越大,导致训练的开销也日益增长,而 MoE 技术可以动态激活部分神经网络,从而实现在不增加计算量的前提下大幅度增加模型参数量。

具体来说,MoE 会将预测建模任务分解为若干子任务,在每个子任务上训练一个专家模型(Expert Model),并开发一个门控模型(Gating Model),该模型可根据要预测的输入来学习信任哪个专家,并组合预测结果。

那么 MoE 技术引用到 GPT-4 是什么情况呢?Sharon Zhou 解释道,在 GPT-4 中这些小型专家模型会针对不同的任务和主题领域进行训练,例如可以有针对生物、物理、化学等方面的小型 GPT-4 专家模型,那么当用户向 GPT-4 提出问题时,新系统就会知道要把这个问题发送给哪个专家模型。另外,为了以防万一,新系统可能会向两个或更多的专家模型发送查询,然后将结果混在一起。

对于这个做法,Sharon Zhou 的形容是“忒修斯之船”(一种有关身份更替的悖论,假定某物体的构成要素被置换后,但它依旧是原来的物体吗?),即随着时间的推移,OpenAI 会把 GPT-4 的各个部分替换掉:“OpenAI 正在将 GPT-4 变成一支小型舰队。”

基于以上推测,Sharon Zhou 认为近来 GPT-4 “变蠢”的言论,很可能就与 MoE 这种训练方式有关:“当用户测试 GPT-4 时,我们会问很多不同的问题,而规模较小的 GPT-4 专家模型不会做得那么好,但它正在收集我们的数据,它会改进和学习。”

86af8401ad422855b096dcf4e0844da4.png

GPT-4 架构曝光?

由于用户对于 GPT-4 “变蠢”的反馈越来越多,本周几位 AI 专家也发布了所谓的“GPT-4 架构细节”。

其中,一位名为 Yam Peleg 的推特博主表示, GPT-4 有大约 1.8 万亿个参数,横跨 120 层,比 GPT-3 大 10 倍以上,在约 13T token 上进行训练,训练成本约为 6300 万美元……值得一提的是,Yam Peleg 也表示 OpenAI 在采用 MoE,即通过使用 16 个混合专家模型来降低 GPT-4 运行的成本。

截至目前,OpenAI 方面并没有对这一说法做出回应。不过 Allen 人工智能研究所的创始首席执行官 Oren Etzioni 向媒体表示:“虽然我也没得到证实,但我认为这些猜测应该大致正确。”

他解释道,一般使用 MOE 方法有两种原因:要么想要生成更好的响应,要么想要更便宜、更快的响应。

“理想情况下 MOE 会让你同时获得这两方面的优势,但现实中通常需要在成本和质量之间做出权衡。”基于此,Oren Etzioni 认为结合现在的情况来看,OpenAI 似乎为了降低 GPT-4 的成本而牺牲了一些质量。

那么对于这件事,你的看法又是什么呢?

参考链接:

https://www.businessinsider.com/openai-gpt4-ai-model-got-lazier-dumber-chatgpt-2023-7?utm_source=reddit.com

https://community.openai.com/t/has-there-been-a-recent-decrease-in-gpt-4-quality/207392/9

https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/

推荐阅读:

▶微信官方回应不会推出「已读」功能,网友:“这些功能先完善一下!”

▶Oracle 炮轰、Ubuntu 看戏,红帽被“群攻”ing!开发者:建议 Linus 向红帽收费

▶ChatGPT 上线代码解释器

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24693.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT大战司法考试,无需微调一类试题达到人类水平!医学化学公务员试题都能答...

杨净 明敏 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT的下一个新身份——做题家! 这不,它已经在人类各个考试中开“卷”了。 律师、医生、注会什么的,它都开始纷纷展露身手。 比如,全球考生都头疼的司法考试,现在Chat…

微信被爆出存在高危漏洞!(快扩散)

微信被国内某安全团队爆出,在PC版客户端中捕获到一个高危等级的在野0day漏洞。建议3.2.1.141版本以下的用户立即更新! 此次被爆出的高危0day黑客只需要通过微信发送一个特制web链接,当用户点击链接后,微信PC(windows)版进程wechat…

如何高效检测APK漏洞,腾讯安全这款神器了解一下

在刚刚过去的315晚会上,央视曝光了某些第三方开发的SDK包存在违规收集用户个人信息的情况,导致隐私泄露问题。对此,工信部已要求依法依规严厉查处涉事企业,并表示将采取常态化监管措施,加强移动互联网应用程序APP综合治…

微信被爆出存在高危漏洞!(求扩散)

开发者(KaiFaX) 面向全栈工程师的开发者 专注于前端、Java/Python/Go/PHP的技术社区 转载自公众号【Java面试那些事儿】 微信被国内某安全团队爆出,在PC版客户端中捕获到一个高危等级的在野0day漏洞。建议3.2.1.141版本以下的用户立即更新&am…

用司马阅轻松搞定长文阅读难题,帮你提炼总结出重点!

将文档上传到司马阅的官网https://smartread.cc/,司马阅即可对文档内容进行分析与总结,即使是外文稿件,也会为你提供中文的要点提炼。 例如我们想通过《提问的艺术 for CHATGPT》这本书获得prompt的技巧分享,可以将这本书的pdf文件…

推荐一波有趣且实用的奥特曼表情包

奥特曼00001-安排.jpg 奥特曼00002-咕叽咕叽啪啦啪啦.gif 奥特曼00003-校服校霸.jpg 奥特曼00004-摇滚奥特曼.gif 奥特曼00005-诸葛亮变色赛文.gif 奥特曼00006-奥特曼打工.gif 奥特曼00007-让老子看看你是什么类型的傻逼.jpg 奥特曼00008-质朴.jpg 奥特曼00009-溜了溜了.jpg 奥…

奥特曼系列ol服务器维修,奥特曼系列OL分解系统玩法介绍

奥特曼系列OL分解系统玩法介绍,当小伙伴往往无法直接获得最强卡牌进行升级,而是需要在不断的打怪和抽奖中更新自己的卡牌品质,从而让战斗力更上一层楼,下面跟着小编一起看看吧。 奥特曼系列OL 金币紧俏,点滴战功 在目前…

奥特曼系列ol服务器名称带怪兽,《奥特曼系列ol》怪兽图鉴 怪兽阵容

《奥特曼系列ol》这款游戏中的怪兽图鉴也是很多玩家非常关注的问题之一哦,随着游戏的不断的更新,游戏也是加入了不少全新的玩法,一定让很多玩家觉得有些迷惑吧。下面小编为大家带来《奥特曼系列ol》怪兽图鉴以及怪兽阵容,希望大家…

不要对chatgpt过度反思 第一部分

最近一段时间,chatgpt很热,随意翻一些文章或视频,一些非常整齐一致的怪论,时不时都会冒出来。 为什么这种革命性创新又出现美国? 为什么我国互联网只会电商,没有创新? 为什么我们做不出来&…

智能音箱语音交互系统简介与测试初探

获取更多技术资料,请点击! 随着AI技术的发展,智能语音交互技术也得到了巨大的发展和应用。由于语音是最自然的交互形态之一,有着输入效率高、门槛低、方便解放双手以及能有效进行情感交流的优势,使得智能音箱成为语音…

ict的终极模式 是软件研发

什么是ICT呢?先别忙,首先我们来了解一下什么是IT和什么是CT。 IT:是Information Technology的缩写,中文意思是信息技术,是指在计算机技术的基础上开发建立的一种信息技术。我们日常工作和生活中经常接触到这个名词。最…

烧钱数亿后,趣店罗敏的预制菜业务从兴到衰

雷递网 雷建平 9月7日 从高调杀入预制菜行业,到精简业务规模,趣店CEO罗敏的短短50天经历,浓缩了一个公司业务从兴到衰的全过程。 昨日,趣店称,在评估了当前的市场状况后,公司决定精简其预制菜业务。随着预制…

高校学生消费行为分析系统

目 录 摘 要 I ABSTRACT II 1 绪论 5 1.1选题背景及意义 5 1.2研究现状 5 1.2研究主要内容 5 2 系统相关技术介绍 7 2.1聚类算法 7 2.2 ECharts 7 2.3 Python 7 2.4 MySQL简介 8 3 系统分析 9 3.1 功能需求分析 9 3.2 业务流程分析 10 3.3 数据流图 14 3.4 数据库概念模型设计 …

自动驾驶数据之争,走向合规

报道数字经济 定义转型中国 撰文 | 泰伯网 编辑 | 鹿野 2015年12月,一辆百度无人车从京新高速到五环进行了最高时速达100公里的全自动行驶,将国内自动驾驶推向大众视野。 当自动驾驶产业随时间沉淀驶入商业落地的下半场,百度对这场自动驾驶…

Android Studio App开发中多线程的讲解与实现新闻轮播滚动实战(附源码 超详细必看)

运行有问题或需要源码请点赞关注收藏后评论区留言 ~~~ 一、分线程通过Handler操作界面 为了使App运行的更加流畅,多线程技术被广泛应用于App开发,由于Android规定只有主线程才能直接操作界面,因此分线程若想修改界面就要另想办法&#xff0c…

遇到老赖找催收公司靠谱吗?

转自:http://wenzhang.zhaizhuanzhuan.cn/Detail.aspx?id62B3DBAE-B4E1-F634-F56B-8D8B5F7D2AE0 老赖与催收公司貌似是相互制衡的存在,一个敢“赖”,一个敢要。当这两种极端的个体碰到一起之后,他们真的会相互制衡吗? 就拿身边的…

Android App网络通信中通过runOnUiThread快速操纵界面以及利用线程池Executor调度异步任务实战(附源码 简单易懂)

运行有问题或需要源码请点赞关注收藏后评论区留言私信~~~ 一、通过runOnUiThread快速操纵界面 因为Android规定分线程不能够直接操纵界面,所以它设计了处理程序工具,由处理程序负责在主线程和分线程之间传递数据,如果分线程想刷新界面&#…

记一次基于模板方法的设计开发过程

1、背景 本人做抵押贷金融系统开发,最近在开发过程中,遇到一个新的需求,公司和原第三方支付公司有一定的矛盾,造成支付能力支持不足,公司内部进行的新支付系统的搭建,所以需要将原支付功能对接到新支付功能…

2022 读书总结

2022 年主要阅读了文学类和理财类书籍,增加了几本杂项书籍,具体如下: 文史类 4 本 《软技能 2-软件开发者职业生涯指南》- 约翰.森梅兹《三体:黑暗森林》-刘慈欣《三体:死神永生》-刘慈欣《浪潮之巅》- 吴军理财类 7 本…

派森小镇(五)帮助

雾霭沉沉,水波澄碧。在一处悠远僻静的地方上有一个神奇的小镇,小镇的名字叫派森镇。小镇的前面有一条河,碧蓝的水映出小镇周围水墨画般朦胧的世界。 小镇上的人一出生就拥有特殊的技能,他们中的每一个人都是python的成员&#xff…