CHATGPT-4变笨引爆舆论!文本代码质量都下降,OpenAI刚刚回应了降本减料质疑

ChatGPT狂飙160天,世界已经不是之前的样子。

新建了人工智能中文站https://ai.weoknow.com
每天给大家更新可用的国内可用chatGPT资源


大模型天花板GPT-4,它是不是……变笨了

先是少数用户提出质疑,随后大量网友表示自己也注意到了,还贴出不少证据。

有人反馈,把GPT-4的3小时25条对话额度一口气用完了,都没解决自己的代码问题。

无奈切换到GPT-3.5,反倒解决了

总结下大家的反馈,最主要的几种表现有:

  • 以前GPT-4能写对的代码,现在满是Bug

  • 回答问题的深度和分析变少了

  • 响应速度比以前快了

这就引起不少人怀疑,OpenAI是不是为了节省成本,开始偷工减料

两个月前GPT-4是世界上最伟大的写作助手,几周前它开始变得平庸。我怀疑他们削减了算力或者把它变得没那么智能。

这就不免让人想起微软新必应“出道即巅峰”,后来惨遭“前额叶切除手术”能力变差的事情……

网友们相互交流自己的遭遇后,“几周之前开始变差”,成了大家的共识。

一场舆论风暴同时在Hacker News、Reddit和Twitter等技术社区形成。

这下官方也坐不住了。

OpenAI开发者推广大使Logan Kilpatrick,出面回复了一位网友的质疑:

API 不会在没有我们通知您的情况下更改。那里的模型处于静止状态

不放心的网友继续追问确认“就是说GPT-4自从3月14日发布以来都是静态的对吧?”,也得到了Logan的肯定回答。

“我注意到对于某些提示词表现不一致,只是由于大模型本身的不稳定性吗?”,也得到了“Yes”的回复。

但是截至目前,针对网页版GPT-4是否被降级过的两条追问都没有得到回答,并且Logan在这段时间有发布别的内容。

那么事情究竟如何,不如自己上手测试一波。

对于网友普遍提到GPT-4写代码水平变差,我们做了个简单实验。

实测GPT-4“炼丹”本领下降了吗?

3月底,我们曾实验过让GPT-4“炼丹”,用Python写一个多层感知机来实现异或门。

ShareGPT截图,界面稍有不同

让GPT-4改用numpy不用框架后,第一次给出的结果不对。

修改两次代码后,运行得到了正确结果。第一次修改隐藏神经元数量,第二次把激活函数从sigmoid修改成tanh。

6月2日,我们再次尝试让GPT-4完成这个任务,但换成了中文提示词。

这回GPT-4第一次就没有使用框架,但给的代码仍然不对。

后续只修改一次就得到正确结果,而且换成了力大砖飞的思路,直接增加训练epoch数和学习率。

回答的文字部分质量也未观察到明显下降,但响应速度感觉确实有变快。

由于时间有限,我们只进行了这一个实验,且由于AI本身的随机性,也并不能否定网友的观察。

最早4月19日就有人反馈

我们在OpenAI官方Discord频道中搜索,发现从4月下旬开始,就不时有零星用户反馈GPT-4变差了。

但这些反馈并未引发大范围讨论,也没有得到官方正式回应。

5月31日,Hacker News和Twitter同天开始大量有网友讨论这个问题,成为整个事件的关键节点。

HackerNews一位网友指出,在GPT-4的头像还是黑色的时候更强,现在紫色头像版在修改代码时会丢掉几行。

在Twitter上较早提出这个问题的,是HyperWrite(一款基于GPT API开发的写作工具)的CEO,Matt Shumer。

但这条推文却引发了许多网友的共鸣,OpenAI员工回复的推文也正是针对这条。

不过这些回应并没让大家满意,反而讨论的范围越来越大。

比如Reddit上一篇帖子提到,原来能回答代码问题的GPT-4,现在连哪些是代码哪些是问题都分不出来了。

在其他网友的追问下,帖子作者对问题出现的过程进行了概述,还附上了和GPT的聊天记录。

对于OpenAI声称模型从三月就没有改动过,公开层面确实没有相关记录。

ChatGPT的更新日志中,分别在1月9日1月30日2月13日提到了对模型本身的更新,涉及改进事实准确性和数学能力等。

但自从3月14日GPT-4发布之后就没提到模型更新了,只有网页APP功能调整和添加联网模式、插件模式、苹果APP等方面的变化。

假设真如OpenAI所说,GPT-4模型本身的能力没有变化,那么这么多人都感觉它表现变差是怎么回事呢?

很多人也给出了自己的猜想。

第一种可能的原因是心理作用

Keras创始人François Chollet就表示,不是GPT的表现变差,而是大家渡过了最初的惊喜期,对它的期待变高了。

Hacker News上也有网友持相同观点,并补充到人们的关注点发生了改变,对GPT失误的敏感度更高了。

抛开人们心理感受的差异,也有人怀疑API版本和网页版本不一定一致,但没什么实据。

还有一种猜测是在启用插件的情况下,插件的额外提示词对要解决的问题来说可能算一种污染

WebPilot插件中的额外提示词

这位网友就表示,在他看来GPT表现变差正是从插件功能开始公测之后开始的。

也有人向OpenAI员工询问是否模型本身没变,但推理参数是否有变化?

量子位也曾偶然“拷问”出ChatGPT在iOS上的系统提示词与网页版并不一致

  • 如果在手机端开启一个对话,它会知道自己在通过手机与你交互。

  • 会把回答控制在一到两句话,除非需要长的推理。

  • 不会使用表情包,除非你明确要求他使用。

不一定成功,大概率拒绝回答

那么如果在网页版继续一个在iOS版开启的对话而没意识到,就可能观察到GPT-4回答变简单了。

总之,GPT-4自发布以来到底有没有变笨,目前还是个未解之谜。

但有一点可以确定:

3月14日起大家上手玩到的GPT-4,从一开始就不如论文里的。

与人类对齐让AI能力下降

微软研究院发表的150多页刷屏论文《AGI的火花:GPT-4早期实验》中明确:

他们早在GPT-4开发未完成时就得到了测试资格,并进行了长期测试。

后来针对论文中很多惊艳例子,网友都不能成功用公开版GPT-4复现

目前学术界有个观点是,后来的RLHF训练虽然让GPT-4更与人类对齐——也就更听从人类指示和符合人类价值观——但让也让它自身的推理等能力变差

论文作者之一、微软科学家张弋在中文播客节目《What’s Next|科技早知道》S7E11期中也提到:

那个版本的模型,比现在外面大家都可以拿得到的GPT-4还要更强,强非常非常多。

举例来说,微软团队在论文中提到,他们每隔相同一段时间就让GPT-4使用LaTeX中的TikZ画一个独角兽来追踪GPT-4能力的变化。

论文中展示的最后一个结果,画得已经相当完善。

但论文一作Sebastien Bubeck后续在MIT发表演讲时透露了更多信息。

后来当OpenAI开始关注安全问题的时候,后续版本在这个任务中变得越来越糟糕了。

与人类对齐但并不降低AI自身能力上限的训练方法,也成了现在很多团队的研究方向,但还在起步阶段。

除了专业研究团队之外,关心AI的网友们也在用自己的办法追踪着AI能力的变化。

有人每天让GPT-4画一次独角兽,并在网站上公开记录。

从4月12日开始,直到现在也还没看出来个独角兽的大致形态。

当然网站作者表示,自己让GPT-4使用SVG格式画图,与论文中的TikZ格式不一样也有影响。

并且4月画的与现在画的似乎只是一样差,也没看出来明显退步。


ChatGPT狂飙160天,世界已经不是之前的样子。

新建了人工智能中文站https://ai.weoknow.com
每天给大家更新可用的国内可用chatGPT资源

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26398.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

万字解析GPT的情感与意识,它是一只被人类操控的“风筝” | AI未来指北

来源:AI未来指北 编辑整理:周小燕、郭晓静 《AI未来指北》栏目由腾讯新闻推出,邀约全球业内专家、创业者、投资人,探讨AI领域的技术发展、商业模式、应用场景、伦理及版权争议。 丨划重点 ● 一部分基础工作可能会被AI产品替代&am…

清华教授钱颖一:人工智能将使中国教育优势荡然无存

编辑 | CVer 点击下方卡片,关注“自动驾驶之心”公众号 ADAS巨卷干货,即可获取 在由国务院参事室公共政策研究中心和新华网思客共同主办的《参事讲堂》上,国务院参事、(前)清华大学经济管理学院院长钱颖一以“创新人才…

让 GPT-4 帮我设计一个分布式缓存系统,从尝试到被我逼疯!

点击关注公众号,Java干货及时送达 学习 Spring Cloud 微服务的正确姿势! 用上 ChatGPT 啦,强的离谱! 博客园在绝境求生。。 整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 比 ChatGPT 背后 GPT-3.5 更为…

Android模仿微信浮窗功能的效果实现

转载请注明出处,谢谢:https://blog.csdn.net/HarryWeasley/article/details/82591320 源码地址:https://github.com/HarryWeasley/weChatFloatDemo 最近研究了微信悬浮窗的效果实现,写此文章记录一下,后面有我的GitH…

Qt 停靠悬浮窗口 使用实例

工程中我们常用到悬浮窗口,Qt 实现停靠和悬浮使用类QDockWidget, 效果: 悬浮窗口 这里主要介绍怎么使用; Part1.使用流程: 1. 创建QDockWidget对像的停靠窗体; QDockWidget *dw new QDockWidget(&quo…

android悬浮窗口的实现

当我们在手机上使用360安全卫士时,手机屏幕上时刻都会出现一个小浮动窗口,点击该浮动窗口可跳转到安全卫士的操作界面,而且该浮动窗口不受其他activity的覆盖影响仍然可见(多米音乐也有相关的和主界面交互的悬浮小窗口)。那么这种不受Activit…

ChatGPT提示词工程(六):Expanding扩展

目录 一、说明二、安装环境三、扩展(Expanding)1. 自定义自动回复客户电子邮件2. 提醒模型使用客户电子邮件中的详细信息3. 参数 temperature 一、说明 这是吴恩达 《ChatGPT Prompt Engineering for Developers》 的课程笔记系列。 本文是第七讲的内容…

通达信自动包络线指标公式以及ATR通道指标

根据亚历山大埃尔德在其著作《以交易为生》中的描述,自动包络线的设计思路是将通道看作试穿衬衫一样,寻找那些穿起来既不过松也不过紧的衬衫,只让手腕和脖子露在外面。自动包络线能够适应最近的行情波动,只有在极端情况下&#xf…

微信支付费率0.38还是0.6,0.2费率怎么开,3分钟申请教程

目前微信支付官方给到商家的费率统一为0.6%,部分线下实体店商家由服务商推广开户一般是用的0.38%的费率。 其实很多商户都不知道,其实还可以开通更低的费率,0.2~0.35%的费率。 现在就分享一个如何在几分钟申请提交开通0.2费率的…

微信支付申请费率0.2%的方法,百分百通过不求人

微信支付通用的费率都是0.6%,那么如何申请0.2%呢。方法很简单。

openai.error.RateLimitError: You exceeded your current quota, please check your plan and billing det

报错: 此错误消息表明您已达到API的最大月支出(硬限制)。这意味着您已经消耗了分配给计划的所有积分或单位,并且已经达到计费周期的限制。这种情况可能有几个原因,例如: 您使用的是高容量或复杂的服务&…

关于0.2%费率的微信支付,你需要了解一下。

经营流水大,支付手续费高,想要减少手续费?不了解微信支付申请流程,步骤太多太繁琐,想要快捷开户?不用担心,这些都可以用微信支付特约商户解决! 为助力商家享受到更快捷的微信商户申…

定时任务原理方案综述

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 导读 本文主要介绍目前存在的定时任务处理解决方案。业务系统中存在众多的任务需要定时或定期执行,并且针对不同的系…

巴比特 | 元宇宙每日必读:AI搜索大战打响!微软官宣ChatGPT引入Bing,“文心一言”传首站将接入百度搜索,接下来是谁?...

摘要:据财联社报道,北京时间8日凌晨,微软宣布推出由ChatGPT支持的最新版Bing搜索引擎和Edge浏览器,新版Bing于今日上线,不过预览人数有限。微软计划近期推出移动版本,预览人数有望扩展至数百万人。那么&…

Docker 十周年 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 3 月 20 日,在 1999 年的今天,人类首次成功乘热气球环球飞行。在 24 年的今天,瑞士人皮尔卡、英国人琼斯经过近 20 天的飞行…

macOS 下载汇总(系统、应用和教程) 2023 持续更新中

macOS Ventura 13, macOS Monterey 12, macOS Big Sur 11, macOS Catalina 10.15, macOS Mojave 10.14, macOS High Sierra 10.13, macOS Sierra 10.12 请访问原文链接:https://sysin.org/blog/macOS/,查看最新版。原创作品,转载请保留出处。…

网景浏览器正式发布 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2022 年 12 月 15 日,在 56 年前的今天,美国动画制作家迪士尼逝世。他创造的米老鼠形象曾经给世界上的每一个孩子带来了欢乐;他是一位…

马化腾微信转发文章称要“收紧队形”,腾讯公关回应;微软宣布终止支持 Cortana;TypeScript 5.1发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

苹果电脑惊现比特币白皮书,乔布斯会是中本聪吗?

原创:刘教链 * * * 隔夜比特币继续在28k附近横盘,静静等待30日线向上靠近。 市场总在百无聊赖之际找些乐子。昨天,圈子里热议最多的话题就是在苹果电脑系统中发现了比特币的白皮书[1]。 话题的源头是4月5号一个叫Andy Baio的网友在waxy.org发…

本地推理,单机运行,MacM1芯片系统基于大语言模型C++版本LLaMA部署“本地版”的ChatGPT

OpenAI公司基于GPT模型的ChatGPT风光无两,眼看它起朱楼,眼看它宴宾客,FaceBook终于坐不住了,发布了同样基于LLM的人工智能大语言模型LLaMA,号称包含70亿、130亿、330亿和650亿这4种参数规模的模型,参数是指…