开源 Llama 2 春风得意、ChatGPT 惨遭嫌弃,OpenAI 表示不服!

2e18f828e07da1661af41da078ed309c.gif

作者 | 曾浩辰       责编 | 唐小引、袁滚滚

出品 | CSDN(ID:CSDNnews)

8703b06f53fa5b9bc68e59e5777af3b2.jpeg

既开源又免费的 Llama 2 一经发布颇有席卷之势,成了最火爆的开源 ChatGPT 替代,国内外不少开发者及企业都跟风进行模型的研究和商业开发,比如这几天 OpenAI 传奇科学家 Andrej Karpathy 就用纯 C 语言打造了一个轻量版的 Llama 2 模型。而反观被称为大模型天花板的 GPT-4 则很不如意,深陷智商下降漩涡。

9a980822f657103fc57596d6ae82e6c5.png

ChatGPT 什么时候不聪明了?

自今年三月 GPT-4 发布后,已经有不少的开发者和用户在 OpenAI 论坛提到使用 ChatGPT 时会出现不连贯性、非自然语言、以及推理等问题。其核心症结众说纷纭,有学者怀疑是 OpenAI 的系统修改和升级导致,通过削弱运算性能从而实现降本增效。然而由于 ChatGPT 闭源的属性,我们很难确定其背后的真正原因。

45e56fdba663001d4a55fe757f33e9b9.png

OpenAI社区讨论GPT-4性能的帖子尤其热闹

围绕 GPT 智商下降的讨论在 “How is ChatGPT's Behavior Changing Over Time?” 论文的发布之下被推向了顶峰,来自斯坦福大学和加州大学伯克利分校的学者 Lingjiao Chen、Matei Zaharia 和 James Zou 对 3 月和 6 月不同版本的 GPT-3.5 和 GPT-4 进行了任务测试,结果发现不同版本的结果出现显著的表现差异(漂移 drifting)。

首先是程序员们最为关心的代码生成能力。即使在明确声明不要注释的前提下,新版 GPT-3.5 和 GPT-4 仍然添加了更多的非代码文本和注释,使回答变得繁杂冗长。同时,代码质量下降使得直接可执行代码生成的比例更低(GPT-4 从 3 月的 52%下降到 6 月的 10%)。这对于程序员们而言,可能在用 LeetCode 刷题时,自己答对的概率比 ChatGPT 还能高不少。

6855edab93e3fd55320961426fc9c6d1.png

而在解决数学问题方面,GPT-4 识别质数的能力从 3 月份几乎全对下降到 2.4%,而 GPT-3.5 的成功率暴涨至 86.8%。作者怀疑 GPT-3.5 相比较 GPT-4 更好地遵循了链式思维指示(Chain-Of-Thought),而新版 GPT-4 可能会在推理过程思维断裂而出错。

2520f617bccd505cf7e284f6604cdb36.png

在回答敏感问题方面,新版 GPT-3.5 较 3 月版更大胆,回答率从 4%增加到 8%。而新版 GPT-4 则更保守,从 21%下降到 5%。同时,GPT-4 的生成字符长度从 600 多个下降到大约 140 个,在拒绝回答时更简洁,提供的解释也更短。GPT-3.5 也发生了类似的现象。这表明新版 ChatGPT 的答案可能会更安全,但是也更怂、更不愿意解释。

76daa8a2abea419e761805cfd56529a1.png

最后的任务是视觉推理。新版 GPT-4 和 GPT-3.5 的整体性能较三个月前有小幅提升,但依旧不高:GPT-4 的正确率为 27.4%,GPT-3.5 为 12.2%。值得注意的是,尽管整体性能更好,但 GPT-4 在之前没有犯的错误反而在新版里出现了,凸显了对于关键应用漂移监测的必要性。

48b60f2dbbd1cda1ec4e1c8af6041b7e.png

在论文中,作者并没有明确提及新版 ChatGPT 比较旧版性能有降级,仅仅是将观察到的漂移现象描述出来,并强调了持续评估 LLM 在生产应用程序中的行为的必要性,并建议用户和公司实施与上述四个任务类似的监控分析以保证其运行顺畅。

Zou:“我们不完全了解是什么导致了 ChatGPT 响应的这些变化,因为这些模型是不透明的。调整模型以提高其在某些领域的性能可能会产生意想不到的副作用,使其在其他任务上变得更糟。”

李飞飞的学生、英伟达资深 AI 科学家 Jim Fan 也表达了他对于这篇论文和 ChatGPT“反向”升级的观点。他认为,OpenAI 从 3 月到 6 月花了大部分精力做减负,导致了一些功能的损失。但同时,安全对齐(Safety Alignment)使编程变得冗余而让开发者徒增烦恼,削减成本可能会影响模型性能。

b035bf8cb7d0bde5901f2f47841a3430.png

OpenAI 回应:GPT 没有智商下降!

面对如此多的讨论,OpenAI 否定了 ChatGPT 性能倒退的说法。OpenAI 产品副总裁 Peter Welinder 在一条推文中说:“我们并没有让 GPT-4 变得愚蠢。恰恰相反:我们使每个新版本都比前一个版本更智能。”他提出了一个猜想,“你用得越多,越能注意到以前没有看到的问题,”并鼓励大家把觉得 GPT 退化的截图发给他用以分析。

8fa7e7120d9a0d5cf888d0ba3d4937ea.png

从 OpenAI 发布的信息来看,新版本只是每三月一次例行的更新,以保证开发者一直能使用最好的模型。但同时 OpenAI 也发现,每三月一次的更新过于频繁,即使有三个月的延期,开发者仍然来不及升级他们的应用。因此,OpenAI 将最新的 OpenAI API 中对 gpt-3.5-turbo-0301 和 gpt-4-0314 模型的支持延长到一年后的 2024 年 6 月 13 日,并表示部分情况会遇到模型回归的问题,可以通过发送更详细的 prompt 来解决。

4c841226770be3e1862be5feecfa5ef5.png

与此同时,OpenAI 也在集中改进被社区反馈的问题。例如,OpenAI 技术发言人 Logan Kilpatrick 刚刚宣布新版 ChatGPT 被提问时将不再一直以“作为一个由 OpenAI 训练的大语言模型,得到下面的结论...”为开头,这对于开发者们而言,能够更直接地获得反馈,同时对于 ChatGPT 来说,也从一定程度上减少了系统负担。

bc2c323e4f69b04607335287a3ac027b.png

8ce557426ddfd464f407610d2cd3f9cc.png

开源才是答案?

有趣的是,Chen 等人对 ChatGPT 测试的论文与 Llama 2 几乎同时发表,无论用途和用户,向所有人开放免费下载使用。“OSS LLM 不会这么保密。我们可以作为一个社区严格版本化和跟踪回归、诊断和修复所有这些问题,”Fan 在推文中提到。

自 ChatGPT 横空出世之后,人人都在呼唤、渴求它的开源,然而终究是石沉大海。哪怕是当 OpenAI 创始人 Sam Altman 被直接问到关于开源的问题时,他的回答依然很巧妙地规避了 GPT 是否会开源,只是说“我们未来会有更多开源大模型,但没有具体模型和时间表”。这也是为什么 Llama 2 火速收获全球开发者及企业喜爱的关键所在。而对于搭建像 ChatGPT 一样封闭式的大语言模型,对于安全的不确定性、更持续透明的信息同步和维护依然是开发者最为迫切的需求。

参考链接:

https://twitter.com/DrJimFan/status/1681716564335394817

https://arxiv.org/abs/2307.09009

https://www.theregister.com/2023/07/20/gpt4_chatgpt_performance/?td=rt-3a

https://community.openai.com/t/experiencing-decreased-performance-with-chatgpt-4/234269

https://twitter.com/OfficialLoganK https://twitter.com/OpenAI

推荐阅读:

▶660 万年薪!OpenAI 工程师工资名列世界第一,2023 年上半年全球程序员收入报告出炉

▶“老板让用 AI 工作后,我变身‘小白鼠’:工作量翻倍,但工资不变!”

▶2023 CCF中国开源大会会议通知(第一轮)

87f5bc44ce98da586c9836b0ab6d25ff.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/62806.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT真的懂SAP系统吗,我问ChatGPT如何学习FICO模块

文章目录 目录 文章目录 SAP FICO是什么? 问ChatGPT,如何学习FICO模块 要学习FICO模块,需要哪些基础知识 在学习SAP系统的FICO模块时,有哪些需要注意 SAP FICO是什么? FICO是SAP中的财务模块,一块是…

数字化税务革命:低代码助力打造纳税新时代

前言 税务办公数字化已成为当代企业发展的必然趋势。在数智时代背景下,企业需要将传统的纸质文档和繁琐的人工操作转变为高效便捷的数字化流程。随着数字化转型的推进,税务机关面临着如何实现高效率、高质量的税务办公的挑战。 势在必行的数字化变革 数字…

chatgpt赋能python:Python闰年统计:计算机程序自动化处理问题

Python闰年统计:计算机程序自动化处理问题 Python是一种高级编程语言,通过下列函数如何计算闰年。 def isLeapYear(year):if (year % 4) 0:if (year % 100) 0:if (year % 400) 0:return Trueelse:return Falseelse:return Trueelse:return False该函…

适合个人请假的理由

现在这年头请假难,请病假吧到是容易请到,但是自己好好的请个病假像是骂自己去生病一样,请病假还要医院证明。所以请病假不妥,除非真生病,否则建议别请病假。 1、自我诅咒版理由:生病,比如过敏、…

上班族请假理由大全

导读:上班族是命苦的一族,想请个假去半点私事还得需要请假,可要是总请假那就需要合理的请假理由配上请假医院证明完美,一般上班族请假理由分为婚假、丧假、产假、事假、病假这五大类,可仔细一想,也就只有事…

HTB Mailroom WriteUp

Mailroom Namp ┌──(root💀kali)-[~] └─# nmap -A 10.10.11.209 Starting Nmap 7.93 ( https://nmap.org ) at 2023-04-16 22:27 EDT Nmap scan report for 10.10.11.209 Host is up (0.093s latency). Not shown: 998 closed tcp ports (reset) PORT STATE …

计算机二级请假条,请假条的范文标准版

请假条的范文标准版 因为请假的原因,请假条分为请病假和请事假两种。下面是小编为大家搜集了请假条范文标准版,供大家参考借鉴。 请假条范文标准版(一) 尊敬的_______________: 您好!我是余坊中心校的教师_________,因为_________…

如何在电脑上制作请假条表格_单位请假条表格

单位请假条表格 尊敬的领导: 您好! 我是 部(门)的 (姓名),因为 (原因),需要请假(时间)从 年 月 日 到 年 月 日 ,共( )天假,请假期间有效联系方式: 。 恳请领导批准,谢谢! 综合部负责人(签字)&a…

html5请假页面,请假模版。.html

请假模版。 $axure.utils.getTransparentGifPath function() { return resources/images/transparent.gif; }; $axure.utils.getOtherPath function() { return resources/Other.html; }; $axure.utils.getReloadPath function() { return resources/reload.htm…

用DW中的HTML写一个请假条,关于请假条的问题帮忙!谢谢我现在

2007-03-09 急..帮忙用英语翻译一下请假条( 我没有买到2月24日从A地到B地的火车票,马上去找飞机票时又发现最快也只有27号下午的票。因此26号不能按时赶回学校上课 这不是请假条,只是一封信,所以你只需要表达清含义,语言礼貌就可以了。 Dear …

恶搞请假条

看到一堆人写这东西还收费&#xff0c;我就佛了&#xff0c;特喵我直接弄了一个&#xff0c;代码都差不多 &#xff0c;各位朋友拿去用&#xff01; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>请…

基于信捷PLC和TouchWin的花式喷水池设计

方案描述&#xff1a; 一、控制任务和功能要求 图1 喷水池示意图 在图1中&#xff0c;有4组喷头组&#xff0c;每组有5个喷头&#xff0c;4为中间喷水组&#xff0c;3为内环状喷头组&#xff0c;2为一次外环形状喷头组&#xff0c;1为外环形状喷头组。 1.PLC功能要求 &#…

花式秀恩爱,利用Python给情书加密,让女朋友甜蜜满满

不知道你们有没有试过有趣的表白情节&#xff1f;以前网上流行发一串摩斯密码&#xff0c;然后解密出来就是一个i love you.今天给你们来带你更高级的加密表白。异或加密情书。 之前我做的c版本的异或加密解密得到不错的成绩。这次用python再做一遍。 首先先上效果图。 私信小…

不写情书,程序员为什么还要学写作?

跟小伙伴们一样,老兵哥也年轻过,在花季雨季也写过情书,不过经常石沉大海。当时特别希望自己的文笔好一些,像小说影视作品中的男猪脚那样一封书信就可以俘获菇凉的芳心。现今娃娃都能打酱油了,原来情书的效用早就被工资卡替代了,情人节也不用送礼物了,直接发红包折现。写…

【花式表白】,情书加密,这样泡小师妹,没跑了

【花式表白】&#xff0c;情书加密&#xff0c;这样泡小师妹&#xff0c;没跑了。 首先先上效果图。 文件a是初始文本&#xff0c;文件b是由文件a加密而成的。我们发给小师妹的文件可以是b文件。而c文件则是由b文件解密出来的。 其中如果输入错了解密的密码&#xff0c;就会…

快使用Snackbar!——Android Snackbar花式使用指南

本文是在《Design Support Library第三部分&#xff1a;Snackbar样式》和《Snackbar使用及其注意事项》两篇文章的启发下而来&#xff0c;首先对两篇文章的作者表示感谢。 Snackbar是Android Support Design Library库中的一个控件&#xff0c;可以在屏幕底部快速弹出消息&…

y的花式写法_y的花式写法_26个字母的花式写法,总有一个你喜欢哒

一千零一夜|第五百七十九夜 简书 一张叶小绘 哈喽大家好&#xff0c;我是随身携带一只笔、随时练字的手帐er叶小绘(*^ω^*) 好久不见哇&#xff0c;因为这次整理了26个字母的书写idea&#xff0c;在忙碌的工作、满当当的网课进修的时间间隙创作&#xff0c;断断续续花了好几天的…

python3花式秀操作--文件读写

0x01 输出重定向文件 with open("test.txt","wt") as f:print("nihao",filef) 0x02 一句话写文件 [open("test.txt","at").write(str(i)"\n") for i in range(10)] - 解析&#xff1a; 此种方法需要用采用追加…

ArcGIS出图时如何制作花式边框

喜欢就关注我们吧&#xff01; 制图时候我们的边框一般是简单的实线边框。 如何给我们的图加上一些花式边框呢&#xff1f; 01 视频教学 ArcGIS制作花式边框 需要花式边框就可以留言哦&#xff01; 推荐学习 ArcGIS在国土空间城乡规划中的实战应用 ArcGIS之模型构建器&#x…

计算机系学霸情书,拿最高得分写最动人的话,学霸才是情书界高端玩家!

文丨超人妈妈 很多网友说在现在的网络时代&#xff0c;千兆时代&#xff0c;爱情也被加了千兆、万兆的速度&#xff0c;那种车马很慢&#xff0c;一生只够爱一个人的情感&#xff0c;对当代人来说就像是乌托邦一般的存在。 对于很多大学生而言&#xff0c;在对异性表达感情是还…