上交清华搞事情!发起最全学科大模型中文知识及推理评测!GPT-4 竟然血洗所有国产模型...

点击上方“AI遇见机器学习”,选择“星标”公众号

第一时间获取价值内容

f5c3a6f147f15230fa332382e86559cf.gif

 夕小瑶科技说 原创
 作者 | 小戏、Python

从 OpenAI 的 ChatGPT、Meta 的 LLaMA、Anthropic 的 Claude 到复旦的 Moss、清华的 ChatGlm、MiniMax 的 Glow,国内的国外的大模型百花齐放层出不穷。那么,抛出一个相信大家都会关心的问题!在中文背景下,这些各门各派的大模型究竟谁更能打?谁具有更强的推理判断能力以及更加全面的世界知识?

来自上交、清华以及爱丁堡大学的研究者们为这些模型举办了一场“天下第一武道大会”,首次提出了一个包含 52 个学科的全面的中国文化背景下的大模型高级知识和推理能力评估套件 C-EVAL,评估了包含 GPT-4、ChatGPT、Claude、LLaMA、Moss 在内的 9 个国内外大模型在中文学科问题上的性能

74340ae064365e29bae299e260380c4b.png

如果跳过大模型们华山论剑决战紫禁之巅的过程,直接来看结果。出乎意料的是,这场比赛出现了一边倒的局面,在所有参与测评的大模型中,只有 GPT-4 的准确率超过了 60%,达到了 68.7%,对其余模型有代际上的差距,整体正确率前三甲 GPT-4、ChatGPT 以及 Claude-v 1.3 均来自国外,而国产模型中表现最好的 MiniMax 的准确率也只有 49%,相差排名第 1 的 GPT-4 接近 20 个点,相差 ChatGPT 也有 5 个点左右的差距,革命尚未成功,同志仍需努力。

fbd26360d9a6b7f82d5d1c4084893d65.png

而细究国产或专门在中文数据上进行微调的大模型时,如果排除掉 bug GPT-4,可以看到有一些国产模型还是成功在一些中文语境下的问题中获得了超越国外模型的性能,如表现最好的 MiniMax 在毛泽东思想(73.5% vs.60.7%)、艺术研究(65.4% vs.49.7%)、中国语言文学(59.3% vs.50.2%)和中国近现代史(70.1% vs.62.8%)等领域中,MiniMax 显著优于 ChatGPT

42e30f12564d0ba34fbc47731d72be56.png

纵观所有的评测结果,其实一方面虽然 GPT-4 在所有模型中一枝独秀,但是从得分上来说正确率也只有百分之六十多,这其实是说当下任何一种大模型在单纯中文语料的推理上都仍然有很大的提升空间。而另一方面,国产模型虽然相较国外的模型表现不佳,但是很大程度上可能是源于参数量的不同而带来的推理能力的下降,很大程度上参数量与模型的准确率还是有很大的关系,几个排名垫底的模型参数量均没有那么巨大,并且 50B 参数以下的模型效果也只比随机基线(25%准确率)高不到 10 个点。

d2a13fc04db7c6de292a58b4ea194e41.png

详解 C-EVAL

一个良好的模型评测评估标准对模型的研发十分重要,评估评测标准的核心点一个在于选择的指标能否优秀的代表“中文推理判断”这样一个模糊的外延丰富的名词,而另一个则在于评测的结果能否全面准确的反应模型的真实能力。在大模型出现之后,传统的评测指标确实已经不再能够适应并挖掘大模型蕴含的能力,而为了评估这些大模型相对高级的,如推理与世界知识的能力,论文作者团队从中国真实的、具有挑战性的人类的考试题中构建了 C-EVAL,这些考试可以被分为四大类共 52 种不同的学科,每个学科内两百到五百道不等的四个选项的单项选择题,其中四大类分别是 STEM(Science、Technology、Engineering、Mathematics),人文科学,社会科学与其他(包含医学、公务员考试、注册会计师考试、消防工程师考试等)

7549b3911d80140ed66e28cacf299262.png

C-EVAL 涵盖四个难度级别,分别是初中、高中、大学与专业,数据主要来源于互联网中爬虫得到的试题与一部分作者收集的试题分享,由于爬虫得到的试题格式不统一,作者人工将试题数据做了统一,并将题目中涉及的公式都转化为了标准的 Latex 版本并纠正或删除了一部分错误试题。为了适应 Few-shot 的学习方式,在每个学科下作者还设置了 5 个带有答案的示例,一般的题目设计示例如下:

59b7df0a44ecefa84f1b432552f559c3.png

而为了利用大模型具有思维链(COT)提升解的质量的能力,作者还构建了一部分带有引导解释的数据如下图所示:

227163a6412d42f11986a31f207f8954.png

最后,为了给大模型“上点难度”,作者团队从 C-EVAL 中选择了具有挑战性的数学、物理和化学等 8 个学科的问题,组成了一个独立的 C-EVAL HARD 评测集,这些问题基本需要大学及以上的水平才能进行解决,并且思维与推理过程颇有难度,如下图所示:

55333685df14f5be1baca9398c906e3e.png

而在 C-EVAL HARD 下,可以看到,所有模型的准确率都出现了显著下降,GPT-4 只能获得 54.9% 的准确率,而在一般问题下的国产模型榜首 MiniMax 在困难模式下准确率出现滑铁卢,暴跌 14 个点,几乎与随机选择持平,可以看到,当问题变得复杂与困难时,大模型的关键差别将被暴露出来,这事实上也在为国产模型敲响警钟——我们需要的不是一个随便瞎聊天的聊天机器人,大模型真正的潜力必然不在 Chat 上,而是在于它的判断推理理解能力,这才是智能真正的标准

86d5100aa4a7d294b720bee86a546a67.png

整个数据集的主页、大模型榜单等都被作者制作成网站方便其他用户评测与查看榜单

论文题目:
C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

论文链接:
https://arxiv.org/pdf/2305.08322.pdf

项目主页:
https://cevalbenchmark.com/index.html

8e33ca2fbf53a9dd1396fd3e51a4bf58.jpeg

欢迎大家加入我的这个”AIGC与GPT“知识星球,价格便宜,目前已有近130人

作为一个大厂算法工程师和机器学习技术博主,我希望这个星球可以:

  • 【最全免费资源】免费chatgpt-API,最新AIGC和GPT相关pdf报告和手册。

  • 【最专业算法知识】Transformer、RLHF方法、多模态解读及其论文分享。

  • 【最新变现姿势】如何结合ChatGPT应用落地,各种可以作为副业的AIGC变现方式,打好这个信息差。

  • 【最有趣AICG】ChatGPT+midjourney拍电影,制作壁纸,漫画等等有趣的AICG内 容分享。

一些截图:

f5efa09b8c36e1420feb774aa037b114.png

14439d46667b6ce91ef0ec447e88c89d.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/48760.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

始料未及-- 元宇宙传来好消息,全球轰动

突然间,元宇宙着火了。 从表面上看,这是出乎意料的,很多人将其视为资本引发的存在。也正是因为如此,人们对元宇宙的看法才变得两极分化。 那些对元宇宙感兴趣的人会佩服它;屈服于元宇宙的人会以各种方式对其产生怀疑&…

元宇宙被这个圈子带火了一波,是我没想到的

金磊 萧箫 发自 凹非寺量子位 | 公众号 QbitAI 最近有个热闹的事,值得说道说道。 事情是这样的: 先是中国第一个进入元宇宙时代的媒体集团Meta Media超媒体控股,打造了个叫Meta ZiWU的项目,还请了建筑圈著名的马岩松,在…

元宇宙爆发增长,代币成为了变现必备媒介

Cloud exchange打算将CDE代币定位为区块链构建块,以帮助“加速向完整的区块链经济的过渡”,代币将允许用户影响“元宇宙的未来”。CDE代币面向的是受法律保护地区居民使用,这部分使用者能通过使用CDE来购买商品、服务,允许用户设计…

【回顾】“双11”首个元宇宙日 中国移动通信联合会元宇宙产业委员会揭牌 《元宇宙产业宣言》发布

2021年11月11日,“元宇宙日”,中国移动通信联合会元宇宙产业委员会(CMCA-MCC)揭牌仪式与《元宇宙产业宣言》发布暨中信出版《元宇宙》新书首发活动在中国移动通信联合会会议室举办,央链直播全程转播。 著名数字经济权威…

为了元宇宙,Facebook下周要改名了?

整理 | 祝涛 出品 | CSDN(ID:CSDNnews) 据外媒报道,有知情人士透露,社交媒体巨头Facebook计划在下周更改公司名称,以显示其专注于构建元宇宙的决心。报道称,Facebook CEO扎克伯格(M…

《元宇宙2086》影视工业弯道超车?《科普时报》刊登采访报道

科普时报-第267期 2023年01月06日 星期五 第05版:书香文史刊载了题目为“《元宇宙2086》影视工业弯道超车?”的关于高泽龙的采访报道。全文内容如下: 在2022年中国金鸡百花电影节暨第35届中国电影金鸡奖期间,我创作的中国首部元宇…

世界元宇宙大会暨元宇宙探索交流论坛 礼码生活构建元宇宙庞大生态

万众瞩目,终于来临。2021 年 10 月 14 日,由Open Sky和礼码生活联合主办,全球节点联盟、千岛矿业联盟、ROMAN WAY承办的世界元宇宙大会暨首届元宇宙探索者交流论坛在中国深圳隆重召开,社会各界高度关注,比特财经、金色…

元宇宙:有人追捧,就会有人抵触

或许,直到现在,我们依然无法否认元宇宙即将对我们的生产和生活产生的深刻影响。即使是在它遭遇巨大的不确定性的大背景下,依然如此。 有人追捧,便有人抵触。元宇宙商用的止步不前,元宇宙技术的难以突破……几乎都是这…

【元宇宙欧米说】个人创作者的NFT探索之路

与3D图片相比像素画有什么优势?除链游以外,NFT如何与游戏相结合?如何发展IP,产生实体化商品? 9月8日下午三点,游戏设计师、StrangeGoose数字艺术创作者大鹅将以“个人创作者的NFT探索之路”为题&#xff0…

泰国这场发布会,UTONMOS元宇宙游戏玩出炫酷新花样

Sensor Tower 最近发布的一项报告显示,全球元宇宙 App 下载量在 2022 年H1 达到 1.7 亿次,其中游戏达到了 1.1 亿次,占比 67.3%。在营收方面,元宇宙 App 在 H1 共获得 6.5 亿美元收入,游戏占 94%,达到 6.4 …

【元宇宙】元宇宙(metaverse)的简介(多角度理解与探讨)、发展历史、现状与未来

High&NewTech:元宇宙(metaverse)的简介(多角度理解与探讨)、发展历史、现状与未来 导读:博主曾在去年,2020年9月份撰写了一篇文章《AGI:走向通用人工智能的【哲学】之现实世界的虚拟与真实——带你回看1998年的经典影片《The …

元宇宙”成时下热点 中国古人是如何认识“宇宙”的?

最近“元宇宙”的话题十分流行,其英文Metaverse的意思是“超越宇宙”,代表着与现实世界平行的虚拟世界,这似乎是一种更为广大的宇宙观。人类对宇宙的认识,是一个漫长的过程。从朴素的直观感受到传说故事,再到自然科学上…

从元宇宙婚礼和元宇宙游戏看元宇宙的“史前时代”

元宇宙,正在从科幻走进现实——确切地说,是走进现实中的虚拟世界。这一切,离不开强有力的高科技及其产品化基础设施设备的支撑。而且,元宇宙不会单由哪一家公司建成,也不会一蹴而就,它需要多方参与和一定的…

UTONMOS带您体验数字人 感受元宇宙

11月12日,由工信部和江西省政府共同主办的2022世界VR产业大会在南昌召开。3D大屏画面向前延伸,现场主持人和她的“数字分身”——“江小薇”出现在舞台中央,并展开互动。得益于虚拟现实新技术的发展,开幕式上,今年的“江小薇”获得了新技能。挥手、转身、微笑……只需一台摄像机…

连麦互动直播中混屏技术设计

连麦互动直播中混屏技术设计 目录 一. 混屏原理 二. 实现混屏关键技术 1. 并发解码 2. 图像合成 3. 视频同步 4. 编码输出 5. 内存管理 三. 具体实现流程 1、混屏流程 2、混屏算法 四. 音视频同步 五. 总…

干货 | 奇秀直播连麦技术探索

前言 2020上半年,直播再次成为中文互联网世界的新风口,甚至到了无达人不直播,无名人不带货的地步;从2016年直播元年开始,直播的内容越来越多元,从秀场直播,游戏直播,到短视频直播普济…

视频直播时连麦功能使用说明

保利威视连麦系统 支持老师、助教、观众之间进行互动。音频支持4人互动、视频支持2人互动。 下面以老师和学生进行连麦时,各种状态下,老师端与学生端各自界面显示内容为例子进行讲解。 连麦功能位置 老师直播客户端,连麦功能的开启位置。…

直播连麦技术闭坑篇

直播音质如何改善 1、在使用 anyRTC SDK 进行直播的时候,SDK 默认是打开 AEC (回声消除)功能的,该功能对音质有一定的损耗,所以在开播之前建议先关闭该功能,当跟其他人建立起直播连麦后在打开该功能&#…

OBS直播如何连麦和多人连麦

OBS如何支持直播多人连麦和BGM?比如SRS 4.0的多人连麦、多平台直播、多场景切换的在线发布会方案如何实现的? 废话不多说,直接上干货。我录制了3分钟的视频教程,使用起来很简单,3分钟就讲清楚了: OBS-001-…