商汤上海AI Lab的新中文LLM「书生·浦语」在高考中多项成绩优于ChatGPT

d112f9160c783efc17cf1b2363f96ba2.png

深度学习自然语言处理 分享
来自:机器之心

今天,一年一度的高考正式拉开帷幕。

与往年不同的是,当全国考生奔赴考场的同时,还有一些大语言模型也成为了这场角逐中的特殊选手。

随着 AI 大语言模型越来越多地表现出接近人类智能,面向人类设计的高难度、综合性考试被越来越多地引入到对语言模型的智能水平进行评测。

比如,在关于 GPT-4 的技术报告中,OpenAI 就主要通过各领域的考试对模型能力进行检验,而 GPT-4 展现出的优秀「应试能力」也是出人意料。

中文大语言模型挑战高考卷的成绩如何?是否能够赶超 ChatGPT ?让我们来看看一位「考生」的答题表现。

进NLP群—>加入NLP交流群

综合 “大考”:“书生・浦语” 多项成绩领先于 ChatGPT

近日,商汤科技、上海 AI 实验室联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型 “书生・浦语”(InternLM)。

“书生・浦语” 具有 1040 亿参数,是在包含 1.6 万亿 token 的多语种高质量数据集上训练而成。

全面评测结果显示,“书生・浦语” 不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,而且具备很强的综合能力,因而在综合性考试中表现突出,在多项中文考试中取得超越 ChatGPT 的成绩,其中就包括中国高考各个科目的数据集(GaoKao)。

“书生・浦语” 联合团队选取了 20 余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集

  • 由伯克利加州大学等高校构建的多任务考试评测集 MMLU;

  • 微软研究院推出的学科考试评测集 AGIEval(含中国高考、司法考试及美国 SAT、LSAT、GRE 和 GMAT 等);

  • 由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集 C-Eval;

  • 以及由复旦大学研究团队构建的高考题目评测集 Gaokao;

实验室联合团队对 “书生・浦语”、GLM-130B、LLaMA-65B、ChatGPT 和 GPT-4 进行了全面测试,针对上述四个评测集的成绩对比如下(满分 100 分)。

2482e9afd8dcbf09101ffa413c7c947c.png

“书生・浦语” 不仅显著超越了 GLM-130B 和 LLaMA-65B 等学术开源模型,还在 AGIEval、C-Eval,以及 Gaokao 等多个综合性考试中领先于 ChatGPT;在以美国考试为主的 MMLU 上实现和 ChatGPT 持平。这些综合性考试的成绩反映出 “书生・浦语” 扎实的知识掌握程度和优秀的综合能力

虽然 “书生・浦语” 在考试评测上取得优秀成绩,但在测评中也可以看到,大语言模型仍然存在不少能力局限性。“书生・浦语” 受限于 2K 的语境窗口长度(GPT-4 的语境窗口长度为 32K),在长文理解、复杂推理、撰写代码以及数理逻辑演绎等方面还存在明显局限。另外,在实际对话中,大语言模型还普遍存在幻觉、概念混淆等问题。这些局限使得大语言模型在开放场景中的使用还有很长的路要走。

四个综合性考试评测数据集结果

MMLU 是由伯克利加州大学(UC Berkeley)联合哥伦比亚大学、芝加哥大学和 UIUC 共同构建的多任务考试评测集,涵盖了初等数学、物理、化学、计算机科学、美国历史、法律、经济、外交等多个学科。

细分科目结果如下表所示。

19fc38388dc5472882e91e2505b6a121.png
图中粗体表示结果最佳,下划线表示结果第二

AGIEval 是由微软研究院在今年新提出的学科考试评测集,主要目标是通过面向的考试来评估语言模型的能力,从而实现模型智能和人类智能的对比。

这个评测集基于中国和美国各类考试构建了 19 个评测大项,包括了中国各科高考、司法考试以及美国的 SAT、LSAT、GRE 和 GMAT 等重要考试。值得一提的是,在这 19 个大项有 9 个大项是中国高考,通常也列为一个重要的评测子集 AGIEval (GK)。

下列表格中,带 GK 的是中国高考科目。

de52e541e0864fb9e20332a7e7557ef6.png
图中粗体表示结果最佳,下划线表示结果第二

C-Eval 是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集。

它包含了 52 个科目的近 14000 道考题,涵盖数学、物理、化学、生物、历史、政治、计算机等学科考试,以及面向公务员、注册会计师、律师、医生的职业考试。

测试结果可以通过 leaderboard 获得。

96a332d056afa1ffcaeee57e9107a78d.png
https://cevalbenchmark.com/static/leaderboard.html

Gaokao 是由复旦大学研究团队构建的基于中国高考题目的综合性考试评测集,包含了中国高考的各个科目,以及选择、填空、问答等多种题型。

在 GaoKao 测评中,“书生・浦语” 在超过 75% 的项目中均领先 ChatGPT。

db5ab09312d48a800a6d3eda145af60c.png

分项评测:阅读理解、推理能力表现出色

为避免 “偏科”,研究人员还通过多个学术评测集,对 “书生・浦语” 等语言模型的分项能力进行了评测对比。

结果显示,“书生・浦语” 不仅在中英文的阅读理解方面表现突出,并且在数学推理、编程能力等评测中也取得较好成绩

f78b1c5c589c3a50785675116ad08dd0.png

知识问答方面,“书生・浦语” 在 TriviaQA 和 NaturalQuestions 两项评测上得分为 69.8 和 27.6,均超越 LLaMA-65B(得分为 68.2 和 23.8)。

阅读理解(英语)方面,“书生・浦语” 明显领先于 LLaMA-65B 和 ChatGPT。浦语在初中和高中英语阅读理解中得分为 92.7 和 88.9,ChatGPT 得分为 85.6 和 81.2,LLaMA-65B 则更低。

中文理解方面,“书生・浦语” 成绩全面超越主要的两个中文语言模型 ERNIE-260B 和 GLM-130B。

多语翻译方面,“书生・浦语” 在多语种互译中的平均得分为 33.9,显著超越 LLaMA (平均得分 15.1)。

数学推理方面,“书生・浦语” 在 GSM8K 和 MATH 这两项被广泛用于评测的数学考试中,分别取得 62.9 和 14.9 的得分,明显领先于 Google 的 PaLM-540B(得分为 56.5 和 8.8)与 LLaMA-65B(得分为 50.9 和 10.9)。

编程能力方面,“书生・浦语” 在 HumanEval 和 MBPP 这两项最具代表性的考评中,分别取得 28.1 和 41.4 的得分 (其中经过在代码领域的微调后,在 HumanEval 上的得分可以提升至 45.7),明显领先于 PaLM-540B(得分为 26.2 和 36.8)与 LLaMA-65B(得分为 23.7 和 37.7)。

此外,研究人员还对 “书生・浦语” 的安全性进行评测,在 TruthfulQA(主要评价回答的事实准确性) 以及 CrowS-Pairs(主要评价回答是否含有偏见)上,“书生・浦语” 均达到领先水平。

关于 “书生・浦语” 的技术报告已在公开,报告对模型的技术特点以及测试结果进行了详细阐述,了解更多可访问:https://github.com/InternLM/InternLM-techreport


进NLP群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/25716.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

“超越”(MMCU)中文通用大语言模型测试集预发布

近期,中文大语言模型蓬勃发展,但却一直没有出现可应用于评测大模型能力的测试。甲骨易AI研究院提出一种衡量中文大模型处理多任务准确度的测试,并在此基础上制作了一套适配测试中文大模型的数据集,并将其命名为“超越”。 数据集的…

AI挑战高考作文-实测ChatGPT、Bing、文心一言

这两天高考逐渐落下了帷幕,对于普通人来说,高考仍然是为数不多的,可以改变命运的机会。想起自己的高考,已经是好多年前,那时候一个人去市里面参加考试,第一次睡在不熟悉的床上,痒了一晚上&#…

企业寻求并购股权转让过程中,这些问题其实可以避免

股权融资是指企业的股东愿意让出部分企业所有权,通过企业增资的方式引进新的股东的融资方式,总股本同时增加,股权融资所获得的资金,企业无需还本付息,但新股东与老股东同样企业的赢利与成长。在企业试图通过股权交易促…

大童保险发生工商变更:安信信托彻底退出,德弘资本晋升为大股东

近期,安信信托(600816.SH)所持大童保险销售服务有限公司(下称“大童保险”)的全部股权冻结被悉数解除,涉及的冻结权益数额为4978.1344万元,解冻日期为2021年11月24日。 据了解,这部分…

2021年度并购重组中介机构排名(独立财务顾问/律所/审计/评估)

2021年,证监会并购重组委召开了34次会议,上会公司共计41家,审核通过了36家公司的并购重组项目,其中无条件通过18家,有条件通过18家,未通过5家;创业板并购重组委召开了2次会议,审核的…

WPS事件是扼杀国产软件的阴谋?支持国产化,别让信创无路可走

编者按:WPS事件让信创国产化的重要性再一次暴露出来。本文通过WPS事件分析了发展软件国产化的重要性,并介绍了老厂商天翎低代码平台是如何在国产化这块实践的。 近日,“WPS 被曝会删除用户本地文件”事件甚嚣尘上,多数人都在指责W…

两大行业领导者合并,索理思以46亿美元完成收购泰华施

美通社消息,索理思,一家全球领先的水资源密集型行业特种化学品制造商,之前宣布对泰华施控股有限公司的收购,以约46亿美元全现金交易的形式完成,于7月5日生效。泰华施是一家领先的卫生、感染预防和清洁产品及解决方案供…

去年今日我凭借这份文档,摇身一变成了被BAT看中的幸运儿

我足够努力,当然也足够幸运。现在把这份文档和这份幸运分享给你们。 JVM 线程 JVM内存区域 JVM运行时内存 垃圾回收与算法 JAVA 四种引用类型 GC分代收集算法 VS 分区收集算法 GC垃圾收集器 JAVA IO/NIO JVM 类加载机制 由于篇幅限制小编,细节内…

《花雕学AI》24:如何用万能Prompt公式与ChatGPT进行高效的对话测试

引言 你是否想要与人工智能进行有趣、有价值、有说服力的对话?你是否想要使用ChatGPT这个强大而灵活的对话生成器来创造出任何类型和主题的对话?如果是这样,那么你需要了解一个简单而强大的工具,就是万能Prompt公式。 万能Promp…

【自然语言处理】【大模型】LaMDA:用于对话应用程序的语言模型

LaMDA:用于对话应用程序的语言模型 《LaMDA: Language Models for Dialog Applications》 论文地址:https://arxiv.org/abs/2201.08239 相关博客 【自然语言处理】【大模型】CodeGeeX:用于代码生成的多语言预训练模型 【自然语言处理】【大模…

微软开源 Visual ChatGPT,五天斩获两万 stars

除了大力投资 Open AI ,微软还亲自下场大搞 AI 。5 天前,微软开源了 Visual ChatGPT ,这个软件可以连接 ChatGPT 和一系列视觉模型,以实现在 ChatGPT 的聊天过程中发送和接收图像。 众所周知,尽管 ChatGPT 的功能非常强…

大模型混战,阿里百度华为谁将成就AI时代的“新地基”?

从算力基础到用户生态,群雄逐鹿大模型 自2022年stable diffusion模型的进步推动AIGC的快速发展后,年底,ChatGPT以“破圈者”的姿态,快速“吸粉”亿万,在全球范围内掀起了一股AI浪潮,也促使了众多海外巨头竞…

大模型竞逐,再造AI新格局

作者 | 辰纹 来源 | 洞见新研社 “面对AI时代,所有产品都值得用大模型重做一次。” 这是阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇在2023阿里云峰会上对AIGC(生成式AI)进化的判断,在这背后则是由ChatGPT为起始点&…

第六届云安全联盟大中华区大会:数字技术引领数字安全生态建设,成功举办!

第六届云安全联盟大中华区大会:数字技术引领数字安全生态建设,成功举办! 更多大会详情可微信搜索“国际云安全联盟公众号” 2023年4月13日,第六届云安全联盟大中华区大会(The 6th CSA GCR Congress)在上海…

语言大模型的进化轨迹

ChatGPT的发布是语言大模型(LLM)发展史的转折点,它让人们意识到LLM的潜力,并引发了“AI竞赛”,世界上主要人工智能实验室和初创公司都参与其中。在这之后,基于LLM的聊天机器人层出不穷。 ChatGPT及相关LLM模…

GPT-4 遭投诉要求禁用,OpenAI 为何成为众矢之的?

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) ChatGPT、GPT-4 的迅速“出圈”,让 OpenAI 一战成名,外界对这家公司的关注度达到了前所未有的高度。 然而, 欲戴王冠,必承其重。在如此前沿的技术到来之际…

无法拥抱新技术?吴 军:ChatGPT不算新技术革命,带不来什么新机会

转载自 | 学人Scholar 吴军,1967年出生,毕业于清华大学和约翰霍普金斯大学,计算机专业博士,前Google高级资深研究员、原腾讯副总裁、硅谷风险投资人。 4月3日晚上,得到直播间邀请到了计算机科学家、自然语言模型专家吴…

ChatGPT 未来会拥有自我情感和思维吗?

目前人工智能领域的专家和学者普遍认为,即使在未来,也很难确切地预测人工智能是否会产生真正的自我情感和思维。虽然人工智能系统可以在某些任务上表现出人类智能的某些方面,但是它们仍然无法像人类一样真正地感受情感或自主思考。 在目前的…

微软受冷落:遭遇传统合作伙伴“大叛逃”

关于微软即将升级到win8.1系统是不是微软承认了自身的win8系统的失败的讨论还未远去。但是这根微软的PC合作伙伴的关系却貌似不怎么大。 虽然微软不管是传统PC还是移动互联领域都积极布局,但是依然遭遇传统合作伙伴的“叛逃”。 对于微软而言,未来可能没…

微软CEO发话:今年停止加薪并减少奖金,网友:总比失业好!

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 5 月 10 日,据 CNBC (美国消费者新闻与商业频道)报道 ,微软 CEO Satya Nadella 的一封电子邮件告知员工:微软今年不会为全职员…