上海AI实验室与商汤科技等发布“书生·浦语”大语言模型

随着AI大语言模型越来越多地表现出接近人类的智能,面向人类设计的高难度、综合性考试被越来越多地引入对语言模型的智能水平进行评测。OpenAI在其关于GPT-4的技术报告中就主要通过各领域的考试对模型能力进行检验。2023年高考开考,中文大语言模型是否能够在高考中赶超ChatGPT呢?

6月7日,上海人工智能实验室(上海AI实验室)、商汤科技联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。“书生·浦语”具有1040亿参数,是在包含1.6万亿token的多语种高质量数据集上训练而成。全面评测结果显示,“书生·浦语”不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,而且具备很强的综合能力,因而在综合性考试中表现突出,在多项中文考试中取得超越ChatGPT的成绩,其中就包括中国高考各科目的数据集(GaoKao)。

“书生·浦语”相关技术报告已在网上公开:https://github.com/InternLM/InternLM-techreport,报告对模型的技术特点以及测试结果进行了详细阐述。

综合“大考”:“书生·浦语”多项成绩领先于ChatGPT

“书生·浦语”联合团队选取了20余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集:由伯克利加州大学等高校构建的多任务考试评测集MMLU;由微软研究院推出的学科考试评测集AGIEval(含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等);由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval;由复旦大学研究团队构建的高考题目评测集Gaokao。

实验室联合团队对“书生·浦语”、GLM-130B、LLaMA-65B、ChatGPT和GPT-4进行了全面测试,针对上述四个评测集的成绩对比如下(满分100分)。

可以看到,“书生·浦语”不仅显著超越了GLM-130B 和 LLaMA-65B等学术开源模型,还在AGIEval、C-Eval以及Gaokao等多个综合性考试中领先于ChatGPT;在以美国考试为主的MMLU上实现和ChatGPT持平。这些综合性考试的成绩反映出“书生·浦语”扎实的知识掌握程度和优秀的综合能力。

虽然 “书生·浦语”在考试评测上取得优秀成绩,但在测评中也可以看到,大语言模型仍然存在不少能力局限性。“书生·浦语” 受限于2K的语境窗口长度(GPT-4的语境窗口长度为32K),在长文理解、复杂推理、撰写代码以及数理逻辑演绎等方面还存在明显局限。另外,在实际对话中,大语言模型还普遍存在幻觉、概念混淆等问题;这些局限使得大语言模型在开放场景中的使用还有很长的路要走。

四个综合性考试评测数据集结果

MMLU是由伯克利加州大学(UC Berkeley)联合哥伦比亚大学、芝加哥大学和UIUC公共构建的多任务考试评测集,涵盖了初等数学、物理、化学、计算机科学、美国历史、法律、经济、外交等多个学科。细分科目结果如下表所示。

(粗体表示最佳结果,下划线表示第二)

AGIEval是由微软研究院在今年新提出的学科考试评测集,主要目标是通过面向的考试来评估语言模型的能力,从而实现模型智能和人类智能的对比。这个评测集基于中国和美国各类考试构建了19个评测大项,包括了中国各科高考、司法考试以及美国的SAT、LSAT、GRE和GMAT等重要考试。值得一提的是,在这19个大项有9个大项是中国高考,通常也列为一个重要的评测子集 AGIEval(GK)。下列表格中,带GK的是中国高考科目。

(粗体表示最佳结果,下划线表示第二)

C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集。它包含了52个科目的近14000道考题,涵盖数学、物理、化学、生物、历史、政治、计算机等学科考试,以及面向公务员、注册会计师、律师、医生的职业考试。测试结果可以通过leaderboard获得。

(https://cevalbenchmark.com/static/leaderboard.html)

Gaokao是由复旦大学研究团队构建的基于中国高考题目的综合性考试评测集,包含了中国高考的各个科目,以及选择、填空、问答等多种题型。在GaoKao测评中,“书生·浦语”在超过75%的项目中均领先ChatGPT。

分项评测:阅读理解、推理能力表现出色

为了避免“偏科”,研究人员还通过多个学术评测集,对“书生·浦语”等语言模型的分项能力进行了评测对比。结果显示,“书生·浦语”不仅在中英文的阅读理解方面表现突出,并且在数学推理、编程能力等评测中也取得了较好的成绩。

知识问答方面,“书生·浦语”在TriviaQA和NaturalQuestions两项评测上得分为69.8和27.6,均超越LLaMA-65B(得分为68.2和23.8)。

阅读理解(英语)方面,“书生·浦语”明显领先于LLaMA-65B和ChatGPT。浦语在初中和高中英语阅读理解中得分为92.7和88.9,⽽ChatGPT得分为85.6和81.2,LLaMA-65B则更低。

中文理解方面,“书生·浦语”的成绩全面超越主要的两个中文语言模型ERNIE-260B和GLM-130B。

多语翻译方面,“书生·浦语”在多语种互译中的平均得分为33.9,显著超越LLaMA(平均得分15.1)。

数学推理方面,“书生·浦语”在GSM8K和MATH这两项被广泛用于评测的数学考试中,分别取得62.9和14.9的得分,明显领先于Google的PaLM-540B(得分为56.5和8.8)与LLaMA-65B(得分为50.9和10.9)。

编程能力方面,“书生·浦语”在HumanEval和MBPP这两项最具代表性的考评中,分别取得28.1和41.4的得分(其中经过在代码领域的微调后,在HumanEval上的得分可以提升至45.7),明显领先于PaLM-540B(得分为 26.2和36.8)与LLaMA-65B(得分为23.7和37.7)。

此外,研究人员还对“书生·浦语”的安全性进行评测,在TruthfulQA(主要评价回答的事实准确性)以及CrowS-Pairs(主要评价回答是否含有偏见)上,“书生·浦语”均达到领先水平。


欢迎对大模型感兴趣的同学加入 OpenMMLab 团队,详情请戳:

OpenMMLab:OpenMMLab 浦视团队 | 2023 全球招聘

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/25720.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

各个AI模型写2023年广东高考作文大比拼

今天是一年一度的高考开始的日子,寒窗苦读十二年,剑指今朝。 作为过来人,当年的高考场景还历历在目。这里先预祝各位莘莘学子,高考正常发挥,旗开得胜,马到功成,考上心中理想的大学。 今天早上是…

大模型们参加2023高考了,成绩单已出炉

转载自 智源研究院量子位 | 公众号 QbitAI 2023 年高考成绩陆续出炉,我们也来看看各大语言模型的“高考成绩”如何? FlagEval 大模型评测团队从 2023年高考考卷中整理了 147 道客观题(其中语文 20道,英语 44道,历史 31…

商汤上海AI Lab的新中文LLM「书生·浦语」在高考中多项成绩优于ChatGPT

深度学习自然语言处理 分享来自:机器之心 今天,一年一度的高考正式拉开帷幕。 与往年不同的是,当全国考生奔赴考场的同时,还有一些大语言模型也成为了这场角逐中的特殊选手。 随着 AI 大语言模型越来越多地表现出接近人类智能&…

“超越”(MMCU)中文通用大语言模型测试集预发布

近期,中文大语言模型蓬勃发展,但却一直没有出现可应用于评测大模型能力的测试。甲骨易AI研究院提出一种衡量中文大模型处理多任务准确度的测试,并在此基础上制作了一套适配测试中文大模型的数据集,并将其命名为“超越”。 数据集的…

AI挑战高考作文-实测ChatGPT、Bing、文心一言

这两天高考逐渐落下了帷幕,对于普通人来说,高考仍然是为数不多的,可以改变命运的机会。想起自己的高考,已经是好多年前,那时候一个人去市里面参加考试,第一次睡在不熟悉的床上,痒了一晚上&#…

企业寻求并购股权转让过程中,这些问题其实可以避免

股权融资是指企业的股东愿意让出部分企业所有权,通过企业增资的方式引进新的股东的融资方式,总股本同时增加,股权融资所获得的资金,企业无需还本付息,但新股东与老股东同样企业的赢利与成长。在企业试图通过股权交易促…

大童保险发生工商变更:安信信托彻底退出,德弘资本晋升为大股东

近期,安信信托(600816.SH)所持大童保险销售服务有限公司(下称“大童保险”)的全部股权冻结被悉数解除,涉及的冻结权益数额为4978.1344万元,解冻日期为2021年11月24日。 据了解,这部分…

2021年度并购重组中介机构排名(独立财务顾问/律所/审计/评估)

2021年,证监会并购重组委召开了34次会议,上会公司共计41家,审核通过了36家公司的并购重组项目,其中无条件通过18家,有条件通过18家,未通过5家;创业板并购重组委召开了2次会议,审核的…

WPS事件是扼杀国产软件的阴谋?支持国产化,别让信创无路可走

编者按:WPS事件让信创国产化的重要性再一次暴露出来。本文通过WPS事件分析了发展软件国产化的重要性,并介绍了老厂商天翎低代码平台是如何在国产化这块实践的。 近日,“WPS 被曝会删除用户本地文件”事件甚嚣尘上,多数人都在指责W…

两大行业领导者合并,索理思以46亿美元完成收购泰华施

美通社消息,索理思,一家全球领先的水资源密集型行业特种化学品制造商,之前宣布对泰华施控股有限公司的收购,以约46亿美元全现金交易的形式完成,于7月5日生效。泰华施是一家领先的卫生、感染预防和清洁产品及解决方案供…

去年今日我凭借这份文档,摇身一变成了被BAT看中的幸运儿

我足够努力,当然也足够幸运。现在把这份文档和这份幸运分享给你们。 JVM 线程 JVM内存区域 JVM运行时内存 垃圾回收与算法 JAVA 四种引用类型 GC分代收集算法 VS 分区收集算法 GC垃圾收集器 JAVA IO/NIO JVM 类加载机制 由于篇幅限制小编,细节内…

《花雕学AI》24:如何用万能Prompt公式与ChatGPT进行高效的对话测试

引言 你是否想要与人工智能进行有趣、有价值、有说服力的对话?你是否想要使用ChatGPT这个强大而灵活的对话生成器来创造出任何类型和主题的对话?如果是这样,那么你需要了解一个简单而强大的工具,就是万能Prompt公式。 万能Promp…

【自然语言处理】【大模型】LaMDA:用于对话应用程序的语言模型

LaMDA:用于对话应用程序的语言模型 《LaMDA: Language Models for Dialog Applications》 论文地址:https://arxiv.org/abs/2201.08239 相关博客 【自然语言处理】【大模型】CodeGeeX:用于代码生成的多语言预训练模型 【自然语言处理】【大模…

微软开源 Visual ChatGPT,五天斩获两万 stars

除了大力投资 Open AI ,微软还亲自下场大搞 AI 。5 天前,微软开源了 Visual ChatGPT ,这个软件可以连接 ChatGPT 和一系列视觉模型,以实现在 ChatGPT 的聊天过程中发送和接收图像。 众所周知,尽管 ChatGPT 的功能非常强…

大模型混战,阿里百度华为谁将成就AI时代的“新地基”?

从算力基础到用户生态,群雄逐鹿大模型 自2022年stable diffusion模型的进步推动AIGC的快速发展后,年底,ChatGPT以“破圈者”的姿态,快速“吸粉”亿万,在全球范围内掀起了一股AI浪潮,也促使了众多海外巨头竞…

大模型竞逐,再造AI新格局

作者 | 辰纹 来源 | 洞见新研社 “面对AI时代,所有产品都值得用大模型重做一次。” 这是阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇在2023阿里云峰会上对AIGC(生成式AI)进化的判断,在这背后则是由ChatGPT为起始点&…

第六届云安全联盟大中华区大会:数字技术引领数字安全生态建设,成功举办!

第六届云安全联盟大中华区大会:数字技术引领数字安全生态建设,成功举办! 更多大会详情可微信搜索“国际云安全联盟公众号” 2023年4月13日,第六届云安全联盟大中华区大会(The 6th CSA GCR Congress)在上海…

语言大模型的进化轨迹

ChatGPT的发布是语言大模型(LLM)发展史的转折点,它让人们意识到LLM的潜力,并引发了“AI竞赛”,世界上主要人工智能实验室和初创公司都参与其中。在这之后,基于LLM的聊天机器人层出不穷。 ChatGPT及相关LLM模…

GPT-4 遭投诉要求禁用,OpenAI 为何成为众矢之的?

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) ChatGPT、GPT-4 的迅速“出圈”,让 OpenAI 一战成名,外界对这家公司的关注度达到了前所未有的高度。 然而, 欲戴王冠,必承其重。在如此前沿的技术到来之际…

无法拥抱新技术?吴 军:ChatGPT不算新技术革命,带不来什么新机会

转载自 | 学人Scholar 吴军,1967年出生,毕业于清华大学和约翰霍普金斯大学,计算机专业博士,前Google高级资深研究员、原腾讯副总裁、硅谷风险投资人。 4月3日晚上,得到直播间邀请到了计算机科学家、自然语言模型专家吴…