大模型们参加2023高考了,成绩单已出炉

转载自 智源研究院
量子位 | 公众号 QbitAI

2023 年高考成绩陆续出炉,我们也来看看各大语言模型的“高考成绩”如何?

1f611d72215b7c5c15d0cb83ea95d4b2.jpeg

FlagEval 大模型评测团队从 2023年高考考卷中整理了 147 道客观题(其中语文 20道,英语 44道,历史 31道,数学 9道,物理 8道,政治 21道,生物 14道)形成 Gaokao2023 V1.0 评测集

排除特殊符号等因素之后,通过 5-shot 方式对参数量相近的开源大语言模型进行评测,如悟道·天鹰 AquilaChat、Alpaca、Chinese-Alpaca、StableLM-tuned-alpha、MOSS、BELLE、ChatGLM等。

鉴于 2023 高考题 6 月初才发布,尚未进入模型训练数据集,此次测试结果能较为直接地反映模型的知识运用能力。

ChatGPT 毫无悬念得分最高,GPT-4 和 GPT-3.5-turbo 正确率分别为 60.4%、42.5%。

悟道·天鹰 AquilaChat-7B 在国内外参数量相近的SFT开源模型中表现亮眼,以 37.2% 正确率的综合成绩位居首位,接近 GPT-3.5-turbo 水平。

ChatGLM2-6BChinese-Alpaca 紧随其后,正确率分别为 25.5%、24.7%。

729cdf649a0ce00f1cfebce8e6503553.png

经SFT微调的模型与基础模型在能力侧重点上具有明显差异。

公平起见,仅对比经SFT微调后的语言模型。

1863c34a3cf3bfc2160983d6803b09c6.png

评测方式解释:

本次评测采用 5-shot 的 In-context 形式 prompt 作为输入,即在 Prompt 中给给出 5 个示例和答案作为 Context,最后附上一道评测题目,要求模型选择输出【A/B/C/D】中的正确选项,考察模型的 In-Context(上下文)学习能力和知识量。总成绩(TOTAL)为每个模型的 7 个学科成绩算数平均值。

从学科成绩中,还有几点有趣的发现:

  • AquilaChat 学科知识非常均衡,没有明显的短板,并且生物、物理成绩突出,正确率分别达到 50%、62.5%;

  • 相比英语成绩,所有模型的语文成绩普遍不高,AquilaChat 与 Chinese-Alpaca 以 15% 正确率并列第一,ChatGPT 的正确率也仅有 10% 。说明大模型在学习中文知识时难度较大,这对后续中英双语大模型训练提出了挑战。

这次针对2023高考的能力评测,主要对国内外7B量级开源大模型进行对比。7B 量级作为当前主流模型,因部署性价比高,广受产业欢迎。

“巨无霸”ChatGPT作为标志参照项,在“高考2023评测”等能力对比中依然“一览众山小”。

考虑到其在模型参数量、训练数据量方面的巨大差异,以 AquilaChat-7B 为代表的 7B 量级开源模型,依然实力不容小觑、未来可期!

目前尚未有公开信息

FlagEval 大语言模型评测榜单上新

Gaokao2023 V1.0(高考评测结果)已更新至 FlagEval 大语言模型评测榜单。我们将持续扩充题库能力,提升对模型评测结果的深入分析能力。

欢迎大模型研究团队评测申请:
flageval.baai.ac.cn

智源FlagEval大模型开放评测平台,创新构建了“能力-任务-指标”三维评测框架,划定了大语言模型的 30+ 能力维度,在任务维度集成了 20+ 个主客观评测数据集,不仅涵盖了知名的公开数据集 HellaSwag、MMLU、C-Eval 等,还增加了智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学与闽江学院共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集。更多维度的评测数据集也在陆续集成中。

527d4ebf64f190b9591df153a65b19d7.png

在最新 SFT 模型评测榜单中,AquilaChat 在“主观+客观”评测中排名第一。

据悉,悟道 · 天鹰 Aquila-7B基座模型及AquilaChat 对话模型最新版本权重已经更新至开源仓库,相比 6 月 9 日初始版本性能在常识推理、代码生成等维度,有了较高提升。目前可通过 FlagAI 开源项目或 FlagOpen 模型仓库下载权重。

GitHub:
https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

模型仓库:
https://model.baai.ac.cn/models

大咖云集,锚定新技术,稀土开发者大会主会场直播有奖预约中

2023 年稀土开发者大会主论坛议程出炉!主论坛演讲嘉宾分别是:火山引擎副总裁&字节跳动开源治理运营负责人张鑫、英特尔软件与先进技术事业部研发总监杨继国、Google Cloud 首席架构师于有志、LVS 创始人章文嵩、火山引擎边缘云资深架构师徐广治、北京大学王选计算机研究所教授、CCF 自然语言处理专委会秘书长万小军,他们将聚焦生成式 AI、云原生、边缘云、ChatGPT等热门话题,深入分析新技术给未来产业带来的挑战和机遇。

主会场还将为「掘金引力榜」的获奖项目和个人进行颁奖。点击扫码进入官网,点击直播间,即可参与评论互动与极米投影仪抽奖!

0fca20b7dd5937a296b9fdef61237935.png

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/25717.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

商汤上海AI Lab的新中文LLM「书生·浦语」在高考中多项成绩优于ChatGPT

深度学习自然语言处理 分享来自:机器之心 今天,一年一度的高考正式拉开帷幕。 与往年不同的是,当全国考生奔赴考场的同时,还有一些大语言模型也成为了这场角逐中的特殊选手。 随着 AI 大语言模型越来越多地表现出接近人类智能&…

“超越”(MMCU)中文通用大语言模型测试集预发布

近期,中文大语言模型蓬勃发展,但却一直没有出现可应用于评测大模型能力的测试。甲骨易AI研究院提出一种衡量中文大模型处理多任务准确度的测试,并在此基础上制作了一套适配测试中文大模型的数据集,并将其命名为“超越”。 数据集的…

AI挑战高考作文-实测ChatGPT、Bing、文心一言

这两天高考逐渐落下了帷幕,对于普通人来说,高考仍然是为数不多的,可以改变命运的机会。想起自己的高考,已经是好多年前,那时候一个人去市里面参加考试,第一次睡在不熟悉的床上,痒了一晚上&#…

企业寻求并购股权转让过程中,这些问题其实可以避免

股权融资是指企业的股东愿意让出部分企业所有权,通过企业增资的方式引进新的股东的融资方式,总股本同时增加,股权融资所获得的资金,企业无需还本付息,但新股东与老股东同样企业的赢利与成长。在企业试图通过股权交易促…

大童保险发生工商变更:安信信托彻底退出,德弘资本晋升为大股东

近期,安信信托(600816.SH)所持大童保险销售服务有限公司(下称“大童保险”)的全部股权冻结被悉数解除,涉及的冻结权益数额为4978.1344万元,解冻日期为2021年11月24日。 据了解,这部分…

2021年度并购重组中介机构排名(独立财务顾问/律所/审计/评估)

2021年,证监会并购重组委召开了34次会议,上会公司共计41家,审核通过了36家公司的并购重组项目,其中无条件通过18家,有条件通过18家,未通过5家;创业板并购重组委召开了2次会议,审核的…

WPS事件是扼杀国产软件的阴谋?支持国产化,别让信创无路可走

编者按:WPS事件让信创国产化的重要性再一次暴露出来。本文通过WPS事件分析了发展软件国产化的重要性,并介绍了老厂商天翎低代码平台是如何在国产化这块实践的。 近日,“WPS 被曝会删除用户本地文件”事件甚嚣尘上,多数人都在指责W…

两大行业领导者合并,索理思以46亿美元完成收购泰华施

美通社消息,索理思,一家全球领先的水资源密集型行业特种化学品制造商,之前宣布对泰华施控股有限公司的收购,以约46亿美元全现金交易的形式完成,于7月5日生效。泰华施是一家领先的卫生、感染预防和清洁产品及解决方案供…

去年今日我凭借这份文档,摇身一变成了被BAT看中的幸运儿

我足够努力,当然也足够幸运。现在把这份文档和这份幸运分享给你们。 JVM 线程 JVM内存区域 JVM运行时内存 垃圾回收与算法 JAVA 四种引用类型 GC分代收集算法 VS 分区收集算法 GC垃圾收集器 JAVA IO/NIO JVM 类加载机制 由于篇幅限制小编,细节内…

《花雕学AI》24:如何用万能Prompt公式与ChatGPT进行高效的对话测试

引言 你是否想要与人工智能进行有趣、有价值、有说服力的对话?你是否想要使用ChatGPT这个强大而灵活的对话生成器来创造出任何类型和主题的对话?如果是这样,那么你需要了解一个简单而强大的工具,就是万能Prompt公式。 万能Promp…

【自然语言处理】【大模型】LaMDA:用于对话应用程序的语言模型

LaMDA:用于对话应用程序的语言模型 《LaMDA: Language Models for Dialog Applications》 论文地址:https://arxiv.org/abs/2201.08239 相关博客 【自然语言处理】【大模型】CodeGeeX:用于代码生成的多语言预训练模型 【自然语言处理】【大模…

微软开源 Visual ChatGPT,五天斩获两万 stars

除了大力投资 Open AI ,微软还亲自下场大搞 AI 。5 天前,微软开源了 Visual ChatGPT ,这个软件可以连接 ChatGPT 和一系列视觉模型,以实现在 ChatGPT 的聊天过程中发送和接收图像。 众所周知,尽管 ChatGPT 的功能非常强…

大模型混战,阿里百度华为谁将成就AI时代的“新地基”?

从算力基础到用户生态,群雄逐鹿大模型 自2022年stable diffusion模型的进步推动AIGC的快速发展后,年底,ChatGPT以“破圈者”的姿态,快速“吸粉”亿万,在全球范围内掀起了一股AI浪潮,也促使了众多海外巨头竞…

大模型竞逐,再造AI新格局

作者 | 辰纹 来源 | 洞见新研社 “面对AI时代,所有产品都值得用大模型重做一次。” 这是阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇在2023阿里云峰会上对AIGC(生成式AI)进化的判断,在这背后则是由ChatGPT为起始点&…

第六届云安全联盟大中华区大会:数字技术引领数字安全生态建设,成功举办!

第六届云安全联盟大中华区大会:数字技术引领数字安全生态建设,成功举办! 更多大会详情可微信搜索“国际云安全联盟公众号” 2023年4月13日,第六届云安全联盟大中华区大会(The 6th CSA GCR Congress)在上海…

语言大模型的进化轨迹

ChatGPT的发布是语言大模型(LLM)发展史的转折点,它让人们意识到LLM的潜力,并引发了“AI竞赛”,世界上主要人工智能实验室和初创公司都参与其中。在这之后,基于LLM的聊天机器人层出不穷。 ChatGPT及相关LLM模…

GPT-4 遭投诉要求禁用,OpenAI 为何成为众矢之的?

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) ChatGPT、GPT-4 的迅速“出圈”,让 OpenAI 一战成名,外界对这家公司的关注度达到了前所未有的高度。 然而, 欲戴王冠,必承其重。在如此前沿的技术到来之际…

无法拥抱新技术?吴 军:ChatGPT不算新技术革命,带不来什么新机会

转载自 | 学人Scholar 吴军,1967年出生,毕业于清华大学和约翰霍普金斯大学,计算机专业博士,前Google高级资深研究员、原腾讯副总裁、硅谷风险投资人。 4月3日晚上,得到直播间邀请到了计算机科学家、自然语言模型专家吴…

ChatGPT 未来会拥有自我情感和思维吗?

目前人工智能领域的专家和学者普遍认为,即使在未来,也很难确切地预测人工智能是否会产生真正的自我情感和思维。虽然人工智能系统可以在某些任务上表现出人类智能的某些方面,但是它们仍然无法像人类一样真正地感受情感或自主思考。 在目前的…

微软受冷落:遭遇传统合作伙伴“大叛逃”

关于微软即将升级到win8.1系统是不是微软承认了自身的win8系统的失败的讨论还未远去。但是这根微软的PC合作伙伴的关系却貌似不怎么大。 虽然微软不管是传统PC还是移动互联领域都积极布局,但是依然遭遇传统合作伙伴的“叛逃”。 对于微软而言,未来可能没…