7月最新大模型排名!3700道保密试题、20个大模型参与评测|SuperCLUE

7月最新大模型排名!3700道保密试题、20个大模型参与评测|SuperCLUE

CLUE中文语言理解测评基准 

中文通用大模型综合性评测基准SuperCLUE 

2023年7月榜单

7月25日,SuperCLUE发布大模型7月榜单。

SuperCLUE: A Benchmark for Foundation Models in Chinese

图片

图片

SuperCLUE-Opt评测榜单

SuperCLUE-Opt评测基准是SuperCLUE综合性三大基准之一,每期有3700+道客观题(选择题),由基础能力(10个子任务)、中文特性能力(10个子任务)、学术专业能力(50+子任务)组成,用于考察大模型在70余个任务上的综合表现。

图片

7月榜单由4部分组成:总排行榜、基础能力榜单、中文特性榜单、开源模型榜单。

2023年7月SuperCLUE-Opt中文大模型总排行榜:

图片

注:国外代表性非开源模型(GPT4.0/Claude/gpt-3.5)参与榜单,但不参与排名

2023年7月SuperCLUE-Opt基础能力榜单:

图片

注:国外代表性非开源模型(GPT4.0/Claude/gpt-3.5)参与榜单,但不参与排名

2023年7月SuperCLUE-Opt中文特性榜单:

图片

注:国外代表性非开源模型(GPT4.0/Claude/gpt-3.5)参与榜单,但不参与排名

2023年7月SuperCLUE-Opt开源模型榜单:

图片

SuperCLUE认为榜上有名的都是英雄。

温馨提醒,此榜单仅用于学术研究,不作为投资建议。

排行榜会定期更新,可访问:

https://www.cluebenchmarks.com

https://github.com/CLUEbenchmark/SuperCLUE

图片

SuperCLUE7月评测变动

7月榜单有一些重要变动:

1. 增加了Claude-2、百川智能的Baichuan-13B-Chat、清华&智谱AI的ChatGLM2-6B、 上海人工智能实验室&商汤科技的internlm-chat-7b(书生浦语)、Meta新开源的Llama-2-13B-Chat

具体模型来源及版本信息,请访问:

https://github.com/CLUEbenchmark/SuperCLUE

2. 7月评测数据集与5、6月评测数据集完全独立,数量级为3728道测试题。

3. 新增开源模型榜单,方便中文社区开发者对比使用,并突出称赞各模型研发机构对于开源事业的贡献。

图片

SuperCLUE是什么?

SuperCLUE是中文通用大模型综合性评测基准,由三大基准组成,分别是:

一、SuperCLUE-Opt:客观题测试形式,三大能力+七十余子任务

详情点击文章:最新大模型排名!中文大模型评测基准SuperCLUE发布6月榜单

二、SuperCLUE-Open:主观题形式, 十大基础任务,可测开放域、多轮能力

详情点击文章:首测生成、多轮对话能力!SuperCLUE-Open中文大模型开放域测评基准发布

三、SuperCLUE-LYB琅琊榜:用户投票的匿名对战形式,也是本文发布的基准

详情点击文章:大模型对战平台「SuperCLUE琅琊榜」排名首发,国内大模型首超GPT3.5

SuperCLUE具有独特的优势

  • 保密性高:

SuperCLUE数据集保密性高,减少模型训练数据混入评测数据的可能性

  • 月考制:

SuperCLUE按照月考的形式进行评测,基于国内大模型研发机构的模型训练进度,模型月考与模型研发节奏保持同步。

  • 自动测评:

通过自动化测评方式以相对客观形式测试不同模型的效果,可以一键对大模型进行测评。

  • 模型范围宽泛:

选取了多个国内外有代表性的可用的模型进行测评,以反映国内大模型的发展现状并了解与国际领先模型的差距或相对优劣势。

  • 人类基准:

在通用人工智能发展的情况下,也提供了模型相对于人类效果的指标对比。

SuperCLUE不足与局限

  1. 选取模型的不完全:我们测试了一部分模型,但还存在着更多的可用中文大模型。需要后续进一步添加并测试;有的模型由于没有广泛对外提供服务,我们没能获取到可用的测试版本。

  2. 选取的能力范围:我们尽可能的全面、综合衡量模型的多维度能力,但是可能有一些模型能力没有在我们的考察范围内。后续也存在扩大考察范围的可能。

图片

SuperCLUE基准计划按照月度进行更新,会纳入更多可用中文大模型,欢迎大模型研发机构联系与交流,可在下方申请评测。

SuperCLUE榜单大模型评测申请:https://wj.qq.com/s2/12305633/a73d/

模型内测需求收集(非公开):https://wj.qq.com/s2/12307825/2ae0/

Github地址:https://github.com/CLUEbenchmark/SuperCLUE

CLUE官网:https://www.cluebenchmarks.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/44877.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2022春招,算法岗最全面试攻略,吃透28个必问题直接速通大厂

算法是比较复杂又基础的学科,每个学编程的人都会学习大量的算法。而根据统计,以下这28个问题是面试中最容易遇到的,本文给出了一些基本答案,供算法方向工程师或对此感兴趣的程序员参考。 除了文章提到的这些题目之外我还整理了很多…

新鲜出炉的 NLP 算法岗社招面试经验分享

最近终于做好了选择,决定从杭州“搬迁”到了上海,一切安顿好之后,终于有功夫可以好好整理一下近期面试遇到的一些问题以及自己的一些小经验啦,希望对同样有跳槽需求的同行小伙伴们有些小小的帮助。 【注】文末提供面试技术交流群…

【算法岗面试】某小厂V面试题

文章目录 一、关于Bert模型以及蒸馏的问题:1.1 蒸馏的思想,为什么要蒸馏?1.2 蒸馏中的学生模型是?1.3 有哪些蒸馏方式?1.4 Bert 的输入是什么?1.5 字向量的 embedding 怎么训练得到的? 二、关于 transform…

2022秋招,算法岗最全面试攻略,吃透28个必问题直接速通大厂

算法是比较复杂又基础的学科,每个学编程的人都会学习大量的算法。而根据统计,以下这28个问题是面试中最容易遇到的,本文给出了一些基本答案,供算法方向工程师或对此感兴趣的程序员参考。 除了文章提到的这些题目之外我还整理了很多…

算法岗面试题目汇总

目录 阿里巴巴一面 阿里巴巴二面 oppo一面 笨鸟科技 京东二面: 算法题: 阿里巴巴一面 特征值怎么去除掉行业和市值的影响?去残差是什么意思? cnn的那个项目数据处理是怎么做的? 卷积神经网络预测股票走势项目内…

大数据岗位和算法岗,面试官最爱问的10大问题

目录 1. 什么是数据结构? 2. 描述数据结构的类型? 3. 什么是线性数据结构?举例说明 4. 数据结构有哪些应用? 5、文件结构和存储结构有什么区别? 6、什么是多维数组? 7. 什么是链表数据结构&#xf…

量化岗经典面试题——赛马

本文源自:微信公众号QuantJob https://mp.weixin.qq.com/s/pO_6ZGKzCcNr2IJN7fH74A 有25匹马,每匹都以不同于其它马的恒定速度奔跑。由于赛道只有5条,每场比赛最多可有5匹马。如果你需要找3匹跑得最快的马,需要多少场比赛才能找…

算法岗必须人手一篇顶会?超详细面经:无论文、无实习拿下腾讯CV算法岗

点击上方“迈微AI研习社”,选择“星标★”公众号 重磅干货,第一时间送达 从迈微社友群中了解到,很多社友还是在校学生,并且有好些同学现在面临求职的阶段,特向大家推荐清雨卢同学的历程总结,应该会给大家一…

2019算法岗面试经验汇总

作者:太蔡了来源:牛客网,Jerry的算法和NLP 背景:211本,C9硕,都是非科班。主要投CV的算法岗,无竞赛,无论文,两-三个实验室CV相关项目,一段旷视的暑期实习经历。…

腾讯148道面试题,(程序员必备学习方向)全会拿45Koffer没问题

相信你可能经历过这些: 已经工作两三年了,每个项目都会加班加点全力以赴去完成,薪资增长幅度却不如人意。 听说年后离职的老同事,金三刚拿下高薪offer,年薪直奔50万了。 由于现在的公司接触不到新技术,对自…

九龙证券|地产股突然爆发!李蓓再度公开唱多,北上资金却在减持

李蓓又发声了,继续看好地产股! 4月7日,明星私募基金经理李蓓在半夏出资官微发文,就地产职业和地产股出资时机共享了她的最新观念。李蓓以为,地产职业在阅历供应侧变革后,未来在供需层面存在剪刀差&#xff…

金标股份冲刺A股上市:计划募资约6亿元,许光荣为董事长

近日,上海金标文化创意股份有限公司(下称“金标股份”)递交招股书,准备在深圳证券交易所主板上市。本次冲刺上市,金标股份计划募资5.96亿元,东方证券为其保荐机构。 据招股书介绍,金标股份是一…

股东刚减持,股价却起飞?用Python量化A股解禁数据,利空出尽是利好? | 邢不行

2019年6月11日,宁德时代上市一周年之际,有45%的股票迎来了解禁。 这些由大股东、高管、早期投资者持有的股份,原先无法交易,但从这一天起就可以自由卖出了。 很多人出于对解禁后巨大卖盘的担忧纷纷提前卖出,导致宁德时…

【雅思口语】安娜口语学习记录 Part2

第二部分:主题卡片陈述 在这一部分,考官会递给考生一张主题卡片,卡片上附有问题和相关观点。拿到卡片后,考生有一分钟时间准备,同时可以在提供的草纸上作笔记(不可以拿出考场)。 然后,考生应该就所给的话题…

AI 大牛颜水成,加入智源研究院,正组建一支超强神秘团队

作者 | 李梅 编辑 | 陈彩娴 来源:AI科技评论 据智源研究院消息,近日,原Sea集团首席科学家颜水成已离职,加入智源研究院,任访问首席科学家。 目前,在颜水成的个人主页上,他正发出人才邀请&#x…

人工智能发展月报(2023年4月)

本报告依托科技情报大数据挖掘与服务系统平台AMiner、新闻事件分析挖掘和搜索系统NewsMiner,以及人工智能主流新闻网站及公众号,从AI学术会议、重大科研进展、人物动态、最新报告发布等角度,分析挖掘了每月人工智能领域所发生的、对AI领域技术…

怪异盒模型 border-box 真的“一无是处”吗?

前端Q 我是winty,专注分享前端知识和各类前端资源,乐于分享各种有趣的事,关注我,一起做个有趣的人~ 公众号 点击上方 前端Q,关注公众号 回复加群,加入前端Q技术交流群 image.png 我们都知道有两…

机器学习入门篇

AI入门 故事 图灵测试 测试者和被测试者(人和机器) 隔开,通过一些装置互相随意提问,如果(5min内)超过30%的测试者不能确定是人还是机器,那么这台机器就认为具有人类智能。 达特茅斯会议-人工智…

Midjourney V5 与 V4 哪个更好?综合评测,Prompt 全公开!

【CSDN 编者按】最近 AI 绘画工具新版本 Midjourney V5 一经发布,便火爆朋友圈,今天我们就来评测一下 V5 与 V4 的区别~ 原文链接:https://medium.com/catmus2048/midjourney-v5-%E6%AF%94-v4-%E6%9B%B4%E5%A5%BD%E5%90%97-%E7%BB%BC%E5%90%8…

游戏陪玩系统源码中聊天室内礼物系统的实现

游戏陪玩系统源码中聊天室的礼物系统,第一步用户看到的无外乎都是礼物的列表界面 纵观主流聊天室的礼物列表应该都是使用UICollectionView实现的,所以我也不例外,下面就是各种撸代码.效果如下 看着效果还不错吧.但是但是我突然发现一个问题.游戏陪玩系统源码中礼物展示的顺序跟…