【AIGC评测体系】大模型评测指标集

大模型评测指标集

    • (☆)SuperCLUE
    • (1)SuperCLUE-V(中文原生多模态理解测评基准)
    • (2)SuperCLUE-Auto(汽车大模型测评基准)
    • (3)AIGVBench-T2V(文生视频基准测评)
    • (4)SuperCLUE-Coder(代码助手测评基准)
    • (5)SuperCLUE-RAG(中文原生检索增强生成测评基准)
    • (6)SuperCLUE-Agent(Agent能力测评基准)
    • (7)SuperCLUE-Image(中文原生文生图测评基准)
    • (8)“巢燧”(大模型测评基准)

(☆)SuperCLUE

  • CLUE官网: https://www.CLUEBenchmarks.com
  • SuperCLUE排行榜网站: https://www.superclueai.com
  • Github地址: https://github.com/CLUEbenchmark/SuperCLUE
Panda

(1)SuperCLUE-V(中文原生多模态理解测评基准)

  • 推荐文章: SuperCLUE-V: 中文原生多模态理解测评基准
  • 项目地址: https://github.com/CLUEbenchmark/SuperCLUE-V
Panda

(2)SuperCLUE-Auto(汽车大模型测评基准)

  • 推荐文章: SuperCLUE-Auto:首个汽车行业中文大模型测评基准发布
  • 项目地址: https://github.com/CLUEbenchmark/SuperCLUE-auto
Panda

(3)AIGVBench-T2V(文生视频基准测评)

  • 推荐文章: AIGVBench文生视频测评首期结果公布,1000个AI视频对比,最高72.9分,Luma仅第3
  • AIGVBench登录页: www.AIGVBench.com
Panda

(4)SuperCLUE-Coder(代码助手测评基准)

  • 推荐文章: 代码助手测评」启动,SC-Coder测评方案公布
Panda

(5)SuperCLUE-RAG(中文原生检索增强生成测评基准)

  • 推荐文章: 中文RAG检索增强生成榜单出炉!仅有一家刚刚及格
  • 项目地址: https://github.com/CLUEbenchmark/SuperCLUE-RAG
Panda

(6)SuperCLUE-Agent(Agent能力测评基准)

  • 推荐文章: SuperCLUE-Agent: Agent智能体中文原生任务能力测评基准
  • 项目地址: https://github.com/CLUEbenchmark/SuperCLUE-Agent
Panda

(7)SuperCLUE-Image(中文原生文生图测评基准)

  • 推荐文章: 文生图大模型基准测评首期榜单公布,DALL-E 3取得最高76.94分
  • 项目地址: https://github.com/CLUEbenchmark/SuperCLUE-Image
Panda
Panda

(8)“巢燧”(大模型测评基准)

  • 推荐文章: “巢燧”大模型基准综合评测:国内大模型中文能力首超GPT-4,多个中文大模型超过GPT-3.5
  • 项目地址: http://openeval.org.cn/
Panda

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/367545.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【python - 数据】

一、序列 序列(sequence)是一组有顺序的值的集合,是计算机科学中的一个强大且基本的抽象概念。序列并不是特定内置类型或抽象数据表示的实例,而是一个包含不同类型数据间共享行为的集合。也就是说,序列有很多种类&…

Python数据可视化书籍推荐:利用Python进行数据分析

《利用Python进行数据分析》 这本书几乎是数据分析入门必读书了 主要介绍了python 3个库numpy(数组),pandas(数据分析)和matplotlib(绘图)的学习 阅读本书可以获得一份关于在Python下操作、处…

2024“国培“来也UiBot6.0 RPA数字机器人开发综合应用

前言 (本博客中会有部分课程ppt截屏,如有侵权请及请及时与小北我取得联系~) 国培笔记: 依次读取数组中每个元素 输出调试信息 [ value=[ "vivian", value[0] "老师", "上午好,O(∩_∩)O哈哈~" ], v…

Ozon、美客多补单测评黑科技:打造无懈可击的自养号补单环境

不管哪个跨境平台的风控都会做升级,相对的补单技术也需要进行相应的做升级,风控升级后,自己养号补单需要注意以下技术问题,以确保补单的稳定性和安全性: 一、物理环境 1. 硬件参数伪装:平台已经开始通过I…

在手机上也能开发软件?而且只需要用几句话就可以自动生成一个应用!

随着人工智能技术的飞速发展,软件开发的门槛正在迅速降低。 曾几何时,开发一款软件需要精通编程语言和掌握复杂的开发工具,而如今,只需几句话的描述,便能在手机上轻松开发出功能齐全的软件。 这一切的背后&#xff0…

Steam夏促怎么注册 Steam夏促账号注册教程

随着夏日的炙热渐渐充斥着每一个角落,Steam平台也赶来添热闹,推出了一系列让人眼前一亮的夏季促销活动。如果你也是游戏爱好者,我们肯定不能错过这次的steam夏促。正直本次夏日促销有着很多的游戏迎来史低和新史低,有各种各样的游…

VSCode里python代码不扩展/级联了的解决办法

如图 解决办法:重新下载新的扩展工具 步骤如下 1、在左边工具栏打开Extensions 2、搜索框输入python,选择别的扩展工具,点击Install - 3在扩展工具所在的目录下,新建一个文件,就可以用了

如何通过指纹浏览器使用代理IP?

1.指纹浏览器定义 指纹浏览器是 一种浏览器技术,它根据用户设备的硬件、软件和配置等特征生成唯一标识符(称为“指纹”)。此指纹用于识别和追踪用户身份,即使用户更改其 IP 地址或清除浏览器数据(如缓存和 Cookie&…

PyCharm远程开发

PyCharm远程开发 1- 远程环境说明 每个人的本地电脑环境差别很大。各自在自己电脑上开发功能,测试/运行正常。但是将多个人的代码功能合并,运行服务器上,会出现各种版本兼容性问题。 在实际企业中,一般会有两套环境。第一套是测…

Jenkins教程-13-参数化任务构建

上一小节我们学习了发送html邮件测试报告的方法,本小节我们讲解一下Jenkins参数化任务构建的方法。 很多时候我们需要根据不同的条件去执行构建,如自动化测试中执行test、stg、prod环境的构建,Jenkins是支持参数化构建的。 以下是Jenkins官…

【C++】using namespace std 到底什么意思

📢博客主页:https://blog.csdn.net/2301_779549673 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正! 📢本文作为 JohnKi 的学习笔记,引用了部分大佬的案例 📢未来很长&a…

【C++】多态详解

💗个人主页💗 ⭐个人专栏——C学习⭐ 💫点击关注🤩一起学习C语言💯💫 目录 一、多态概念 二、多态的定义及实现 1. 多态的构成条件 2. 虚函数 2.1 什么是虚函数 2.2 虚函数的重写 2.3 虚函数重写的两个…

实战项目——用Java实现图书管理系统

前言 首先既然是管理系统,那咱们就要实现以下这几个功能了--> 分析 1.首先是用户分为两种,一个是管理员,另一个是普通用户,既如此,可以定义一个用户类(user),在定义管理员类&am…

哈哈看到这条消息感觉就像是打开了窗户

在这个信息爆炸的时代,每一条动态可能成为我们情绪的小小触发器。今天,当我无意间滑过那条由杜海涛亲自发布的“自曝式”消息时,不禁心头一颤——如果这是我的另一半,哎呀,那画面,简直比烧烤摊还要“热辣”…

多微信运营管理方案

微信作为一款社交通讯软件,已经成为人们日常生活中不可缺少的工具。不仅个人,很多企业都用微信来联系客户、维护客户和营销,这自然而然就会有很多微信账号、手机也多,那管理起来就会带来很多的不便,而多微信私域管理系…

K8s的基本使用和认识

目录 介绍 控制端 Node(节点) 控制端与节点的关系图 基本使用 创建和运行资源 查找和参看资源 修改和删除资源 介绍 控制端 api-server(api)是集群的核心是k8s中最重要的组件,因为它是实现声明式api的关键 kubernetes api-server的核心功能是提供了Kubernetes各类资…

7.6、指针和数组

代码 #include <iostream> using namespace std;int main() {//指针和数组//利用指针访问数组中的元素int arr[10] { 1,2,3,4,5,6,7,8,9,10 };cout << "第一个元素为&#xff1a;" << arr[0] << endl;int * p arr;//arr就是数组首地址co…

Python爬取国家医保平台公开数据

国家医保服务平台数据爬取python爬虫数据爬取医疗公开数据 定点医疗机构查询定点零售药店查询医保机构查询药品分类与代码查询 等等&#xff0c;数据都能爬 接口地址&#xff1a;/ebus/fuwu/api/nthl/api/CommQuery/queryFixedHospital 签名参数&#xff1a;signData {dat…

中国国产AI芯片的崛起

一、CUDA的垄断 当讨论半导体行业面临的挑战时&#xff0c;你首先想到的是什么&#xff1f;光刻机&#xff1f;3纳米或者5纳米技术&#xff1f;我们无法生产的完美方形芯片&#xff1f;是的&#xff0c;但也不完全是。 人们经常把半导体芯片归类为硬件产业&#xff0c;但实际上…

Vue3的模板语法插值表达式用法

在template中输入“5 3” &#xff0c;是没有运算能力的&#xff0c;只会把字符直接显示出来&#xff0c;代码如下&#xff1a; <template><view>这是demo</view><view>5 3</view><navigator open-type"navigateBack"><vi…