大模型评测指标集
- (☆)SuperCLUE
- (1)SuperCLUE-V(中文原生多模态理解测评基准)
- (2)SuperCLUE-Auto(汽车大模型测评基准)
- (3)AIGVBench-T2V(文生视频基准测评)
- (4)SuperCLUE-Coder(代码助手测评基准)
- (5)SuperCLUE-RAG(中文原生检索增强生成测评基准)
- (6)SuperCLUE-Agent(Agent能力测评基准)
- (7)SuperCLUE-Image(中文原生文生图测评基准)
- (8)“巢燧”(大模型测评基准)
(☆)SuperCLUE
- CLUE官网: https://www.CLUEBenchmarks.com
- SuperCLUE排行榜网站: https://www.superclueai.com
- Github地址: https://github.com/CLUEbenchmark/SuperCLUE
(1)SuperCLUE-V(中文原生多模态理解测评基准)
- 推荐文章: SuperCLUE-V: 中文原生多模态理解测评基准
- 项目地址: https://github.com/CLUEbenchmark/SuperCLUE-V
(2)SuperCLUE-Auto(汽车大模型测评基准)
- 推荐文章: SuperCLUE-Auto:首个汽车行业中文大模型测评基准发布
- 项目地址: https://github.com/CLUEbenchmark/SuperCLUE-auto
(3)AIGVBench-T2V(文生视频基准测评)
- 推荐文章: AIGVBench文生视频测评首期结果公布,1000个AI视频对比,最高72.9分,Luma仅第3
- AIGVBench登录页: www.AIGVBench.com
(4)SuperCLUE-Coder(代码助手测评基准)
- 推荐文章: 代码助手测评」启动,SC-Coder测评方案公布
(5)SuperCLUE-RAG(中文原生检索增强生成测评基准)
- 推荐文章: 中文RAG检索增强生成榜单出炉!仅有一家刚刚及格
- 项目地址: https://github.com/CLUEbenchmark/SuperCLUE-RAG
(6)SuperCLUE-Agent(Agent能力测评基准)
- 推荐文章: SuperCLUE-Agent: Agent智能体中文原生任务能力测评基准
- 项目地址: https://github.com/CLUEbenchmark/SuperCLUE-Agent
(7)SuperCLUE-Image(中文原生文生图测评基准)
- 推荐文章: 文生图大模型基准测评首期榜单公布,DALL-E 3取得最高76.94分
- 项目地址: https://github.com/CLUEbenchmark/SuperCLUE-Image
(8)“巢燧”(大模型测评基准)
- 推荐文章: “巢燧”大模型基准综合评测:国内大模型中文能力首超GPT-4,多个中文大模型超过GPT-3.5
- 项目地址: http://openeval.org.cn/