无需依赖闭源模型!司南CompassJudger为AI评测带来新选择

前沿科技速递🚀

近期,司南OpenCompass团队发布了一款开源的全能评价模型——CompassJudger。这是全球首个全能开源的 All-in-one Judge Model,不仅支持主流的双向对比(pair-wise)和单向评分(point-wise)评价方式,还具备详细的评价理由输出能力。尤其是 32B 版本,在评测准确率上已经达到了 GPT-4o 的 95% 以上。

来源:传神社区

01 CompassJudger简介

司南 OpenCompass 研究团队近日发布了全球首款开源的 All-in-one Judge Model —— CompassJudger。这款模型由多个不同尺寸的版本组成,包括 1.5B、7B、14B 和 32B,能够替代闭源模型,在模型评测方面表现出色。32B 版本甚至达到了 GPT-4o 95% 以上的主观评测能力。CompassJudger 是专为评估大语言模型(LLM)性能的多任务开源评测工具,具备独特的多任务和泛化能力,既能节省评测成本,也能在研究中广泛应用。

图片

02 CompassJudger 的独特之处

1. 全面支持多种评测任务,涵盖从简单评分到复杂分析

CompassJudger 不只是简单的评分工具,它可以执行从多回复选择到单条回复评分、复杂指令跟随、内容评价及多轮对话的多样化任务。这意味着它可以替代传统闭源模型,如 GPT-4o,不仅降低了评测成本,也提升了评测的透明性和复现性。在复杂的主观评价任务中,如帮助人类评估对话质量、推理准确性和指令完成度,CompassJudger 均表现出色。

2. JudgerBench 测试基准,确保评测准确性和一致性

为保证 CompassJudger 的性能和精准性,研究团队还构建了 JudgerBench,这是一个专门用于评价评测模型的多维度基准。JudgerBench 分为两部分:Arena 部分考察模型的基本判断能力,而 Benchmark 部分则衡量模型在特定任务上的评价一致性。JudgerBench 的中英文数据集涵盖了单轮与多轮对话、推理和指令跟随等类别,通过人工审核确保类别平衡,最大限度地模拟真实的评测场景。

图片

3. 数据来源多样,优化的训练策略

CompassJudger 使用了多种数据源训练,包括开源评价数据、自收集数据和奖励数据,为模型提供了全面的数据支持。其数据集经过精心的筛选和分类,优化了平衡采样策略以避免数据偏差。研究团队平衡了评价数据、奖励数据和通用 SFT 数据的比例,确保模型既能保持在特定任务的高性能表现,又具有较强的泛化能力。此外,团队还使用了 Qwen2.5-72B 等强力模型进行数据重新标注和预处理,进一步提升了数据质量。

图片

4. 超越多个主流开源模型,达成 GPT-4o 水准

CompassJudger 系列在多项评测任务中均达到了顶尖水平。其在 JudgerBench 和 RewardBench 的测试结果表明,CompassJudger 能有效评估中英文对话、数学推理、代码逻辑等多种类型的主观数据,特别是 32B 版本的评价性能已接近 GPT-4o,成为现有开源模型中的佼佼者。它在中英文领域的对话推理、指令准确性和复杂指令任务中表现尤为突出,满足科研和产品开发中的主观评测需求。

03 使用 CompassJudger 的三大好处

1. 节省成本,透明评测

相比商业化的闭源模型,CompassJudger 完全开源,降低了模型评测的成本,使学术界和产业界能够以更低的投入进行大规模评测。它为需要频繁测试的科研和产品团队提供了更高性价比的评测解决方案。

2. 提高评测效率,减少主观误差

CompassJudger 提供了详细的评测解释,能够对模型回复中的优劣项进行分析。例如在多轮对话场景下,CompassJudger 会识别每个模型的优缺点,帮助改进模型的生成能力,提供精准的优化指导。同时,CompassJudger 的结果可复现,使得评测更加可靠。

3. 推动社区研究,支持模型迭代

CompassJudger 的开源属性使得社区能够参与模型优化,推动评测模型的进一步发展。此外,CompassJudger 还能指出生成模型在特定任务或场景中的不足之处,为模型的持续迭代提供了有力支持。未来,CompassJudger 还将继续更新以适应新的评测需求,支持更多语言和评测场景。

04 模型下载

传神社区:

https://opencsg.com/collections/52/

huggingface:

https://huggingface.co/opencompass

技术报告:

https://arxiv.org/abs/2410.16256

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/457780.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软件工程--需求分析与用例模型

面向对象分析(ObjectOrientedAnalysis,简称OOA) 分析和理解问题域,找出描述问题域所需的类和对象,分析它们的内部构成和外部关系,建立独立于实现的OOA模型,暂时忽略与系统实现有关的问题。 主要使用UML中的以下几种图…

全球知名度最高的华人起名大师颜廷利:世界顶级思想哲学教育家

全国给孩子起名最好的大师颜廷利教授在其最新的哲学探索中,提出了《升命学说》这一前沿理论观点,该理论不仅深刻地回应了古今中外众多哲学流派和思想体系的精髓,还巧妙地融合了实用主义、理想主义以及经验主义的核心理念。通过这一独特的视角…

我准备写一份Stable Diffusion入门指南-part1

我准备写个SD自学指南,当然也是第一次写,可能有点凌乱,后续我会持续更新不断优化,我是生产队的驴,欢迎监督。 Stable Diffusion WebUI 入门指南 Stable Diffusion WebUI 是一款基于 Stable Diffusion 模型的用户界面…

力扣 中等 740.删除并获得点数

文章目录 题目介绍题解 题目介绍 题解 由题意可知,在选择了数组中元素 a 后,该元素以及所有等于 a−1 和 a1 的元素都会从数组中删去,并获得 a 的点数。若还有多个值为 a的元素,由于所有等于 a−1 或 a1 的元素已经被删除&#x…

三种材料的金相图及金相图解析材料

3. 二.不同温度下三种材料(铸铁,铝,低碳钢)的低温脆性,相关材料,文献引用 三.三种材料在汽车制造中可能的应用 (如捷豹用铝合金降低车身重量).三种材料哪个材…

Linux: Shell编程入门

Shell 编程入门 1 ) Shell 概念 shell 是 在英语中 壳, 外壳的意思可以把它想象成嵌入在linux这样的操作系统里面的一个微型的编程语言不像C语言, C 或 Java 等编程语言那么完整,它可以帮我们完成很多自动化任务例如保存数据监测系统的负载等等,我们同样…

AI博士人手10篇顶会,遭质疑。。。

B站:啥都会一点的研究生公众号:啥都会一点的研究生 AI科技圈又发生了啥新鲜事? “稚晖君”灵犀X1全球开源,推动人形机器人技术共享 智元机器人宣布其人形机器人灵犀X1正式面向全球开源,提供了超过1.2GB的软硬件全套…

【LeetCode】11.盛最多水的容器

思路: 利用双指针法进行移动,一个在头一个在尾,此时宽度最宽,当宽度缩小时,高度发生变化,从而可以找到最大值。 代码: int maxArea(int* height, int heightSize) {int* left height;int* …

android——渐变色

1、xml的方式实现渐变色 效果图&#xff1a; xml的代码&#xff1a; <?xml version"1.0" encoding"utf-8"?> <shape xmlns:android"http://schemas.android.com/apk/res/android"xmlns:tools"http://schemas.android.com/tools…

Java常见数据结构

数组 数组的特性存储空间是连续的长度是不可变的只能存储 相同的类型(不严谨)可以通过下标访问数组的内容 a[10] 复杂度是O1每个元素的默认是为零值 0 null false -> 一个对象的基本的数据域的初始化也是这样的 Student 类中的username属性 默认值 链表 查找麻烦 插入和删…

logback日志导入使用

1导入配置 <!-- 日志 &#xff0c; 会自动传递slf4j门面--> <dependency><groupId>ch.qos.logback</groupId><artifactId>logback-classic</artifactId><version>1.2.3</version> </dependency>2 引入配置 Logback要求…

开源实时数仓的构建

设计计思路 基本思路 开源数据平台的设计思路是通过 Flink SQL Batch、StartRocks SQL 、StartRocks物化视图 的能力实现一个离线任务的开发&#xff1b;使用 DolphinScheduler 进行离线工作流编排和调度&#xff1b;通过 Flink CDC 和 Flink SQL 实现流处理能力&#xff0c;进…

HarmonyOS 相对布局(RelativeContainer)

1. HarmonyOS 相对布局&#xff08;RelativeContainer&#xff09; 文档中心:https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V5/arkts-layout-development-relative-layout-V5   RelativeContainer为采用相对布局的容器&#xff0c;支持容器内部的子元素设…

【C++】—— 模板进阶

【C】—— 模板进阶 1 非类型模板参数1.1 什么是非类型模板参数1.2 非类型模板参数对比宏的优势1.3 array 简单了解 2 模板的特化2.1 引子2.2 函数模板特化2.3 函数模板特化的坑2.4 类模板的特化2.4.1 全特化2.4.2 偏特化&#xff08;半特化&#xff09;2.4.3 选择2.4.4 偏特化…

英伟达GPU算力【自用】

GPU&#xff08;图形处理单元&#xff09;算力的提升是驱动当代科技革命的核心力量之一&#xff0c;尤其在人工智能、深度学习、科学计算和超级计算机领域展现出了前所未有的影响力。2024年的GPU技术发展&#xff0c;不仅体现在游戏和图形处理的传统优势上&#xff0c;更在跨行…

unity项目导出安卓工程后,在AndroidStudio打包报错:unityLibrary:BuildIl2CppTask‘.

下面这个是我在unity开发者社区提问后&#xff0c;他们回答得&#xff1a; 解决方案&#xff1a;我这边按照这几个方案检查了下&#xff0c;NDK和JDK都没问题&#xff0c;最后重启电脑才解决的&#xff0c;应该是文件被锁定了&#xff0c;我用的windows系统的。 验证&#xff…

书生第四期作业:L0G1000 任务作业

永不止步&#xff0c;空杯心态&#xff0c;从零开始&#xff0c;复习一下&#xff0c;争取完成全部任务 SSH登录 PowerShell命令行登录成功 VScode SSH登录成功 进入root文件夹 闯关任务&#xff1a;映射运行hello_world.py 可选任务1&#xff1a;linux命令行基本命令过一边 …

【WPF】中Dispatcher的DispatcherPriority参数使用

在 WPF 中&#xff0c;DispatcherPriority 参数用于指定通过 Dispatcher 调度的操作的执行优先级。加入 DispatcherPriority 参数的情况通常取决于你希望操作何时以及如何被执行。 1.Dispatcher的DispatcherPriority参数使用 以下是几种情况和示例说明&#xff1a; 1.1 需要…

C++——String类讲解

一. 为什么学习string类&#xff1f; C语言中&#xff0c;字符串是以\0结尾的一些字符的集合&#xff0c;为了操作方便&#xff0c;C标准库中提供了一些str系列 的库函数&#xff0c;但是这些库函数与字符串是分离开的&#xff0c;不太符合OOP的思想&#xff0c;而且底层空间需…

【C语言刷力扣】1768.交替合并字符串

题目&#xff1a; 解题思路&#xff1a; 将 word1 和 word2 元素依次添加至 ans 的后面。 时间复杂度&#xff1a; &#xff0c; n是word1的长度 m是word2的长度 空间复杂度&#xff1a; char* mergeAlternately(char* word1, char* word2) {int len1 strlen(word1);in…