前沿科技速递🚀
近期,司南OpenCompass团队发布了一款开源的全能评价模型——CompassJudger。这是全球首个全能开源的 All-in-one Judge Model,不仅支持主流的双向对比(pair-wise)和单向评分(point-wise)评价方式,还具备详细的评价理由输出能力。尤其是 32B 版本,在评测准确率上已经达到了 GPT-4o 的 95% 以上。
来源:传神社区
01 CompassJudger简介
司南 OpenCompass 研究团队近日发布了全球首款开源的 All-in-one Judge Model —— CompassJudger。这款模型由多个不同尺寸的版本组成,包括 1.5B、7B、14B 和 32B,能够替代闭源模型,在模型评测方面表现出色。32B 版本甚至达到了 GPT-4o 95% 以上的主观评测能力。CompassJudger 是专为评估大语言模型(LLM)性能的多任务开源评测工具,具备独特的多任务和泛化能力,既能节省评测成本,也能在研究中广泛应用。
02 CompassJudger 的独特之处
1. 全面支持多种评测任务,涵盖从简单评分到复杂分析
CompassJudger 不只是简单的评分工具,它可以执行从多回复选择到单条回复评分、复杂指令跟随、内容评价及多轮对话的多样化任务。这意味着它可以替代传统闭源模型,如 GPT-4o,不仅降低了评测成本,也提升了评测的透明性和复现性。在复杂的主观评价任务中,如帮助人类评估对话质量、推理准确性和指令完成度,CompassJudger 均表现出色。
2. JudgerBench 测试基准,确保评测准确性和一致性
为保证 CompassJudger 的性能和精准性,研究团队还构建了 JudgerBench,这是一个专门用于评价评测模型的多维度基准。JudgerBench 分为两部分:Arena 部分考察模型的基本判断能力,而 Benchmark 部分则衡量模型在特定任务上的评价一致性。JudgerBench 的中英文数据集涵盖了单轮与多轮对话、推理和指令跟随等类别,通过人工审核确保类别平衡,最大限度地模拟真实的评测场景。
3. 数据来源多样,优化的训练策略
CompassJudger 使用了多种数据源训练,包括开源评价数据、自收集数据和奖励数据,为模型提供了全面的数据支持。其数据集经过精心的筛选和分类,优化了平衡采样策略以避免数据偏差。研究团队平衡了评价数据、奖励数据和通用 SFT 数据的比例,确保模型既能保持在特定任务的高性能表现,又具有较强的泛化能力。此外,团队还使用了 Qwen2.5-72B 等强力模型进行数据重新标注和预处理,进一步提升了数据质量。
4. 超越多个主流开源模型,达成 GPT-4o 水准
CompassJudger 系列在多项评测任务中均达到了顶尖水平。其在 JudgerBench 和 RewardBench 的测试结果表明,CompassJudger 能有效评估中英文对话、数学推理、代码逻辑等多种类型的主观数据,特别是 32B 版本的评价性能已接近 GPT-4o,成为现有开源模型中的佼佼者。它在中英文领域的对话推理、指令准确性和复杂指令任务中表现尤为突出,满足科研和产品开发中的主观评测需求。
03 使用 CompassJudger 的三大好处
1. 节省成本,透明评测
相比商业化的闭源模型,CompassJudger 完全开源,降低了模型评测的成本,使学术界和产业界能够以更低的投入进行大规模评测。它为需要频繁测试的科研和产品团队提供了更高性价比的评测解决方案。
2. 提高评测效率,减少主观误差
CompassJudger 提供了详细的评测解释,能够对模型回复中的优劣项进行分析。例如在多轮对话场景下,CompassJudger 会识别每个模型的优缺点,帮助改进模型的生成能力,提供精准的优化指导。同时,CompassJudger 的结果可复现,使得评测更加可靠。
3. 推动社区研究,支持模型迭代
CompassJudger 的开源属性使得社区能够参与模型优化,推动评测模型的进一步发展。此外,CompassJudger 还能指出生成模型在特定任务或场景中的不足之处,为模型的持续迭代提供了有力支持。未来,CompassJudger 还将继续更新以适应新的评测需求,支持更多语言和评测场景。
04 模型下载
传神社区:
https://opencsg.com/collections/52/
huggingface:
https://huggingface.co/opencompass
技术报告:
https://arxiv.org/abs/2410.16256
欢迎加入传神社区
•贡献代码,与我们一同共建更好的OpenCSG
•Github主页
欢迎🌟:https://github.com/OpenCSGs
•Huggingface主页
欢迎下载:https://huggingface.co/opencsg
•加入我们的用户交流群,分享经验
扫描上方二维码添加传神小助手
“ 关于OpenCSG
开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。
关注OpenCSG
加入传神社区