1. 项目概述
1.1 项目目标与意义
DeepScaleR 项目旨在通过强化学习技术推动人工智能模型的性能提升,以更低的成本实现更优的推理能力。其核心目标是开发出在特定任务上超越现有模型的高效模型,同时为开源社区提供技术参考,促进技术的普惠和创新。
- 技术突破:DeepScaleR-1.5B-Preview 模型在 AIME2024 基准测试中表现优异,Pass@1 准确率高达 43.1%,相比基础模型提升了 14.3%,并超越了 OpenAI 的 o1-preview。这一成果表明,通过优化训练策略和数据集设计,可以在较小的模型规模下实现显著的性能提升。
- 成本控制:项目采用知识蒸馏模型和强化学习迭代延长方法,将训练时间缩短至 3800 个 A100 GPU 小时,相当于 4500 美元的训练成本,相比传统方法节省了 18.42 倍的费用。
- 开源意义:DeepSc