在人工智能领域,数据的高效访问和处理对于模型的训练与推理至关重要。DeepSeek 在开源周第五天宣布开源了面向全数据访问的推进器 3FS(Fire-Flyer 文件系统)以及基于 3FS 的数据处理框架 Smallpond,为 AI 数据处理带来了新的突破。
3FS:高性能并行文件系统
技术原理与架构:
- 3FS 是一个专为充分利用现代 SSD 和 RDMA 网络带宽而设计的并行文件系统。它采用分离式架构,整合数千块 SSD 与数百个存储节点的网络带宽,无需考虑数据局部性即可完成大规模并行存储访问。这种架构使得应用程序可以不受位置限制地访问存储资源,极大地提升了数据访问的灵活性和效率。
- 3FS 实现了链复制与分配式查询(CRAQ)机制,以提供强一致性语义,简化了上层应用的开发难度,确保了在高并发环境下的数据一致性和系统稳定性。
- 它还提供通用而熟悉的文件 API,基于成熟的元数据服务与事务型键值存储(如 FoundationDB),无需开发者额外学习新协议,降低了使用门槛。
应用场景:
- 数据准备 :能够将大量中间结果高效管理,通过分层目录的方式优化数据加载流程。
- 数据加载 :无需额外预取或洗牌数据集,支持跨节点随机访问训练样本,特别适用于分布式训练场景。
- 检查点 :提供并行高吞吐的检查点保存与重载,例如在 LLM 训练中,每 5 分钟保存一次检查点,速度超过每节点 10 GiB/s。
- 推理阶段 :为大规模语言模型推理提供高吞吐且容量更大的缓存,其 KVCache 读取吞吐量可达 40 GiB/s,显著降低 LLM 服务成本。
Smallpond:基于 3FS 的数据处理框架
技术原理与特点:
- Smallpond 是建立在 3FS 之上的轻量级数据处理框架,具有高性能、可扩展性和易用性特点。
- 它进一步优化了 3FS 的数据管理能力,让数据处理更加方便、快捷。通过与 3FS 的紧密集成,Smallpond 能够充分利用 3FS 的高性能存储能力,为数据处理任务提供高效的数据访问和存储支持。
应用场景:
- Smallpond 可以用于各种数据处理任务,如数据加载、数据转换、数据存储等。它能够简化数据处理流程,提高数据处理效率,为 AI 模型的训练和推理提供更强大的数据支持。