数据本地性如何助力企业在云上实现高效机器学习

分享嘉宾：
Lu Qiu, Shawn Sun

本文将讨论数据本地性对于在云上进行高效机器学习的重要性。首先对比现有解决方案的利弊，并综合考虑如何通过数据本地性来降低成本和实现性能最大化。其次会介绍新一代的Alluxio设计与实现，详细说明其在模型训练和部署中的价值。最后会分享从基准测试和实际案例研究中得出的结论。

一、为什么需要数据本地性

数据本地性指的是让计算任务靠近需要访问的数据，在云环境中优化数据本地性主要带来两大益处 —— 提升性能和降低成本。

1.1 提升性能

将数据存放在计算引擎附近时，数据访问速度要比从远端存储访问快的多。这对于数据密集型应用（如机器学习和AI任务）的影响尤为重大。数据本地性会减少数据传输时间，进而缩短完成任务所需的总时间。

具体的性能收益包括与远端存储相比，数据访问速度更快; 以及在诸如机器学习和AI等数据密集型应用上的耗时更少。通过就近存放并访问所需数据，减少了数据移动上的耗时，可将更多的时间用于高效计算。

1.2 节约成本

数据本地性除了能帮助更快地完成任务外，也降低了云环境成本。

让计算引擎靠近数据存储，可减少与外部云存储服务之间通过API调用（LIST、GET操作）来重复访问或移动数据，因此能节约高昂的API调用成本。通过减少对云存储的数据和元数据操作，云成本及流量成本也得以降低。数据本地性还可以提高GPU硬件的利用率，从而减少总的GPU租用时间。

总而言之，数据本地性可提高云任务的整体效率并降低操作成本。

二、现有解决方案和局限性

目前市场上有一些用于提升云上机器学习任务数据本地性的方案，每种方案都有其优点和局限性。

2.1 在运行时直接从远端存储读取数据

最简单的方案是根据需要直接从远端云存储读取数据。该方案无需本地性配置，易于实现。缺点就是每个训练周期(epoch)都需要从远端存储重新读取完整的数据集。对于模型训练而言，为提高模型准确性，通常需要进行多个epoch训练，因此数据读取所花费的时间可能比实际用于模型训练计算所花费的时间要长得多。

测试显示，80%的时间都花费在把数据从存储加载到训练集群上，请参见下图中的DataLoader占比。

2.2 训练前将数据从远端拷贝到本地

另一种方案是在训练开始之前手动将数据集从远端云存储拷贝到本地磁盘/存储中。这样可以让数据位于本地，从而具备数据本地性的所有性能和成本优势。该方案的挑战主要在于数据管理。用户必须在作业完成后手动删除已拷贝的数据，为下一个作业腾出有限的本地存储空间，因此会增加操作成本。

2.3 本地缓存层用于数据重用

某些存储系统（如S3）提供内置的缓存优化。此外，也有更高阶的开箱即用解决方案，如使用Alluxio FUSE SDK，作为本地缓存层来缓存远端的数据。缓存的数据可以在作业之间重复使用，确保重用数据的本地性。缓存层自动处理数据驱逐和生命周期管理，无需人工监督。但是，其存储容量仍然受限于本地磁盘，无法缓存巨大的数据集。