2023 KDD
1 intro
1.1 背景
- 随着城市化进程的加快和电子商务的发展,最后一公里配送已成为一个关键的研究领域
- 最后一公里配送,如图1所示,是指连接配送中心和客户的包裹运输过程,包括包裹的取件和配送
- 除了对客户满意度至关重要外,最后一公里配送还是整个运输过程中最昂贵和最耗时的部分
- 路线规划
- 预计到达时间(ETA)预测
- 路线预测
- 这些研究的一个关键前提是高质量、大规模数据集的可用性。
- 然而,在最后一公里配送研究领域,虽然已经开发了大量算法,但仍缺乏广泛认可的、公开可用的数据集
- 因此,这一领域的研究主要集中在少数工业研究实验室中,限制了透明度并阻碍了研究进展。
1.2 论文思路
- 提出了LaDe,这是由菜鸟收集的首个综合性最后一公里配送数据集
- 包含了包裹的取件和配送数据
- Cainiao-AI/LaDe · Datasets at Hugging Face
- LaDe具有以下几个优点:
- (1) 大规模,涵盖了21,000名快递员在6个月内配送的10,677k个包裹
- 这是目前最大规模的公开数据集
- (2) 全面,提供了有关包裹、位置、任务事件和快递员的详细信息
- (3) 多样性,收集了来自不同城市的取件和配送过程的数据
- ——>凭借这些优势,LaDe可以用于评估与最后一公里相关的广泛任务
- (1) 大规模,涵盖了21,000名快递员在6个月内配送的10,677k个包裹
- 论文通过三个任务来研究其特性,包括路线预测、预计到达时间预测和时空图预测
2 相关工作
2.1 数据集视角
- 目前没有公开可用的最后一公里配送数据集同时包含包裹取件和配送数据
- 最接近的相关工作来自亚马逊[21](本文称为AmazonData)
- 这是一个由亚马逊提出的快递员执行的序列数据集,旨在为亚马逊主办的最后一公里路线研究挑战提供数据支持
- 包含了2018年亚马逊快递员在美国五个大都市区执行的9,184条历史路线
- D. Merchán, J. Arora, J. Pachon, K. Konduri, M. Winkenbach, S. Parks, and J. Noszek, “2021 amazon last mile routing research challenge: Data set,” Transportation Science, 2022.
- 存在三个局限性:
- 1) 没有取件数据,仅包含包裹配送过程中的数据;
- 2) 在时空范围和轨迹数量方面规模较小;
- 3) 缺乏与快递员及任务事件相关的信息,无法惠及有不同研究兴趣的更广泛研究群体
2.2 应用视角
- 广义上,最后一公里物流有四个分支
- 1) 新兴趋势和技术,重点研究最后一公里物流中的技术解决方案和创新
- 快递员路线及到达时间预测
- A deep learning method for route and time prediction in food delivery service
- Graph2route: A dynamic spatial-temporal graph neural network for pick-up and delivery route prediction
- 自助技术
- What’s in the parcel locker? exploring customer value in e-commerce last mile delivery
- 无人机辅助配送
- What’s in the parcel locker? exploring customer value in e-commerce last mile delivery
- 快递员路线及到达时间预测
- 2) 与最后一公里相关的数据挖掘,旨在从现实世界运营产生的数据中挖掘潜在的知识模式,以改进物流管理
- “Discovering actual delivery locations from mis-annotated couriers’ trajectories
- 3) 运营优化,主要关注优化最后一公里运营并做出更好的运营决策
- 车辆路径问题
- Last-mile delivery made practical: An efficient route planning framework with theoretical guarantees
- Appointment scheduling and routing optimization of attended home delivery system with random customer behavior
- 配送调度
- “Last-mile delivery made practical: An efficient route planning framework with theoretical guarantees
- 设施选址选择
- “Solution of two-echelon facility location problems by approximation methods
- “Locating collection and delivery points for goods’ last-mile travel: A case study in new zealand
- 车辆路径问题
- 4) 供应链结构,关注为最后一公里物流设计结构,例如网络设计[30]
- “Locating collection and delivery points for goods’ last-mile travel: A case study in new zealand
- 1) 新兴趋势和技术,重点研究最后一公里物流中的技术解决方案和创新
3 数据
3.1 数据收集
3.1.1 包裹运输流程
- 该数据集由菜鸟网络收集.包裹运输的典型过程包括以下步骤:
- 1,客户(发件人)通过在线平台下单取件。
- 2,平台将订单分派给合适的快递员。
- 3,快递员在指定时间窗口内取件并返回配送站(这构成了包裹的取件过程)。
- 4,包裹从配送站出发,通过物流网络运输至目标配送站。
- 5,在目标配送站,配送快递员取出包裹并送达收件人(称为包裹配送过程)。
- 在这些步骤中,第3步和第5步被称为最后一公里配送,快递员从/向客户取件/送件。
3.1.2 取件和配送场景异同 & LaDe的两个子数据集
- 取件和配送场景之间存在显著差异。
- 在包裹配送过程中,分配给某快递员的包裹在快递员离开配送站前就已确定。
- 而在取件过程中,分配给快递员的包裹并不是一开始就确定的,而是随着时间推移逐步揭示的,因为客户可以随时请求取件。
- 取件过程的动态性给研究领域带来了巨大挑战。
3.1.3 LaDe数据集
——>LaDe包含了两个子数据集,分别针对取件和配送场景,命名为LaDe-P和LaDe-D
- 收集了在中国不同城市中产生的数百万条取件/配送数据,数据涵盖6个月的时间
- 一个城市包含不同的区域,每个区域由多个AOI(感兴趣区域)组成,供物流管理使用
- 快递员负责在若干指定AOI内取件或送件
- 为了收集每个城市的数据,论文首先随机选择该城市中的30个区域。
- 随后,论文在每个区域中随机抽取快递员,并收集所有选定快递员在6个月内的取件/配送包裹数据
3.2 数据集详情
- 每条记录包含与取件或配送包裹相关的信息,主要涉及“谁、何地、何时”等方面。
- 具体来说,记录中说明了哪位快递员取件或送件、包裹的位置及相应的时间。
- 记录的信息大致可分为四类:
- 包裹信息,记录包裹ID及时间窗口要求
- 站点信息,如坐标、AOIID和AOI类型;
- 快递员信息,记录快递员的ID,每位快递员都配备了个人数字助理(PDA),该设备会持续向平台报告快递员的状态(例如GPS);
- 任务事件信息,记录包裹接受、取件或配送事件的特征,包括事件发生时间和快递员的位置信息。
- 包裹信息,记录包裹ID及时间窗口要求
3.3 数据集统计
- a——快递员工作时间
- b,c——包裹空间分布
- d——数据中前五大AOI类型的分布
- e——随机选择的10位快递员的实际到达时间
- f——数据集中两位快递员的工作概况
3.4 数据集特征与挑战
3.4.1 大规模
- LaDe数据集总共包含10,667k个包裹和619k条轨迹,这些轨迹由21,000名快递员生成,涵盖16,755k个GPS定位点,覆盖5个城市,跨越6个月的时间。
- 单次取件和配送场景中,快递员一次最多可处理的包裹数分别达到95个和121个
- 如此大规模的数据给最后一公里配送算法带来了显著挑战。
3.4.2 全面性
- LaDe旨在提供与最后一公里配送相关的丰富信息,涵盖了各种数据类型
- 详细的包裹信息
- 任务事件日志
- 快递员轨迹详细信息
- 上下文特征
- 如何有效利用这些综合特征来改进现有任务或启发新任务,仍然是不同领域研究人员面临的一个开放性问题。
3.4.3 多样性
- 场景多样性——我们通过收集代表取件和配送两个场景的子数据集引入场景多样性。
- 任务动态性(仅针对LaDe-P)。与LaDe-D不同,LaDe-P中的快递员任务在一天的开始时并未确定,而是随着取件过程的进行逐步揭示,因为客户可以随时下单。
- 这种快递员任务的动态性在多个研究领域中带来了显著的技术挑战,动态路线优化便是一个典型例子
4 任务
4.1 路线预测
4.2 ETA
4.3 时空图 (STG) 预测
计算出特定区域在一定时间段内的包裹数量