1.文章信息
《Q-learning approach to coordinated optimization of passenger inflow control with train skip-stopping on a urban rail transit line》是2019年发表在Computers & Industrial Engineering上的一篇文章。
2.摘要
在城市轨道交通(URT)线路过于拥挤的情况下,大量乘客可能会被滞留,日常时间表可能会变得不可行。本文提出了一种轨道交通线路的协同优化方案,将进站客流协调控制与列车运行调整策略相结合。以最大限度地降低全线乘客滞留的惩罚值为目标,进站客流协调控制有助于缓解需求压力,确保拥挤的轨道交通站点的安全,而列车调停调整有助于平衡列车运力的利用。提出了一种新的基于q学习的组合优化方法。在上海某轨道交通线路上进行了仿真实验。提出了Q-learning方法的基本原理,包括环境及其状态、学习智能体及其各自的动作和奖励。结果表明,采用Q-learning方法求解的协同优化方案能够有效缓解城市轨道交通线路上的乘客拥堵问题。Q-learning方法可以为城市轨道交通的乘客拥堵和列车运行问题提供准确的解决方案。
3.介绍
进站客流控制是缓解车站拥堵的有效短期策略,已在北京、上海和广州等中国主要城市的轨道交通系统的日常运行中实施。这些策略包括在车站外设置栏杆、关闭部分自动售票机和关闭部分入口等。但是,客流控制策略在实际应用中对缓解整个地铁线路的拥堵作用很小。
在以往的许多研究中,客流控制策略通常与列车运行调整和进站客流协调控制分开实施,因此一般缺乏对整体性能和动态性能的考虑。由于对安全性和效率的关注日益增加,为了保证乘客安全,提高列车运力效率,需要考虑进站客流协调控制与列车运行调整相结合的协同优化方案。车站之间需要协调的进站客流控制策略,调节乘客进站量,平衡乘客滞留在过于拥挤的车站的分布,以保证所有乘客的安全。采用跳停的列车运行调整策略,可以有效地减少全线旅客主动滞留的次数和频率。
值得注意的是,协同优化方案是一个复杂系统,涉及依赖于时间的客流需求、列车运力限制、站台容量限制、不同的客流控制策略、不同的列车运行调整策略等多种因素。在地铁重载线路上,单个站点发生拥堵,将影响下游站点的客运效率。相应地,任何协同优化动作不仅会影响当前的表现,还会影响后续的表现(即后续状态的奖励)。因此,迫切需要一种既能使长期回报最大化,又能在短时间内做出动态决策的有效方法。Q-learning作为一种处理具有大量或连续状态和动作空间的复杂序列决策问题的有效方法,可用于解决本文中的协同优化问题。综上所述,本文的主要贡献有两个方面:
首先,综合分析了进站客流协调控制条件下的列车运行跳停调整策略。提出了一种利用优化的跳停模式,在进站客流协调控制的情况下,在过拥挤轨道交通线路上进行列车运行调整的方法。需要注意的是,该方法基于一个优化模型,以最小化在整个地铁线路乘客滞留的惩罚值为目标。
其次,采用Q-learning方法求解非线性优化模型。本文提出了基本原理,包括环境及其状态、学习智能体及其各自的动作以及奖励。文中还提出了一种精确的方案来解决实际地铁线路上的乘客拥堵和列车运行调整问题。
4.数学模型
问题描述
城市轨道交通在有限的运力无法满足出行需求的情况下,会发生乘客拥堵,尤其是在高峰时段。因此,站台候车的乘客密度将超过临界值。随着站台滞留两次以上的人数的增加,将导致候车时间延长,造成严重的隐患。因此,车站应采取进站客流控制措施,以减少高峰时段的安全风险。在进站控制下,根据乘客需求对列车运行调整进行优化。列车运力与乘客需求的匹配程度对客流控制方案影响很大。
为保证安全,上海地铁高峰时段最小发车间隔为2min 5 s。在服务频次如此之高的情况下,进一步提高运力是不可行的,进站客流控制是保证安全、缓解站台压力的有效短期选择。为缓解乘客出行需求压力,尽快疏散滞留乘客是当务之急。轨道交通线路的列车运行可以采用不同的停站方式来提高匹配度。合理的列车跳停策略可以在过拥挤的情况下,快速平衡列车可用容量和运送乘客。对提高地铁运营系统的安全性和可靠性也有积极的帮助。综上所述,采用列车跳停与进站客流控制相结合的方式,可以有效地平衡列车运力利用,提高服务安全性。
对于单条轨道交通线路而言,车站拥堵通常发生在列车运力迅速被上游站点占用的情况下,即使该站点本身的流量很小。也就是说,一个站点的拥堵可能与上下游站点的进站量有关。例如,当i+1站的客流量过大,超出了其站台有限的容量时,就需要控制i+1站的进站客流量,以确保乘客的安全。然而,这种客流控制策略并不足以缓解i+1站的客流拥堵。考虑到k次列车的容量主要由i站和i-1站的乘客占用,客流控制策略也应结合一定的跳停模式。也就是说,k次列车可能需要跳过上游站点(如i站或i-1站)。通过协同控制方案,为i+1站的乘客预留k次列车的容量,以保证i+1站乘客的安全。
在制定协同控制方案时,许多因素(如客流需求、列车及站台可用容量、进站客流控制、列车停站方式等)之间存在很强的交互作用。采用跳停模式的进站客流协调控制如图1所示。进站客流控制率决定了乘客能否成功进站。列车的可用容量及其跳停模式也与在站台等候的乘客数量密切相关。从站间协调控制的角度看,线路滞留乘客的分布决定了应采取协调控制的站点、相应的控制率以及应实施的最优列车跳停模式。
在图1中,当列车k跳过i-1站时,在i-1站台等待的乘客需要再次滞留。另一方面,在i+1站采取进站客流控制策略,确保乘客的安全。列车k的容量为i站和i+1站的乘客预留,因此滞留在i站和i+1站的乘客可以登上列车k,从而有效降低了过拥挤站点(i站和i+1站)的安全风险。总之,本文要解决的问题是如何制定合适的策略来协同优化轨道交通线路的进站客流控制与列车跳停。具体而言,决策包括何时、在哪个站点采取进站客流控制策略,单位时间内每个受控站点的最优控制率是多少,每个站点列车的最优跳停模式。
符号和假设
(1)符号
表2列出了协同优化运行调整的基本集合和符号。
(2)决策变量
表3列出了协同优化运行调整相关的基本决策变量。
(3)假设
为便于制定该协同优化问题,作出如下假设:
同一车站不能被连续两次列车跳过。
列车不能连续跳过两个站。
乘客遵守“先到先服务”的规则。
原始客流需求不会因进站客流控制而变化。
未调整的列车将按照计划的时刻表运行。
目标函数及约束
(1)目标函数
Li和Hensher认为,在非常拥挤的站台上等待1分钟相当于在中等拥挤的站台上等待1.7-2.5分钟。随着拥挤程度的增加,乘客的总出行时间和乘客滞留站台的频率也会增加。用全线乘客滞留的惩罚值来表示列车运力利用与乘客安全的平衡程度。因此,目标函数为使整条线路乘客滞留的惩罚值最小。这意味着,惩罚值越小,运输乘客就越高效和安全。目标函数如式(1)所示:
图2给出了一个示例,用于说明在实施相关的进站客流控制策略时,列车跳停策略对滞留乘客分布的影响。
如图2所示,假设列车的可用容量为7,即可以容纳7名乘客。一方面,如果k次列车到达并在i-1站停车,在i-1站等待的4名乘客可以登上k次列车,也会导致2名乘客在i站滞留一次,2名乘客在i+1站滞留一次,3名乘客在i+1站滞留2次。相应的总惩罚值为:Z=2×1+2×1+3×2=10。另一方面,如果列车k跳过i-1站,惩罚值可以计算为:Z=4×1+0+3×1=7。可以明显地发现,列车k跳过i-1站是最优策略,可以降低惩罚值,有效地保证被滞留在下游过拥挤站台的乘客的安全。
(2)约束条件
进站客流控制约束:
站台候车乘客约束:
站台滞留乘客约束:
乘客与列车交互约束:
列车时刻表约束:
列车跳站约束:
约束(2)、(3)与进站客流控制率有关,分别计算每个时间步到达站i和进入站i的累计乘客数。约束(4)-(8)表示乘客进入车站后在站台等候的安全性,以确保进站客流控制策略的合理性。乘客滞留的频率由列车的可用容量和停站模式决定。约束(9)、(10)表示乘客滞留站台,与列车运行有关。约束(11)-(14)表示乘客与列车之间的主要交互过程,包括乘客上车、下车和留在列车上的过程。约束(15)-(17)指定满足实际运行需求的优化列车时刻表。约束(18)表示同一站点不能被连续两次列车跳过。约束(19)决定了列车不能连续跳过两个站点。
5.协同优化问题的Q-learning方法
Q-learning方法
为了实现这一目标,进站客流控制者必须根据不同时段站台的拥塞程度,为进站客流分配不同的进站率。列车运行控制器必须根据列车的可用容量和站台的拥堵程度来优化不同的列车停站模式。这两个控制器作为智能体,地铁线路就是此上下文中的环境。由于客流需求和供给的不确定性,线路环境具有随机性。Q-learning方法受益于可以从与环境的互动中获得的经验。Q-learning提供了在多站调度所需的分布式控制能力。因此,具有动态规划和监督学习的Q-learning方法特别适合解决这类组合优化问题。表4列出了与Q-learning方法相关的基本集合和符号。
图3描述了针对协同优化方案的特殊情况,Q-learning中智能体与环境的交互作用。
智能体通过执行一些动作与环境交互,而环境通过改变其状态对这些动作做出反应。此外,环境还与智能体交互,以决定它通过执行这些动作获得多少奖励。奖励是衡量智能体为达到优化目标所执行动作的有效性的一个指标。在Q-learning过程中,学习智能体的目标是通过与被动环境的试错交互,找到一个最优控制原则,使奖励最大化。智能体观察环境的状态,并决定一个动作。在执行动作后,环境将其状态切换到后续状态,并将动作引起的奖励或惩罚给予智能体。Q值函数相应更新。奖励或惩罚表明所选择的行动的质量,即它是否在短期内是好的,而价值函数则指明了从长期来看什么是好的。智能体的目标是通过学习一个良好的原则,即从感知状态映射到行动,从而最大化奖励总和。
在协同优化方案的特定情况下,智能体对应的是协同策略,环境是包括所有列车、车站和相应时刻表的轨道交通线路系统。轨道交通线路上每个站点对应的智能体采取不同的停站模式和进站客流控制率的行动,而环境是每个站点和区段客流需求条件。环境是被动的,因为所有关于改变其状态的动作的决定都来自智能体。各站执行动作后获得的奖励与协同策略所产生的滞留时间长短成反比。利用Q值函数来限定特定动作和状态的表现和有效性。相应的Q值可根据式(20)更新:
Q-learning方法要求在选择最优行动的策略上保持开发和探索的平衡,通过随机采取不同的动作来避免局部最优。为了保证探索与开发的平衡,提出了几种类型的概率分布。Boltzmann分布是常用的分布,由式(21)表示:
τ的值可以随着学习过程的深入而减小,使智能体始终选择Q值最高的动作来实现目标(即开发)。
为了使用Q-learning处理协同问题,以下五个小节提供了包括环境及其状态、动作空间集、奖励函数和算法在内的原理。
环境与仿真
本文的协同优化方案涉及以下三个要素。第一个要素是实时的客流需求,包括轨道交通线路上的OD对、每个车站的进站量、每个站台的等待人数和每位乘客的滞留次数。第二个要素是列车,它的特征是列车在到达每个车站时的停站模式、到达和离开时间以及可用容量。第三个要素是车站,其核心利益属性是站台的负载能力。
在仿真中,设计并实现了上述三个要素,具有较高的精度,反映了城市轨道交通线路上乘客、列车之间的交互以及车站间的协调。目的是寻找一种可行的跳停模式与进站客流控制率相结合的协同方案。
该仿真器可以实现轨道交通线路上各站的集散过程,并进一步划分为三个子过程:到达过程、进站过程、上下站过程和出站过程。第一步要求进站乘客的到达分布及其对应的目的地作为仿真的输入。借助AFC(自动收费系统)和客流分配模型,可以得到上述数据。进站过程与单位时间内进站量控制率有关,控制率由站台可用容量决定。若进站量控制率为0,则按照第一步的到达分布到达站台。如进站量控制率大于0,被限制进入站台者应在站外等候,按下一时段控制率和包括上一时段在站外等候的乘客在内的乘客到达顺序进入站台。一般来说,乘客与车站之间的交互作用与进站量控制率有关,可以用进站过程来模拟。
列车与乘客之间的交互作用体现在列车上下车过程的仿真中,这是与列车相对应的另一个重要的仿真对象。在我们的模拟中,两个连续站点之间的纯运行时间和站点停留时间由计划的时间表指定,并且独立于使用的停站模式(标准或跳停模式)。当列车跳站时,这意味着没有可供乘客上车的可用容量。因此,乘客滞留的次数应再次增加。当列车停站时,可以为乘客提供可供登车的列车容量。上车和滞留乘客的数量由每个车站的列车可用容量决定。
状态描述
被动环境的状态域可以定义为对应于环境不同属性的单个环境参数。设sn为控制时间步n时的状态。对于协同优化问题,状态定义为:
其中Pi,n d表示时间步n时滞留在i站的累计乘客人数。Φi,n表示时间步n到达i站台时列车的平均负载率,可用来描述列车的状态。Θi,n是站台i在时间步n时的平均负载率。该参数sn用于显示每个站台的状态,确保相关站台上等待乘客的安全。上述两个负载率值可以用下列公式(23)和(24)计算:
其中Pi,n in表示在时间步n到达i站时,列车上剩余的乘客数。Cn为在时间步n到达i站的列车的载客量。Pi,n r表示在时间步n时在i站等待的累计乘客数。Ai为i站台的容量。
寻找协同优化方案的问题可以看作是一个基于马尔可夫决策过程的决策问题,马尔可夫决策过程由一组状态S、一组动作A、一个奖励函数R和一个状态转移函数F组成。设为使用动作av从状态sn转移到状态sn+1的概率。根据客流需求,结合三种不同的进站控制率和两种不同的跳停模式(将在后面详细介绍),可以采取这六种行动中的任何一种。设表示个体概率,因此,状态转移概率可以表示为:
动作空间
动作集A包含每个车站的进站客流控制率和停站模式。该动作表示控制时间步n时禁止进站乘客的百分比和停站模式。考虑到实际情况的可操作性,定义动作空间为:A ={(0,0),(0.5, 0),(1,0),(0,1),(0.5, 1),(1,1)}。例如,假设在控制时间步n有200名乘客进入了i站。如果在时间步n的i站执行动作a3=(0.5, 0),那么时间步n允许进入该站的乘客数量将减少到100人,列车将在i站停车。另一方面,动作a4=(0.5, 1)表明在时间步n允许进入车站的乘客数量减少到100,列车跳过了i站。
奖励函数
本文旨在将城市轨道交通线路的安全风险降到最低。由于乘客滞留次数是安全风险的主要因素,因此奖励函数与乘客滞留站台的惩罚直接相关。在状态sn下执行动作av后,对i站的奖励定义为:
6.案例分析
案例及数据处理
在本节中,将应用城市轨道交通线路上的进站客流控制与列车跳停协同优化的Q-learning方法,并使用一个实际案例进行评估。本例以上海轨道交通6号线为例,该线由28个站点组成,总长度为36.1 km。6号线目前的客流控制方案如图4所示。
根据上海申通地铁官网公布的进站客流控制方案,控制时间为早上7点20分至8点40分,控制站点包括东靖路、巨峰路、五莲路、博兴路、金桥路、德平路等,目的是缓解北洋泾路、源深体育中心等下游站点的拥堵。
实验中以OD 对的乘客需求、初始时刻表、列车运力和站台容量作为输入,表示乘客与列车之间的交互作用。数据由AFC系统和上海申通地铁管理中心提供。选取2016年3月3日95,850对OD对客流数据作为实验的输入。轨道交通6号线沿线的客流需求如图5所示,包括AFC数据的进站乘客数以及利用客流分配模型获得换乘乘客数。
在图5中,早高峰时间是7:00 - 9:00。上午7时至9时,各车站进站客流量统计如图6所示。可以看出,整个地铁线路的早高峰时间对应于各站点的早高峰时间。因此,选取早上7:00 - 9:00这段时间各车站的乘客需求作为输入数据。
早高峰时段(即7:00 - 9:00),港城路至东方体育中心方向出现乘客拥堵。6号线2016年3月3日的实际工作日运行时刻表名为为622_1,使用列车计划制定软件编制。在高峰时段,两列连续列车的平均间隔为140秒。每列列车载客量为1008人,计算为每节车厢载客量与列车编组数的乘积,并用最大载客率调整为最大载客量(210×4×1.2 = 1008)。
结果分析
本文在Windows 10 64位操作系统下,使用Intel Core i5-3470 M CPU (3.20 GHz)和8gb RAM,在Visual Studio 2013中实现了仿真。仿真时段包括早高峰时段(即7:00至9:00)。Q-learning方法使用了以下参数:β = 0.1,γ= 0.7,τ= 0.5,te = 2 min,tc = 15 min。动作空间定义为:A ={(0,0),(0.5, 0),(1,0),(0,1),(0.5, 1),(1,1)}。
Q-learning在仿真场景下得到的学习曲线如图7所示。从学习曲线可以看出,随着学习的加深,探索率降低,乘客滞留的惩罚值随着迭代次数的增加而改善。经过约3 min20 s的计算,6号线滞留乘客的惩罚值在第400次迭代时收敛。
利用Q-learning算法确定协同优化方案(包括控制时间段、控制站、进站控制率和6号线停站模式),如表5所示。没有采取任何策略的站点不在列表中。
优化前后对比表明,平均进站客流控制时长由80 min减少至70 min,控制站点数量与实际服务时相近,但每个控制时间段的控制率更加精确。
图8为5.1节6号线沿线列车优化后的时空图。蓝线和红线表示运行中的列车,黄线表示备用列车。客流需求最大的列车优化跳停策略如图8中绿色标识。列车编号从左到右是640-643-646-619-625。在实际运行中,这些列车的载客率都比较高,计算结果与实际运行情况相符。
随着列车运行调整,滞留乘客的分布也将有所变化。乘客滞留车站的惩罚值变化情况如表6所示。
总惩罚值从10350减少到7070。采用协同优化策略后,有效缓解了地铁6号线的乘客拥挤状况,降低了乘客滞留频次。该结果在城市轨道交通日常运营实践中具有一定的参考价值。在表6中,源深体育场、民生路和儿童医疗中心的乘客会被滞留,虽然这三个车站没有采取策略。研究表明,上游站点拥挤会影响下游站点在滞留乘客数量和列车运力之间的平衡。同时,采用客流控制策略时,乘客滞留总惩罚值降低0.03%。与采用协同方案前相比,总惩罚值减少了46.39%。结果表明:进站客流控制与跳停策略相结合,可以有效缓解客流拥挤压力,平衡全线列车运力利用。因此,该协同优化方案能够有效地指导运行中的进站客流控制和列车运行调整工作。
Attention
欢迎关注微信公众号《当交通遇上机器学习》!如果你和我一样是轨道交通、道路交通、城市规划相关领域的,也可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!