下面的解释来源于论文《Monte Carlo Tree Search With Iteratively Refining State Abstractions》,因为这篇论文的重点不是Progressive Widening,所以就不全文学习了,只摘抄其中关于Progressive Widening的部分。
Progressive Widening(渐进式扩展,PW)是MCTS的一种改进方法,它可以再任意随机域中构建深度搜索树。它的基本思想是在对新的下一个状态进行采样和对已经在树上的下一个状态进行采样之间交替。如果状态-动作对相对于树中的继承状态进行已经尝试多次,则PW会添加新的状态。另一方面,如果相对于尝试的次数而言,存在大量继承状态,则树中已有的继承状态样本将会逐渐扩大。是否采样由布尔量(其中是超参数)决定。渐进式加宽采样步骤的简化伪代码如算法一所示。
非正式地,超参数α可以被认为是在现有子项中进行选择的倾向,而不是添加新的子项。当 k = 1, α = 0 时,渐进式扩展简化为转换确定(首次访问状态-动作对)时,将对后续状态进行采样并将其添加到树中。此后,每次访问状态-操作对时,都会选择相同的继承状态。当 k = 1, α = 1 时,渐进式扩展将减少为普通的 MCTS,即每次遇到状态操作对时,都会对新的后继状态进行采样并添加到树中。
如果 k 和 α 可以正确调整,则渐进式加宽可提供灵活性。在随机性很重要的领域中,α可以设置为 1 或接近 1。在可以忽略随机性的领域中,可以将α设置为零或接近于零。否则,中间值通常效果很好。