近年来,大型语言模型在训练规模的扩展上取得了显著的性能提升。然而,随着模型规模和数据量的增长遇到瓶颈,测试时扩展(test-time scaling)成为进一步提升模型能力的新方向。传统的推理方法,如思维链(Chain of Thought, CoT)和思维树(Tree of Thought, ToT),在推理过程中过度依赖完整的历史信息,导致计算资源浪费,并可能干扰有效的推理。
AoT 的核心思想
AoT 的核心思想是将复杂的推理过程视为一系列独立且可验证的子问题,这些子问题主要依赖于当前状态,而非累积的历史信息,类似于马尔可夫过程中的无记忆性转移。在 AoT 中,每个推理状态的转移包括将当前问题分解为基于依赖关系的有向无环图,然后收缩其子问题,形成新的原子问题状态。这一迭代的分解-收缩过程持续进行,直到得到直接可解的原子问题,自然地实现了问题状态之间的马尔可夫转移。此外,这些原子问题可以无缝地集成到现有的测试时扩展方法中,使 AoT 能够作为插件增强推理能力。
AoT 的推理过程
AoT 的推理过程由两个核心步骤组成:拆解(Decomposition)和收缩(Contraction)。在拆解阶段,AoT 将当前问题分解为一个基于依赖关系的临时有向无环图(DAG),其中节点代表子问题,边表示它们之间的依赖关系。在收缩阶段,DAG 中无入边的节点被定义为独立子问题,其信息被转化为已知条件;有入边的节点被定义为依赖子问题,其描述被整合为一个更简洁的独立问题,形成新的原子状态。这一过程不断迭代,直到达到最大次数限制,以避免无限循环。
AoT 的优势
AoT 的设计具有两个关键优势。首先,AoT 消除了在扩展计算资源时维护和计算历史信息的需求。其次,这些原子问题可以无缝地集成到现有的测试时扩展框架中,允许 AoT 作为独立框架或插件增强,以提高整体推理能力。在六个基准上的实验表明,AoT 作为独立框架和插件增强都具有有效性。值得注意的是,在 HotpotQA 数据集上,当应用于 gpt-4o-mini 时,AoT 达到了 80.6% 的 F1 分数,分别超过 o3-mini 和 DeepSeek-R1 3.4% 和 10.6%。