目录
- 3.3 思维链
- 3.3.1 思维链提示的定义
- 3.3.2 按部就班
- 1)Zero-Shot CoT
- 2)Auto-CoT
- 3.3.3 三思后行
- 1)思维树(Tree of Thoughts, ToT)
- 2)思维图(Graph of Thoughts, GoT)
- 3.3.4 集思广益
3.3 思维链
语言模型参数规模扩大,在自然语言处理任务中表现增强,但在算术求解等复杂推理任务中出现“Flat Scaling Curves”现象。
受人类逐步推理的启发,一种创新的 Prompt 范式——思维链提示 (Chain-of-Thought,CoT),被用于引导模型逐步推理,提升其处理复杂任务的能力,突破限制,激发潜能。
.
3.3.1 思维链提示的定义
思维链提示 (Chain-of-Thought,CoT):
-
模拟人类思考,引导大语言模型在生成答案时引入中间推理步骤;
-
这提升推理任务表现,同时揭示模型处理复杂问题时的内部逻辑和推理路径。
CoT 的核心:构造合适的 Prompt 以触发大语言模型一步一步生成推理路径,并生成最终答案。
下图展示了求解数学问题的 CoT 形式的 Prompt 的例子。
图 3.10: 包含少量样本示例的 CoT 提示示例
在 CoT 核心思想指引下,衍生出按部就班、三思后行和集思广益三种推理模式:
-
按部就班:模型按预设逻辑路径一步步推理,如 CoT、Zero-Shot CoT、Auto-CoT 等方法。
-
三思后行:模型每一步评估后从多个方向选下一步,如 ToT、GoT 等方法。
-
集思广益:模型生成多条推理路径并整合结果,如 Self-Consistency 等方法。
.
3.3.2 按部就班
按部就班模式强调推理的逻辑连贯性和步骤顺序性,通过一步步推理得到结论,使决策透明可预测。
原始少样本思维链(CoT)方法采用此模式,通过手工构造示例引导模型生成推理步骤和答案,但存在编写耗时费力、依赖编写质量的问题。
为此,研究者提出了 Zero-Shot CoT 和 Auto-CoT 两种变体以改进。
1)Zero-Shot CoT
Zero-Shot CoT 通过“让我们一步一步思考”等提示词引导模型自行生成推理链,无需手工标注示例,降低了人工依赖,在多个推理任务上性能媲美甚至优于原始少样本 CoT。
其流程分两阶段:
-
第一阶段,在问题后添加提示词,让模型生成中间推理步骤;
-
第二阶段,将问题和推理步骤拼接后加上“因此,最终答案为”等语句,输入模型生成最终答案。
2)Auto-CoT
Auto-CoT 在 Zero-Shot CoT 基础上,通过聚类技术从问题库中筛选出与用户提问相关的问题,借助 Zero-Shot CoT 生成这些问题的推理链作为示例,为模型提供不同解题思路。
具体步骤:
-
聚类筛选:利用聚类技术从问题库中筛选出与用户提问相关的问题。
-
生成示例:借助 Zero-Shot CoT 为筛选出的问题生成推理链,形成包含不同问题及其对应推理内容的示例,为模型提供多种解题思路。
-
引导推理:在这些示例基础上,以“让我们一步一步思考”引导大语言模型生成针对用户问题的推理链和答案。
整个过程无需手工标注,提升了 CoT 效果。
.
3.3.3 三思后行
三思后行模式强调决策过程中的审慎和灵活性。模型每一步都会评估当前情况,判断是否调整推理方向,允许在遇到困难或不确定性时回溯和重新选择,确保决策的稳健性和适应性。
这种模式模仿了人类解决问题时反复选择回溯的过程。基于此,研究者提出了思维树(Tree of Thoughts, ToT)、思维图(Graph of Thoughts, GoT)等 CoT 变体。
1)思维树(Tree of Thoughts, ToT)
ToT 将推理过程构造为一棵思维树,其从以下四个角度对思维树进行构造:
-
拆解:将复杂问题拆分为多个简单子问题,每个子问题的解答对应一个思维过程,拆解形式依任务而定。
-
衍生:模型根据当前子问题生成下一步推理方向,衍生有样本启发和命令提示两种模式。
-
评估:利用模型评估推理节点合理性,根据任务特点选择投票或打分模式决定节点保留。
-
搜索:从当前状态出发,依据任务特点选择不同搜索算法寻找解决方案。可以使用深度优先搜索、广度优先搜索等经典搜索算法,也可以使用 A* 搜索、蒙特卡洛树搜索等启发式搜索算法。
2)思维图(Graph of Thoughts, GoT)
ToT与GoT结构差异:
-
ToT:每一步思考是单向分支,像一棵不断分叉的树,不同路径独立发展,无法回头或整合。
-
GoT:思考节点可以自由连接,形成网络。节点之间可以交叉、合并、循环修正。
GoT 在 ToT 基础上将树扩展为有向图,顶点代表问题解决方案,有向边代表构造过程。其核心优势在于思维自我反思和聚合,能集成不同路径的知识和信息,形成综合解决方案。
.
3.3.4 集思广益
集思广益模式强调的是通过汇集多种不同的观点和方法来优化决策过程。
集思广益模式借鉴集体智慧,通过探索多种解决方案选优,优化决策。基于此,Self-Consistency (自我一致性)方法在 CoT 基础上提出,通过引入多样推理路径并选最一致答案,提升模型推理准确性,且不依赖特定 CoT 形式,可与其他方法兼容。
Self-Consistency(自我一致性)实现步骤如下:
-
生成多样化推理路径:使用 CoT 或 Zero-Shot CoT 引导大语言模型生成一组多样化的推理路径。
-
收集并统计答案:针对每个推理内容,收集最终答案,并统计其在所有路径中的出现频率。
-
选择最一致答案:出现频率最高的答案作为最终答案。
.
其他参考:【大模型基础_毛玉仁】系列文章
声明:资源可能存在第三方来源,若有侵权请联系删除!