论文To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning是对链式思维(Chain-of-thought, CoT)技术的深入研究,探讨了其在不同任务中的应用效果,特别是在数学和符号推理任务中的突出表现。
论文通过广泛的实验和文献分析,深入探讨了CoT技术的有效性及其局限性。尽管CoT技术在数学和符号推理任务中表现突出,但它并非适用于所有类型的任务,尤其在涉及常识推理或语言理解的问题上,CoT的帮助有限。未来的研究可以进一步探索如何结合CoT与外部工具,或开发新型推理框架,以提升LLMs在广泛推理任务中的表现。
论文作者为Zayne Sprague, Fangcong Yin, Juan Diego Rodriguez, Dongwei Jiang, Manya Wadhwa, Prasann Singhal, Xinyu Zhao, Xi Ye, Kyle Mahowald, Greg Durrett,来自The University of Texas at Austin, Johns Hopkins University和Princeton University。
以下为论文概要内容:
链式思维(CoT)是一种常用于提升大语言模型(LLMs)推理能力的技术,其主要通过引导模型逐步解决问题的方式,生成更具解释性的答案。这种技术被广泛应用于多步推理任务中,尤其是在数学推理、逻辑推理等领域。然而,CoT并非在所有任务中都能显著提升模型性能。因此,本文旨在回答以下两个关键问题:
- CoT技术在什么类型的任务中最有效?
- 为什么CoT在这些任务中具有优势,而在其他任务中的效果较差?
一、主要实验与研究方法
- 文献元分析:作者首先对100多篇涉及CoT技术的论文进行了定量元分析,从中提取了这些研究中CoT相较于直接答案生成(Direct Answering, DA)方法的性能提升。分析结果显示,CoT技术的性能提升主要集中在数学和符号推理任务上,而在其他类型的任务中,效果相对较小或无明显提升。
- 实验评估:为了进一步验证这一结论,研究者还设计了一组实验,覆盖了20个数据集和14个不同的大语言模型。在这些实验中,研究者通过零样本(zero-shot)和少样本(few-shot)的CoT提示,比较了不同类型推理任务中CoT与直接生成答案的效果差异。这些实验包括常见的数学推理、符号推理、逻辑推理以及一些更偏向常识和语言理解的任务。
- 任务分类:实验涉及的任务被分为五大类,包括:
- 符号与算法推理(Symbolic and algorithmic reasoning):涉及符号操作或算法执行的任务,如跟踪实体变化的任务或寻找图中的最短路径等。
- 数学推理(Math reasoning):从基础数学到复杂数学问题,包括物理问题的解决。
- 逻辑推理(Logical reasoning):测试逻辑推理能力的任务,包括演绎推理、归纳推理和类比推理。
- 百科知识(Encyclopedic knowledge):需要深入的专业知识的任务,通常采用开放书籍形式。
- 混合数据集(Mixed datasets):包含多种不同类型任务的综合数据集,如MMLU和BIG-Bench。
二、主要发现与结论
- CoT在数学和符号推理任务中的显著效果:
- 论文通过多个实验和文献分析得出结论:CoT在数学和符号推理任务中表现出显著的性能提升。例如,在涉及数学问题的数据集(如MATH和GSM8K)中,使用CoT技术相较于直接生成答案的准确率提升幅度高达40%到66%。
- 在MMLU数据集中,CoT的性能提升几乎完全集中在带有符号“=”的题目上。通过对MMLU数据集的进一步分析,研究者发现,CoT对包含符号操作的问题的帮助显著,而对于其他类型的常识推理或语言理解问题,CoT的效果微乎其微。
- CoT对非符号任务的有限帮助:
- 论文指出,对于涉及常识推理、语言理解或软推理(如PiQA、CommonsenseQA等)的任务,CoT并没有带来显著的性能提升。在这些任务中,直接生成答案与使用CoT技术的准确率几乎相同,甚至在某些情况下,CoT的应用还可能导致性能下降。
- 作者进一步通过统计分析得出,在非数学或符号推理的任务中,CoT的性能提升不具备统计学显著性,这表明CoT的应用不适用于所有类型的推理任务。
- CoT的主要优势来自执行阶段的提升:
- 为了进一步探讨CoT为何在数学和符号推理任务中表现突出,研究者将这些任务分为两个阶段:规划阶段(如将问题转换为数学方程)和执行阶段(如通过中间步骤推导出最终解答)。
- 研究发现,CoT技术在执行阶段的表现尤为突出,它能够帮助语言模型更好地执行中间步骤并最终得到正确答案。然而,在实际应用中,使用外部符号求解器(如Python解释器或自动定理证明器)的效果要优于语言模型单独使用CoT技术。这表明,虽然CoT能够帮助模型生成可执行的解决方案,但其执行能力仍然不如专门的符号求解工具。
三、CoT与外部工具的比较
- 论文比较了不同情况下CoT与外部工具(如符号求解器)相结合的效果。在数学和符号推理任务中,研究者设计了一种新型的CoT提示方案,首先由语言模型生成解决问题的计划,然后通过外部工具执行该计划。
- 结果表明,尽管CoT可以帮助语言模型生成准确的解决方案计划,但在执行这些计划时,外部符号求解器的表现优于CoT。这一发现进一步证明,CoT的主要作用是在生成可执行的解决方案计划,而非在具体的计算或符号操作上与专业工具竞争。
四、未来方向与研究建议
- 超越CoT的提示技术:论文指出,尽管CoT在特定任务中表现优异,但未来研究应着眼于开发更加高效的推理框架,尤其是针对非符号推理任务的场景。研究者建议探索基于搜索、代理交互或更深度调优模型的新方法,以在更广泛的任务中实现性能提升。
- 与外部工具结合的潜力:研究还建议,在处理涉及复杂符号推理的问题时,将CoT技术与外部工具结合使用可能是一个更为高效的方案。这不仅能够减少模型的推理负担,还能利用外部工具的计算能力,提高最终结果的准确性。