Chain-of-Thought(思维链)≠ 可解释性(Explainability)

论文Chain-of-Thought Is Not Explainability揭示了一个关于人工智能的重要误解:仅仅因为一个模型解释了它的推理步骤,并不意味着它揭示了真实的推理过程。

✅ CoT 所给出的“理由”可以看似合理地为有偏差的输出辩护,却无法揭示真正的隐藏影响因素
✅ 模型常常在中间推理步骤出错时默默纠正自己,仍然得出正确答案,这意味着推理过程本身可能是错误的,但结果却是对的

这导致了一种透明性的幻觉 —— 解释看似可信,实则掩盖了模型是如何真正做出决策的

为什么会这样?一个可能的原因是:模型的计算方式是分布式且并行的,并非像人类那样按部就班地进行线性推理。
而 CoT 只是强行将人类式的线性推理格式加在一个本质上不同的架构之上,这注定导致解释过程并不忠实于模型的真实机制。

论文建议将 CoT 视为一种补充性工具,而非充分的可解释性手段。未来的研究应当:

  • 开发更严格的忠实性验证方法,如:
    • 因果验证(causal validation)
    • 激活打补丁(activation patching)
    • 反事实测试(counterfactual testing)
    • 验证模型(verifier models)
  • 引入认知科学启发的策略,例如:
    • 双系统推理(dual-process reasoning)
    • 错误监控机制(error monitoring)
  • 构建健全的人类监督工具,用于解释和审计模型的推理过程

论文作者为Fazl Barez, Tony Wu, Iván Arcuschin, Michael Lan, Vincent Wang-Maścianica, Noah Y. Siegel, Nicolas Collignon, Clement Neo, Isabelle Lee, Alasdair Paren, Adel Bibi, Robert Trager, Damiano Fornasiere, John Yan, Yanai Elazar, Yoshua Bengio。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注