为什么语言模型会产生幻觉

论文Why Language Models Hallucinate试图给出一个从统计学习角度“可证明”的解释：为什么语言模型会产生“幻觉”（hallucination）——即“看似合理但事实上为假的内容”。作者首先把注意力聚焦于“合理性”的文本空间，承认现实中还存在明显无意义的输出，但指出其主定理在把样本空间划分为“无意义/错误/正确”三类后仍然成立，从而保证理论框架的稳健性。论文也说明，开放式生成（如写传记）同样可以纳入框架：只要把“包含一个或多个错误的回复”视为错误，并允许按错误数量设定“幻觉强度”。

论文作者为Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang，来自OpenAI和Georgia Tech。

一、论文核心思路与主要贡献
核心技术路线是把“生成是否出错”的难题化约为一个二分类学习问题：Is-It-Valid（IIV，“这条输出是否有效？”）。直觉上，能可靠生成有效输出比回答“有效/无效”更难——因为生成其实隐含在对每个候选回复进行一次“是否有效”的判断。由此，作者建立了生成错误率与IIV误分类率之间的定量关系：
（生成错误率）≳ 2 ×（IIV误分类率）。why-language-models-hallucinate…
在含有提示词（prompt）的更一般情形下，作者给出了更精确的不等式下界，把“最优阈值化分类器的误差”、每个上下文的正确答案数与可选答案数之比，以及一个“校准误差”δ一并纳入，从而得到：
err ≥ 2·opt(G) − (max_c|V_c| / min_c|E_c|) − δ。
这条“化约”使得大量关于分类误差来源的成熟认识（可分/不可分、欠拟合、不可学习成分等）可以直接迁移到生成式模型的错误机理分析上。

二、预训练阶段：为什么错误“不可避免”
1）语言模型作为密度估计器：预训练得到的基础模型p^近似训练分布p。如果只求“零错误”，可以设计退化策略（永远回答“我不知道”）或机械复述训练样本，但这些都违背了统计建模的基本目标。理想的p^=p又需要不可承受的数据量，因此“良好训练的基础模型仍会犯某些错误”在统计上是可预期的。
2）“不仅仅是自动补全”：分析并不依赖“下一词预测”过程本身，而是适用于一般密度估计。把幻觉归咎于“前缀选得不好”的直觉并不成立；从纯统计视角看，逐词输出只是实现细节，真正驱动错误的是“将模型拟合到真实语言分布”这一本质约束。
3）主定理与“校准”δ：在含提示词的设定中，错误下界里出现了δ，它衡量模型在阈值t=1/|E|处的（失）校准程度。作者证明，对交叉熵目标E_x∼p[−logp^(x)]而言，δ等于对“把正例整体缩放s倍”的损失关于s在s=1处的导数大小；若δ≠0，则还可继续下降，故在可达的局部最优附近δ应当很小——这解释了许多基础模型在预训练后“往往是校准的”。
实证上，论文重引了GPT-4在选择题上的校准直方图：基础模型校准良好，而后训练（如RL）可能使之偏离。

三、不可学习成分：“任意事实”与单例率（singleton rate）
当数据中某些事实没有可学习模式（例如生日），即便模型在分布上是校准的，仍不可避免地出错。作者把这类“任意事实”纳入IIV化约，并严格化了早期工作：基础模型的幻觉下界至少等于训练数据中“只出现一次的事实”所占比例（单例率）。例如若20%的生日事实在预训练语料里只出现一次，那么仅就生日这类查询，基础模型至少会有~20%的错误。
为评估这类下界，论文给出了基于改造版Good-Turing估计的结论：用变体统计量sr可以高概率逼近“可记忆但非IDK的唯一事实质量”MM，并进一步给出2 err_iiv与sr之间的下界联系，用以支撑“单例率”→“错误率”的推断。

四、差模型因素与“纯选择题”边界
当每个上下文只有一个正确答案（标准多选题、无“IDK”选项），作者证明了更紧的界：
err ≥ 2(1−1/C)·opt(G)。以三元语言模型为例（只看前两词），构造“her mind / his mind”的对偶提示-答案对，可证明任何三元模型的生成错误率至少为1/2。这说明“表达能力不够”的差模型会系统性地产生错误。
论文还以“数字母”例子对比了推理型模型（DeepSeek-R1）与非推理基座在字符粒度上的表征差异，提示“推理/表征改进”能缓解“差模型型”错误。

五、计算困难与“内在幻觉”
并非所有任务都可被高效学习。作者通过一个“加密/解密”的风格化例子说明：若分类器不能打破加密安全性，则语言模型在这类任务上以至少1−β−2/(∣M∣−1)−δ的概率输出错误解密——从而把计算复杂性的下界转化为幻觉的下界。
论文也明确指出，现实中已观察到AI在计算困难任务上的系统性错误，所以“计算硬度”是幻觉的根源之一。

六、后训练阶段：为什么“过度自信的幻觉”会存活
预训练解释了“为什么会出错”，而后训练（如指令微调、RL）本应鼓励“不确定就说不知道”。但作者给出一个社会-技术合成的解释：当前主流评测大多是“二元评分”（对/错），它们系统性地“奖励猜测与虚张声势”，从而压制了“如实表达不确定”的学习信号。于是，哪怕你在“专门的幻觉评测”上做得再好，也可能因为在“更主流的二元评测”上吃亏而被放弃。

七、评测机制如何“奖励胡编”：Observation 1 与二元评分
Observation 1严谨地刻画了这个悖论：在任何“二元打分”的评测分布上，最优策略都绝不会选择“弃答/IDK”。也就是说，只要主指标是“对/错”，诚实地报告不确定性就不是最优策略。
作者对当前流行基准的“是否二元+是否给IDK加分”做了小型综述，发现绝大多数热门评测都是严格二元，几乎不给IDK任何分数；更糟糕的是，一些用语言模型当裁判的评测还会把“看起来像对的长答案”误判为正确，从机制层面进一步鼓励了幻觉。
此外，“检索增强（RAG）/搜索”并非万灵药：当检索不到足够证据时，二元打分仍然奖励猜测；而像“数英文字母”这样的内在计算错误，检索也帮不上忙。

八、改进方向：显式置信阈值与“行为校准”
论文建议在主流评测说明中加入“显式置信阈值”t：只有当你自信超过t时才应作答；若答错，将按t/(1−t)的比例扣分；答对得1分；回答“我不知道”得0分。t可取0.5/0.75/0.9等。这一改动把“如实表达不确定性”从“策略上不优”改造成“策略上最优”，从根上抑制过度自信的幻觉。
进一步地，作者提出“行为校准”（behavioral calibration）：在不同t阈值下比较准确率与错误率，不要求模型报数值置信度，而是要求“在至少t自信时才说出那条最有用的回复”。这既便于审计，又能绕开“正确答案表达方式呈指数级多样”的评测难题。
作者还指出：如果评测不声明t，就存在“准确率-错误率”的固有权衡——没有一个单一模型能在所有隐含阈值上最优（除非它永远正确）。

九、讨论与局限
论文承认其统计框架为简化起见忽略了若干维度：比如对“无意义输出”的处理、开放式生成中“多错误计数”、提示之外的“潜在上下文歧义”、以及“正确/错误/IDK”三分法的粗糙性。作者同时提醒：除了显式IDK，现实中还有“模糊表达、少报细节、反问求证”等更细的“不确定性表达”手段，语言学（语用学）关于“如何用语言传达确定性/意图”的研究对改进模型表达至关重要。

十、给模型训练与评测/产品团队的实践要点
1）把“IDK/不作答”变成“评测上的理性选择”而不是“被惩罚的选择”，在主基准中引入显式置信阈值与相应扣分规则。
2）在汇报模型能力时，配合展示“行为校准曲线”（不同t下的准确-错误权衡），以避免单一二元指标掩盖诚实不确定性的价值。
3）区分三种误差来源并对症下药：
——“任意事实”→用数据策展/覆盖率度量（如单例率）与记忆模块；
——“差模型”→改进表征与推理（字符/结构对齐、过程监督）；
——“计算困难”→设定合理任务边界与IDK策略，勿期望在不可 tractable 问题上零幻觉。
4）对RAG的正确预期：它能降幻觉，但在检索失败或内在计算错误上无能为力；评测仍需鼓励“检索失败→IDK”的最优策略。

十一、结论
论文把“语言模型为什么会幻觉”从经验叙事转化为可证明的统计结论：预训练阶段，来自“不可学习成分/数据覆盖不足/表征受限/计算困难”的分类误差必然在生成端显化；后训练阶段，只要主流评测坚持“二元、不给IDK分”，机制上就会奖励过度自信。解决之道不是仅增加“幻觉专项评测”，而是把“显式置信阈值与行为校准”植入主评测与产品指标，把“诚实的不确定性表达”变成最优策略。

相关文章：

发表评论 取消回复

发表评论取消回复