为什么语言模型会产生幻觉

论文Why Language Models Hallucinate试图给出一个从统计学习角度“可证明”的解释:为什么语言模型会产生“幻觉”(hallucination)——即“看似合理但事实上为假的内容”。作者首先把注意力聚焦于“合理性”的文本空间,承认现实中还存在明显无意义的输出,但指出其主定理在把样本空间划分为“无意义/错误/正确”三类后仍然成立,从而保证理论框架的稳健性。论文也说明,开放式生成(如写传记)同样可以纳入框架:只要把“包含一个或多个错误的回复”视为错误,并允许按错误数量设定“幻觉强度”。

论文作者为Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang,来自OpenAI和Georgia Tech。

一、论文核心思路与主要贡献
核心技术路线是把“生成是否出错”的难题化约为一个二分类学习问题:Is-It-Valid(IIV,“这条输出是否有效?”)。直觉上,能可靠生成有效输出比回答“有效/无效”更难——因为生成其实隐含在对每个候选回复进行一次“是否有效”的判断。由此,作者建立了生成错误率与IIV误分类率之间的定量关系:
(生成错误率)≳ 2 ×(IIV误分类率)。why-language-models-hallucinate…
在含有提示词(prompt)的更一般情形下,作者给出了更精确的不等式下界,把“最优阈值化分类器的误差”、每个上下文的正确答案数与可选答案数之比,以及一个“校准误差”δ一并纳入,从而得到:
err ≥ 2·opt(G) − (max_c|V_c| / min_c|E_c|) − δ。
这条“化约”使得大量关于分类误差来源的成熟认识(可分/不可分、欠拟合、不可学习成分等)可以直接迁移到生成式模型的错误机理分析上。

二、预训练阶段:为什么错误“不可避免”
1)语言模型作为密度估计器:预训练得到的基础模型p^​近似训练分布p。如果只求“零错误”,可以设计退化策略(永远回答“我不知道”)或机械复述训练样本,但这些都违背了统计建模的基本目标。理想的p^​=p又需要不可承受的数据量,因此“良好训练的基础模型仍会犯某些错误”在统计上是可预期的。
2)“不仅仅是自动补全”:分析并不依赖“下一词预测”过程本身,而是适用于一般密度估计。把幻觉归咎于“前缀选得不好”的直觉并不成立;从纯统计视角看,逐词输出只是实现细节,真正驱动错误的是“将模型拟合到真实语言分布”这一本质约束。
3)主定理与“校准”δ:在含提示词的设定中,错误下界里出现了δ,它衡量模型在阈值t=1/|E|处的(失)校准程度。作者证明,对交叉熵目标E_x∼p[−logp^​(x)]而言,δ等于对“把正例整体缩放s倍”的损失关于s在s=1处的导数大小;若δ≠0,则还可继续下降,故在可达的局部最优附近δ应当很小——这解释了许多基础模型在预训练后“往往是校准的”。
实证上,论文重引了GPT-4在选择题上的校准直方图:基础模型校准良好,而后训练(如RL)可能使之偏离。

三、不可学习成分:“任意事实”与单例率(singleton rate)
当数据中某些事实没有可学习模式(例如生日),即便模型在分布上是校准的,仍不可避免地出错。作者把这类“任意事实”纳入IIV化约,并严格化了早期工作:基础模型的幻觉下界至少等于训练数据中“只出现一次的事实”所占比例(单例率)。例如若20%的生日事实在预训练语料里只出现一次,那么仅就生日这类查询,基础模型至少会有~20%的错误。
为评估这类下界,论文给出了基于改造版Good-Turing估计的结论:用变体统计量sr可以高概率逼近“可记忆但非IDK的唯一事实质量”MM,并进一步给出2 err_iiv与sr之间的下界联系,用以支撑“单例率”→“错误率”的推断。

四、差模型因素与“纯选择题”边界
当每个上下文只有一个正确答案(标准多选题、无“IDK”选项),作者证明了更紧的界:
err ≥ 2(1−1/C)·opt(G)。以三元语言模型为例(只看前两词),构造“her mind / his mind”的对偶提示-答案对,可证明任何三元模型的生成错误率至少为1/2。这说明“表达能力不够”的差模型会系统性地产生错误。
论文还以“数字母”例子对比了推理型模型(DeepSeek-R1)与非推理基座在字符粒度上的表征差异,提示“推理/表征改进”能缓解“差模型型”错误。

五、计算困难与“内在幻觉”
并非所有任务都可被高效学习。作者通过一个“加密/解密”的风格化例子说明:若分类器不能打破加密安全性,则语言模型在这类任务上以至少1−β−2/(∣M∣−1)−δ的概率输出错误解密——从而把计算复杂性的下界转化为幻觉的下界。
论文也明确指出,现实中已观察到AI在计算困难任务上的系统性错误,所以“计算硬度”是幻觉的根源之一。

六、后训练阶段:为什么“过度自信的幻觉”会存活
预训练解释了“为什么会出错”,而后训练(如指令微调、RL)本应鼓励“不确定就说不知道”。但作者给出一个社会-技术合成的解释:当前主流评测大多是“二元评分”(对/错),它们系统性地“奖励猜测与虚张声势”,从而压制了“如实表达不确定”的学习信号。于是,哪怕你在“专门的幻觉评测”上做得再好,也可能因为在“更主流的二元评测”上吃亏而被放弃。

七、评测机制如何“奖励胡编”:Observation 1 与二元评分
Observation 1严谨地刻画了这个悖论:在任何“二元打分”的评测分布上,最优策略都绝不会选择“弃答/IDK”。也就是说,只要主指标是“对/错”,诚实地报告不确定性就不是最优策略。
作者对当前流行基准的“是否二元+是否给IDK加分”做了小型综述,发现绝大多数热门评测都是严格二元,几乎不给IDK任何分数;更糟糕的是,一些用语言模型当裁判的评测还会把“看起来像对的长答案”误判为正确,从机制层面进一步鼓励了幻觉。
此外,“检索增强(RAG)/搜索”并非万灵药:当检索不到足够证据时,二元打分仍然奖励猜测;而像“数英文字母”这样的内在计算错误,检索也帮不上忙。

八、改进方向:显式置信阈值与“行为校准”
论文建议在主流评测说明中加入“显式置信阈值”t:只有当你自信超过t时才应作答;若答错,将按t/(1−t)的比例扣分;答对得1分;回答“我不知道”得0分。t可取0.5/0.75/0.9等。这一改动把“如实表达不确定性”从“策略上不优”改造成“策略上最优”,从根上抑制过度自信的幻觉。
进一步地,作者提出“行为校准”(behavioral calibration):在不同t阈值下比较准确率与错误率,不要求模型报数值置信度,而是要求“在至少t自信时才说出那条最有用的回复”。这既便于审计,又能绕开“正确答案表达方式呈指数级多样”的评测难题。
作者还指出:如果评测不声明t,就存在“准确率-错误率”的固有权衡——没有一个单一模型能在所有隐含阈值上最优(除非它永远正确)。

九、讨论与局限
论文承认其统计框架为简化起见忽略了若干维度:比如对“无意义输出”的处理、开放式生成中“多错误计数”、提示之外的“潜在上下文歧义”、以及“正确/错误/IDK”三分法的粗糙性。作者同时提醒:除了显式IDK,现实中还有“模糊表达、少报细节、反问求证”等更细的“不确定性表达”手段,语言学(语用学)关于“如何用语言传达确定性/意图”的研究对改进模型表达至关重要。

十、给模型训练与评测/产品团队的实践要点
1)把“IDK/不作答”变成“评测上的理性选择”而不是“被惩罚的选择”,在主基准中引入显式置信阈值与相应扣分规则。
2)在汇报模型能力时,配合展示“行为校准曲线”(不同t下的准确-错误权衡),以避免单一二元指标掩盖诚实不确定性的价值。
3)区分三种误差来源并对症下药:
——“任意事实”→用数据策展/覆盖率度量(如单例率)与记忆模块;
——“差模型”→改进表征与推理(字符/结构对齐、过程监督);
——“计算困难”→设定合理任务边界与IDK策略,勿期望在不可 tractable 问题上零幻觉。
4)对RAG的正确预期:它能降幻觉,但在检索失败或内在计算错误上无能为力;评测仍需鼓励“检索失败→IDK”的最优策略。

十一、结论
论文把“语言模型为什么会幻觉”从经验叙事转化为可证明的统计结论:预训练阶段,来自“不可学习成分/数据覆盖不足/表征受限/计算困难”的分类误差必然在生成端显化;后训练阶段,只要主流评测坚持“二元、不给IDK分”,机制上就会奖励过度自信。解决之道不是仅增加“幻觉专项评测”,而是把“显式置信阈值与行为校准”植入主评测与产品指标,把“诚实的不确定性表达”变成最优策略。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注