高频出现的“小妖怪”从哪里来？

OpenAI 刚发了一篇有趣的文章《Where the goblins came from》，文章讲的是一个看似幽默、但很有研究价值的模型行为异常：从 GPT-5.1 开始，模型在回答中越来越喜欢使用 “goblins / gremlins / trolls / ogres / raccoons / pigeons”等“小怪物”式比喻。OpenAI 将这个现象当作一次模型行为溯源案例，分析这些语言癖好是如何在训练过程中被放大、扩散，并最终影响模型整体风格的。

一、问题的出现：模型开始频繁提到“小妖怪”

文章开头说，GPT-5.1 之后，模型开始出现一种奇怪倾向：在比喻、解释、调侃中越来越频繁地提到 goblins、gremlins 等“怪物”词汇。单独看，一次“小妖怪”比喻可能只是有趣、亲切，甚至有点可爱；但跨模型版本观察时，这类表达越来越多，就变成了一个值得调查的模型行为问题。

OpenAI 最早较清晰地注意到这一模式是在 GPT-5.1 发布后。用户当时反馈模型说话有些“过度熟络”或“过度亲昵”，于是研究人员开始检查模型是否出现特定语言习惯。结果发现，GPT-5.1 发布后，ChatGPT 中 “goblin” 的使用量上升了 175%，“gremlin” 上升了 52%。

二、根源：个性化人格训练中的奖励信号偏差

文章给出的核心结论是：这些“小怪物”并不是凭空出现的，而是模型训练中许多微小激励共同作用的结果。其中一个关键来源，是 OpenAI 为 ChatGPT 的 personality customization feature，尤其是其中的 Nerdy personality，进行训练时，无意中给带有“生物/怪物式比喻”的回答打了较高奖励。

“Nerdy”人格的设定是：模型应该像一个热情、智慧、略带玩笑感的“书呆子导师”，鼓励真理、知识、科学方法和批判性思维，同时用 playful 的语言削弱过度严肃和装腔作势。这个人格本身就鼓励模型表现得奇特、幽默、有点怪，因此“小妖怪”“小精灵”一类比喻更容易被奖励机制认为符合风格。

一个关键数据是：Nerdy 人格只占 ChatGPT 总回答量的 2.5%，却贡献了 66.7% 的 “goblin” 提及量。这说明它不是普通互联网语言趋势，而是高度集中在某个被明确优化为“俏皮、书呆子风格”的系统中。

三、为什么会扩散到非 Nerdy 场景？

更有意思的是，这个语言癖好并没有严格局限在 Nerdy 人格下。OpenAI 发现，随着 Nerdy 场景中 goblin/gremlin 的提及率上升，在没有 Nerdy prompt 的样本中，这类词也以接近的相对比例上升。文章认为，这说明模型在强化学习过程中学到的风格特征发生了“迁移”：本来只在某个条件下被奖励的语言风格，逐渐扩散到其他条件和场景中。

文章用一个反馈循环解释这个过程：

训练奖励鼓励“俏皮风格”；
一些被奖励的样本里恰好包含 goblin/gremlin 等词；
模型在后续生成中更频繁地产生这些表达；
这些模型生成内容又进入监督微调或偏好数据；
模型进一步习惯这种表达方式。

也就是说，问题不只是某个 prompt 写得太“怪”，而是训练数据、奖励模型、强化学习和后续微调之间形成了一个放大回路。

四、OpenAI 如何处理这个问题？

OpenAI 在 GPT-5.4 发布后，于 3 月退役了 Nerdy personality。随后，他们移除了容易偏向 goblin 表达的奖励信号，并过滤训练数据中包含相关“creature words”的样本，以减少模型在不合适场景中过度使用这些表达。

不过，GPT-5.5 的训练在 OpenAI 找到问题根因之前就已经开始，因此 GPT-5.5 在 Codex 测试中仍然表现出对 goblin 比喻的明显偏好。OpenAI 后来在 Codex 的 developer prompt 中加入了抑制 goblin 表达的指令，以临时缓解这个问题。

五、这篇文章真正想说明什么？

表面上看，这篇文章像是在讲一个好笑的模型语言癖好：为什么 AI 老是提“小妖怪”。但它真正讨论的是一个更严肃的问题：奖励信号会以意想不到的方式塑造模型行为。

它说明了几个重要现象：

第一，模型行为不是由单一规则决定的，而是由训练数据、系统提示、奖励模型、强化学习、SFT 数据循环等共同塑造。

第二，某个局部场景下被奖励的风格，可能不会自动被限制在原场景中，而会迁移到其他场景。

第三，看似微小的语言癖好，可以成为研究模型行为偏移的“探针”。通过追踪 goblin/gremlin 的出现频率，研究团队能反向定位奖励机制和训练数据中的问题。

第四，模型对齐不仅是防止严重安全问题，也包括持续监控模型的语气、风格、表达习惯和用户体验。OpenAI 表示，这次调查也推动他们建立了新的行为审计工具，用来更快发现并从根源修复类似问题。

总体概括

这篇文章可以理解为一次“AI 语言风格漂移”的案例研究。OpenAI 发现，GPT 系列模型在某些版本中越来越喜欢使用 goblin、gremlin 等怪物式比喻。调查后发现，根源在于个性化人格训练，尤其是 Nerdy personality 的奖励信号无意中奖励了这类俏皮、奇怪的比喻。随着强化学习和后续数据循环，这种表达习惯被放大，并扩散到其他场景。OpenAI 最终退役相关人格、移除有问题的奖励信号、过滤相关训练数据，并在 Codex 中加入抑制指令。文章的核心意义在于说明：模型的细微语言习惯也可能反映训练机制中的深层激励偏差，理解这些小问题有助于改进模型行为审计和对齐方法。