OpenAI 刚发了一篇有趣的文章《Where the goblins came from》,文章讲的是一个看似幽默、但很有研究价值的模型行为异常:从 GPT-5.1 开始,模型在回答中越来越喜欢使用 “goblins / gremlins / trolls / ogres / raccoons / pigeons”等“小怪物”式比喻。OpenAI 将这个现象当作一次模型行为溯源案例,分析这些语言癖好是如何在训练过程中被放大、扩散,并最终影响模型整体风格的。
一、问题的出现:模型开始频繁提到“小妖怪”
文章开头说,GPT-5.1 之后,模型开始出现一种奇怪倾向:在比喻、解释、调侃中越来越频繁地提到 goblins、gremlins 等“怪物”词汇。单独看,一次“小妖怪”比喻可能只是有趣、亲切,甚至有点可爱;但跨模型版本观察时,这类表达越来越多,就变成了一个值得调查的模型行为问题。
OpenAI 最早较清晰地注意到这一模式是在 GPT-5.1 发布后。用户当时反馈模型说话有些“过度熟络”或“过度亲昵”,于是研究人员开始检查模型是否出现特定语言习惯。结果发现,GPT-5.1 发布后,ChatGPT 中 “goblin” 的使用量上升了 175%,“gremlin” 上升了 52%。
二、根源:个性化人格训练中的奖励信号偏差
文章给出的核心结论是:这些“小怪物”并不是凭空出现的,而是模型训练中许多微小激励共同作用的结果。其中一个关键来源,是 OpenAI 为 ChatGPT 的 personality customization feature,尤其是其中的 Nerdy personality,进行训练时,无意中给带有“生物/怪物式比喻”的回答打了较高奖励。
“Nerdy”人格的设定是:模型应该像一个热情、智慧、略带玩笑感的“书呆子导师”,鼓励真理、知识、科学方法和批判性思维,同时用 playful 的语言削弱过度严肃和装腔作势。这个人格本身就鼓励模型表现得奇特、幽默、有点怪,因此“小妖怪”“小精灵”一类比喻更容易被奖励机制认为符合风格。
一个关键数据是:Nerdy 人格只占 ChatGPT 总回答量的 2.5%,却贡献了 66.7% 的 “goblin” 提及量。这说明它不是普通互联网语言趋势,而是高度集中在某个被明确优化为“俏皮、书呆子风格”的系统中。
三、为什么会扩散到非 Nerdy 场景?
更有意思的是,这个语言癖好并没有严格局限在 Nerdy 人格下。OpenAI 发现,随着 Nerdy 场景中 goblin/gremlin 的提及率上升,在没有 Nerdy prompt 的样本中,这类词也以接近的相对比例上升。文章认为,这说明模型在强化学习过程中学到的风格特征发生了“迁移”:本来只在某个条件下被奖励的语言风格,逐渐扩散到其他条件和场景中。
文章用一个反馈循环解释这个过程:
- 训练奖励鼓励“俏皮风格”;
- 一些被奖励的样本里恰好包含 goblin/gremlin 等词;
- 模型在后续生成中更频繁地产生这些表达;
- 这些模型生成内容又进入监督微调或偏好数据;
- 模型进一步习惯这种表达方式。
也就是说,问题不只是某个 prompt 写得太“怪”,而是训练数据、奖励模型、强化学习和后续微调之间形成了一个放大回路。
四、OpenAI 如何处理这个问题?
OpenAI 在 GPT-5.4 发布后,于 3 月退役了 Nerdy personality。随后,他们移除了容易偏向 goblin 表达的奖励信号,并过滤训练数据中包含相关“creature words”的样本,以减少模型在不合适场景中过度使用这些表达。
不过,GPT-5.5 的训练在 OpenAI 找到问题根因之前就已经开始,因此 GPT-5.5 在 Codex 测试中仍然表现出对 goblin 比喻的明显偏好。OpenAI 后来在 Codex 的 developer prompt 中加入了抑制 goblin 表达的指令,以临时缓解这个问题。
五、这篇文章真正想说明什么?
表面上看,这篇文章像是在讲一个好笑的模型语言癖好:为什么 AI 老是提“小妖怪”。但它真正讨论的是一个更严肃的问题:奖励信号会以意想不到的方式塑造模型行为。
它说明了几个重要现象:
第一,模型行为不是由单一规则决定的,而是由训练数据、系统提示、奖励模型、强化学习、SFT 数据循环等共同塑造。
第二,某个局部场景下被奖励的风格,可能不会自动被限制在原场景中,而会迁移到其他场景。
第三,看似微小的语言癖好,可以成为研究模型行为偏移的“探针”。通过追踪 goblin/gremlin 的出现频率,研究团队能反向定位奖励机制和训练数据中的问题。
第四,模型对齐不仅是防止严重安全问题,也包括持续监控模型的语气、风格、表达习惯和用户体验。OpenAI 表示,这次调查也推动他们建立了新的行为审计工具,用来更快发现并从根源修复类似问题。
总体概括
这篇文章可以理解为一次“AI 语言风格漂移”的案例研究。OpenAI 发现,GPT 系列模型在某些版本中越来越喜欢使用 goblin、gremlin 等怪物式比喻。调查后发现,根源在于个性化人格训练,尤其是 Nerdy personality 的奖励信号无意中奖励了这类俏皮、奇怪的比喻。随着强化学习和后续数据循环,这种表达习惯被放大,并扩散到其他场景。OpenAI 最终退役相关人格、移除有问题的奖励信号、过滤相关训练数据,并在 Codex 中加入抑制指令。文章的核心意义在于说明:模型的细微语言习惯也可能反映训练机制中的深层激励偏差,理解这些小问题有助于改进模型行为审计和对齐方法。