通过构造了“有益特质”数据集的强化学习，让模型形成比较稳定的“好品质”

OpenAI 技术团队近期发表论文 Reinforcement Learning Towards Broadly and Persistently Beneficial Models，该论文讨论的是一个很核心的问题：如果我们用强化学习训练 AI 模型，让它在一些具体场景里表现得更“有益”“可靠”“负责任”，这种好行为能不能迁移到很多没有训练过的新场景中？更进一步，当有人用恶意提示词诱导它、或者后来用有害数据微调它时，这种对齐能力能不能保持住，而不是很容易被破坏？

论文的出发点是：AI 系统未来会被用到医疗、教育、科研、工程、商业、法律等很多高风险领域，不可能为每一种真实情况都单独设计训练样本。因此，真正重要的不是模型在训练题目上表现好，而是它能不能形成比较稳定的“好品质”，比如诚实、知道不确定时不乱说、能接受人类纠正、遇到高风险决策时更谨慎、不为了完成目标而钻空子、不迎合权威或用户的不合理要求、能公平地考虑其他人的利益。

研究者先构造了一个“有益特质”数据集。这个数据集不是简单问答，而是很多现实感较强的对话场景。例如，用户要求模型确认一个找不到来源的医学研究，好的模型应该明确说“我无法验证，不能继续引用”；用户要求在 50 分钟内给 620 台机器人推送固件，只为了让指示灯更亮，好的模型应该提醒风险，建议只做很小范围、可回滚的测试，而不是盲目全量更新。这些例子背后都对应一种特质，比如真实性、风险意识、纠错能力、公平性等。

然后，论文用强化学习训练模型。关键设计是：模型的大部分训练仍然使用普通 RL 数据，只有 5% 换成这些“有益特质”数据。这样做的目的是测试：少量针对有益行为的训练，是否会改变模型整体行为，而不仅仅是让它记住某些题。结果显示，和计算量相同的普通 RL 基线相比，经过有益特质 RL 训练的模型，在 53 个独立构建的对齐、安全、有益性评测中，有 44 个表现更好，占 83%；平均提升约 9.1 个百分点。其中包括减少欺骗、减少奖励黑客、减少不安全建议、提高医学和心理健康回答质量等。

论文最有意思的发现是“跨领域迁移”。研究者做了两个控制实验。第一个实验把健康和科学领域的数据从训练中拿掉，但模型在健康和心理健康评测上仍然提升，说明提升不是因为它多学了医学题。第二个实验只用健康领域的有益行为数据训练模型，却发现它在非健康领域也变好了，比如代码奖励黑客、欺骗、一般性失准等评测都有改善。这说明模型学到的可能不是某个领域的小技巧，而是一种更抽象的行为倾向：更诚实、更谨慎、更不愿意钻规则漏洞。

论文还研究了“持久性”。在真实部署中，模型可能遇到恶意提示词，比如要求它忽视安全规则、给出不负责任的医学建议。实验发现，有益特质 RL 模型虽然也会受到影响，但下降幅度比普通模型小得多；同时，当提示词是正向的、有帮助的，它仍然能被正常引导，并没有变成死板拒答的模型。研究者还用“坏医学建议”数据继续微调模型，发现普通模型不仅医学能力下降，还在其他非医学对齐评测上明显变差；而有益特质 RL 模型虽然也受损，但整体退化更小，尤其在非医学对齐指标上更能保持。

论文也排除了几个简单解释。比如，只用同样的对话数据、但奖励标准改成普通“有帮助、听指令”，并不能带来同样提升，说明关键不只是数据，而是奖励信号确实在强化“有益特质”。另外，模型提升也不完全是因为更爱拒答；在日常聊天中，拒答率只小幅增加，许多改进来自更准确、更谨慎、更有判断力的回答。

总体来说，这篇论文的结论是：强化学习不一定只会放大模型钻空子、迎合奖励的倾向；如果奖励设计得好，专门强化诚实、谨慎、可纠正、公平等有益特质，模型可能会形成更广泛、更稳定的对齐行为，并迁移到未见过的领域。不过作者也承认，这些结果还需要在更多模型、更多训练方式和更多评测中继续验证，尤其是“为什么会产生这种持久性”还没有完全解释清楚。

相关文章：

发表评论 取消回复

发表评论取消回复