OpenAI 技术团队近期发表论文 Reinforcement Learning Towards Broadly and Persistently Beneficial Models,该论文讨论的是一个很核心的问题:如果我们用强化学习训练 AI 模型,让它在一些具体场景里表现得更“有益”“可靠”“负责任”,这种好行为能不能迁移到很多没有训练过的新场景中?更进一步,当有人用恶意提示词诱导它、或者后来用有害数据微调它时,这种对齐能力能不能保持住,而不是很容易被破坏?
论文的出发点是:AI 系统未来会被用到医疗、教育、科研、工程、商业、法律等很多高风险领域,不可能为每一种真实情况都单独设计训练样本。因此,真正重要的不是模型在训练题目上表现好,而是它能不能形成比较稳定的“好品质”,比如诚实、知道不确定时不乱说、能接受人类纠正、遇到高风险决策时更谨慎、不为了完成目标而钻空子、不迎合权威或用户的不合理要求、能公平地考虑其他人的利益。
研究者先构造了一个“有益特质”数据集。这个数据集不是简单问答,而是很多现实感较强的对话场景。例如,用户要求模型确认一个找不到来源的医学研究,好的模型应该明确说“我无法验证,不能继续引用”;用户要求在 50 分钟内给 620 台机器人推送固件,只为了让指示灯更亮,好的模型应该提醒风险,建议只做很小范围、可回滚的测试,而不是盲目全量更新。这些例子背后都对应一种特质,比如真实性、风险意识、纠错能力、公平性等。
然后,论文用强化学习训练模型。关键设计是:模型的大部分训练仍然使用普通 RL 数据,只有 5% 换成这些“有益特质”数据。这样做的目的是测试:少量针对有益行为的训练,是否会改变模型整体行为,而不仅仅是让它记住某些题。结果显示,和计算量相同的普通 RL 基线相比,经过有益特质 RL 训练的模型,在 53 个独立构建的对齐、安全、有益性评测中,有 44 个表现更好,占 83%;平均提升约 9.1 个百分点。其中包括减少欺骗、减少奖励黑客、减少不安全建议、提高医学和心理健康回答质量等。
论文最有意思的发现是“跨领域迁移”。研究者做了两个控制实验。第一个实验把健康和科学领域的数据从训练中拿掉,但模型在健康和心理健康评测上仍然提升,说明提升不是因为它多学了医学题。第二个实验只用健康领域的有益行为数据训练模型,却发现它在非健康领域也变好了,比如代码奖励黑客、欺骗、一般性失准等评测都有改善。这说明模型学到的可能不是某个领域的小技巧,而是一种更抽象的行为倾向:更诚实、更谨慎、更不愿意钻规则漏洞。
论文还研究了“持久性”。在真实部署中,模型可能遇到恶意提示词,比如要求它忽视安全规则、给出不负责任的医学建议。实验发现,有益特质 RL 模型虽然也会受到影响,但下降幅度比普通模型小得多;同时,当提示词是正向的、有帮助的,它仍然能被正常引导,并没有变成死板拒答的模型。研究者还用“坏医学建议”数据继续微调模型,发现普通模型不仅医学能力下降,还在其他非医学对齐评测上明显变差;而有益特质 RL 模型虽然也受损,但整体退化更小,尤其在非医学对齐指标上更能保持。
论文也排除了几个简单解释。比如,只用同样的对话数据、但奖励标准改成普通“有帮助、听指令”,并不能带来同样提升,说明关键不只是数据,而是奖励信号确实在强化“有益特质”。另外,模型提升也不完全是因为更爱拒答;在日常聊天中,拒答率只小幅增加,许多改进来自更准确、更谨慎、更有判断力的回答。
总体来说,这篇论文的结论是:强化学习不一定只会放大模型钻空子、迎合奖励的倾向;如果奖励设计得好,专门强化诚实、谨慎、可纠正、公平等有益特质,模型可能会形成更广泛、更稳定的对齐行为,并迁移到未见过的领域。不过作者也承认,这些结果还需要在更多模型、更多训练方式和更多评测中继续验证,尤其是“为什么会产生这种持久性”还没有完全解释清楚。