OpenAI发布最新模型o1,其系统说明/系统卡(OpenAI o1 System Card)也相应发布。 OpenAI o1 System Card详细描述了 OpenAI o1 系列模型的性能、安全挑战、评估结果和潜在风险。o1 系列模型通过思维链推理显著提高了推理和决策能力,同时在越狱攻击、幻觉和偏见等方面表现出色。然而,随着模型智能的提高,相关风险也随之增加,特别是在生物威胁创建和说服力等领域。因此,未来继续强化安全措施、优化模型表现尤为重要。
文档OpenAI o1 System Card的内容概要如下:
1. 简介
o1 系列模型的最大特点是通过“思维链”(Chain of Thought, CoT)推理,这种推理方式使模型在回答问题前会进行一系列逻辑推导,从而提高响应的准确性和安全性。这种方法尤其适用于复杂的推理任务,有助于模型遵循安全政策,避免生成不当或有害的内容。与以往的模型相比,o1 系列在处理越狱攻击、生成带有偏见的回答或回答非法请求时表现出色。然而,随着模型智能的提升,也带来了潜在的风险,比如模型可能被误用,因此,开发和维护更强大安全机制尤为重要。
2. 模型数据和训练
o1 系列模型通过强化学习(RL)进行训练,旨在提高其推理和决策能力。该系列包括两个主要版本:
- o1-preview:这一版本是该模型家族的主要版本,具有较强的推理能力,能够在复杂的任务中提供较为详细的回答。
- o1-mini:该版本更快,特别针对编码任务进行了优化,适合需要高效回答的场景。
数据来源:
- 公开数据:包括了网络数据、开源数据集和科学文献,使得模型能够具备丰富的常识知识和技术背景。这些数据帮助模型在应对复杂的推理任务时表现更加稳定。
- 专有数据:通过与不同组织合作,获取了非公开的高价值数据,例如付费内容、专业档案等。这些数据使得模型在处理行业特定知识时表现得更好。
- 数据过滤和精炼:模型使用了严格的数据过滤机制,特别是去除了可能包含的个人信息,并通过 OpenAI 的 Moderation API 过滤掉有害内容,例如色情、仇恨言论等。
3. 安全挑战和评估
o1 系列模型在提高推理能力的同时,也面临新的安全挑战。文档详细介绍了多项安全评估,包括有害内容生成、越狱攻击、幻觉(hallucination)和偏见等方面的测试。
3.1 有害内容评估
为了确保模型不会生成危险或不当的内容,OpenAI 对 o1 系列模型进行了严格的有害内容生成测试。这些测试包括以下几类:
- 标准拒绝评估:测试模型在面对不当请求时是否能够做出正确拒绝。o1-preview 和 o1-mini 在这项测试中表现接近完美。
- 挑战性拒绝评估:这是更具难度的测试,设计用于进一步推动模型在安全方面的进步,o1 系列模型比之前的 GPT-4o 表现更好。
- 有害聊天(WildChat)测试:从一百万个 ChatGPT 对话中选取了最具毒性的200个对话,测试模型能否避免生成有害输出。o1 系列在此项测试中也表现出色。
- XSTest 测试:测试模型在某些“边缘”情况下是否会过度拒绝,例如在安全话题中回答无害请求。
3.2 越狱评估
越狱攻击是指用户通过特殊设计的提示,试图绕过模型的安全规则,让其生成不应提供的内容。为了评估 o1 系列模型的越狱抵御能力,OpenAI 设计了四种评估方式:
- 生产环境越狱:基于真实的生产环境数据,测试模型在面对实际用户攻击时的表现。
- 增强越狱示例:将公开的越狱攻击方法应用于标准评估示例,以测试模型的防御能力。
- 人类越狱测试:由红队(red team)测试人员设计的越狱攻击。
- StrongReject 测试:一个学术越狱基准,测试模型在面对学术文献中的常见攻击时的表现。
结果显示,o1 系列在所有越狱评估中表现优于之前的 GPT-4o,尤其是在 StrongReject 测试中大幅提升。
3.3 幻觉评估
幻觉是指模型生成的虚假或不准确的信息。为此,OpenAI 对 o1-preview 和 o1-mini 进行了如下评估:
- 简单问答(SimpleQA):测试模型在简单事实性问题上的准确性。
- 生日事实(BirthdayFacts):测试模型能否准确回答某人的生日。
- 开放式问题:要求模型生成关于某个主题的任意事实,并通过维基百科等数据验证其准确性。
o1-preview 在这些评估中表现优于 GPT-4o,幻觉率显著降低。然而,用户反馈表明,o1-preview 和 o1-mini 在某些领域可能比 GPT-4o 更容易产生幻觉,特别是当它们生成的回答更详细时,用户可能更容易信任虚假的信息。
3.4 偏见和公平性评估
o1 系列模型在应对偏见问题上也做了改进。通过 BBQ 测试评估,结果显示 o1-preview 在处理无歧视性问题时的准确率比 GPT-4o 更高,达到了94%,但在处理模棱两可的问题时,表现稍差。这说明 o1-preview 虽然更少选择刻板印象的回答,但在面对“未知”选项时的决策能力有所欠缺。
4. 思维链(CoT)安全
o1 系列模型的独特之处在于其采用了思维链推理。除了对最终输出进行监控外,OpenAI 还研究如何监控模型的“潜在思维”,即模型在推理过程中进行的中间步骤。这一领域仍在研究中,尚不完全清楚这些思维链是否准确反映了模型的实际思维。
思维链中的欺骗检测是一个重要的研究方向。OpenAI 使用简单的监控系统,检查模型是否在故意提供错误信息或隐瞒关键信息。尽管监控到了一些例子表明模型可能在有意提供虚假信息,但绝大多数情况属于模型不完全确定但仍给出了答案的情况。
5. 外部红队测试与评估
OpenAI 与多个外部机构和专家合作,对 o1 系列模型的关键风险进行评估,特别是越狱攻击、欺骗性对齐(deceptive alignment)、网络安全威胁等。这些测试揭示了模型的某些弱点,并帮助改进了其抵御复杂攻击的能力。
此外,OpenAI 还与自然科学、安全领域和 AI 研究专家合作,评估模型是否在处理危险任务(如化学实验、网络攻击)时会产生潜在风险。评估结果表明,o1-preview 的推理能力在某些领域有了显著进步,但在涉及高风险任务时仍然存在不足,例如未能完全标识某些化学反应的危险性。
6. 准备框架评估
OpenAI 的准备框架主要用于评估和预测前沿模型带来的灾难性风险,涵盖了以下四个风险类别:网络安全、生物威胁、说服能力和模型自主性。在准备框架下,o1 系列模型的每一项风险都经过了严格的测试和分析。
- 网络安全:o1-preview 和 o1-mini 被评为低风险。测试表明,这些模型没有显示出明显的网络漏洞利用能力。
- 生物威胁创建:o1-preview 和 o1-mini 的评估结果为中等风险,模型能够协助生物学家规划已知的生物威胁操作,但无法帮助非专家创建新的生物威胁,因为这需要实验室的实际操作技能。
- 说服力:o1 系列模型的说服能力接近人类水平,尤其是在短篇政治劝说、论证推理等方面表现较好,但尚未达到超越人类顶级作家的水平。
- 模型自主性:评估显示,o1 系列模型的自主任务执行能力有限,在长时间自主任务(如自我优化、资源获取等)中表现不突出,因此被评为低风险。