OpenAI o1 系统说明（OpenAI o1 System Card）

OpenAI发布最新模型o1，其系统说明/系统卡（OpenAI o1 System Card）也相应发布。 OpenAI o1 System Card详细描述了 OpenAI o1 系列模型的性能、安全挑战、评估结果和潜在风险。o1 系列模型通过思维链推理显著提高了推理和决策能力，同时在越狱攻击、幻觉和偏见等方面表现出色。然而，随着模型智能的提高，相关风险也随之增加，特别是在生物威胁创建和说服力等领域。因此，未来继续强化安全措施、优化模型表现尤为重要。

文档OpenAI o1 System Card的内容概要如下：

1. 简介

o1 系列模型的最大特点是通过“思维链”（Chain of Thought, CoT）推理，这种推理方式使模型在回答问题前会进行一系列逻辑推导，从而提高响应的准确性和安全性。这种方法尤其适用于复杂的推理任务，有助于模型遵循安全政策，避免生成不当或有害的内容。与以往的模型相比，o1 系列在处理越狱攻击、生成带有偏见的回答或回答非法请求时表现出色。然而，随着模型智能的提升，也带来了潜在的风险，比如模型可能被误用，因此，开发和维护更强大安全机制尤为重要。

2. 模型数据和训练

o1 系列模型通过强化学习（RL）进行训练，旨在提高其推理和决策能力。该系列包括两个主要版本：

o1-preview：这一版本是该模型家族的主要版本，具有较强的推理能力，能够在复杂的任务中提供较为详细的回答。
o1-mini：该版本更快，特别针对编码任务进行了优化，适合需要高效回答的场景。

数据来源：

公开数据：包括了网络数据、开源数据集和科学文献，使得模型能够具备丰富的常识知识和技术背景。这些数据帮助模型在应对复杂的推理任务时表现更加稳定。
专有数据：通过与不同组织合作，获取了非公开的高价值数据，例如付费内容、专业档案等。这些数据使得模型在处理行业特定知识时表现得更好。
数据过滤和精炼：模型使用了严格的数据过滤机制，特别是去除了可能包含的个人信息，并通过 OpenAI 的 Moderation API 过滤掉有害内容，例如色情、仇恨言论等。

3. 安全挑战和评估

o1 系列模型在提高推理能力的同时，也面临新的安全挑战。文档详细介绍了多项安全评估，包括有害内容生成、越狱攻击、幻觉（hallucination）和偏见等方面的测试。

3.1 有害内容评估

为了确保模型不会生成危险或不当的内容，OpenAI 对 o1 系列模型进行了严格的有害内容生成测试。这些测试包括以下几类：

标准拒绝评估：测试模型在面对不当请求时是否能够做出正确拒绝。o1-preview 和 o1-mini 在这项测试中表现接近完美。
挑战性拒绝评估：这是更具难度的测试，设计用于进一步推动模型在安全方面的进步，o1 系列模型比之前的 GPT-4o 表现更好。
有害聊天（WildChat）测试：从一百万个 ChatGPT 对话中选取了最具毒性的200个对话，测试模型能否避免生成有害输出。o1 系列在此项测试中也表现出色。
XSTest 测试：测试模型在某些“边缘”情况下是否会过度拒绝，例如在安全话题中回答无害请求。

3.2 越狱评估

越狱攻击是指用户通过特殊设计的提示，试图绕过模型的安全规则，让其生成不应提供的内容。为了评估 o1 系列模型的越狱抵御能力，OpenAI 设计了四种评估方式：

生产环境越狱：基于真实的生产环境数据，测试模型在面对实际用户攻击时的表现。
增强越狱示例：将公开的越狱攻击方法应用于标准评估示例，以测试模型的防御能力。
人类越狱测试：由红队（red team）测试人员设计的越狱攻击。
StrongReject 测试：一个学术越狱基准，测试模型在面对学术文献中的常见攻击时的表现。

结果显示，o1 系列在所有越狱评估中表现优于之前的 GPT-4o，尤其是在 StrongReject 测试中大幅提升。

3.3 幻觉评估

幻觉是指模型生成的虚假或不准确的信息。为此，OpenAI 对 o1-preview 和 o1-mini 进行了如下评估：

简单问答（SimpleQA）：测试模型在简单事实性问题上的准确性。
生日事实（BirthdayFacts）：测试模型能否准确回答某人的生日。
开放式问题：要求模型生成关于某个主题的任意事实，并通过维基百科等数据验证其准确性。

o1-preview 在这些评估中表现优于 GPT-4o，幻觉率显著降低。然而，用户反馈表明，o1-preview 和 o1-mini 在某些领域可能比 GPT-4o 更容易产生幻觉，特别是当它们生成的回答更详细时，用户可能更容易信任虚假的信息。

3.4 偏见和公平性评估

o1 系列模型在应对偏见问题上也做了改进。通过 BBQ 测试评估，结果显示 o1-preview 在处理无歧视性问题时的准确率比 GPT-4o 更高，达到了94%，但在处理模棱两可的问题时，表现稍差。这说明 o1-preview 虽然更少选择刻板印象的回答，但在面对“未知”选项时的决策能力有所欠缺。

4. 思维链（CoT）安全

o1 系列模型的独特之处在于其采用了思维链推理。除了对最终输出进行监控外，OpenAI 还研究如何监控模型的“潜在思维”，即模型在推理过程中进行的中间步骤。这一领域仍在研究中，尚不完全清楚这些思维链是否准确反映了模型的实际思维。

思维链中的欺骗检测是一个重要的研究方向。OpenAI 使用简单的监控系统，检查模型是否在故意提供错误信息或隐瞒关键信息。尽管监控到了一些例子表明模型可能在有意提供虚假信息，但绝大多数情况属于模型不完全确定但仍给出了答案的情况。

5. 外部红队测试与评估

OpenAI 与多个外部机构和专家合作，对 o1 系列模型的关键风险进行评估，特别是越狱攻击、欺骗性对齐（deceptive alignment）、网络安全威胁等。这些测试揭示了模型的某些弱点，并帮助改进了其抵御复杂攻击的能力。

此外，OpenAI 还与自然科学、安全领域和 AI 研究专家合作，评估模型是否在处理危险任务（如化学实验、网络攻击）时会产生潜在风险。评估结果表明，o1-preview 的推理能力在某些领域有了显著进步，但在涉及高风险任务时仍然存在不足，例如未能完全标识某些化学反应的危险性。

6. 准备框架评估

OpenAI 的准备框架主要用于评估和预测前沿模型带来的灾难性风险，涵盖了以下四个风险类别：网络安全、生物威胁、说服能力和模型自主性。在准备框架下，o1 系列模型的每一项风险都经过了严格的测试和分析。

网络安全：o1-preview 和 o1-mini 被评为低风险。测试表明，这些模型没有显示出明显的网络漏洞利用能力。
生物威胁创建：o1-preview 和 o1-mini 的评估结果为中等风险，模型能够协助生物学家规划已知的生物威胁操作，但无法帮助非专家创建新的生物威胁，因为这需要实验室的实际操作技能。
说服力：o1 系列模型的说服能力接近人类水平，尤其是在短篇政治劝说、论证推理等方面表现较好，但尚未达到超越人类顶级作家的水平。
模型自主性：评估显示，o1 系列模型的自主任务执行能力有限，在长时间自主任务（如自我优化、资源获取等）中表现不突出，因此被评为低风险。