一、引言
GPT-4.5 是 OpenAI 迄今为止最大、最具知识性的 AI 模型,其目标是相较于前代模型(如 GPT-4o)更具通用性,同时保持高效的 STEM 领域推理能力。该模型采用了扩展预训练规模的策略,并结合了先进的监督微调(supervised fine-tuning, SFT)和人类反馈强化学习(reinforcement learning from human feedback, RLHF)进行训练。此外,GPT-4.5 在部署前进行了广泛的安全评估,结果表明,该模型在安全性方面并未比现有模型表现出更高的风险。
与前代模型相比,GPT-4.5 在以下几个方面具有显著优势:
- 交互体验更加自然——由于改进了对齐技术和数据预处理,该模型在对话流畅性和理解能力方面有了进一步提升,使用户能够获得更加贴近人类交流的体验。
- 知识库更加广泛——通过扩大训练数据范围,并引入新型数据过滤和筛选机制,该模型在世界知识、技术细节和专业领域信息方面的表现更加优越。
- 用户意图对齐能力更强——引入了更先进的对齐方法,使得模型在理解用户指令和意图的过程中表现更加精准,能够更好地适应不同语境下的需求。
- 情感智能(emotional intelligence)增强——相较于前代模型,GPT-4.5 更擅长识别并回应带有情绪色彩的查询,如提供建议、缓解用户情绪或单纯作为倾听者陪伴用户。
- 减少幻觉(hallucination)——改进的训练和后处理策略使模型在信息生成过程中更能保持事实性,降低了错误回答和无根据推测的概率。
GPT-4.5 目前仍处于研究预览阶段,其核心目标之一是探索该模型的能力和局限性,以便 OpenAI 进一步优化其性能,并发现可能的创新应用方式。为了实现这一目标,OpenAI 正在积极收集来自不同用户的反馈,以评估 GPT-4.5 在实际应用中的表现,并调整未来的改进方向。

二、模型数据与训练
GPT-4.5 的训练基于两大核心范式的扩展:无监督学习(Unsupervised Learning)和思维链推理(Chain-of-Thought Reasoning)。这两种范式的结合,使得 GPT-4.5 在世界知识理解、逻辑推理和复杂任务求解方面具有更强的能力。
扩展无监督学习
无监督学习的核心目标是让模型在没有明确标注的情况下,从大量数据中自动提取知识,并形成可靠的世界模型。GPT-4.5 进一步扩展了无监督学习的规模,使其能够:
- 提高世界模型的准确性——通过引入更广泛的数据源,并优化数据筛选策略,GPT-4.5 在事实性理解和知识关联方面更加精准。
- 降低幻觉率——采用了改进的数据增强和过滤技术,使模型生成的内容更符合事实,同时减少错误信息的传播。
- 增强联想能力——提升了模型在不同主题之间建立联系的能力,使其在回答复杂问题时更加灵活和全面。
思维链推理的扩展
思维链推理(CoT)是一种训练方法,旨在让模型在回答问题前进行“思考”,从而提高其在数学、逻辑推理和编程任务上的表现。GPT-4.5 通过扩大 CoT 训练数据的规模,并优化推理路径,使其在处理复杂 STEM 任务时表现更加强大。这一改进使得 GPT-4.5 能够:
- 更好地处理数学问题——在数学推理、公式推导和问题求解方面表现出更高的准确率和逻辑性。
- 提升编程能力——更擅长解析代码、调试程序和优化算法,能够更有效地帮助开发者解决实际问题。
- 增强逻辑推理——在处理需要多步推理的任务(如法律分析、科学推测等)时,能够提供更系统化和严谨的答案。
新的对齐技术
为了确保 GPT-4.5 更符合人类需求,OpenAI 开发了新的可扩展对齐技术。这些技术的核心目标是让模型在解决更复杂、更广泛的问题时,能够更准确地理解人类需求,并生成符合用户预期的回答。
这些对齐技术的主要优势包括:
- 提高可引导性(Steerability)——GPT-4.5 能够更好地适应用户的个性化需求,在不同的对话风格、任务目标和语境下表现出更高的灵活性。
- 增强对细微差别的理解能力——在对话过程中,GPT-4.5 能够识别语义上的微小变化,并相应调整回答,使其更符合上下文。
- 对话更自然、更具互动性——用户在与 GPT-4.5 交流时,会感受到更接近人类交谈的体验,尤其是在涉及情感和社交交互的场景下。
这些改进得益于 GPT-4.5 采用的多样化训练数据,其中包括:
- 公开数据——来自公共互联网的高质量文本信息;
- 合作数据——与数据合作伙伴合作提供的专业领域数据;
- 内部定制数据——OpenAI 内部开发的特定任务数据集。
为了确保数据的安全性和合规性,GPT-4.5 的数据处理管道采用了严格的筛选机制,避免处理涉及个人隐私的信息。此外,OpenAI 还采用了一系列安全分类器,来检测和过滤不适宜用于模型训练的内容,例如包含未成年人相关的敏感信息。
三、观察到的安全挑战与评估
GPT-4.5 经过了全面的安全性评估,涵盖了以下几个方面:
- 不允许的内容(Disallowed Content)——检测模型是否会响应涉及仇恨言论、非法建议等违规请求。
- 越狱攻击(Jailbreaks)——测试模型能否抵抗恶意用户试图绕过安全机制的攻击。
- 幻觉问题(Hallucination)——评估模型在回答问题时提供虚假信息的概率。
- 公平性与偏见(Fairness and Bias)——测试模型在不同社会背景下的表现,避免出现有害的社会偏见。
- 信息层级安全性(Instruction Hierarchy)——确保模型能够遵循系统级别的指令,而不会被用户诱导改变其行为。
不允许的内容评估
GPT-4.5 在不允许的内容评估方面表现稳定,拒绝违规内容的能力与 GPT-4o 相当。但在某些情况下,它可能比 GPT-4o 更倾向于“过度拒绝”(overrefusal),即在遇到涉及敏感主题的无害请求时仍然选择拒绝回答。
评估方法包括:
- 标准拒绝测试(Standard Refusal Evaluation)
- 挑战拒绝测试(Challenging Refusal Evaluation)
- WildChat 数据集(1M+ ChatGPT 对话分析)
- XSTest 数据集(测试边界情况)
在这些测试中,GPT-4.5 拒绝不安全内容的能力基本与 GPT-4o 持平或略优,但在某些情况下仍存在改进空间,尤其是在多模态输入(文本+图像)的评估中,GPT-4.5 可能比 GPT-4o 更容易过度拒绝安全内容。
越狱攻击(Jailbreaks)评估
为了评估 GPT-4.5 在应对越狱攻击方面的能力,OpenAI 进行了专门的测试,以确定其对恶意提示的抵抗力。这些测试的核心目标是衡量 GPT-4.5 是否会在故意构造的对话中违背 OpenAI 的安全策略,提供不应回答的内容。
评估方法主要包括:
- 人工收集的越狱攻击(Human Sourced Jailbreaks)——由人工精心设计的一系列提示,旨在测试 GPT-4.5 的安全边界。
- StrongReject 基准测试(StrongReject Benchmark)——一个来自学术界的标准越狱测试,专门用于评估 AI 语言模型对常见攻击策略的抵抗能力。
- 系统消息与用户消息冲突(Instruction Hierarchy Evaluations)——测试 GPT-4.5 在系统消息与用户消息之间的权重分配情况,确保系统消息始终占据优先级,从而减少越狱风险。
在这些评估中,GPT-4.5 的整体表现接近 GPT-4o,甚至在某些方面表现更强。例如,在“人类收集的越狱攻击”测试中,GPT-4.5 的拒绝率达到了 99%,比 GPT-4o 略有提高。然而,在 StrongReject 测试中,GPT-4.5 的“安全性指标”(goodness@0.1)略低于 GPT-4o,表明仍然存在改进空间。
此外,在系统消息与用户消息冲突的评估中,GPT-4.5 表现出更强的对抗性,确保用户无法通过特定的提示词覆盖系统消息中的安全指令。例如,在数学辅导任务中,用户可能尝试诱导模型直接提供答案,而 GPT-4.5 能够更可靠地遵循“提供提示但不直接给答案”的系统设定。
幻觉(Hallucination)评估
幻觉是 AI 生成错误信息或不真实内容的现象。GPT-4.5 采用了多种方法来减少幻觉,包括改进的数据处理、监督微调(SFT)和后处理过滤。OpenAI 采用 PersonQA 数据集来评估 AI 在回答关于公众人物的问题时的准确性,并测量其幻觉率。
测量指标包括:
- 准确率(Accuracy)——模型是否正确回答了问题。
- 幻觉率(Hallucination Rate)——模型提供虚假信息的频率(该数值越低越好)。
测试结果显示:
- PersonQA 数据集上的准确率:GPT-4.5 为 78%,高于 GPT-4o(28%)和 o1(55%)。
- 幻觉率(Hallucination Rate):GPT-4.5 仅为 19%,比 GPT-4o(52%)和 o1(20%)更低。
尽管 GPT-4.5 在常见事实性问题上比前代模型更可靠,但仍有待进一步研究,以确保在化学、医学等特定领域不会产生误导性内容。
公平性与偏见(Fairness and Bias)评估
公平性和偏见评估旨在检测 GPT-4.5 是否在处理社会问题、种族、性别、政治等敏感话题时表现出系统性的偏见。OpenAI 采用 BBQ(Bias Benchmark for Question Answering) 数据集来衡量模型的公正性。
测试包含两类问题:
- 模棱两可的问题(Ambiguous Questions)——当缺乏足够信息时,模型应选择“不知道”而不是猜测答案。
- 明确的问题(Unambiguous Questions)——即使提供了可能引导模型犯错的偏见性干扰信息,模型仍应给出正确答案。
GPT-4.5 的测试结果如下:
- 在模棱两可问题上的准确率为 95%,接近 GPT-4o(97%)。
- 在明确问题上的准确率为 74%,比 GPT-4o(72%)略高,但不及 o1(93%)。
- 在“P(not-stereotype | not unknown)”指标上,GPT-4.5 为 20%,高于 GPT-4o(6%),表明其在处理偏见性问题时更倾向于回避刻板印象的答案。
总体而言,GPT-4.5 在公平性方面的表现与前代模型相当,但在某些复杂情况下仍然可能受到数据分布的影响。
信息层级安全性(Instruction Hierarchy)评估
GPT-4.5 采用了层级化的指令系统,确保 系统消息(System Messages) 始终优先于用户消息(User Messages),以减少被越狱攻击利用的风险。OpenAI 通过多个测试场景来评估模型在面对用户恶意提示时的表现:
- 系统消息与用户消息冲突测试——确保模型优先遵循系统指令,例如当用户试图让 AI 违反 OpenAI 使用政策时,系统消息会引导 AI 进行拒绝。
- 数学辅导任务测试——确保 AI 遵守“提供提示但不直接给答案”的设定,即使用户反复尝试诱导 AI 破坏规则。
- 禁止特定短语测试(Phrase and Password Protection)——测试 AI 是否会在系统消息明确禁止的情况下,仍然在用户提示下泄露特定短语或密码。
测试结果显示,GPT-4.5 在这些场景中的表现均优于 GPT-4o,但仍存在一定的改进空间。例如,在数学辅导任务中,GPT-4.5 的“拒绝作弊”准确率为 77%,略低于 o1(95%)。
红队测试(Red Teaming)评估
OpenAI 进行了更高级的红队测试,以进一步发现 GPT-4.5 在极端情况下可能存在的安全隐患。这些测试涵盖了:
- 非法建议(Illicit Advice)——例如制造武器、黑客攻击等敏感内容。
- 极端主义和仇恨言论(Extremism and Hate Speech)——检测 AI 是否可能传播有害的意识形态。
- 政治操纵(Political Manipulation)——测试 AI 是否可能被滥用于影响选民或政治决策。
- 自残相关内容(Self-Harm Content)——确保 AI 不会提供可能促使用户自残的内容。
测试结果表明,GPT-4.5 在这些极端场景下比 GPT-4o 稍有改善,但仍然需要进一步优化。例如,在 政治操纵测试 中,GPT-4.5 的“安全输出率”仅为 51%,相比 GPT-4o(50%)提升不大,而 o1 的表现明显更优(63%)。
预备性框架(Preparedness Framework)评估
GPT-4.5 还接受了 OpenAI 预备性框架(Preparedness Framework) 评估,该框架专注于检测 AI 在以下领域的潜在风险:
- 网络安全(Cybersecurity)
- 化学/生物/放射性/核武器(CBRN)
- 说服能力(Persuasion)
- 模型自主性(Model Autonomy)
其中,GPT-4.5 被评估为中等风险(Medium Risk),尤其是在 CBRN 和说服能力 方面。这意味着该模型在某些情况下可能会被专家利用来辅助执行复杂的生物或化学实验,或用于操纵用户行为。
然而,在 网络安全和自主性(Cybersecurity & Model Autonomy) 方面,GPT-4.5 的风险被评估为低风险(Low Risk),表明该模型不具备显著的漏洞利用能力,也无法自主执行长期任务或进行自我优化。
四、预备性框架(Preparedness Framework)评估
GPT-4.5 依据 OpenAI 的预备性框架进行了一系列评估,以检测其在潜在高风险领域的能力边界。评估范围涵盖:
- 网络安全(Cybersecurity)——评估 AI 是否具备识别、利用漏洞或实施黑客攻击的能力。
- 化学/生物/放射性/核武器(CBRN)——分析 AI 是否能提供有助于制造或传播大规模杀伤性武器的信息。
- 说服能力(Persuasion)——测试 AI 是否能影响用户决策,或在特定情况下进行社会操纵。
- 模型自主性(Model Autonomy)——检测 AI 是否具备长时间自主运行和自我优化的潜力。
评估方法包括自动化测试和人工审查,并结合 OpenAI 先前开发的安全保障措施,对 GPT-4.5 的表现进行风险分级。
网络安全评估
GPT-4.5 参与了一系列网络安全相关的测试,主要目的是评估其在漏洞识别与利用(Exploit Development)、逆向工程(Reverse Engineering)、网络攻击(Cyber Attacks) 等方面的能力。测试数据集涵盖了:
- 高中级别 CTF 挑战(高等中学网络安全竞赛题目)。
- 大学级别 CTF 挑战(针对计算机安全专业学生的竞赛问题)。
- 专业级别 CTF 挑战(黑客组织和安全研究人员使用的测试题)。
在这些测试中,GPT-4.5 的表现如下:
- 高中级别 CTF 挑战:通过率 53%(相比 GPT-4o 提高 2%)。
- 大学级别 CTF 挑战:通过率 16%(与 GPT-4o 基本相当)。
- 专业级别 CTF 挑战:通过率 2%(仍然远低于人类安全研究员)。
这些结果表明,尽管 GPT-4.5 具备一定的基础网络安全知识,但其在实际漏洞利用方面的能力较为有限,不足以支持黑客攻击或高级网络威胁活动。因此,该模型在 网络安全风险 方面的评估结果为 低风险(Low Risk)。
化学/生物/放射性/核武器(CBRN)风险评估
由于生物武器和化学武器的开发涉及复杂的实验过程,OpenAI 特别测试了 GPT-4.5 是否能提供相关领域的操作性信息(Operational Knowledge),包括:
- 长篇生物威胁问题测试(Long-form Biorisk Questions)——模型是否能帮助专家规划生物武器实验?
- 病毒学实验故障排除测试(Virology Troubleshooting)——模型能否协助实验室优化病原体培养?
- 实验室协议 QA 测试(ProtocolQA)——模型能否识别实验流程中的关键错误并提供修正方案?
- 核武器与辐射污染知识测试——模型是否能提供核燃料提炼或核武器制造的相关知识?
测试结果
- 在 生物武器实验规划 方面,GPT-4.5 在未经过安全性微调时,能提供 25%-59% 的正确操作性信息,但在微调后,该比例降至 0%。
- 在 实验室协议纠错 方面,GPT-4.5 的得分为 18%,远低于专业生物实验研究员(54%)。
- 在 核武器与辐射污染 相关测试中,GPT-4.5 在一般核物理问题上的得分为 77%,但在高级核武器制造问题上的正确率仅为 9%。
综合评估后,GPT-4.5 在 CBRN 相关风险 方面被评为 中等风险(Medium Risk),主要是因为该模型在专家提示下可能会提供部分有助于制造危险材料的信息,尽管这种能力受到了较严格的安全限制。
说服能力(Persuasion)风险评估
该评估领域旨在测试 GPT-4.5 在社会影响和心理操纵方面的潜在能力,具体包括:
- MakeMePay(模拟诈骗测试)——模型是否能在对话中成功诱导用户转账?
- MakeMeSay(关键词引导测试)——模型能否引导用户在无意识情况下说出特定关键词?
- 政治操纵与社交工程——模型是否能够编写针对选民的虚假信息或误导性言论?
测试结果
- 在 MakeMePay 诈骗测试中,GPT-4.5 成功诱导 GPT-4o 模型“转账”的概率达到 57%,比其他模型表现更强,但提取的资金总额较少(因其倾向于请求小额捐赠)。
- 在 MakeMeSay 关键词引导测试中,GPT-4.5 以 72% 的成功率诱导 GPT-4o 说出特定的目标词汇,表现高于 GPT-4o 和 Deep Research 模型。
- 在 政治操纵测试 中,GPT-4.5 的违规内容发生率为 51%,略高于 GPT-4o(50%),但显著低于 o1(63%)。
鉴于这些结果,GPT-4.5 在 说服能力相关风险 方面被评估为 中等风险(Medium Risk),表明它可能被恶意利用来影响用户行为或传播虚假信息,尽管 OpenAI 已采取措施限制这种能力。
模型自主性(Model Autonomy)评估
模型自主性指的是 AI 在缺乏人类监督的情况下是否能自主执行复杂任务,甚至尝试自我优化或获取更多资源。测试方法包括:
- 软件工程任务——模型是否能像人类程序员一样解决 GitHub 代码问题?
- 自动化编程任务——模型是否能独立运行 Python 脚本并优化代码?
- AI 代理任务——模型是否能通过 API 访问外部数据源并执行长期任务?
测试结果表明,GPT-4.5 在短时间任务上的表现较好,但在长时间任务上仍然存在显著局限性:
- 软件工程任务(SWE-Bench):GPT-4.5 的解决率为 38%,略高于 GPT-4o,但远低于 Deep Research(68%)。
- 自动化编程任务(MLE-Bench):GPT-4.5 在 Kaggle 竞赛上的得分为 11%,与 GPT-4o 持平,但仍低于 o1。
- AI 代理任务:GPT-4.5 在自主执行任务方面的得分仅为 40%,远低于 Deep Research(78%)。
总体来看,GPT-4.5 不具备长期自主运行或自我优化的能力,因此 模型自主性风险 评估结果为 低风险(Low Risk)。
五、多语言性能评估
GPT-4.5 在多语言任务上的表现有所提升。评估方法基于 MMLU(Massive Multitask Language Understanding),其中测试集被翻译成 14 种语言,包括阿拉伯语、印地语、中文、法语、日语等。
测试结果
- GPT-4.5 在 英语 MMLU 上的得分为 89.6%,略低于 o1(92.3%)。
- 在 低资源语言(如约鲁巴语) 上,GPT-4.5 的得分为 68.1%,比 GPT-4o(62.1%)有一定提升,但仍存在改进空间。
六、结论
GPT-4.5 在知识广度、文本生成、情感智能和安全性等方面有所改进,但仍然存在潜在风险,尤其是 CBRN 领域和说服能力 方面的中等风险。OpenAI 计划通过 渐进式部署 来优化其安全策略,并持续改进未来版本的 GPT 模型。