Anthropic最新模型Mythos

“Mythos”正式名称是 Claude Mythos Preview。该模型目前不面向普通用户公开发布。更准确地说,它目前是一个受限研究预览模型,主要通过 Project Glasswing 提供给少数安全合作伙伴用于防御性网络安全工作。

一、核心结论

Claude Mythos Preview 是 Anthropic 目前公开承认的最强前沿模型之一,甚至强于已公开可用的 Claude Opus 4.7,但 Anthropic 暂不计划将它普遍开放。 Anthropic 在 Project Glasswing 页面中称,Mythos Preview 是一个“通用、未发布的前沿模型”,其编码能力已经达到可在漏洞发现与利用方面超过绝大多数人类专家的水平。与此同时,Anthropic 官方文档仍把 Claude Opus 4.7 描述为“最强的普遍可用模型”,也就是说:Mythos 更强,但不可普通使用;Opus 4.7 是当前公开可用的旗舰模型。

二、为什么 Mythos 引发关注

Anthropic 宣称,Mythos Preview 已经发现了数千个高危漏洞,其中包括主流操作系统和主流浏览器中的漏洞。Anthropic 把这件事上升到“AI 时代关键软件安全”的层面,并启动 Project Glasswing,联合 AWS、Apple、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks 等合作方,试图先把这类能力用于防御。

从技术能力看,Anthropic Red Team 博客称,Mythos Preview 能在用户指示下识别并利用零日漏洞,范围覆盖主要操作系统和浏览器;还声称它能够在数小时内写出专家渗透测试人员可能需要数周才能完成的漏洞利用代码。这里需要注意:Anthropic 没有公开许多细节,因为它们涉及尚未完全修复或正在负责任披露的漏洞。

三、公开披露的能力数据

Anthropic 公布的指标显示,Mythos Preview 在多个编码、推理和智能体任务上显著超过 Claude Opus 4.6。例如:

指标Mythos PreviewOpus 4.6
CyberGym 漏洞复现83.1%66.6%
SWE-bench Pro77.8%53.4%
Terminal-Bench 2.082.0%65.4%
SWE-bench Verified93.9%80.8%
SWE-bench Multimodal59.0%27.1%
SWE-bench Multilingual87.3%77.8%
GPQA Diamond94.6%91.3%
Humanity’s Last Exam,无工具56.8%40.0%
Humanity’s Last Exam,有工具64.7%53.1%
OSWorld-Verified79.6%72.7%

这些数据说明,Mythos 并不只是“网络安全模型”,而是一个通用前沿模型,只是在代码理解、长期智能体任务、漏洞发现、漏洞验证、漏洞利用链构造方面表现特别突出。Anthropic 也明确说,Mythos 的强网络安全能力来自其更强的 agentic coding 和 reasoning 能力,而不是单独训练成“黑客工具”。

四、使用范围与价格

Anthropic 明确表示:不计划让 Claude Mythos Preview 普遍可用。短期内,它主要服务于 Project Glasswing 的防御性任务,包括本地漏洞检测、二进制黑盒测试、终端安全、渗透测试、基础系统加固等。Anthropic 承诺为 Project Glasswing 提供最高 1 亿美元模型使用额度,并向开源安全组织捐赠 400 万美元。研究预览阶段之后,参与方使用 Mythos Preview 的价格为每百万输入 token 25 美元、每百万输出 token 125 美元,可通过 Claude API、Amazon Bedrock、Google Vertex AI、Microsoft Foundry 等渠道访问。

五、安全与对齐评估

Anthropic 的风险报告称,Mythos Preview 是他们迄今“最对齐”的模型之一,但由于能力更强、使用方式更自主,它也带来更高的风险。报告结论是:整体风险“很低”,但高于以往模型,并且 Anthropic 承认在训练、监控、评估和安全流程中发现了一些错误;这些错误当前不被认为会造成显著安全风险,但 Anthropic 也承认这类严谨程度不足以应对未来更强模型。

这意味着 Anthropic 的立场比较微妙:一方面,他们认为 Mythos 的对齐表现不错;另一方面,他们承认能力提升本身会放大低概率失败的后果。这也是它没有直接公开发布的核心原因。

六、现实影响:Mozilla 案例

一个比较具体的案例是 Mozilla。WIRED 报道称,Mozilla 在 Firefox 150 中修复了 271 个通过 Mythos Preview 早期访问发现的漏洞。Firefox CTO Bobby Holley 的观点是,这类 AI 工具可能让软件行业经历一次“漏洞清理期”:过去埋在代码深处、难以被传统 fuzzing 或人工审计发现的问题,现在可能被 AI 大规模暴露出来。

这个案例说明 Mythos 的价值不只是“能攻击”,更重要的是:它可能让防御方提前发现大量隐藏缺陷。但问题是,大型公司有资源修复,开源小项目和无人维护的旧项目未必跟得上。

七、外部监管与行业反应

Reuters 报道称,澳大利亚政府正在与 Anthropic 等软件供应商合作,了解并应对 Mythos 暴露出的潜在网络安全风险;澳大利亚和新西兰央行也在关注 Mythos 的发布,金融行业尤其担忧复杂、陈旧、相互连接的银行系统可能受到此类 AI 能力冲击。

这说明 Mythos 已经不只是 AI 圈的模型发布事件,而是进入了国家网络安全、金融基础设施、关键软件供应链的讨论范围。

八、争议:未经授权访问事件

最新争议是:媒体报道称,Mythos 的受限访问出现了漏洞。据 The Verge 转述 Bloomberg 报道,一个小规模未经授权用户群体曾访问 Mythos;报道称其方式并不是复杂攻击,而是利用与其他模型位置相关的信息、外部数据泄露和内部评测相关知识进行“有根据的猜测”。Anthropic 表示正在调查。

这个事件的讽刺点在于:Anthropic 一方面强调 Mythos 太强、需要受限发布;另一方面,模型本身的访问控制却被媒体曝出存在漏洞。因此,围绕 Mythos 的讨论已经从“模型能力是否太强”扩展到“AI 实验室是否有能力安全地控制最强模型访问”。

九、一些判断

Mythos 的重要性不在于它是不是“最聪明的聊天机器人”,而在于它代表了一条新的分界线:

过去,大模型主要提升写代码、改 bug、写文档、做研究的效率;Mythos 显示,前沿模型可能开始系统性改变漏洞发现与漏洞利用的成本结构。

这对软件行业有三层影响:

第一,防御窗口会变短。漏洞被发现、复现、验证、转化为攻击链的速度可能显著提升。

第二,安全资源分配会更不平衡。大型公司能用 AI 找漏洞并修复,开源小项目、老系统、嵌入式系统、工控系统可能成为薄弱环节。

第三,最强模型可能进入“有限开放时代”。Mythos 是一个信号:未来最强模型未必第一时间给公众使用,而可能先进入政府、云厂商、大型企业、安全联盟和受控 API 体系。

一句话概括:Claude Mythos Preview 是 Anthropic 当前最受关注、最强但未公开释放的前沿模型;它的核心能力是通用智能体式编码与网络安全任务,尤其是漏洞发现和漏洞利用;它既可能成为防御工具,也可能重塑攻击能力,因此被限制在 Project Glasswing 这类受控合作框架中。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注