SIMA 2 本质上是一个「Gemini 驱动的 3D 游戏通用智能体」:它不再只是听话执行指令,而是能在虚拟 3D 世界里看画面、理解你的高层目标、自己做计划、边玩边学、还能和你对话解释自己在干什么。Google DeepMind+1
一、SIMA 2 是什么?定位与目标
- SIMA 全称 Scalable Instructable Multiworld Agent,最早版本(SIMA 1)可以在很多 3D 商业游戏里执行诸如 “turn left”、“open the map” 之类的简单自然语言指令,通过「看屏幕 + 虚拟键鼠」操作,不接游戏内部 API。Google DeepMind
- SIMA 2 是在 SIMA 1 的基础上,直接把 Gemini 大模型嵌进智能体核心的进化版:
- 不只「听指令」,而是理解高层目标、推理步骤;
- 能和人进行多轮对话,解释「自己打算怎么做、为什么这样做」;
- 具备一定的自我提升(self-improvement)能力:在新世界里通过试错和 Gemini 反馈自己变强。Google DeepMind+1
- DeepMind 明确把它描述为朝 AGI 和具身智能(embodied AI)迈进的重要一步,未来指向机器人等实体系统,而游戏只是一个高度可控的训练场。Google DeepMind+1
可以把 SIMA 2 想象成:「一个跑在各种 3D 游戏里的 Gemini 智能小队友」。
二、相比 SIMA 1 的主要跃迁
1. 从“听话执行”到“带推理的队友”
- SIMA 1:学会了 600+ 种「指令跟随技能」,偏底层动作组合。Google DeepMind
- SIMA 2:在内部集成 Gemini 之后,重点变成:
- 理解你给的高层自然语言目标(例如“把营地搬到河边的安全地方,并保证有木材可以用”这种多约束任务);
- 做多步推理,规划中间子目标;
- 边执行边讲解:用自然语言解释它的打算、当前状态、下一步计划。Google DeepMind+1
DeepMind 在博客里强调,跟 SIMA 2 互动「已经不再像给一个工具下命令,更像跟一个能推理的队友协作」。Google DeepMind
2. 泛化性能几乎“人味儿”很多
- 在训练过的各类游戏任务上,SIMA 2 显著缩小了与人类玩家的成功率差距。博客里展示了成功率对比图表(SIMA 1 vs SIMA 2 vs 人类)。Google DeepMind+1
- 在从未训练过的新游戏(如 Viking 生存游戏 ASKA、MineDojo 的 Minecraft 实现)上,SIMA 2 的任务完成率也大幅超过 SIMA 1。Google DeepMind+1
- TechCrunch 报道里给了一个数字感的说法:SIMA 1 在复杂任务上的成功率只有约 31%,人类约 71%,而 SIMA 2 的表现被形容为「性能翻倍」,并且是一个更通用、更能在新环境中完成复杂任务的智能体。TechCrunch
3. 底层模型升级:Gemini 2.5 Flash-Lite
外媒披露:SIMA 2 是基于 Gemini 2.5 Flash-Lite 这一路线的模型来驱动推理与语言能力的,因此可以在实时交互的延迟约束下仍然保持较强的推理与多模态理解能力。TechCrunch
三、整体架构与训练方式(按博客+公开信息推断)
官方博客没有给出完整技术图,但可以大致看出是“视觉感知 + Gemini 推理 + 行为控制 + 自我提升循环”的结构。
1. 输入输出:像人一样“看”和“按键”
- 输入:来自游戏屏幕的 3D 场景画面(视频帧),再加上玩家的文字 / 语音指令、草图标注、Emoji 等多模态输入。
- 输出:一系列键盘 / 鼠标操作,完全通过虚拟键鼠控制游戏,就像一个人类玩家那样,而不是走游戏引擎 API 或作弊接口。Google DeepMind+1
这点延续了 SIMA 系列的设计哲学:在尽可能人类等价的接口上学习与操作。
2. Gemini 作为“智能体大脑”
根据 DeepMind 描述:Google DeepMind+1
- 游戏画面 + 用户指令首先被编码成适合 Gemini 处理的多模态表示;
- Gemini 模型作为核心推理引擎:
- 解析任务、识别环境元素;
- 拆解子目标,形成内部计划;
- 生成对用户可读的自然语言解释(自我讲解 / chain-of-thought 风格);
- 下游控制模块再把这些高层计划转成具体的键鼠行为序列(例如“向前走两步、转向 30°、打开菜单、选择物品”等)。
3. 训练数据:人类演示 + Gemini 生成标签
SIMA 2 的训练数据是混合的:Google DeepMind+1
- 人类演示视频 + 文本描述
- 研究人员或玩家在各种游戏中完成任务,录制屏幕和操作;
- 对视频片段标注对应的自然语言描述(任务目标、当前行为等)。
- Gemini 生成的标签
- 使用 Gemini 对人类演示进行自动解读、细化注释;
- 生成更丰富的文本标签,用于监督训练智能体对「画面 + 动作」的理解。
这样做的结果是:SIMA 2 不仅知道“该做什么动作”,还知道“自己正在做什么、为什么这么做”,所以可以向用户解释自己的意图与计划。
四、SIMA 2 的关键能力
1. 推理与自我解释(The Power of Reasoning)
在博客的“Reasoning”部分,DeepMind 展示了多个片段:Google DeepMind+1
- 用户可以问:
- “你打算怎么完成这个任务?”
- “你刚才为什么那样做?”
- SIMA 2 会:
- 用自然语言总结当前局面;
- 解释自己对目标的理解;
- 讲出接下来的几步计划。
例子(媒体报道的口语化版本):
当玩家说“去那个像熟透番茄颜色的房子”时,SIMA 2 会在内部推理:「熟透番茄是红色 → 应该是红色的房子 → 先环顾四周找红色房子 → 朝那边移动」,然后执行并可以把这种推理过程表达出来。TechCrunch
这一点和传统的 “end-to-end 动作预测” 区分非常明显:人类可以与之对话、校正它的理解。
2. 强泛化能力:新游戏、新世界也能玩
- 在已训练过的商业游戏集上,SIMA 2 的任务完成率明显接近人类。Google DeepMind+1
- 在完全没训练过的游戏(如 ASKA、MineDojo/Minecraft),SIMA 2 也能在第一次接触时:
- 识别场景元素(营地、篝火、资源、工具等);
- 理解任务语义(如“找到篝火”、“去采集资源”);
- 组合已有知识完成任务。Google DeepMind+1
DeepMind 提到一个关键点:
SIMA 2 能够把在某个游戏中学到的概念(比如 “mining / 采矿”),迁移到另一个游戏中的近似概念(比如“harvesting / 收割”)。这类「跨游戏的语义迁移」被视为向人类式广义认知靠拢的基础能力。Google DeepMind+1
3. 支持更复杂、长链条任务
博客与 demo 显示:SIMA 2 能处理长而复杂的指令,例如:Google DeepMind+1
“先去森林砍够建房子的木头,再找一个靠近水源但安全的地方建营地,最后做一个篝火并告诉我完成了。”
在这种任务中,智能体并不是简单一条条命令执行,而是会自己拆解成多个子目标,随着环境变化动态调整行为。
4. 多模态输入:草图、语言与 Emoji
SIMA 2 能理解更丰富的输入形式:Google DeepMind+1
- 草图 / 涂鸦:用户可以在屏幕上画出一个大致形状或路径,SIMA 2 能把这种视觉提示与当前场景结合,理解为目标区域或路线。
- 多语言指令:支持不同语言的指令(博客中有展示跨语言的例子)。
- Emoji 指令:比如用 🌲 + 🪓 让它“去砍树”,SIMA 2 能正确地解析并执行这样的组合。Google DeepMind+1
本质上,SIMA 2 把 Gemini 的多模态理解能力搬到了「具身动作空间」里。
5. 在 Genie 3 生成的新世界中游玩
DeepMind 做了一个很有意思的「极限测试」:Google DeepMind+1
- 使用 Genie 3 这个世界模型,只用一张图或文本就生成全新的 3D 互动世界;
- 把训练好的 SIMA 2 丢进这些全新、从未见过的环境里,看它能不能:
- 自己搞清楚哪儿能走、哪些是物体;
- 理解用户指令(比如去某处、与某物体互动);
- 完成目标任务。
结果:SIMA 2 能在这些“即席生成”的世界里做到合理地自我定位、理解任务、采取有意义的行动,显示了前所未有的适应性。Google DeepMind+1
这其实是 「世界模型 + 通用智能体」路径的一次强耦合验证。
五、自我提升(Self-Improvement)机制
1. 从人类演示到「自导自演」
DeepMind 描述的自我提升流程大致是:Google DeepMind+2 Google DeepMind+2
- 初始阶段:先用人类演示训练出一个「不错但不完美」的 SIMA 2。
- 放入新游戏 / 新世界:在这些环境里,人类不再给演示。
- 由 Gemini 生成任务与奖励信号:
- 一个 Gemini 实例负责生成新任务(“去找到某物”、“完成某种建造”);
- 另一个 Gemini(或专门的 reward 模型)对智能体的行为打分(成功度、合理性等)。
- 积累自生成经验库:
- 智能体在不断尝试中收集大量「自己玩出来的数据」;
- 这些数据连同奖励,构成下一轮训练样本。
- 迭代更新下一代 SIMA 2:
- 用这些经验训练更强的智能体;
- 新智能体又能在更多任务上表现更好,反过来产生更高质量的自生成数据。
官方称之为一个「良性循环(virtuous cycle)」:从完全依赖人类演示,过渡到主要靠自我游戏和大模型反馈完成自我进化。Google DeepMind+1
2. 在 Genie 世界中也能自我提升
更进一步,他们还在 Genie 3 生成的全新环境里,让 SIMA 2 通过上述机制自我提升:Google DeepMind+1
- 初始时在这些世界表现一般;
- 经过一代训练后,在同一 Genie 世界中的任务完成能力显著提升;
- 且整个过程不需要额外的人类游戏数据或人工打分。
这说明 SIMA 2 不仅能在静态游戏库里变强,还能在「无限生成的新世界」中持续学习,离 开放式学习(open-ended learning) 更近一步。
六、当前局限与挑战
DeepMind 在博客里也很诚实地列出了几个重要限制:Google DeepMind+1
- 超长时序任务仍然棘手
- 非常长的、多阶段的任务(例如需要数十分钟乃至更久、涉及复杂计划和中途验证的任务)仍然会出问题;
- 这与当前模型的上下文长度、记忆机制限制有关。
- 短期记忆能力有限
- SIMA 2 必须在有限上下文窗口内工作,以保证交互延迟;
- 对于长期状态、历史事件,需要更好的长期记忆/外部记忆机制。
- 细粒度控制与视觉理解仍是难点
- 通过键盘鼠标做非常精细的低层操作(类似 FPS 中高精度瞄准、精细操作等)仍然困难;
- 对复杂 3D 场景中细节的鲁棒视觉理解也仍然是整个领域尚未完全解决的问题。
从工程视角看,这些限制意味着:要把 SIMA 2 直接搬到真实机器人上,中间还有现实感知与控制的巨大鸿沟。
七、对机器人与 AGI 的意义
DeepMind 把多游戏 3D 环境视作通向通用具身智能的一块「试验场」:Google DeepMind+2 Google DeepMind+2
- 游戏世界提供了:
- 丰富多样的交互场景;
- 低风险、高速度的试错空间;
- 易于记录和复现实验的环境。
- 在这些环境里,SIMA 2 学到的:
- 导航(走路、飞行、驾驶等);
- 工具使用、建造、资源采集;
- 与人类协作、理解指令、解释行为;
都可以作为未来通用机器人需要的关键能力模块。
外媒也引用 DeepMind 研究人员的说法:
SIMA 2 触及的是「高层行为」——理解世界、理解任务和常识推理;而机器人还有一层「低层控制」:如何驱动关节、轮子等,让身体实现这些计划。SIMA 2 更多是把高层认知这一块打好地基。TechCrunch
整体来看,SIMA 2 证明了一件事:
“一个依靠多世界数据 + 大模型推理的通用游戏智能体,可以在统一框架下实现指令理解、推理、多模态输入、跨游戏泛化和自我提升。”
这为下一步把同类方法迁移到现实机器人,提供了很强的技术背书。
八、责任与开放方式
- SIMA 2 目前被定位为研究预览(limited research preview),不会直接面向普通玩家开放。Google DeepMind+1
- DeepMind 会:
- 与少量学术和游戏开发者合作,提供早期试用;
- 同时由「Responsible Development & Innovation」团队全程参与,评估自我提升等新能力可能带来的风险与缓解措施。Google DeepMind+1
这一点呼应了他们在 AGI 路线上的一贯姿态:先小范围验证 + 强调安全与责任,再逐步扩展应用场景。