Google发布Gemma 4 – 思空，简观

Google 于 2026 年 4 月 2 日发布 Gemma 4 。Gemma 4 定位为“按参数规模衡量，能力最强的开放模型”之一，其并不是单纯追求大参数量，而是追求更高的“单位参数智能密度”，也就是用更少的硬件成本换取更强的推理、代码、视觉理解和智能体工作流能力。自 Gemma 第一代发布以来，开发者累计下载量已超过 4 亿次，社区中已经衍生出 10 万多个变体，因此 Gemma 4 既是一次模型升级，也是在顺应开放模型生态继续扩大影响力。与此同时，Google 明确表示，这一代产品将以 Apache 2.0 许可发布，意味着商业使用和二次开发的门槛更低。

从产品形态上看，Gemma 4 一共推出四种规格：E2B、E4B、26B MoE 和 31B Dense，覆盖从移动端、边缘设备到开发工作站和高端加速卡的不同场景。其中 E2B 和 E4B 为面向端侧与移动设备的轻量化模型，重点突出多模态、低延迟和生态整合；而 26B 与 31B 则面向更高强度的本地推理、代码生成和复杂任务。Google 声称，31B 版本在 Arena AI 的开放模型榜单上位列全球第 3，26B 位列第 6，并且能够击败体量高出 20 倍的一些模型，这种表述想说明 Gemma 4 的主要竞争力并非绝对规模，而是“性能/成本比”和“本地可运行性”。

Gemma 4 具备如下四项关键能力。第一是推理能力增强，支持多步规划和更复杂的逻辑链条，因此在数学和指令跟随等基准上表现更好。第二是天然支持智能体式开发，包括 function calling、结构化 JSON 输出和 system instructions，说明它并不只是聊天模型，而是面向工具调用、流程自动化和 API 编排的“可执行模型”。第三是代码生成能力，Google 把它描述为可在本地离线运行的代码助手。第四是多模态能力，Gemma 4 的所有模型都能原生处理图像和视频，并在 OCR、图表理解等任务上表现突出，其中 E2B 和 E4B 还额外支持原生音频输入。除此之外，Gemma 4 还支持更长上下文：轻量模型可达 128K，上层模型可达 256K；同时原生训练覆盖 140 多种语言，说明 Google 希望它既能做复杂任务，又能服务全球化应用。

Gemma 4 “开放但可落地”。Google 反复强调 Gemma 4 可以在多种硬件上高效运行与微调：从 Android 设备、手机、树莓派，到 Jetson Orin Nano、消费级 GPU、H100，乃至云端 TPU 和 Google Cloud。尤其 26B MoE 版本在推理时只激活约 38 亿参数，用来换取更高的吞吐和更低延迟；31B Dense 则更强调原始质量和微调潜力。Google 还举了两个例子说明开放模型的用途：一个是保加利亚语优先的 BgGPT，另一个是与耶鲁大学合作的 Cell2Sentence-Scale，用于癌症治疗相关研究。这些例子说明，Gemma 4 的目标并不局限于通用聊天，而是希望成为科研、行业定制和本地化 AI 的底座。

在生态层面，Google 试图把 Gemma 4 塑造成“开放模型世界里的基础设施”。众多平台和工具支持 Gemma 4，包括 Hugging Face、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM、NeMo、LM Studio、Docker、Keras 等。Google 自家的Gemma 4 入口包括如 AI Studio、AI Edge Gallery、Android Studio、ML Kit GenAI Prompt API、Vertex AI、Cloud Run、GKE 和 Sovereign Cloud。这意味着 Google 的策略并不是只把 Gemma 4 关在自己的体系里，而是要让它既能在 Google 生态中部署，也能顺畅进入开源工具链。在安全与可信方面，Gemma 4 采用了与 Google 专有模型相同级别的基础设施安全协议，面向企业和主权级组织提供透明、可控且安全的模型基础。

Gemma 4 是 Google 在开放模型路线上的一次“全面升级”，不只是更强，而是更开放、更易部署、更适合本地和边缘场景，也更适合开发者把 AI 真正做成产品。