Google 于 2026 年 4 月 2 日发布 Gemma 4 。Gemma 4 定位为“按参数规模衡量,能力最强的开放模型”之一,其并不是单纯追求大参数量,而是追求更高的“单位参数智能密度”,也就是用更少的硬件成本换取更强的推理、代码、视觉理解和智能体工作流能力。自 Gemma 第一代发布以来,开发者累计下载量已超过 4 亿次,社区中已经衍生出 10 万多个变体,因此 Gemma 4 既是一次模型升级,也是在顺应开放模型生态继续扩大影响力。与此同时,Google 明确表示,这一代产品将以 Apache 2.0 许可发布,意味着商业使用和二次开发的门槛更低。
从产品形态上看,Gemma 4 一共推出四种规格:E2B、E4B、26B MoE 和 31B Dense,覆盖从移动端、边缘设备到开发工作站和高端加速卡的不同场景。其中 E2B 和 E4B 为面向端侧与移动设备的轻量化模型,重点突出多模态、低延迟和生态整合;而 26B 与 31B 则面向更高强度的本地推理、代码生成和复杂任务。Google 声称,31B 版本在 Arena AI 的开放模型榜单上位列全球第 3,26B 位列第 6,并且能够击败体量高出 20 倍的一些模型,这种表述想说明 Gemma 4 的主要竞争力并非绝对规模,而是“性能/成本比”和“本地可运行性”。
Gemma 4 具备如下四项关键能力。第一是推理能力增强,支持多步规划和更复杂的逻辑链条,因此在数学和指令跟随等基准上表现更好。第二是天然支持智能体式开发,包括 function calling、结构化 JSON 输出和 system instructions,说明它并不只是聊天模型,而是面向工具调用、流程自动化和 API 编排的“可执行模型”。第三是代码生成能力,Google 把它描述为可在本地离线运行的代码助手。第四是多模态能力,Gemma 4 的所有模型都能原生处理图像和视频,并在 OCR、图表理解等任务上表现突出,其中 E2B 和 E4B 还额外支持原生音频输入。除此之外,Gemma 4 还支持更长上下文:轻量模型可达 128K,上层模型可达 256K;同时原生训练覆盖 140 多种语言,说明 Google 希望它既能做复杂任务,又能服务全球化应用。
Gemma 4 “开放但可落地”。Google 反复强调 Gemma 4 可以在多种硬件上高效运行与微调:从 Android 设备、手机、树莓派,到 Jetson Orin Nano、消费级 GPU、H100,乃至云端 TPU 和 Google Cloud。尤其 26B MoE 版本在推理时只激活约 38 亿参数,用来换取更高的吞吐和更低延迟;31B Dense 则更强调原始质量和微调潜力。Google 还举了两个例子说明开放模型的用途:一个是保加利亚语优先的 BgGPT,另一个是与耶鲁大学合作的 Cell2Sentence-Scale,用于癌症治疗相关研究。这些例子说明,Gemma 4 的目标并不局限于通用聊天,而是希望成为科研、行业定制和本地化 AI 的底座。
在生态层面,Google 试图把 Gemma 4 塑造成“开放模型世界里的基础设施”。众多平台和工具支持 Gemma 4,包括 Hugging Face、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM、NeMo、LM Studio、Docker、Keras 等。Google 自家的Gemma 4 入口包括如 AI Studio、AI Edge Gallery、Android Studio、ML Kit GenAI Prompt API、Vertex AI、Cloud Run、GKE 和 Sovereign Cloud。这意味着 Google 的策略并不是只把 Gemma 4 关在自己的体系里,而是要让它既能在 Google 生态中部署,也能顺畅进入开源工具链。在安全与可信方面,Gemma 4 采用了与 Google 专有模型相同级别的基础设施安全协议,面向企业和主权级组织提供透明、可控且安全的模型基础。
Gemma 4 是 Google 在开放模型路线上的一次“全面升级”,不只是更强,而是更开放、更易部署、更适合本地和边缘场景,也更适合开发者把 AI 真正做成产品。