NVIDIA 的 Nemotron 3 Nano Omni:面向文本、图像、视频和音频的开放式多模态模型

论文 Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence 介绍的是 NVIDIA 的 Nemotron 3 Nano Omni,一个面向文本、图像、视频和音频的开放式多模态模型。它的核心目标不是单纯追求更大的模型规模,而是在保持较强理解与推理能力的同时,提升推理速度、降低部署成本,并扩展到真实复杂场景,例如长文档理解、长视频音频理解、语音交互、屏幕和电脑界面操作等。论文强调,这是 Nemotron 多模态系列中首次原生支持音频输入的模型,同时也支持文本、图片和视频输入。

从模型结构看,Nemotron 3 Nano Omni 采用了典型的“编码器、连接模块、语言模型”架构。图像和视频由视觉编码器处理,音频由音频编码器处理,随后通过适配模块转换为语言模型能够理解的表示,再与文本一起送入主语言模型。论文第 3 页的结构图展示了这一流程:图片、视频帧、音频和文本会被分别处理,然后合并进入语言模型进行统一推理。相比上一代模型,它引入了更强的语言模型骨干、原生音频输入能力、动态图像分辨率处理、视频时间压缩机制,以及更长的上下文处理能力。

这篇论文的一个重点是“高效多模态”。传统多模态模型在处理长视频、高分辨率图片、多页文档或长音频时,往往会产生大量视觉或音频信息表示,导致推理速度变慢、显存占用增加。Nemotron 3 Nano Omni 通过多种压缩和采样机制减少进入语言模型的信息量。例如,视频处理中会压缩相邻帧的信息,推理阶段还可以筛掉冗余视频信息,从而减少计算负担。论文认为,这些机制让模型在长视频和多文档任务中保持较好准确率的同时,显著降低延迟并提高吞吐能力。

训练方法方面,论文采用了分阶段训练策略,而不是一开始就把文本、图像、视频和音频全部混在一起训练。这样做的原因是,多模态模型容易出现模态对齐不稳定、训练数据比例失衡,以及原有文本能力被削弱的问题。论文第 4 页的训练流程图显示,模型先进行视觉对齐和视觉语言训练,再加入音频对齐和音频理解训练,随后进入联合多模态训练,并逐步扩大上下文长度,最后再通过强化学习提升推理、指令遵循和安全性。

数据方面,论文使用了大规模、多来源的数据组合,包括公开数据、内部整理数据、人工标注数据以及大量合成数据。数据覆盖图像描述、视觉问答、文字识别、文档理解、图表理解、界面理解、视频理解、语音识别、声音理解、音乐理解、音频问答和安全对齐等任务。作者还使用其他强模型来重新标注噪声数据、生成问题答案、生成推理过程,并通过过滤机制提高数据质量。整体来看,这不是一个单纯依靠模型结构创新的工作,数据工程和训练流程同样是其性能提升的重要来源。

在强化学习阶段,论文进一步强化了模型的推理能力和多模态任务表现。它不仅在文本任务上做后训练,也针对图像、视频、音频和综合多模态任务进行强化学习。图像任务包括图表推理、文档推理、数学与科学题、视觉问答、界面点击定位等;综合多模态任务则包括带声音的视频理解、时间顺序判断、因果推理、音频视觉一致性判断等。作者还加入了一些“无法回答”或“图文不匹配”的样本,让模型学会在证据不足时拒绝或谨慎回答,而不是强行编造答案。

实验结果显示,Nemotron 3 Nano Omni 相比上一代 Nemotron Nano V2 VL 在几乎所有视觉、多模态和音频任务上都有提升。它在文档理解、文字识别、图表理解、界面操作理解、视频理解等任务上表现突出,并且在一些任务上超过或接近 Qwen3 Omni 等同类开放模型。尤其值得注意的是,论文把“真实文档理解”和“电脑界面操作”作为重要应用场景,这说明该模型不仅面向聊天问答,也面向更实用的办公、自动化和智能代理场景。

在音频方面,Nemotron 3 Nano Omni 支持语音识别、长语音转写、声音理解、音乐理解和语音交互任务。论文评估了自动语音识别、音频理解和语音助手类基准,结果表明它在语音识别和语音交互方面具有较强竞争力。更重要的是,它不是把音频先转成文字再交给模型,而是原生支持音频输入,这使它在带声音的视频理解、跨模态时间推理和语音场景中更有优势。

在音频视觉联合理解方面,论文使用了日常场景音视频问答和长视频多模态理解基准。模型需要同时理解画面、声音、事件发生顺序、人物行为和场景语义。实验显示,Nemotron 3 Nano Omni 在这些任务上超过 Qwen3 Omni 的对应设置,说明它在“看”和“听”的联合推理上有较好表现。对于智能监控、会议分析、视频摘要、机器人感知和多模态智能体等场景,这类能力具有较强应用价值。

文本能力方面,论文强调 Nemotron 3 Nano Omni 在增加图像、视频和音频能力后,仍尽量保留原语言模型的文本推理能力。也就是说,它并不是为了多模态牺牲文本能力,而是通过分阶段训练和后训练机制,减少“多模态训练导致文本能力退化”的问题。这一点对实际部署很重要,因为真实用户往往会在同一系统中混合使用纯文本问答、图片理解、文档分析、语音输入和视频理解。

部署效率是论文的另一个核心贡献。作者提供了不同精度版本的模型,包括面向高精度和高效率部署的多个权重版本。实验显示,低精度版本可以显著减少模型体积并提高推理吞吐,而准确率下降较小。论文还强调,在 NVIDIA B200 GPU 上,该模型相比同规模多模态模型具有更高输出吞吐和更低首字延迟,尤其适合长视频、多图片、多文档等高负载场景。

总体来看,这篇论文的核心贡献可以概括为三点:第一,构建了一个真正覆盖文本、图像、视频和音频的开放式多模态模型;第二,通过动态分辨率、视频压缩、视频采样和量化等方法,把多模态模型做得更适合实际部署;第三,通过大规模分阶段训练和多模态强化学习,使模型在文档、图表、界面、语音、视频和音频视觉联合推理任务上取得了较强表现。它代表了多模态模型从“能理解图片和文字”走向“能处理真实复杂输入、并服务于智能代理和企业级应用”的一个方向。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

Are you human? Please solve:Captcha