多模态

NVIDIA 的 Nemotron 3 Nano Omni：面向文本、图像、视频和音频的开放式多模态模型

发表评论 / Tech / NullThought

论文 Nemotron 3 Nano Omni: Efficient and Open Multimodal […]

NVIDIA 的 Nemotron 3 Nano Omni：面向文本、图像、视频和音频的开放式多模态模型 Read More »

主流 TTS / 配音平台对比

发表评论 / IT, Tech / NullThought

维度 ElevenLabs OpenAI TTS（gpt-4o-mini-tts / Audio API） A

主流 TTS / 配音平台对比 Read More »

SIMA 2：跑在 3D 游戏里的 Gemini 智能体

发表评论 / Tech / NullThought

SIMA 2 本质上是一个「Gemini 驱动的 3D 游戏通用智能体」：它不再只是听话执行指令，而是能在虚拟

SIMA 2：跑在 3D 游戏里的 Gemini 智能体 Read More »

DeepMMSearch-R1：通过“多工具、多轮交互”检索增强推理循环，实现面向真实网页的多模态检索/推理一体化

发表评论 / Tech / NullThought

现实应用中的多模态大模型（MLLM）在知识密集与信息检索型视觉问答任务上常受限于静态训练语料与长尾知识分布，难

DeepMMSearch-R1：通过“多工具、多轮交互”检索增强推理循环，实现面向真实网页的多模态检索/推理一体化 Read More »

Diffusion Transformer (DiT)

发表评论 / Tech / NullThought

扩散模型在图像生成上长期以卷积式 U-Net 为主干，但论文Scalable Diffusion Models

Diffusion Transformer (DiT) Read More »

World Labs：“空间智能”（spatial intelligence）公司

发表评论 / Tech / NullThought

一、基本信息与创始背景二、技术方向与产品愿景 World Labs 致力于开发一种被称为 “Large Wo

World Labs：“空间智能”（spatial intelligence）公司 Read More »