主流 TTS / 配音平台对比
维度 ElevenLabs OpenAI TTS(gpt-4o-mini-tts / Audio API) A […]
SIMA 2 本质上是一个「Gemini 驱动的 3D 游戏通用智能体」:它不再只是听话执行指令,而是能在虚拟
SIMA 2:跑在 3D 游戏里的 Gemini 智能体 Read More »
现实应用中的多模态大模型(MLLM)在知识密集与信息检索型视觉问答任务上常受限于静态训练语料与长尾知识分布,难
DeepMMSearch-R1:通过“多工具、多轮交互”检索增强推理循环,实现面向真实网页的多模态检索/推理一体化 Read More »
扩散模型在图像生成上长期以卷积式 U-Net 为主干,但论文Scalable Diffusion Models
Diffusion Transformer (DiT) Read More »
一、基本信息与创始背景 二、技术方向与产品愿景 World Labs 致力于开发一种被称为 “Large Wo
World Labs:“空间智能”(spatial intelligence)公司 Read More »
论文SensorLM: Learning the Language of Wearable Sensors提出
SensorLM:能够通过自然语言理解可穿戴传感器数据的模型 Read More »