物理法则视角的视频生成
论文How Far is Video Generation from World Model: A Physi […]
论文DexMimicGen: Automated Data Generation for Bimanual D
DexMimicGen:通过模仿学习实现双手灵巧操作的数据自动生成 Read More »
Google Research团队近期发布了CT Foundation工具,该工具的开发是为了使研究人员能够在
CT Foundation:通过生成嵌入向量(embedding vector),助力研究人员能够在较少数据和计算资源条件下,快速开发基于CT影像的AI模型 Read More »
论文VisRAG: Vision-based Retrieval-Augmented Generation o
VisRAG:把RAG扩展到图片和视觉 Read More »
视觉语言模型(Vision-Language Models, VLMs)是同时处理视觉信息和文本信息的深度学习
浅谈视觉语言模型(Vision-Language Models, VLMs) Read More »