TemporalBench:基于细粒度时序理解的多模态视频模型基准测试
论文TemporalBench: Benchmarking Fine-grained Temporal Und […]
TemporalBench:基于细粒度时序理解的多模态视频模型基准测试 Read More »
论文TemporalBench: Benchmarking Fine-grained Temporal Und […]
TemporalBench:基于细粒度时序理解的多模态视频模型基准测试 Read More »
论文DexMimicGen: Automated Data Generation for Bimanual D
DexMimicGen:通过模仿学习实现双手灵巧操作的数据自动生成 Read More »
Google Research团队近期发布了CT Foundation工具,该工具的开发是为了使研究人员能够在
CT Foundation:通过生成嵌入向量(embedding vector),助力研究人员能够在较少数据和计算资源条件下,快速开发基于CT影像的AI模型 Read More »
论文VisRAG: Vision-based Retrieval-Augmented Generation o
VisRAG:把RAG扩展到图片和视觉 Read More »
视觉语言模型(Vision-Language Models, VLMs)是同时处理视觉信息和文本信息的深度学习
浅谈视觉语言模型(Vision-Language Models, VLMs) Read More »