扩展和改进视频掩码自动编码器(MAE),实现视频理解效果的增强
论文Extending Video Masked Autoencoders to 128 frames(《扩展 […]
扩展和改进视频掩码自动编码器(MAE),实现视频理解效果的增强 Read More »
论文Extending Video Masked Autoencoders to 128 frames(《扩展 […]
扩展和改进视频掩码自动编码器(MAE),实现视频理解效果的增强 Read More »
论文《VLsI: Verbalized Layers-to-Interactions from Large t
VLsI模型:逐层蒸馏,逐层对齐,实现从大规模到小规模视觉-语言模型(VLM)的高效知识迁移 Read More »
论文《Health AI Developer Foundations》详细描述了由Google研究团队和Dee
HAI-DEF(Health AI Developer Foundations):健康AI开发基础模型集 Read More »
论文Collaboration between clinicians and vision–language
Flamingo-CXR:结合视觉和语言表示,可自动化生成放射报告的先进AI模型 Read More »
论文TemporalBench: Benchmarking Fine-grained Temporal Und
TemporalBench:基于细粒度时序理解的多模态视频模型基准测试 Read More »