YouTube-SL-25:一个大规模的开放领域多语言手语平行语料库
论文YouTube-SL-25: A Large-Scale, Open-Domain Multilingua […]
YouTube-SL-25:一个大规模的开放领域多语言手语平行语料库 Read More »
论文YouTube-SL-25: A Large-Scale, Open-Domain Multilingua […]
YouTube-SL-25:一个大规模的开放领域多语言手语平行语料库 Read More »
Nvidia这两天发布了MambaVision,即一种新型混合Mamba-Transformer视觉Backb
MambaVision:一种新型混合Mamba-Transformer视觉Backbone Read More »
PaliGemma 是一个开放的视觉语言模型(VLM),它结合了 SigLIP-So400m 视觉编码器和 G
PaliGemma:一种可有效进行任务迁移的视觉语言模型(VLM) Read More »
近日,来自University of California, Davis的Soroush Abbasi Koo
Compact3D—通过矢量量化实现更小更快的高斯斑点绘制 Read More »
计算机图像和模式识别2024年度大会(Computer Vision and Pattern Recognit
CVPR2024最佳论文:Rich Human Feedback for Text-to-Image Generation Read More »
计算机图像和模式识别2024年度大会(Computer Vision and Pattern Recognit
CVPR2024最佳论文:Generative Image Dynamics Read More »