论文《多模态基础模型中的多样本上下文学习》(Many-Shot In-Context Learning in Multimodal Foundation Models)探讨了在上下文学习(In-Context Learning, ICL)中,多模态基础模型从少样本扩展到多样本时的能力和表现。
论文作者为Yixing Jiang, Jeremy Irvin, Ji Hun Wang, Muhammad Ahmed Chaudhry, Jonathan H. Chen和Andrew Y. Ng,均来自Stanford大学。
如下为论文概要内容:
1. 引言
- 背景:大规模语言模型(LLMs)已通过少量样本的上下文学习(Few-Shot ICL)显著提升了性能,即在测试查询之前在上下文中提供一些示例。本文将这一概念扩展到多模态基础模型(Multimodal Foundation Models),这些模型由于架构的进步,如GPT-4o和Gemini 1.5 Pro,现在能够处理显著更大的上下文窗口。
- 目标:本文评估了这些多模态模型在提供大量示例(多样本ICL, ManyICL)时的表现,涵盖自然图像、医学图像、遥感图像和分子图像等多个领域和任务。研究包括10个数据集,涵盖多类别分类、多标签分类和细粒度分类任务。
2. 主要贡献
- 性能提升:研究发现,多样本ICL(使用多达2000个多模态示例)显著提高了所有数据集上的模型性能。Gemini 1.5 Pro在增加示例数量时表现出对数线性提升,而GPT-4o的提升则较为不稳定。
- 数据效率:Gemini 1.5 Pro在ICL中的数据效率高于GPT-4o,即它能以较少的额外示例实现更显著的性能提升。
- 批量查询:论文还探索了在一次API调用中批量处理多个查询的可能性。研究发现,批量处理多达50个查询不仅减少了推理成本和延迟,还在多个数据集的零样本和多样本设置中提升了性能。
- ICL数据效率:研究还测量了模型从更多示例中学习的效率,发现Gemini 1.5 Pro在这一方面通常优于GPT-4o。
3. 方法
- 模型:研究主要集中在GPT-4o和Gemini 1.5 Pro上,并与GPT-4(V)-Turbo进行了部分比较。这些模型通过各自的API服务进行了测试。
- 数据集:评估在10个数据集上进行,包括皮肤病分类、肺病检测、土地利用分类等任务。每个数据集的示例集和测试集都经过平衡处理,以确保类分布的均衡。
- 评估指标:使用标准指标如准确率和宏平均F1分数(用于多标签分类)进行性能评估。此外,ICL数据效率通过性能随示例数量的对数增长进行衡量。
4. 结果
- 多样本ICL性能:Gemini 1.5 Pro在增加示例数量时通常表现出一致的提升,而GPT-4o的提升较不稳定,表现出V形的缩放曲线。
- 批量查询:批量查询在大多数情况下不会导致性能下降,有时还会提升性能,特别是在零样本设置中。研究表明,性能提升可能归因于领域校准、类别校准以及自生成示例的影响。
- 成本与延迟:论文报告称,在多样本ICL中使用批量查询可以显著减少成本和延迟,使其成为更高效的方法。
5. 讨论
- 实际意义:研究结果表明,多样本ICL可以使大型多模态模型在各种应用中更具适应性和可访问性,可能减少对微调的需求。
- 局限性:研究仅限于图像分类任务和私有模型。此外,由于无法确定所选数据集是否用于训练,这可能对结果产生影响。
6. 结论
- 论文总结认为,多模态基础模型具备多样本ICL的能力,这为提高这些大规模多模态模型在不同任务中的适应性和性能提供了一个有前景的路径。
ManyICL on GitHub: https://github.com/stanfordmlgroup/ManyICL