多模态基础模型中的多样本上下文学习（ManyICL）

论文《多模态基础模型中的多样本上下文学习》（Many-Shot In-Context Learning in Multimodal Foundation Models）探讨了在上下文学习（In-Context Learning, ICL）中，多模态基础模型从少样本扩展到多样本时的能力和表现。

论文作者为Yixing Jiang, Jeremy Irvin, Ji Hun Wang, Muhammad Ahmed Chaudhry, Jonathan H. Chen和Andrew Y. Ng，均来自Stanford大学。

如下为论文概要内容：

背景：大规模语言模型（LLMs）已通过少量样本的上下文学习（Few-Shot ICL）显著提升了性能，即在测试查询之前在上下文中提供一些示例。本文将这一概念扩展到多模态基础模型（Multimodal Foundation Models），这些模型由于架构的进步，如GPT-4o和Gemini 1.5 Pro，现在能够处理显著更大的上下文窗口。
目标：本文评估了这些多模态模型在提供大量示例（多样本ICL, ManyICL）时的表现，涵盖自然图像、医学图像、遥感图像和分子图像等多个领域和任务。研究包括10个数据集，涵盖多类别分类、多标签分类和细粒度分类任务。

性能提升：研究发现，多样本ICL（使用多达2000个多模态示例）显著提高了所有数据集上的模型性能。Gemini 1.5 Pro在增加示例数量时表现出对数线性提升，而GPT-4o的提升则较为不稳定。
数据效率：Gemini 1.5 Pro在ICL中的数据效率高于GPT-4o，即它能以较少的额外示例实现更显著的性能提升。
批量查询：论文还探索了在一次API调用中批量处理多个查询的可能性。研究发现，批量处理多达50个查询不仅减少了推理成本和延迟，还在多个数据集的零样本和多样本设置中提升了性能。
ICL数据效率：研究还测量了模型从更多示例中学习的效率，发现Gemini 1.5 Pro在这一方面通常优于GPT-4o。

多样本ICL性能：Gemini 1.5 Pro在增加示例数量时通常表现出一致的提升，而GPT-4o的提升较不稳定，表现出V形的缩放曲线。
批量查询：批量查询在大多数情况下不会导致性能下降，有时还会提升性能，特别是在零样本设置中。研究表明，性能提升可能归因于领域校准、类别校准以及自生成示例的影响。
成本与延迟：论文报告称，在多样本ICL中使用批量查询可以显著减少成本和延迟，使其成为更高效的方法。