幻觉(Hallucinations,即事实性不准确的回答)依然困扰着大型语言模型(LLMs)。尤其是在面对更复杂的任务以及用户寻求具体且高度详细的回答时,这些模型往往表现不佳。论文FACTS Grounding Leaderboard: Benchmarking LLMs’ Ability to Ground Responses to Long-Form Input推出了FACTS Grounding,这是一项用于评估大型语言模型(LLMs)基于长文档生成事实性(factuality )准确回答能力的基准测试。该基准测试还评估模型的回答是否足够详细,以便为提示提供有用且相关的答案。
论文作者为Alon Jacovi, Andrew Wang, Chris Alberti, Connie Tao, Jon Lipovetz, Kate Olszewska, Lukas Haas, Michelle Liu, Nate Keating, Adam Bloniarz, Carl Saroufim, Corey Fry, Dror Marcus, Doron Kukliansky, Gaurav Singh Tomar, James Swirhun, Jinwei Xing, Lily Wang, Madhu Gurumurthy, Michael Aaron, Moran Ambar, Rachana Fellinger, Rui Wang, Zizhao Zhang, Sasha Goldshtein, Dipanjan Das,来自Google DeepMind, Google Research, Google Cloud, Kaggle。
一、引言
事实性(factuality )是语言模型生成任务中至关重要但充满挑战的能力,尤其是在处理长文档输入时,模型需要确保生成的回答不仅与用户请求相关,还必须与提供的上下文完全一致。研究将事实性划分为两种场景:一是基于给定上下文的事实性,二是基于外部知识或世界知识的事实性。论文的核心关注点是第一种场景,强调模型在长文档上下文中的综合能力。
研究指出,LLMs 的事实性面临两大核心挑战:一是建模层面,包括模型架构、训练过程和推理方法;二是测量层面,即如何通过有效的评估方法、数据和指标准确衡量事实性表现。在建模方面,尽管通过无监督的预训练可以让模型学到大量世界知识,但它并未直接优化模型在事实性任务上的表现。后续的微调方法(例如监督学习和基于强化学习的优化)可以改善事实性,但同时可能影响模型的创造力和多样性,形成一种权衡关系。
论文提出,测量事实性本身是一个难点,尤其是在长文档生成场景下,模型需要对回答中的每个声明进行细致检验。以往的事实性评估工具往往集中于短文本生成任务,而对于长文档生成的评估研究较为有限。因此,研究团队设计了FACTS Grounding排行榜,重点评估模型在处理32,000个token以内的长文档输入时生成与上下文完全一致的回答能力,同时满足用户的请求和系统的特定指令。
二、数据
FACTS Grounding排行榜背后的数据集是精心设计和严格筛选的,涵盖了多种文档类型、任务类型和领域背景,为模型的全面评估提供了支持。
(一)数据注释:研究团队通过招募第三方人类评估员设计复杂的用户请求和长文档上下文对。这些请求包括问答、摘要生成以及文档改写等任务,所有任务都要求模型仅依赖上下文文档生成回答,而不得引入外部知识或先验信息。例如,用户可能会要求模型总结一篇法律文档的要点,或比较某些经济系统的优缺点。
(二)数据多样性:为了提高数据集的多样性,研究团队在注释阶段生成了跨越多种任务类型和领域的复杂请求,包括金融、医疗、技术、法律等多个企业应用场景。同时,这些文档的长度从数百token到32,000 token不等,最大限度地考验了模型的长文本处理能力。
(三)数据质量保障:所有注释后的数据均经过人工验证,剔除了不符合要求的示例。例如,删除了需要模型生成创造性内容、涉及高深领域知识或复杂数学推理的任务。此外,研究团队还特别关注数据来源的清洁性,避免因OCR问题导致文档难以阅读。最终数据集平均文档长度为2,500 token,其中最长可达32,000 token。
(四)领域与任务分布:数据集中涵盖了多种领域,其中医疗占比29%、法律22.2%、技术19.2%、金融18.1%、零售11.4%。在任务分布上,主要类型包括事实查找(31.6%)、摘要与总结(29.7%)、影响分析(8.9%)等。这种广泛分布保证了数据集的覆盖面和评估结果的通用性。
三、评估指标
为了全面评估LLMs在长文档输入场景中的事实性表现,FACTS Grounding排行榜采用了一套多层次、多模型的评估指标体系。
(一)未调整的事实性评分:研究团队首先使用三种不同的语言模型评估器(Gemini 1.5 Pro、Claude 3.5 Sonnet 和 GPT-4o)对模型的生成结果进行二分类标注。具体而言,模型的回答被标记为“准确”或“不准确”,准确的回答需要所有信息性声明均与上下文文档一致;否则,即便只有一个声明不符合上下文,回答也会被标记为“不准确”。
(二)剔除不合格回答:为了防止模型通过生成模棱两可或无意义的回答“作弊”,研究团队设计了额外的资格判定机制。不合格的回答主要表现为未能满足用户请求或对关键问题避而不谈,这类回答在最终评分中被视为不准确。通过引入这一机制,排行榜有效避免了模型利用评估指标漏洞提升得分的可能性。
(三)多评估器聚合:由于单一评估器可能存在偏向性,研究团队采用了多模型聚合的方式。具体而言,通过多种评估器的交叉验证和加权平均,减少了评估过程中可能出现的模型偏倚问题。最终评分由多评估器的结果综合计算得出。
四、实验结果与分析
研究团队对多种主流LLM的事实性表现进行了全面比较,包括Gemini 1.5 Flash、Gemini 2.0 Flash Experimental、Claude 3.5 Sonnet、GPT-4o 等模型。结果表明:
- 在未调整评分的情况下,Gemini 1.5 Flash在公开数据集和盲测数据集上均表现最佳,其平均得分为85.8。
- 剔除不合格回答后,Gemini 2.0 Flash Experimental最终排名第一,其得分达到83.6,略高于Gemini 1.5 Flash的82.9。
- 数据还显示,剔除不合格回答会导致模型的最终得分下降1%至5%不等,但这种机制有效地提高了排行榜对事实性评估的严格性。
研究团队还观察到,由于评估器模型往往倾向于对自身生成的回答给出更高分数,因此采用多个独立评估器进行交叉验证是必要的。此外,通过剔除不合格回答,排行榜对回答内容的要求更加严格,从而更好地反映了模型在实际应用中的真实表现。
五、总结与展望
FACTS Grounding排行榜为语言模型的事实性评估提供了一种系统化、可扩展的方法。通过构建大规模、多样化的长文档数据集,并引入严格的评估机制,该工具填补了当前长文档生成任务事实性评估的空白。同时,研究团队建议未来可以通过以下方式进一步完善工具:
- 扩展数据集的覆盖范围,引入更多类型的任务场景。
- 开发更复杂的评估指标,例如结合人类评估和自动化评分的混合方法。
- 探索新的模型优化策略,以平衡事实性与创造性之间的关系。