论文LongRAG: A Dual-Perspective Retrieval-Augmented Generation Paradigm for Long-Context Question Answering针对长文本(长上下文)问答(Long-Context Question Answering, LCQA)任务提出了一种名为LongRAG的双视角检索增强生成(RAG)系统。这一系统设计的初衷是解决现有长文本问答模型在处理长上下文文档时存在的问题,尤其是“丢失中间信息”的现象。具体来说,这类模型在长文本中进行推理时,往往无法准确定位和识别关键的事实性细节信息,导致生成的答案不准确。此外,传统的RAG系统在长文本场景下常使用固定长度的分块策略,将长文本分割成若干片段进行处理,但这种策略在破坏上下文结构的同时引入大量噪声,进一步降低了检索效果。因此,如何有效平衡长文本全局信息的获取与关键细节的识别,成为LCQA任务中的一大挑战。
LongRAG通过双视角的信息整合策略在LCQA任务上表现出色,有效地解决了长文本场景中“丢失中间信息”和“事实细节识别难”问题,其可插拔的组件设计适合多场景应用,并具有高扩展性和可迁移性。
论文作者为Qingfei Zhao, Ruobing Wang, Yukuo Cen, Daren Zha, Shicheng Tan, Yuxiao Dong, Jie Tang,来自中国科学院、中国科学院大学、清华大学和智谱AI。
如下为论文概要内容:
一、系统框架设计
LongRAG系统提出了四个模块,分别为:
- 混合检索器(Hybrid Retriever):
- 该模块接收用户的问题并通过双重编码器结构来进行分层检索,以确保检索的片段与问题的相关性。在检索阶段,混合检索器首先将长文本段落分割成若干片段,并对每个片段进行粗粒度和细粒度的检索。具体来说,首先使用双编码器结构实现高效粗粒度检索,然后通过交叉编码器进一步提升细粒度的语义交互,确保所选片段与问题的深层语义相关。
- 在分割片段时,混合检索器采用滑动窗口策略,添加前后句的重叠内容以避免在截断点破坏语义。这样可以在检索片段间保持更好的语义连贯性。此外,对于文本末尾的短片段,混合检索器会将其合并到上一个片段中,以保证文本的整体连贯性和语义完整性。
- LLM增强信息提取器(LLM-Augmented Information Extractor):
- 在长文本中,支持答案的证据往往分散于多个位置,长文本中的各个片段之间存在逻辑和顺序关联。为应对这种情况,信息提取器首先将短片段映射回其原始的长文本段落,以尽量恢复语境,然后再从中提取有效的全局信息。
- 在这一过程中,LLM增强信息提取器通过映射函数将多个短片段映射回原始长段落,并保留与问题语义最相关的段落。之后,提取器将这些段落连接起来作为提示词,通过零样本学习从中提取丰富的长文本背景信息和结构性知识,最终生成包含全局语境的输出。该组件确保了系统在回答问题时可以利用更加全面的上下文结构信息,以弥补传统RAG策略中由于分块而导致的信息缺失问题。
- 基于链式推理的过滤器(CoT-Guided Filter):
- 在复杂的多跳问答任务中,检索到的片段往往包含较多的冗余信息,甚至可能与问题无关。为此,过滤器在链式推理(Chain-of-Thought, CoT)的引导下,通过两阶段策略,逐步剔除不相关的片段,提升证据密度。
- 第一阶段为CoT指导阶段,系统生成一个具备全局视角的推理链(CoT),以帮助识别回答问题所需的全局线索。在这一阶段,过滤器将所有检索到的片段合并并与问题进行关联,然后生成一个引导性的CoT,用以指引后续的逐步推理。
- 第二阶段是过滤阶段,系统利用上述CoT的全局线索,对每个片段的相关性逐一进行高维判断,确保问题与片段间的多跳语义关联。同时,过滤器会对片段中包含的事实性细节进行仔细筛选,以去除无关内容并保留有效证据,最终生成一个包含核心细节的片段集合。这种高质量的片段筛选方式有效解决了长文本问答中信息噪声问题。
- LLM增强生成器(LLM-Augmented Generator):
- 最终生成器在生成答案时,将全局信息(Ig)和筛选出的事实性细节(Id)相结合。生成器通过强化这两类信息的交互,使系统在生成过程中能充分考虑上下文背景和关键证据,从而提高答案的准确性。
- 在生成过程中,生成器接收经过提示词模板设计的全局信息和关键细节,并通过进一步的零样本学习来生成最终答案。生成器的设计确保了系统能够利用更加有效的信息集来回答问题,且避免了传统方法中的噪声干扰问题。
二、实验与评估
为了验证LongRAG的性能,作者在三个多跳数据集上进行了广泛的实验,分别是HotpotQA、2WikiMultiHopQA和MusiQue数据集。实验结果表明,LongRAG在多个维度上均显著优于传统的长文本LLM方法和先进的RAG方法。具体表现如下:
- 与长文本LLM方法对比:
- 相较于LongAlign和LongLoRA等长文本LLM,LongRAG在所有数据集上表现最佳。通过引入多视角的信息提取和过滤组件,LongRAG能够更精准地识别出问题中的关键细节,并有效解决“丢失中间信息”问题,因此在复杂长文本场景下表现出更优的鲁棒性。
- 与其他RAG方法对比:
- LongRAG相较于传统RAG(如Self-RAG和CRAG)在三大数据集上平均提升了6.16%。这得益于LongRAG在信息提取和过滤方面的创新性设计,特别是在多跳问题中能够准确把握上下文信息。相比之下,Self-RAG在决策链中的自反思链式决策过程可能在某些情况下放大错误决策,导致信息丢失。
- 小模型与大模型对比:
- 不论是使用微调的小模型(如ChatGLM3-6B-32k),还是未微调的大模型(如GPT-3.5-Turbo),LongRAG系统框架均优于基准方法。这表明LongRAG的设计能够显著提升系统对复杂长文本的处理能力,弥补了小模型在长文本上下文理解中的不足。
三、消融实验与详细分析
为了进一步验证LongRAG各组件的有效性,作者进行了消融实验,结果显示:
- RAG-Long vs. RAG-Base:直接将长文本片段输入生成器在一定程度上可以捕获全局语义,但也容易引入噪声。相较之下,使用信息提取和过滤策略可以显著提高系统的性能。
- 信息提取器 vs. RAG-Long:在长文本问答中,信息提取器通过全局结构与背景知识的补充,有效缓解了直接读取长文本所带来的冗余问题,使系统在回答中更具信息密度。
- 过滤器与信息提取器组合:将信息提取和过滤器组合使用时,系统的性能达到最优,因为该策略提供了一个低噪声且结构化的信息集,显著提高了答案生成的准确性和一致性。
四、讨论与总结
- Token长度分析:在生成阶段,LongRAG的提取和过滤策略能够减少生成器的输入token数,同时保持甚至超越了高噪声输入的性能。这说明了LongRAG在减少噪声的同时提高了生成效果。
- 组件的迁移性:在特定场景下,LongRAG的提取和过滤组件可以使用开源模型取代昂贵的在线API,从而降低系统成本。
LongRAG on GitHub: https://github.com/QingFei1/LongRAG