DataGemma:有效连接大模型与外部数据平台(如Data Commons)

论文《Knowing When to Ask – Bridging Large Language Models and Data》详细讨论了如何通过与大数据平台集成来增强大语言模型(LLMs)在处理涉及统计数据和及时性事实问题上的准确性。论文旨在解决LLMs在生成内容时可能出现的“幻觉”(hallucination)现象,即生成不准确或虚假的信息,特别是在涉及数值、统计数据或复杂逻辑推理的问题上。

论文通过提出RIG和RAG两种方法,为解决LLMs在处理统计数据时的准确性问题提供了有效的解决方案。通过与Data Commons平台的深度集成,LLMs在应对复杂的统计查询时表现出更高的可靠性。这项研究为未来LLM在数据驱动的事实生成领域奠定了坚实的基础,同时也为如何有效利用开源数据资源提供了有益的思路。

论文作者为Prashanth Radhakrishnan, Jennifer Chen, Bo Xu, Prem Ramaswami, Hannah Pho, Adriana Olmos, James Manyika, R. V. Guha,均为来自Google的研究人员。

以下为论文概要内容:

一、研究动机与背景

在目前的研究和应用中,LLMs常常会在回答用户问题时出现事实性错误,尤其是当问题涉及到最新的统计数据或事实时。造成这些错误的一个原因是LLMs基于其训练数据进行推断,但训练数据往往是静态的,无法反映最新的信息。此外,LLMs在处理复杂的数值计算或统计数据的比较时,可能会由于缺乏明确的数据源而产生错误的结论。

为了解决这个问题,论文提出了一个集成LLMs和外部数据源的框架。在该框架中,LLM在无法依赖内部存储的知识生成答案时,能够根据上下文和问题,主动发出查询外部数据源的请求,从而生成更准确的回答。论文所使用的外部数据源是Data Commons,这是一个由Google发起的开源项目,涵盖了来自全球各大组织的公共统计数据。

二、主要挑战

作者在研究中识别了三个核心问题:

  1. 何时应该查询外部数据:LLM必须能够判断自己是否有能力直接生成正确答案,还是应该向外部数据库请求数据支持。
  2. 选择合适的数据源:外部数据源可能非常庞大且多样化,选择正确的数据库和数据格式至关重要。Data Commons作为统一的外部数据源,为LLM提供了丰富的统计数据和相关变量。
  3. 生成查询并获取正确的数据:当LLM决定查询外部数据时,它必须生成合适的查询,以便从Data Commons获取相关的统计数据。为此,LLM不需要了解具体的API,而是通过自然语言生成查询。
三、提出的解决方案:RIG与RAG

为了应对上述挑战,作者提出了两种解决方案:Retrieval Interleaved Generation(RIG)和Retrieval Augmented Generation(RAG)。这两种方法在细节和工作机制上有所不同,但共同目标是通过与Data Commons的集成,增强LLM在处理统计数据上的表现。

1. Retrieval Interleaved Generation (RIG)

RIG方法的核心思想是在LLM生成答案的过程中,动态插入自然语言查询。这种方法要求LLM在生成自然语言回答的过程中,识别出需要从外部数据源(即Data Commons)获取的数据点,并生成相应的查询。这种查询采用自然语言描述,随后通过多模型管道将其转换为结构化查询,获取实际的数据并将其插入到最终的回答中。

RIG的优势在于,LLM可以根据上下文生成多种查询,尤其在涉及多个数据点时,这种方法特别有效。为了确保这种方法的高效性,作者将模型微调到一个包含约700个用户查询的问题集上,并训练模型生成与统计数据相关的自然语言查询。在微调过程中,模型会生成带有统计数据的回答,并对照Data Commons的数据进行校验。

2. Retrieval Augmented Generation (RAG)

RAG方法则更加传统,首先通过一个辅助的检索系统,提取与用户查询相关的统计数据,然后将这些数据嵌入到LLM生成的答案中。这种方法特别适合于处理需要从多个数据源获取数据的复杂问题,比如涉及跨国比较、时间序列分析等。

RAG方法的步骤如下:

  1. LLM首先处理用户的原始查询,并生成一系列自然语言查询。
  2. 这些自然语言查询被转换为结构化查询,从Data Commons中检索相关的表格数据。
  3. 最后,LLM基于这些检索到的数据生成最终答案,嵌入统计数据以提高回答的准确性。

RAG方法特别适用于用户查询涉及复杂数据表的场景,例如需要比较多个国家的经济指标,或者分析一个国家内不同时间段的数据变化。

四、数据与技术实现

论文详细描述了Data Commons的架构和使用情况。Data Commons是一个全球性、开源的数据集成平台,涵盖了超过2500亿个数据点,数据来源包括联合国、国家统计局、健康组织等全球权威机构。Data Commons通过一种统一的知识图谱(Knowledge Graphs,KGs)对这些数据进行组织和标准化,用户可以通过自然语言界面访问这些数据。

LLM在与Data Commons接口交互时,使用自然语言生成查询,避免了直接使用复杂的API。论文提出了一个基于Robert McCool的URL参数编码接口的简化机制,该机制使用自然语言表达查询,并根据返回结果生成相应的统计数据。

在具体实现上,论文使用了GemmaGemma-2模型,这些模型经过微调以适应RIG和RAG的工作流程。通过微调的Gemma模型,LLM能够生成精确的自然语言查询,并检索到来自Data Commons的相关数据。

六、实验与评估

为了验证RIG和RAG方法的有效性,作者进行了多项实验。在101个用户查询样本的基础上,作者评估了LLM在生成统计回答时的准确性,并将结果与Data Commons的实际数据进行对比。实验结果表明,与基础LLM相比,经过RIG和RAG方法增强的模型在处理涉及统计数据的查询时,准确性显著提升。例如,在RIG方法中,当Data Commons返回的统计数据是正确的情况下,模型生成的答案准确率从原有的4.9%提高到了57.7%。

在复杂的跨实体比较问题上,RAG方法表现尤为出色。通过从Data Commons检索并嵌入多维数据表,LLM能够在生成答案时引入更精确的统计信息,减少了“幻觉”现象。

七、未来工作

作者指出,未来的研究方向包括:

  1. 扩展微调数据集的规模:目前的训练数据集相对较小,未来需要进一步增加数据集的规模,涵盖更多的统计数据和变量。
  2. 提升Data Commons的自然语言处理能力:改进Data Commons的查询理解和数据覆盖率,从而增强RIG和RAG方法的有效性。
  3. 用户界面优化:未来还计划开发更友好的用户界面,使用户能够清晰地看到LLM与Data Commons的交互过程,并对生成的回答进行验证。

关于DataGemma

Gemma 是一组轻量级、先进的开源模型家族,基于与构建 Gemini 模型相同的研究和技术。DataGemma 通过利用 Data Commons 的知识,扩展了 Gemma 家族的能力,从而增强了大语言模型(LLM)的事实性和推理能力。通过创新的检索技术,DataGemma 帮助 LLM 访问并在其回答中纳入来自可信机构(包括政府间组织和非政府组织等)的数据,降低了生成错误信息(幻觉)的风险,提高了输出内容的可信度。

DataGemma 不需要了解底层数据集的特定数据模式或 API,而是利用 Data Commons 的自然语言接口进行提问。关键在于训练 LLM 以便知道何时发出查询。DataGemma使用了两种不同的方法:检索交错生成(Retrieval Interleaved Generation,RIG)和检索增强生成(Retrieval Augmented Generation,RAG)

相关资源如下:

The client library to run DataGemma is available under an Apache 2.0 open-source license at:
https://github.com/datacommonsorg/llm-tools

In addition, you can play with DataGemma’s embedding weights on HuggingFace or Kaggle:
● RIG:
○ Hugging Face: https://huggingface.co/google/datagemma-rig-27b-it
○ Kaggle: https://www.kaggle.com/models/google/datagemma-rig
● RAG:
○ Hugging Face: https://huggingface.co/google/datagemma-rag-27b-it
○ Kaggle: https://www.kaggle.com/models/google/datagemma-rag
Colab notebook:
● RIG: https://github.com/datacommonsorg/llm-tools/blob/main/notebooks/data_gemma_rig.ipynb
● RAG: https://github.com/datacommonsorg/llm-tools/blob/main/notebooks/data_gemma_rag.ipynb

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注