DataGemma：有效连接大模型与外部数据平台（如Data Commons）

论文《Knowing When to Ask – Bridging Large Language Models and Data》详细讨论了如何通过与大数据平台集成来增强大语言模型（LLMs）在处理涉及统计数据和及时性事实问题上的准确性。论文旨在解决LLMs在生成内容时可能出现的“幻觉”（hallucination）现象，即生成不准确或虚假的信息，特别是在涉及数值、统计数据或复杂逻辑推理的问题上。

论文通过提出RIG和RAG两种方法，为解决LLMs在处理统计数据时的准确性问题提供了有效的解决方案。通过与Data Commons平台的深度集成，LLMs在应对复杂的统计查询时表现出更高的可靠性。这项研究为未来LLM在数据驱动的事实生成领域奠定了坚实的基础，同时也为如何有效利用开源数据资源提供了有益的思路。

论文作者为Prashanth Radhakrishnan, Jennifer Chen, Bo Xu, Prem Ramaswami, Hannah Pho, Adriana Olmos, James Manyika, R. V. Guha，均为来自Google的研究人员。

以下为论文概要内容：

一、研究动机与背景

在目前的研究和应用中，LLMs常常会在回答用户问题时出现事实性错误，尤其是当问题涉及到最新的统计数据或事实时。造成这些错误的一个原因是LLMs基于其训练数据进行推断，但训练数据往往是静态的，无法反映最新的信息。此外，LLMs在处理复杂的数值计算或统计数据的比较时，可能会由于缺乏明确的数据源而产生错误的结论。

为了解决这个问题，论文提出了一个集成LLMs和外部数据源的框架。在该框架中，LLM在无法依赖内部存储的知识生成答案时，能够根据上下文和问题，主动发出查询外部数据源的请求，从而生成更准确的回答。论文所使用的外部数据源是Data Commons，这是一个由Google发起的开源项目，涵盖了来自全球各大组织的公共统计数据。

二、主要挑战

作者在研究中识别了三个核心问题：

何时应该查询外部数据：LLM必须能够判断自己是否有能力直接生成正确答案，还是应该向外部数据库请求数据支持。
选择合适的数据源：外部数据源可能非常庞大且多样化，选择正确的数据库和数据格式至关重要。Data Commons作为统一的外部数据源，为LLM提供了丰富的统计数据和相关变量。
生成查询并获取正确的数据：当LLM决定查询外部数据时，它必须生成合适的查询，以便从Data Commons获取相关的统计数据。为此，LLM不需要了解具体的API，而是通过自然语言生成查询。

三、提出的解决方案：RIG与RAG

为了应对上述挑战，作者提出了两种解决方案：Retrieval Interleaved Generation（RIG）和Retrieval Augmented Generation（RAG）。这两种方法在细节和工作机制上有所不同，但共同目标是通过与Data Commons的集成，增强LLM在处理统计数据上的表现。

1. Retrieval Interleaved Generation (RIG)

RIG方法的核心思想是在LLM生成答案的过程中，动态插入自然语言查询。这种方法要求LLM在生成自然语言回答的过程中，识别出需要从外部数据源（即Data Commons）获取的数据点，并生成相应的查询。这种查询采用自然语言描述，随后通过多模型管道将其转换为结构化查询，获取实际的数据并将其插入到最终的回答中。

RIG的优势在于，LLM可以根据上下文生成多种查询，尤其在涉及多个数据点时，这种方法特别有效。为了确保这种方法的高效性，作者将模型微调到一个包含约700个用户查询的问题集上，并训练模型生成与统计数据相关的自然语言查询。在微调过程中，模型会生成带有统计数据的回答，并对照Data Commons的数据进行校验。

2. Retrieval Augmented Generation (RAG)

RAG方法则更加传统，首先通过一个辅助的检索系统，提取与用户查询相关的统计数据，然后将这些数据嵌入到LLM生成的答案中。这种方法特别适合于处理需要从多个数据源获取数据的复杂问题，比如涉及跨国比较、时间序列分析等。

RAG方法的步骤如下：

LLM首先处理用户的原始查询，并生成一系列自然语言查询。
这些自然语言查询被转换为结构化查询，从Data Commons中检索相关的表格数据。
最后，LLM基于这些检索到的数据生成最终答案，嵌入统计数据以提高回答的准确性。

RAG方法特别适用于用户查询涉及复杂数据表的场景，例如需要比较多个国家的经济指标，或者分析一个国家内不同时间段的数据变化。

四、数据与技术实现

论文详细描述了Data Commons的架构和使用情况。Data Commons是一个全球性、开源的数据集成平台，涵盖了超过2500亿个数据点，数据来源包括联合国、国家统计局、健康组织等全球权威机构。Data Commons通过一种统一的知识图谱（Knowledge Graphs，KGs）对这些数据进行组织和标准化，用户可以通过自然语言界面访问这些数据。

LLM在与Data Commons接口交互时，使用自然语言生成查询，避免了直接使用复杂的API。论文提出了一个基于Robert McCool的URL参数编码接口的简化机制，该机制使用自然语言表达查询，并根据返回结果生成相应的统计数据。

在具体实现上，论文使用了Gemma和Gemma-2模型，这些模型经过微调以适应RIG和RAG的工作流程。通过微调的Gemma模型，LLM能够生成精确的自然语言查询，并检索到来自Data Commons的相关数据。

六、实验与评估

为了验证RIG和RAG方法的有效性，作者进行了多项实验。在101个用户查询样本的基础上，作者评估了LLM在生成统计回答时的准确性，并将结果与Data Commons的实际数据进行对比。实验结果表明，与基础LLM相比，经过RIG和RAG方法增强的模型在处理涉及统计数据的查询时，准确性显著提升。例如，在RIG方法中，当Data Commons返回的统计数据是正确的情况下，模型生成的答案准确率从原有的4.9%提高到了57.7%。

在复杂的跨实体比较问题上，RAG方法表现尤为出色。通过从Data Commons检索并嵌入多维数据表，LLM能够在生成答案时引入更精确的统计信息，减少了“幻觉”现象。

七、未来工作

作者指出，未来的研究方向包括：

扩展微调数据集的规模：目前的训练数据集相对较小，未来需要进一步增加数据集的规模，涵盖更多的统计数据和变量。
提升Data Commons的自然语言处理能力：改进Data Commons的查询理解和数据覆盖率，从而增强RIG和RAG方法的有效性。
用户界面优化：未来还计划开发更友好的用户界面，使用户能够清晰地看到LLM与Data Commons的交互过程，并对生成的回答进行验证。

关于DataGemma

Gemma 是一组轻量级、先进的开源模型家族，基于与构建 Gemini 模型相同的研究和技术。DataGemma 通过利用 Data Commons 的知识，扩展了 Gemma 家族的能力，从而增强了大语言模型（LLM）的事实性和推理能力。通过创新的检索技术，DataGemma 帮助 LLM 访问并在其回答中纳入来自可信机构（包括政府间组织和非政府组织等）的数据，降低了生成错误信息（幻觉）的风险，提高了输出内容的可信度。

DataGemma 不需要了解底层数据集的特定数据模式或 API，而是利用 Data Commons 的自然语言接口进行提问。关键在于训练 LLM 以便知道何时发出查询。DataGemma使用了两种不同的方法：检索交错生成（Retrieval Interleaved Generation，RIG）和检索增强生成（Retrieval Augmented Generation，RAG）。