表格增强生成（Table-Augmented Generation，TAG）

论文《Text2SQL is Not Enough: Unifying AI and Databases with TAG》详细探讨了自然语言查询处理与数据库之间的交互问题，提出了一种新的范式——表格增强生成（Table-Augmented Generation，TAG），旨在整合人工智能（AI）语言模型（LM）与传统数据库管理系统（DBMS）的能力，为复杂的自然语言查询提供更完整和高效的解决方案。

论文作者为Asim Biswal, Liana Patel, Siddarth Jha, Amog Kamsetty, Shu Liu, Joseph E. Gonzalez, Carlos Guestrin, Matei Zaharia，来自UC Berkeley和Stanford University。

以下是论文的概要说明：

1. 研究背景与动机

传统的自然语言到SQL（Text2SQL）方法和检索增强生成（RAG）方法已经在自然语言处理（NLP）与数据库交互领域取得了一定的进展。然而，随着用户需求的复杂化，特别是在商业应用中，单纯依赖Text2SQL或RAG的方法变得越来越不够用。用户的查询往往不仅限于简单的数据库检索，还涉及到复杂的逻辑推理、跨数据源的信息整合以及对外部世界知识的依赖。

例如，在商业场景中，用户可能会提出以下复杂的查询：

“哪些客户对产品X的评价是正面的？” 这个问题不仅涉及到数据的检索，还需要对自由文本中的情感进行分析，这是SQL难以处理的。
“为什么我在这个期间的销售额下降了？” 这个问题可能需要结合多个数据表的信息，并通过逻辑推理得出结果，而不仅仅是简单的数据检索。

为了解决这些问题，作者提出了表格增强生成（TAG）模型，旨在统一自然语言模型（LM）与数据库管理系统（DBMS）的能力，以实现更加复杂和智能的查询处理。

2. TAG模型的核心思想

TAG模型是一个三步骤的生成过程，用于处理复杂的自然语言查询，并生成与数据库中的数据相关的答案。TAG的设计思想旨在填补现有方法的空白，并扩展语言模型与数据库系统的交互范围。

2.1 查询合成（Query Synthesis）

定义：查询合成是TAG模型的第一步，它的任务是将用户的自然语言请求（Request, R）转换为一个可以在数据库系统中执行的查询（Query, Q）。
功能：
- 识别与用户请求相关的数据（例如，根据数据库表的结构识别需要查询的表和字段）。
- 执行语义解析，将自然语言请求翻译为数据库查询语言（如SQL）。
示例：对于用户请求”总结经典浪漫电影中票房最高的影片的评论”，TAG模型会生成一个SQL查询，该查询使用电影标题、评论、票房和类型等字段，从数据库中检索相关数据。

2.2 查询执行（Query Execution）

定义：查询执行是TAG模型的第二步，即执行生成的查询，以从数据库中获取所需的数据（Table, T）。
功能：
- 在数据库引擎上执行生成的SQL查询，以获取所需的数据。
- 处理可能的多表连接、数据过滤、排序和聚合操作，以生成一个包含相关信息的数据表。
示例：在上述示例中，查询执行会从数据库中筛选出类型为”浪漫”、票房最高的电影，并返回相关的评论数据。

2.3 答案生成（Answer Generation）

定义：答案生成是TAG模型的最后一步，它通过结合用户请求（R）和数据库返回的数据表（T），生成最终的自然语言答案（Answer, A）。
功能：
- 语言模型（LM）根据查询执行返回的数据和原始请求，生成一个符合语义的、自然语言形式的答案。
- 可能涉及复杂的文本生成、摘要提取和推理操作。
示例：在上述示例中，答案生成步骤会根据”泰坦尼克号”的评论生成一段总结性的文本，解释这部电影的用户评价。

3. TAG设计空间

TAG模型的设计空间非常广泛，涵盖了多种查询类型、数据模型、数据库执行引擎和语言模型生成模式。

3.1 查询类型（Query Types）

TAG模型可以处理多种类型的自然语言查询，具体可分为两类：

数据聚合程度：包括简单的点查询（例如检索单个或少量数据记录）和复杂的聚合查询（如基于多个数据记录的排序或总结）。
知识与能力需求：包括对数据库中存储的数据的需求和对外部知识的需求，如情感分析、分类等任务。

3.2 数据模型（Data Model）

TAG模型可应用于不同类型的数据模型，包括关系数据库中的结构化数据、半结构化数据（如JSON、XML）、非结构化数据（如文本、图像）等。不同的数据模型可以影响TAG系统的查询合成和执行步骤的复杂性。

3.3 数据库执行引擎和API（Database Execution Engine and API）

不同的数据库执行引擎支持不同的API和操作：

传统的SQL查询引擎适用于关系型数据。
向量检索引擎适用于基于嵌入向量的查询，如相似度搜索。
一些新兴的数据库系统支持语义操作符（如语义过滤、排序、聚合等），允许更复杂的查询执行。

3.4 语言模型生成模式（LM Generation Patterns）

答案生成的过程可以包括多种模式：

单次生成：语言模型直接生成答案。
迭代生成：语言模型多次生成，逐步构建答案。
递归生成：语言模型在多个数据片段上递归操作，生成最终答案。

4. 实验评估

作者设计了一个新的基准测试来评估TAG模型的性能，特别是对于那些需要语义推理或世界知识的复杂查询。实验比较了不同方法在准确性和执行时间上的表现。

4.1 基准测试方法

作者选择了BIRD数据集中的五个领域，并在此基础上修改查询，以增加对外部知识或语义推理的需求。最终的测试集包含80个查询，其中一半需要语义推理，另一半需要外部知识。

4.2 基线方法

论文评估了几种基线方法，包括：

Text2SQL：生成SQL查询，直接执行以获取答案。
RAG：通过检索增强生成方法，在查询时检索相关数据记录，并通过语言模型生成答案。
Text2SQL + LM：先生成SQL查询获取相关数据，然后通过语言模型生成最终答案。
手写的TAG实现：通过手写管道实现TAG模型，结合数据库操作和语言模型的推理能力。

4.3 实验结果

结果显示，手写的TAG实现显著优于其他基线方法，在处理复杂查询时准确率高达55%。尤其在需要语义推理的查询中，TAG模型展现了强大的性能，准确率比基线方法高出20%-65%。此外，手写的TAG实现也在执行时间上表现出色，比其他方法快了约3倍。

5. 相关工作

论文还回顾了与Text2SQL和RAG相关的研究，以及对半结构化数据的自然语言查询的处理方法。相比之下，TAG模型不仅涵盖了这些研究的内容，还扩展到了更复杂的查询类型和数据处理需求。

6. 结论与展望

作者总结认为，TAG模型作为一个统一的框架，能够处理传统方法无法应对的复杂查询。TAG模型在结合自然语言处理与数据库操作方面展现了巨大的潜力，未来的研究可以进一步优化TAG系统的效率，并探索更多应用场景。

TAG on GitHub: https://github.com/TAG-Research/TAG-Bench