大语言模型还是偏好自然语言?

论文《Mission: Impossible Language Models》对当前关于大型语言模型(LLMs)是否能够学习“人类不可能语言”的争论进行了深入探讨,特别是对乔姆斯基(Noam Chomsky)及其同事提出的观点提出了挑战。

论文作者为Julie Kallini, Isabel Papadimitriou, Richard Futrell, Kyle Mahowald, Christopher Potts,来自Stanford University、University of California, Irvine和University of Texas, Austin。

以下是对论文内容概要介绍:

1. 研究背景与动机

乔姆斯基等人主张,LLMs无论在学习可能的还是不可能的语言时表现相同,这意味着这些模型在区分可能和不可能语言方面存在根本性局限。这种观点直接影响了LLMs在认知科学和语言学中的应用,若成立,将大大限制这些模型在研究人类语言学习机制中的作用。本文旨在通过实验证据对这一观点提出质疑,探讨LLMs在面对人类所谓“不可能语言”时的表现,进而为关于LLMs作为认知工具的有效性提供新的见解。

2. 合成语言的构建与分类

为了检验LLMs在不可能语言上的学习能力,作者设计了一系列合成语言,这些语言通过系统地修改英语语料库来创建。论文将这些语言归为三个主要类别:

  • SHUFFLE 类:通过随机打乱英语单词顺序来创建。例如,NONDETERMINISTICSHUFFLE 对句子中的单词进行完全随机的重排,所有句子的重排规则不同且不可逆;而 DETERMINISTICSHUFFLE 则对长度相同的句子进行一致的打乱,但这种打乱规则与语言学特征无关。
  • REVERSE 类:通过部分或完全反转句子中的单词顺序。例如,PARTIALREVERSE 只对部分句子进行反转,而 FULLREVERSE 对整个句子进行反转。
  • HOP 类:引入基于单词或标记位置计数的语法规则,这类语言模拟了一种不自然的语法依赖形式,特别是通过在动词后插入特殊标记来表示时态和数。

这些不可能语言的设计,旨在模拟一种“可能性连续体”,即从最不可能的语言(如完全随机的单词序列)到接近可能的语言(如局部打乱的句子结构),探讨LLMs在这些语言上的表现差异。

3. 实验设计与执行

作者通过三个实验来评估GPT-2模型在这些合成语言上的学习效果:

  • 实验1:语言模型反映不可能性连续体
    • 该实验使用困惑度(Perplexity)作为衡量标准,测试模型在学习不同语言时的效率。困惑度越低,说明模型对语言的掌握程度越高。结果表明,模型在可能语言上的困惑度显著低于在不可能语言上的困惑度,这表明模型在处理这些不可能语言时遇到了更大的挑战。
  • 实验2:语言模型的语法偏好
    • 该实验进一步深入探讨了 *HOP 类语言,特别是模型对基于计数的动词标记规则的学习能力。使用惊讶度(Surprisal)作为度量工具,作者发现,模型在处理可能的语法结构时,能更好地预测语法标记的位置,而在不可能语法结构中则表现出更大的惊讶度。这表明LLMs在某种程度上保留了对自然语法结构的偏好,即使面对人为设计的不自然规则。
  • 实验3:语言模型内部机制的探查
    • 为了了解模型如何在内部处理这些不自然的语言规则,作者进行了因果抽象分析(Causal Abstraction Analysis)。通过在模型的不同层和位置进行替换操作(Interchange Intervention),研究模型在处理动词标记任务时的内部信息流动和决策机制。结果显示,即使面对不自然的语法规则,模型仍然倾向于发展出模块化的解决方案,表明它们内部的处理机制对自然语法规则更为敏感。
4. 结果与讨论

论文得出的核心结论是,GPT-2模型在学习不可能语言时表现不如在学习自然语言时有效,这与乔姆斯基等人认为LLMs在学习可能与不可能语言上能力相同的观点相矛盾。更重要的是,这项研究表明LLMs对自然语言结构的学习存在一定的偏好,这种偏好可能与模型的训练目标和归纳偏差(inductive bias)有关,特别是在信息局部性(Information Locality)方面的表现

5. 进一步研究的启示

本文的研究结果为未来的研究提供了丰富的启示:

  • 首先,探讨不同LLM架构在处理不可能语言上的表现是否一致,能否通过调整模型架构或训练方法改善这些模型在不可能语言上的学习能力。
  • 其次,研究LLMs的内部机制与人类语言处理机制之间的异同,以更好地理解LLMs在认知科学研究中的应用潜力。
  • 最后,通过对自然语言与合成不可能语言的对比研究,可以更清楚地界定LLMs在语言学习中的归纳偏好,从而为语言学中的一些长期争议(如普遍语法)提供新的证据。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注