论文“Deep sequence models tend to memorize geometrically; it is unclear why”讨论一个看起来“反直觉”的现象:在序列建模里,模型对一堆“原子事实”(没有统计冗余、很难压缩的信息)进行记忆时,常见直觉是把它们当作“共现关系的查表”(作者称为联想式记忆)。但作者通过可控的图任务发现,深度序列模型(Transformer、Mamba 等)往往会自发形成一种几何式记忆:不仅记住训练中出现的局部邻接关系,还在嵌入空间里组织出反映全局结构的“几何布局”,让原本需要多步组合的推理变成更容易学的“几何一步判断”。
论文作者为Shahriar Noroozizadeh, Vaishnavh Nagarajan, Elan Rosenfeld, Sanjiv Kumar,来自CMU和Google Research。
一、核心任务:把“路径搜索”变成检验记忆形态的试金石
作者使用一种专门设计来“卡住”下一词预测学习的图拓扑(path-star),比较两种设置:
- in-context:把图放在上下文里让模型现算路径(此前工作显示这类设置容易失败)。
- in-weights:让模型把图的边关系先记进参数里,再在测试时做路径相关预测。
在 in-weights 设置下,作者用从零训练的 decoder-only Transformer(也在 Mamba 上复现),训练时把“记边样本”和“找路径样本”交错,并引入 pause token 等技巧;同时为了避免已知的“反转诅咒”,在记边阶段加入正向与反向边的数据增强。
二、关键发现:大规模“隐式推理”确实发生了
最重要的经验结果是:在规模很大的 path-star 图上(节点数量可到约五万量级、训练只覆盖部分路径),Transformer 与 Mamba 仍能在未见过的叶子节点上预测正确的路径信息,精度可达到几乎满分。
作者进一步用一些控制实验说明:成功并不依赖“从后往前猜答案”这种投机捷径(例如模型并没有按“反向顺序”先学容易的 token 再学难的 token),而是更像真的学到了某种能泛化的内部结构。
三、证据指向“几何式记忆”:嵌入空间出现全局结构
论文给出直接证据表明模型的 token/节点嵌入并非任意,而是呈现出“同一路径的叶子与关键节点更靠近”的簇结构,这种结构反映了图的全局关系,而不仅是训练中出现过的局部共现。
这使得原本需要沿着边关系多步组合的任务,在几何空间里更像是“找到与目标最匹配的邻居/方向”的问题,从而显著降低学习难度(至少从经验上看是这样)。
四、为什么作者说“很难解释”:常见压力机制都不够
作者系统性地反驳了几类直觉解释:
- 容量/瓶颈压力并不能解释:他们展示了在相同的优化设置下,把嵌入冻结、仅学习一个“纯联想式”的表征也能拟合数据,说明“结构上做不到联想记忆”并不是原因;几何结构是“自然长出来的”,不是被迫的。
- “几何更省参数/更简洁”也未必成立:在这些记忆型图任务里,联想式存储与几何式存储在常见复杂度度量下差距可能只是常数倍,并不会随着图规模显著拉开,因此很难说优化器是因为“更省”才偏好几何。
- 监督信号的“全局性”也不足以解释:即使只用局部监督(只训练记边、不直接训练路径),模型嵌入里仍会出现全局几何;而且这种只学局部的模型再微调到路径相关目标时也能取得较高测试表现。
作者因此强调:这是一种发生在“缺少统计冗余的纯记忆任务”中的几何结构涌现,不能轻易归因于我们熟悉的架构、优化或监督压力。
五、从 Node2Vec 得到的线索:几何可能来自“谱偏置”,而且不需要传统假设
为理解“局部训练如何合成全局几何”,作者转向更简单、且在结构上禁止联想式记忆的 Node2Vec 类模型,发现其嵌入往往对齐图拉普拉斯矩阵的“主导结构方向”(常被用来刻画图的全局形状),这可视为一种谱偏置;更关键的是,作者指出这种偏置在他们的设定中会自然出现,并不依赖文献里常见的那些前提(例如强瓶颈、显式正则、多跳监督等)。
同时,Node2Vec 的几何往往比 Transformer 更“规整”,提示 Transformer 的几何可能被同时存在的联想成分“污染”,因此存在把记忆变得更几何化的改进空间。
六、意义与启示
作者认为,把参数记忆从“共现查表”转为“几何结构”视角,可能影响我们对知识获取、组合式创造、检索、知识编辑与遗忘等问题的默认直觉:几何记忆编码了全局关系,可能帮助发现跨事实的新连接;但也可能因为强耦合带来编辑、遗忘与精确检索的困难。
论文最后的开放问题是:在没有明显压力的情况下,深度序列模型为何会在联想式与几何式两种同样可行的记忆方式中,常常“长成”几何?作者给了 Node2Vec 侧的初步线索,但对深层模型仍缺乏决定性的解释。