新型模型架构HOPE：基于嵌套学习（Nested Learning），在推理和使用过程中也会更新记忆

对于“深度学习”，很多“深度”其实是一种错觉：表面上是网络多了很多层、参数和算力，但真正决定模型能力的，经常是它内部有多少层“学习过程”和“记忆系统”，而不只是堆了几层网络。因此，论文Nested Learning: The Illusion of Deep Learning Architectures提出了一个新的总框架——“嵌套学习”，用来重新解释神经网络、优化器、大模型的本质，并据此设计了一种新的序列模型 HOPE。

论文作者为Ali Behrouz, Meisam Razaviyayn, Peiling Zhong, Vahab Mirrokni，均来自Google Research。

一、问题出在哪儿：堆层不等于真正的“深”

传统观点觉得：层多、参数多，模型就“深”了，表达能力就强了。
作者指出，很多情况下：
- 层数增加并没有带来真正更复杂的计算本质；
- 真正瓶颈往往是优化算法和训练方式，而不是你多加了几层；
- 更重要的是，现有模型在“持续学习、快速适应新任务、长期记忆新知识”方面表现很弱。
作者用“前向性遗忘”来打比方：大模型可以保留预训练时的旧知识，但很难把推理时的新信息，写入长期记忆，就像只活在滚动的上下文里。

二、核心视角：一切都是“记忆系统在学习如何压缩上下文”

作者提出：无论是注意力、RNN 状态、优化器里的动量项，还是训练本身，都可以看成某种“联想记忆”：
- 输入的是“当前的上下文”（数据、梯度、隐状态等）；
- 输出的是“对未来有用的东西”（参数更新方向、状态更新、预测等）；
- 本质上都是在把过去的经验压缩成一个有限容量的记忆结构。
于是可以把一个大模型拆成很多“学习模块”：
- 每个模块有自己的记忆、自己的小目标和更新规则；
- 它们之间存在“谁依赖谁、谁更新得更频繁”的层级关系；
- 整个系统就变成了一个层层嵌套的学习过程，而不是单一的一次训练。

三、优化器的新解释：其实也是“可学习的记忆模块”

以带动量的梯度下降为例：
- 一般我们只把它看成“平滑梯度”的技巧；
- 在论文视角下，动量本身就是一个“专门记住过去梯度”的记忆系统，它在不断学习“过去的梯度模式”。
Adam 等高级优化器，则是更复杂的记忆系统：不仅记住平均梯度，还记住梯度的大致分布。
基于这个统一视角，作者进一步提出：
- 可以让这些“动量、二阶信息”等记忆，不再只是简单加加减减，而是由小神经网络来学习更聪明的更新方式；
- 甚至可以给优化器设计更合理的内部目标，让它学会在有限容量下“怎么记才更有用”。

四、从记忆连续体到 HOPE 模型

作者提出一个叫“连续记忆系统”的概念：
- 不再只说“短期记忆”和“长期记忆”两档，而是设计一串记忆模块；
- 有的更新很频繁，只记住最近的细节（类似工作记忆）；
- 有的更新很慢，负责沉淀更抽象、更稳定的知识（类似长期记忆）；
- 它们按不同时间尺度一起工作，形成一个记忆连续体。
在此基础上，作者构造了一个新的序列模型架构，叫 HOPE：
- 模型不仅在预训练阶段学习参数；
- 在推理和使用过程中，也会按不同频率不断更新内部的多个记忆层；
- 某些模块甚至可以“学习如何修改自己的权重”，属于自我修改型模型。
和传统 Transformer 的对比可以简单理解为：
- Transformer：上下文进来，主要在注意力里“短期转一圈”，长期知识几乎全固定在参数里；
- HOPE：上下文不仅影响当前输出，还会在不同时间尺度上真正写入多层记忆模块，让模型在使用过程中持续演化。

五、实验结果与意义

作者在语言建模和常识推理任务上，把 HOPE 和多种主流模型（包括改进版 Transformer、各种 RNN / 状态空间模型、自适应测试时学习模型等）做了对比。
在同等规模下，HOPE 在困惑度和各种分类准确率上往往有优势，说明这种“多层次记忆 + 自我修改”的设计是有实证价值的。
更重要的不是某一个具体分数，而是：
- 它提供了一个统一的新视角，看待网络结构、优化器、记忆与学习之间的关系；
- 指出未来可以沿着“让模型内部有更多层级的学习过程和记忆系统”这条路，来发展真正会持续学习、会自我改进的智能系统。

相关文章：

发表评论 取消回复

发表评论取消回复