对于“深度学习”,很多“深度”其实是一种错觉:表面上是网络多了很多层、参数和算力,但真正决定模型能力的,经常是它内部有多少层“学习过程”和“记忆系统”,而不只是堆了几层网络。因此,论文Nested Learning: The Illusion of Deep Learning Architectures提出了一个新的总框架——“嵌套学习”,用来重新解释神经网络、优化器、大模型的本质,并据此设计了一种新的序列模型 HOPE。
论文作者为Ali Behrouz, Meisam Razaviyayn, Peiling Zhong, Vahab Mirrokni,均来自Google Research。
一、问题出在哪儿:堆层不等于真正的“深”
- 传统观点觉得:层多、参数多,模型就“深”了,表达能力就强了。
- 作者指出,很多情况下:
- 层数增加并没有带来真正更复杂的计算本质;
- 真正瓶颈往往是优化算法和训练方式,而不是你多加了几层;
- 更重要的是,现有模型在“持续学习、快速适应新任务、长期记忆新知识”方面表现很弱。
- 作者用“前向性遗忘”来打比方:大模型可以保留预训练时的旧知识,但很难把推理时的新信息,写入长期记忆,就像只活在滚动的上下文里。
二、核心视角:一切都是“记忆系统在学习如何压缩上下文”
- 作者提出:无论是注意力、RNN 状态、优化器里的动量项,还是训练本身,都可以看成某种“联想记忆”:
- 输入的是“当前的上下文”(数据、梯度、隐状态等);
- 输出的是“对未来有用的东西”(参数更新方向、状态更新、预测等);
- 本质上都是在把过去的经验压缩成一个有限容量的记忆结构。
- 于是可以把一个大模型拆成很多“学习模块”:
- 每个模块有自己的记忆、自己的小目标和更新规则;
- 它们之间存在“谁依赖谁、谁更新得更频繁”的层级关系;
- 整个系统就变成了一个层层嵌套的学习过程,而不是单一的一次训练。
三、优化器的新解释:其实也是“可学习的记忆模块”
- 以带动量的梯度下降为例:
- 一般我们只把它看成“平滑梯度”的技巧;
- 在论文视角下,动量本身就是一个“专门记住过去梯度”的记忆系统,它在不断学习“过去的梯度模式”。
- Adam 等高级优化器,则是更复杂的记忆系统:不仅记住平均梯度,还记住梯度的大致分布。
- 基于这个统一视角,作者进一步提出:
- 可以让这些“动量、二阶信息”等记忆,不再只是简单加加减减,而是由小神经网络来学习更聪明的更新方式;
- 甚至可以给优化器设计更合理的内部目标,让它学会在有限容量下“怎么记才更有用”。
四、从记忆连续体到 HOPE 模型
- 作者提出一个叫“连续记忆系统”的概念:
- 不再只说“短期记忆”和“长期记忆”两档,而是设计一串记忆模块;
- 有的更新很频繁,只记住最近的细节(类似工作记忆);
- 有的更新很慢,负责沉淀更抽象、更稳定的知识(类似长期记忆);
- 它们按不同时间尺度一起工作,形成一个记忆连续体。
- 在此基础上,作者构造了一个新的序列模型架构,叫 HOPE:
- 模型不仅在预训练阶段学习参数;
- 在推理和使用过程中,也会按不同频率不断更新内部的多个记忆层;
- 某些模块甚至可以“学习如何修改自己的权重”,属于自我修改型模型。
- 和传统 Transformer 的对比可以简单理解为:
- Transformer:上下文进来,主要在注意力里“短期转一圈”,长期知识几乎全固定在参数里;
- HOPE:上下文不仅影响当前输出,还会在不同时间尺度上真正写入多层记忆模块,让模型在使用过程中持续演化。
五、实验结果与意义
- 作者在语言建模和常识推理任务上,把 HOPE 和多种主流模型(包括改进版 Transformer、各种 RNN / 状态空间模型、自适应测试时学习模型等)做了对比。
- 在同等规模下,HOPE 在困惑度和各种分类准确率上往往有优势,说明这种“多层次记忆 + 自我修改”的设计是有实证价值的。
- 更重要的不是某一个具体分数,而是:
- 它提供了一个统一的新视角,看待网络结构、优化器、记忆与学习之间的关系;
- 指出未来可以沿着“让模型内部有更多层级的学习过程和记忆系统”这条路,来发展真正会持续学习、会自我改进的智能系统。