新型模型架构HOPE:基于嵌套学习(Nested Learning),在推理和使用过程中也会更新记忆

对于“深度学习”,很多“深度”其实是一种错觉:表面上是网络多了很多层、参数和算力,但真正决定模型能力的,经常是它内部有多少层“学习过程”和“记忆系统”,而不只是堆了几层网络。因此,论文Nested Learning: The Illusion of Deep Learning Architectures提出了一个新的总框架——“嵌套学习”,用来重新解释神经网络、优化器、大模型的本质,并据此设计了一种新的序列模型 HOPE。

论文作者为Ali Behrouz, Meisam Razaviyayn, Peiling Zhong, Vahab Mirrokni,均来自Google Research。

一、问题出在哪儿:堆层不等于真正的“深”

  • 传统观点觉得:层多、参数多,模型就“深”了,表达能力就强了。
  • 作者指出,很多情况下:
    • 层数增加并没有带来真正更复杂的计算本质;
    • 真正瓶颈往往是优化算法和训练方式,而不是你多加了几层;
    • 更重要的是,现有模型在“持续学习、快速适应新任务、长期记忆新知识”方面表现很弱。
  • 作者用“前向性遗忘”来打比方:大模型可以保留预训练时的旧知识,但很难把推理时的新信息,写入长期记忆,就像只活在滚动的上下文里。

二、核心视角:一切都是“记忆系统在学习如何压缩上下文”

  • 作者提出:无论是注意力、RNN 状态、优化器里的动量项,还是训练本身,都可以看成某种“联想记忆”:
    • 输入的是“当前的上下文”(数据、梯度、隐状态等);
    • 输出的是“对未来有用的东西”(参数更新方向、状态更新、预测等);
    • 本质上都是在把过去的经验压缩成一个有限容量的记忆结构
  • 于是可以把一个大模型拆成很多“学习模块”:
    • 每个模块有自己的记忆、自己的小目标和更新规则;
    • 它们之间存在“谁依赖谁、谁更新得更频繁”的层级关系;
    • 整个系统就变成了一个层层嵌套的学习过程,而不是单一的一次训练。

三、优化器的新解释:其实也是“可学习的记忆模块”

  • 以带动量的梯度下降为例:
    • 一般我们只把它看成“平滑梯度”的技巧;
    • 在论文视角下,动量本身就是一个“专门记住过去梯度”的记忆系统,它在不断学习“过去的梯度模式”。
  • Adam 等高级优化器,则是更复杂的记忆系统:不仅记住平均梯度,还记住梯度的大致分布。
  • 基于这个统一视角,作者进一步提出:
    • 可以让这些“动量、二阶信息”等记忆,不再只是简单加加减减,而是由小神经网络来学习更聪明的更新方式;
    • 甚至可以给优化器设计更合理的内部目标,让它学会在有限容量下“怎么记才更有用”。

四、从记忆连续体到 HOPE 模型

  • 作者提出一个叫“连续记忆系统”的概念:
    • 不再只说“短期记忆”和“长期记忆”两档,而是设计一串记忆模块;
    • 有的更新很频繁,只记住最近的细节(类似工作记忆);
    • 有的更新很慢,负责沉淀更抽象、更稳定的知识(类似长期记忆);
    • 它们按不同时间尺度一起工作,形成一个记忆连续体
  • 在此基础上,作者构造了一个新的序列模型架构,叫 HOPE
    • 模型不仅在预训练阶段学习参数;
    • 在推理和使用过程中,也会按不同频率不断更新内部的多个记忆层;
    • 某些模块甚至可以“学习如何修改自己的权重”,属于自我修改型模型。
  • 和传统 Transformer 的对比可以简单理解为:
    • Transformer:上下文进来,主要在注意力里“短期转一圈”,长期知识几乎全固定在参数里;
    • HOPE:上下文不仅影响当前输出,还会在不同时间尺度上真正写入多层记忆模块,让模型在使用过程中持续演化。

五、实验结果与意义

  • 作者在语言建模和常识推理任务上,把 HOPE 和多种主流模型(包括改进版 Transformer、各种 RNN / 状态空间模型、自适应测试时学习模型等)做了对比。
  • 在同等规模下,HOPE 在困惑度和各种分类准确率上往往有优势,说明这种“多层次记忆 + 自我修改”的设计是有实证价值的。
  • 更重要的不是某一个具体分数,而是:
    • 它提供了一个统一的新视角,看待网络结构、优化器、记忆与学习之间的关系;
    • 指出未来可以沿着“让模型内部有更多层级的学习过程和记忆系统”这条路,来发展真正会持续学习、会自我改进的智能系统。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注