深度学习的理论研究正在从早期的经验主义,逐渐发展为一套严密的“学习力学”(Learning Mechanics)科学体系,其研究范式越来越接近统计力学、量子力学等物理学分支。基于现有文献,深度学习的核心理论可归纳为以下四个主要维度:
1. 优化动力学与损失地形(Optimization and Loss Landscape) 深度网络由于高度过参数化,其损失函数呈现出极度非凸的高维复杂特征,但随机梯度下降(SGD)却能稳定地找到全局极小值。从统计力学的视角看,神经网络的损失地形类似于自旋玻璃(Spin Glasses)的能量曲面。
- 平坦极小值与体积假说(Flat Minima and Volume Hypothesis):理论认为,SGD倾向于收敛到具有较大体积的“平坦极小值”(Flat Minima),在这些平坦区域微调参数不会显著增加训练损失,从而带来更好的泛化能力。大偏差理论(LDT)也表明,SGD存在一种隐式偏置,引导模型避开异常偏差,收敛至泛化性更强的解。
- 数据量对地形的重塑:最新的研究对绝对的平坦性提出了补充,发现同样存在能够良好泛化的“尖锐极小值”(Sharp Minima)。随着训练数据量的增加,损失地形会被重塑,原本难以发现的尖锐极小值会相对扩大,从而被梯度下降捕获。
2. 无限宽度极限与特征学习(Infinite-Width Limits and Feature Learning) 为了在数学上使神经网络变得可解,理论界常研究网络宽度趋于无穷大的极限状态。在这个方向上主要有以下几种理论模型:
- 神经正切核(NTK)与“懒惰训练”:在标准的 1/sqrt(n) 参数缩放下,无限宽网络的训练等价于使用固定核(即NTK)的核岭回归。在此“懒惰训练”(Lazy Training)机制下,网络参数在训练期间几乎不移动,模型根本不发生本质的“特征学习”。此外,NTK对于某些简单非平滑函数(如单个ReLU)的样本复杂度极差,无法完全解释真实有限宽度神经网络的成功。
- 平均场理论(MFT):采用 1/n 的缩放比例时,参数能够在训练中发生 O(1) 尺度的移动,此时核函数会动态演化,网络得以真正学习特征。
- 最大更新参数化(μP):为了统一上述理论,研究者提出了 μP 架构。它在无限宽极限下保证了各层参数都能发生最大程度的有效更新,从而实现了“特征学习”。这一理论极其重要的一项实际应用是零样本超参数迁移(Zero-Shot Hyperparameter Transfer):在小规模代理模型上调优的学习率等超参数,可以直接无缝迁移到具有数十亿参数的大模型上。为了进一步解释NTK失效的区域,最近的理论还引入了二阶泰勒展开,试图通过刻画二次项来解释超越NTK的非线性特征学习机制。
3. 泛化谜题:双重下降与信息瓶颈(Generalization: Double Descent and Information Bottleneck) 过参数化模型为何不会遭遇严重的过拟合?
- 双重下降(Double Descent):这是对经典偏差-方差权衡(Bias-Variance Trade-off)的颠覆。随着模型复杂度、训练周期(Epochs)或数据量的增加,测试误差在经历经典的“U型”上升(过拟合)后,一旦越过插值阈值(Interpolation Threshold),误差竟然会再次下降。这种现象说明极度过参数化的模型在优化算法(如SGD)的隐式正则化下,会自动寻找能够更好泛化的“更简单”或“更平坦”的解。
- 信息瓶颈(Information Bottleneck, IB)理论与争议:IB理论提出,神经网络的训练分为拟合(Fitting)和压缩(Compression)两个阶段。隐藏层首先尽可能多地提取输入特征,随后“压缩”并丢弃与目标输出无关的冗余信息,这种压缩被认为是泛化能力的关键。然而,这一假设遭到了强烈的挑战:Saxe等人的研究证明,压缩现象主要是由于使用了双侧饱和激活函数(如tanh)以及互信息的离散分箱估算导致的;在实际常用的ReLU网络和线性网络中,并没有观察到明显的压缩阶段,且没有压缩模型依然能很好地泛化。为了修正这一问题,后续提出了广义信息瓶颈(GIB),通过引入特征间的“协同作用”(Synergy),成功在包括ReLU和Transformer在内的架构中再次观察到了压缩阶段,并将其与对抗鲁棒性联系起来。
4. 几何深度学习与流形假说(Geometric Deep Learning and Manifold Hypothesis) 在高维空间中拟合函数面临维度灾难,深度学习之所以成功,是因为现实世界的数据存在底层的低维几何结构。
- 流形假说(Manifold Hypothesis):高维数据通常分布在低维度流形(Manifold)上。深层神经网络的本质可被视为一种非线性降维机制,它不仅将数据映射到低维的隐空间中,而且当这些表示流形变得更加“平坦”时,分类的线性可分性和泛化能力都会得到显著提升。
- 几何深度学习(GDL):这是一个通过对称性(Symmetry)和不变性(Invariance)来统一各种网络架构的理论蓝图。GDL利用群论(Group Theory)将物理世界的先验规律(如平移、旋转、置换等对称性)硬编码到神经网络的设计中。例如,卷积神经网络(CNN)利用了平移对称性进行局部权重共享,图神经网络(GNN)利用了置换对称性进行消息传递。通过施加这些几何约束,大幅降低了表达任务所需的参数量,使得模型免受维度灾难的困扰并极大地提升了泛化能力。