机器学习中到底发生了什么?

数学大神Stephen Wolfram新近发表文章What’s Really Going On in Machine Learning? Some Minimal Models(《机器学习中到底发生了什么?一些最简模型》)。文章通过简化模型,对机器学习的基础原理进行了重要的理论探讨。Wolfram的观点挑战了传统观念,提出机器学习的力量并非来自其机制的复杂性,而是源于其所利用的系统的计算丰富性。这些观点可能会激发该领域理论研究和实际应用的新方向。

1. 机器学习的谜团

Wolfram首先指出,尽管在神经网络的工程技术方面已经取得了很大进展,但我们仍然对其基本机制知之甚少。核心问题在于,尽管神经网络取得了成功,但其内部工作原理仍然基本上是一个“黑箱”,我们不清楚哪些具体的方面是必不可少的,哪些只是历史发展过程中遗留下来的细节。

2. 计算不可约性

Wolfram再次提到的核心主题是计算不可约性,这一概念表明某些过程无法简化或预测,除非实际进行计算。Wolfram认为,机器学习通过利用计算宇宙中的固有复杂性来工作,找到看似可行的解决方案,而不一定构建结构化的机制。

Wolfram认为,似乎机器学习基本上是在拼凑计算不可约性的“块”(Seems like ML is basically about fitting together lumps of computational irreducibility … )

3. 最简模型

Wolfram提出了将机器学习模型简化到最小形式的想法,以便更好地可视化和理解其内部发生的事情。他探讨了这些最简模型是否能够重现更复杂系统中所见的行为。令人惊讶的是,这些更简单的模型通常可以复制所需的结果,从而提供了对机器学习背后基本现象的深入理解。

4. 与生物进化的类比

机器学习模型的训练过程被比作生物进化过程,其中系统通过自适应优化自身。就像在生物进化中一样,机器学习依赖于随机性和适应性来“锁定”有效的解决方案。这种比较强调了这两种过程的随机性特征,以及计算不可约性在防止系统陷入非最佳配置中的作用。

5. 网格神经网络

Wolfram通过提出网格神经网络来简化传统的全连接神经网络,其中每个神经元仅与有限数量的其他神经元相连,形成一个网格。尽管连接性降低,这些网络仍然能够执行复杂的任务,这表明传统网络中的复杂结构在某些功能中可能并不是必要的。

6. 离散系统与元胞自动机

可将机器学习的探索扩展到完全离散的系统,如元胞自动机,这些是具有二元状态的简化计算模型。Wolfram展示了即使是这些简单的系统也可以表现出与传统神经网络类似的复杂行为。

7. 规则数组和离散规则系统

Wolfram在文中探讨了规则数组的概念,即在计算空间的每个位置应用不同的规则,类似于神经网络中的不同权重。这些离散规则系统被证明能够执行机器学习任务,进一步支持了复杂行为可以由简单规则产生的观点。

8. 自适应进化与多路径突变图

Wolfram讨论了离散系统中的自适应进化过程,强调了不同的突变如何导致同一问题的各种解决方案。他引入了多路径突变图来可视化进化可能采取的不同路径,展示了不同策略如何导致相同的结果。

9. 优化学习过程

文章批判了传统机器学习过程中存在的低效性,例如随机突变的浪费。Wolfram建议使用更系统的方法,如最速下降法,以优化学习过程,尽管这些方法也存在局限性,例如可能陷入局部最小值。

10. 离散导数与反向传播

Wolfram将传统神经网络中的连续导数与规则数组中的离散导数进行了比较。他探讨了如何将反向传播这一神经网络中常用的计算梯度的方法适应于离散系统,尽管由于系统的离散性质,这种适应会带来一些复杂性。

11. 通用表示与函数学习

文章提到了不同最简模型可以表示的函数类型,从离散系统中的布尔函数到神经网络中的分段线性函数。Wolfram强调,尽管最简模型通常可以学习这些函数,但得到的解决方案通常是复杂且难以解释的。

12. 可编程规则数组

Wolfram引入了可编程规则数组的概念,其中输入指定要计算的函数。这种灵活性使得相同的规则数组可以根据输入计算不同的函数,展示了这些最简模型在不同任务之间推广的潜力。

13. 总结

在总结中,Wolfram认为机器学习的成功归因于计算宇宙的丰富性,其中正确的配置“恰巧可行”,而不是通过明确设计实现的。他提倡继续探索最简模型,以便更好地理解和可能改进机器学习系统。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注