符号回归(Symbolic Regression)在历史上具有重要意义,其根源可以追溯到开普勒发现行星运动定律。现代符号回归方法包括遗传算法,这种算法通过模仿生物进化过程来寻找最符合的符号表达式。
论文《AI Feynman:一种受物理启发的符号回归方法》(AI Feynman: a Physics-Inspired Method for Symbolic Regression)探讨了符号回归的挑战,这涉及找到与未知函数数据匹配的符号表达式。虽然这一问题在理论上被认为是NP难问题,但许多实际中有用的函数展示出对称性、可分离性和组合性等性质,可以简化问题。作者提出了AI Feynman算法,这是一种递归的、多维度的符号回归方法,利用了这些简化特性。AI Feynman 是符号回归的一个强大工具,特别适用于受物理启发的问题。通过将神经网络与基于物理的策略相结合,该算法能够解决之前方法无法解决的复杂方程。这种方法不仅提高了符号回归的技术水平,还为物理学和其他科学领域的自动化发现开辟了新的可能性。
论文作者为来自MIT的Silviu-Marian Udrescu和Max Tegmark。
一、AI Feynman 算法
AI Feynman算法的核心是结合神经网络拟合与受物理启发的技术。该算法迭代地应用六个主要策略:
- 量纲分析(Dimensional Analysis):通过要求方程两边的单位匹配来简化问题,通常减少变量数量。
- 多项式拟合(Polynomial Fit):尝试将数据拟合到低阶多项式上,如果函数具有这种形式,这种方法非常直接。
- 暴力搜索(Brute Force):尝试所有可能的符号表达式,按复杂性递增的顺序排列。
- 神经网络拟合(Neural Network Fitting):训练一个神经网络,根据输入预测输出,从而发现函数中的隐藏属性,如对称性或可分离性。
- 对称性检测(Symmetry Detection):利用神经网络检测函数是否具有平移或缩放对称性,允许简化问题。
- 可分离性检测(Separability Detection):算法测试函数是否可以写成两个更简单函数的乘积或和,每个函数依赖于变量的一个子集。
二、实现与结果
该算法在由费曼物理学讲义中的100个方程组成的数据库上进行了测试,成功发现了所有这些方程,表现优于现有的符号回归软件如Eureqa(后者仅解决了71个方程)。对于更具挑战性的基于物理的测试集,AI Feynman将成功率从15%提高到了90%。
三、详细示例
论文详细展示了AI Feynman如何发现引力公式的过程。该过程涉及多个步骤,包括量纲分析以减少变量数量,使用神经网络拟合以识别对称性,以及多项式拟合来解决简化后的方程。
四、方法论
作者详细介绍了AI Feynman算法中使用的六个策略。这些策略旨在利用物理学中函数的常见特性,例如已知单位、低阶多项式、组合性、平滑性、对称性和可分离性。每个策略作为算法中的一个模块来实现,算法会迭代地应用这些模块,转换并简化问题,直到找到解决方案。
五、讨论与未来工作
作者讨论了他们方法的局限性,特别是在处理具有复杂或不常见特性的函数时。他们提出了潜在的改进方向,例如更好地将暴力方法与神经网络搜索隐藏简化结合起来,以及更复杂地使用神经网络来减少拟合噪声。
六、结论
论文总结了AI Feynman在符号回归领域的显著进展,尤其是在受物理启发的问题中。作者预测,进一步的改进可能会使计算机首次通过符号回归发现新的、有用的物理公式,这将是该领域的一个重大里程碑。
AI Feynman on GitHub: https://github.com/SJ001/AI-Feynman