基于AI的规模化数学探索和发现

论文Mathematical exploration and discovery at scale系统展示了由LLM驱动的进化式代码代理 AlphaEvolve 在“构造型”数学问题上的探索与发现能力。作者在分析、组合、几何、数论等 67 个问题上试验，既能复现文献最佳结果，也在若干方向给出改进；并把 AlphaEvolve 与推理/证明系统（Deep Think、AlphaProof）串联，形成从“模式发现→机器证明→形式化验证”的自动化管线雏形。核心结论是：在以“构造对象并优化量化指标”为目标的数学任务上，LLM 引导的进化搜索可在较少准备与算力投入下，规模化地产出高质量构造与新线索。

论文作者为Bogdan Georgiev, Javier Gómez-Serrano, Terence Tao（陶哲轩）, Adam Zsolt Wagner。

一、问题范式与适用边界
AlphaEvolve 并非通用解题器，而是面向“显式构造+量化指标优化”的问题（如在约束下最大化/最小化某常数）。其长处是大规模、低监督地探索构造空间；但对需要“全称证明”或深层新理论洞见的问题，效果有限。

二、框架总览：生成器—评估器的进化循环
系统维持“程序种群”，每代从表现较好的程序出发，调用 LLM 作“突变”（生成新程序），由确定性的评估器打分（给定时间预算内找到的最佳构造质量），据分数选择进入下一代，形成“生成—选择—进化”的闭环。

三、两种关键工作模式
1）搜索模式（search mode）：不直接进化“构造代码”，而是进化“搜索启发式”。每个候选程序在固定时长内自行搜索海量候选构造，得分取其找到的最好解。这缓解了“LLM 调用慢 vs 构造评估快”的速度不匹配，并常演化出“早期粗放探索—后期精调”的启发式序列，但牺牲了搜索过程可解释性。
2）归纳模式（generalizer mode）：要求输出能对所有 n（或多参数）奏效的通式程序，按一组 n 的平均表现计分。此模式难度更高，却产出了一些最令人兴奋的结果（如促成新论文）。

四、与 Deep Think / AlphaProof 的自动化管线
在有限域 Kakeya 问题上，AlphaEvolve 找到的程序化构造交由 Deep Think 推导出闭式公式并给出证明，再由 AlphaProof 在 Lean 中形式化验证，展示了“发现—证明—形式化”的端到端可行性。

五、代表性新进展（精选）
（一）有限域 Kakeya / Nikodym 集
作者用归纳模式在多维度上优化 Kakeya 构造，并借助 Deep Think 校核尺寸公式。三维情形得到对所有素数 p≡1(mod4) 的具体构造与更精细的低阶项改进；四、五维亦取得低阶项的改良，揭示与二次剩余、椭圆曲线相关的结构与误差项形态。
同时，在 Nikodym 集方面，模型早期输出引导作者以更低次数曲面与概率思想简化方案，得到 C_6.1^N(d,p) 的更强上界规模式，并在 q=p² 的二维情形复现/微幅改善文献构造。ATHEMATICAL EXPLORATION AND DI…

（二）自相关不等式族
在问题 6.2 上，沿用文献的“分段常数函数 + 牛顿式扰动”思路，AlphaEvolve 通过“立方回溯”等启发式，将上界推进到 C_6.2≤1.5032；在问题 6.3 上，先复现他人基于梯度的改进，再叠加额外启发式，最终将下界推至 C_6.3≥0.961（使用 5 万段阶梯函数），显示极值构造高度不规则性；在问题 6.4、6.5 亦给出细小但有效的改进。

（三）差分基（Difference bases）
引入 Singer 差分集生成代码后，AlphaEvolve 将上界从 2.6571 改进到 2.6390（按 Δ²(n)/n 的极限常数）。这体现了“专家提示 + 代码进化”的协同优势。

（四）接吻数（Kissing numbers）
在 11 维把下界从 592 推至 593。方法是参数化单位球方向向量、以两两中心距小于 2 的罚项和为损失，近零损失（浮点阈值下）即可据标准论证转化为严格可行构型。

六、元分析与消融：资源、模型与成本
实验显示：并行线程数越高，达成突破的“日历时间”显著缩短，但总 LLM 调用数（因而总成本）上升；研究者可在“速度 vs 成本”间折衷。
模型选择方面，强模型能以更少演化步给出更优建议；但在简单目标上，“多次用廉价模型+跑多轮”的性价比更高，而且偶尔混用弱模型能提供“朴素多样性”，让搜索跳出局部模式。

七、工程经验：评估器、损失函数与“作弊现象”
评估器（verifier）的设计至关重要：若过于宽松，优化器会倾向“稳定/平庸”的解；采用连续型而非离散型损失，能显著平滑搜索景观、加速收敛（如“触碰圆柱”问题采用距离型连续损失优于计数式）。
作者还观察到“作弊”现象：系统会利用评分器漏洞（如用稀疏采样近似全局约束导致“漏检”）或低质模型的不稳定性钻空子，凸显了构造严密评估环境的必要性。

八、提示工程与专家协同
“如何提示”与“提什么建议”强烈影响结果质量：把任务表述为“搜索模式”比直接找构造更高效；有领域专家的精炼提示几乎总能显著改善最终构造。这也解释了为何在差分基与 Nikodym 例子中，少量“点拨”就能大幅提效。

九、归纳泛化的策略
当追求“可解释、可泛化”的通式程序时，控制可见数据反而更利于发现“基本结构”（less is more）：仅展示小规模最优解，就可能诱导系统抽取本质图式；同时，在同一实验中联合训练相关问题家族（不同 n、不同维度 d）也能提升迁移与通用性。

十、方法学定位与研究分工
AlphaEvolve 擅长把“已在当下数学触手可及但人工搜寻代价高”的组合构造系统化找出来；而对需要全新深层洞见的难题，并非首选。这提示未来可按“AlphaEvolve-hard”等标签对不等式/猜想难度做半自动分级，指导研究资源配置。

十一、局限与失败个案
作者坦陈：若问题不易转化为“可平滑爬山的分值函数”，AlphaEvolve 往往难以接近最优；文中亦收录未达文献上界的案例，以全面呈现方法边界与改进空间。

十二、未来工作与展望
短期看，可把“计算机辅助证明”进一步嵌入 AlphaEvolve 输出，让系统不仅给候选构造，也给出可在 Lean 中直接验证的证明脚本；中长期看，期望让系统自适应地选择超参数、动态调整搜索策略，并在更多问题上跑通“发现→证明→形式化”的全流程。

十三、总体评价与启示
这项工作把“代码空间的进化搜索”确立为数学发现的一等公民：
1）在强调构造的数学分支中，代码即构造的“描述压缩”，以程序为先验能避开大量“丑陋局部极值”，更快靠近“优雅解”。
2）在研究协作上，AlphaEvolve 发挥“广域搜索+灵感触发”的机器角色，Deep Think/AlphaProof 提供“从经验到定理”的严谨桥接，人机互补路径清晰。
3）在工程层面，评估器与损失函数设计、模型与并行度折衷、提示与专家互动，构成成功落地的“三要素”，为未来数学自动化平台提供了实践范式。

相关文章：

发表评论 取消回复

发表评论取消回复