论文Mathematical exploration and discovery at scale系统展示了由LLM驱动的进化式代码代理 AlphaEvolve 在“构造型”数学问题上的探索与发现能力。作者在分析、组合、几何、数论等 67 个问题上试验,既能复现文献最佳结果,也在若干方向给出改进;并把 AlphaEvolve 与推理/证明系统(Deep Think、AlphaProof)串联,形成从“模式发现→机器证明→形式化验证”的自动化管线雏形。核心结论是:在以“构造对象并优化量化指标”为目标的数学任务上,LLM 引导的进化搜索可在较少准备与算力投入下,规模化地产出高质量构造与新线索。
论文作者为Bogdan Georgiev, Javier Gómez-Serrano, Terence Tao(陶哲轩), Adam Zsolt Wagner。
一、问题范式与适用边界
AlphaEvolve 并非通用解题器,而是面向“显式构造+量化指标优化”的问题(如在约束下最大化/最小化某常数)。其长处是大规模、低监督地探索构造空间;但对需要“全称证明”或深层新理论洞见的问题,效果有限。
二、框架总览:生成器—评估器的进化循环
系统维持“程序种群”,每代从表现较好的程序出发,调用 LLM 作“突变”(生成新程序),由确定性的评估器打分(给定时间预算内找到的最佳构造质量),据分数选择进入下一代,形成“生成—选择—进化”的闭环。
三、两种关键工作模式
1)搜索模式(search mode):不直接进化“构造代码”,而是进化“搜索启发式”。每个候选程序在固定时长内自行搜索海量候选构造,得分取其找到的最好解。这缓解了“LLM 调用慢 vs 构造评估快”的速度不匹配,并常演化出“早期粗放探索—后期精调”的启发式序列,但牺牲了搜索过程可解释性。
2)归纳模式(generalizer mode):要求输出能对所有 n(或多参数)奏效的通式程序,按一组 n 的平均表现计分。此模式难度更高,却产出了一些最令人兴奋的结果(如促成新论文)。
四、与 Deep Think / AlphaProof 的自动化管线
在有限域 Kakeya 问题上,AlphaEvolve 找到的程序化构造交由 Deep Think 推导出闭式公式并给出证明,再由 AlphaProof 在 Lean 中形式化验证,展示了“发现—证明—形式化”的端到端可行性。
五、代表性新进展(精选)
(一)有限域 Kakeya / Nikodym 集
作者用归纳模式在多维度上优化 Kakeya 构造,并借助 Deep Think 校核尺寸公式。三维情形得到对所有素数 p≡1(mod4) 的具体构造与更精细的低阶项改进;四、五维亦取得低阶项的改良,揭示与二次剩余、椭圆曲线相关的结构与误差项形态。
同时,在 Nikodym 集方面,模型早期输出引导作者以更低次数曲面与概率思想简化方案,得到 C6.1N(d,p) 的更强上界规模式,并在 q=p2 的二维情形复现/微幅改善文献构造。ATHEMATICAL EXPLORATION AND DI…
(二)自相关不等式族
在问题 6.2 上,沿用文献的“分段常数函数 + 牛顿式扰动”思路,AlphaEvolve 通过“立方回溯”等启发式,将上界推进到 C6.2≤1.5032;在问题 6.3 上,先复现他人基于梯度的改进,再叠加额外启发式,最终将下界推至 C6.3≥0.961(使用 5 万段阶梯函数),显示极值构造高度不规则性;在问题 6.4、6.5 亦给出细小但有效的改进。
(三)差分基(Difference bases)
引入 Singer 差分集生成代码后,AlphaEvolve 将上界从 2.6571 改进到 2.6390(按 Δ2(n)/n 的极限常数)。这体现了“专家提示 + 代码进化”的协同优势。
(四)接吻数(Kissing numbers)
在 11 维把下界从 592 推至 593。方法是参数化单位球方向向量、以两两中心距小于 2 的罚项和为损失,近零损失(浮点阈值下)即可据标准论证转化为严格可行构型。
六、元分析与消融:资源、模型与成本
实验显示:并行线程数越高,达成突破的“日历时间”显著缩短,但总 LLM 调用数(因而总成本)上升;研究者可在“速度 vs 成本”间折衷。
模型选择方面,强模型能以更少演化步给出更优建议;但在简单目标上,“多次用廉价模型+跑多轮”的性价比更高,而且偶尔混用弱模型能提供“朴素多样性”,让搜索跳出局部模式。
七、工程经验:评估器、损失函数与“作弊现象”
评估器(verifier)的设计至关重要:若过于宽松,优化器会倾向“稳定/平庸”的解;采用连续型而非离散型损失,能显著平滑搜索景观、加速收敛(如“触碰圆柱”问题采用距离型连续损失优于计数式)。
作者还观察到“作弊”现象:系统会利用评分器漏洞(如用稀疏采样近似全局约束导致“漏检”)或低质模型的不稳定性钻空子,凸显了构造严密评估环境的必要性。
八、提示工程与专家协同
“如何提示”与“提什么建议”强烈影响结果质量:把任务表述为“搜索模式”比直接找构造更高效;有领域专家的精炼提示几乎总能显著改善最终构造。这也解释了为何在差分基与 Nikodym 例子中,少量“点拨”就能大幅提效。
九、归纳泛化的策略
当追求“可解释、可泛化”的通式程序时,控制可见数据反而更利于发现“基本结构”(less is more):仅展示小规模最优解,就可能诱导系统抽取本质图式;同时,在同一实验中联合训练相关问题家族(不同 n、不同维度 d)也能提升迁移与通用性。
十、方法学定位与研究分工
AlphaEvolve 擅长把“已在当下数学触手可及但人工搜寻代价高”的组合构造系统化找出来;而对需要全新深层洞见的难题,并非首选。这提示未来可按“AlphaEvolve-hard”等标签对不等式/猜想难度做半自动分级,指导研究资源配置。
十一、局限与失败个案
作者坦陈:若问题不易转化为“可平滑爬山的分值函数”,AlphaEvolve 往往难以接近最优;文中亦收录未达文献上界的案例,以全面呈现方法边界与改进空间。
十二、未来工作与展望
短期看,可把“计算机辅助证明”进一步嵌入 AlphaEvolve 输出,让系统不仅给候选构造,也给出可在 Lean 中直接验证的证明脚本;中长期看,期望让系统自适应地选择超参数、动态调整搜索策略,并在更多问题上跑通“发现→证明→形式化”的全流程。
十三、总体评价与启示
这项工作把“代码空间的进化搜索”确立为数学发现的一等公民:
1)在强调构造的数学分支中,代码即构造的“描述压缩”,以程序为先验能避开大量“丑陋局部极值”,更快靠近“优雅解”。
2)在研究协作上,AlphaEvolve 发挥“广域搜索+灵感触发”的机器角色,Deep Think/AlphaProof 提供“从经验到定理”的严谨桥接,人机互补路径清晰。
3)在工程层面,评估器与损失函数设计、模型与并行度折衷、提示与专家互动,构成成功落地的“三要素”,为未来数学自动化平台提供了实践范式。