NucleoBench：基于神经网络的核酸设计算法大规模基准

论文NucleoBench: A Large-Scale Benchmark of Neural Nucleic Acid Design Algorithms构建了目前规模最大的核酸设计基准 NucleoBench。

论文作者为Joel Shor，Erik Strand，Cory Y. McLean，来自Move37 Labs， MIT Center for Bits and Atoms和Google Research。

一、研究背景与动机
核酸序列（DNA/RNA）定向设计是药物研发的重要瓶颈：仅仅 5’ UTR 的搜索空间就高达约 2×10¹²⁰，穷举不可行。尽管近年来针对转录因子结合、染色质可及性与基因表达等性质的预测模型快速进步，但“如何从模型中反推高性能序列”的优化算法缺乏系统基准，直接限制了从高质量模型产出高质量分子的能力。NucleoBench 旨在填补这一空白，面向 16 个生物学任务、9 类经典与混合“设计器”（优化算法）开展大规模对比实验（>40 万次），系统回答超参数、初始序列与随机性的作用，并据此提出新算法 AdaBeam。

二、工作与贡献概述
1）覆盖“长序列/大模型”场景；2）对标准与新颖设计器在 16 个任务上进行 40 万+实验；3）提供关于起始超参数合理区间、对随机种子/起始序列的敏感性、随模型/序列长度扩展性的“数据驱动答案”；4）基于洞见提出 AdaBeam，在 16 个任务中有 11 个胜出，并在大模型长序列上具更优扩展性。代码开源。

三、基准任务与数据设定
任务来自四个类别（表 3）：（1）CRE：细胞类型特异的顺式调控活性（Malinois 模型，3 个任务，序列 200 bp）；（2）TF 结合：转录因子在 3 kb 区段的结合概率（BPNet-lite，11 个任务）；（3）ATAC：染色质可及性（BPNet-lite，1 个任务）；（4）选择性基因表达：Enformer 预测表达并做肌肉/神经选择性优化（输入 200K bp，仅允许编辑其中 256 个碱基）。其中 BPNet-lite 任务使用 ENCODE K562 数据；Enformer 任务为文献所见首次用于设计，且可编辑位点基于 Enformer 预测的 DNASE 活性选取。

四、设计器（优化算法）谱系
基准备案覆盖 9 个代表性“设计器”：Directed Evolution、Simulated Annealing、AdaLead、FastSeqProp、Ledidi，以及作者引入并统一实现的 Ordered/Unordered Beam、Gradient Evo 与 AdaBeam（混合/改进方法）。其中 Ledidi、FastSeqProp 属梯度型；Gradient Evo 与 AdaBeam 为混合/改进型。

五、实验设置与评测指标
每个实验由“任务、设计器、设计器超参数、起始序列”四要素确定。Enformer 任务单次运行 12 小时，其他任务 8 小时或满足算法终止条件；全部在 CPU-only 的 n1-highmem-16（Google Batch）上运行。主指标为最终“能量/适应度”（由任务模型评估），并记录优化过程的能量曲线与每步耗时，统计推断使用配对检验与 95% 置信区间。

六、起始序列与随机性的系统性研究
为公平比较与增强统计功效，作者为每个任务固定 100 条起始序列（相同起点用于所有设计器），并在最佳“开箱即用”超参数下对每组（任务×算法×超参×起始）重复 5 个随机种子，构造基于秩的“0 起点”非参数序分数来衡量方差（越低越稳）。同时使用 Friedman + Nemenyi 方法分析“固有困难起始序列”的存在性与分布。

七、关键工程与方法学创新：大模型可反向传播的“梯度拼接”
Ledidi/FastSeqProp 等常用“梯度掩码”做超长序列的局部反传，虽正确但不能降低峰值显存，导致 Enformer（约 200K 输入）上易 OOM。作者提出“梯度拼接”（Gradient Concatenation）：把需要求梯度的切片与不求梯度的切片在张量维度上拼接，仅对前者建图并反传，从而显著降低反向开销，使得 Enformer 任务上的梯度/混合法成为可能（而 Ledidi/FastSeqProp 不能）。

八、改进与新算法：AdaBeam 与 Gradient Evo
1）AdaBeam：受 Beam Search 与 AdaLead 启发，把每轮优化拆为“选位置/做编辑”两步，但将 AdaLead 中隐式 O(n)O(n)O(n) 的位置选择替换为显式采样的 O(1)O(1)O(1)，在 3 kb 级序列上步进速度约为 AdaLead 的 2 倍；并用直接可采样的（修正后）二项分布控制每轮编辑数，避免 AdaLead 的拒绝采样低效与潜在死循环。
2）Gradient Evo：在 Directed Evolution 框架内用“泰勒近似的 in-silico 突变”（TISM）指导编辑位置选择，把最弱基线提升为强力优化器；配对检验显示“仅在选点阶段用梯度”与“选点+换碱基都用梯度”无显著差异，提示“先选对位置”比“选对具体替换”更关键。

九、主要结果（性能）
跨任务的配对检验显示：AdaBeam 平均性能最佳，并与 Ledidi 并列为最强两类；在 16 个任务中，AdaBeam 于 15 个任务上取得第 1 或第 2，Ledidi 于 14 个任务上取得第 1 或第 2。任务之间难度分化显著：Malinois 类任务对多数算法“可解”，而 BPNet/Enformer 体现更大区分度。

十、稳定性与收敛性
随机种子带来的方差整体不大（模拟退火最低，但其平均性能较弱）；起始序列对性能的影响显著，且存在“固有困难起始序列”，不同任务的困难度分布不均；收敛速度以非参数秩分数汇总，给出各设计器的相对快慢排序，用于工程选型。

十一、AdaLead 消融与方法学洞见
系统消融表明：关闭重组（recombination）与阈值（thresholding）后性能显著提升；同时以显式分布替换拒绝采样可把隐式 O(n)O(n)O(n) 过程化为 O(1)O(1)O(1)，避免长序列下的效率与稳定性问题。这些洞见共同催生了 AdaBeam 的设计。

十二、为何“梯度拼接”很关键
在 Enformer 等“前向尚可、反向极重”的场景中，仅在需要的切片上建图反传，可把峰值显存从“全序列掩码”级别降到“局部切片”级别，这是让梯度/混合法首次真正可用于 200K 输入的大模型序列设计的核心工程技巧。

十三、局限性
结论的“生物相关性”取决于任务模型的准确性；本文未系统比较算法对生物学约束/可行性的纳入，也未评估生成式模型与多目标权衡的影响。

十四、未来工作
计划扩展到更多任务（含合成基准、长程规划、多目标优化）、研究随序列长度与模型规模的扩展性，引入面向不确定性的优化器与更合理的探索—利用平衡策略，并在优化前后融入“生物可行性约束/筛选”，提升治疗学相关性。

十五、对药物开发的启示
改进的序列设计可直接服务于多个关键应用：CRISPR gRNA 特异性与脱靶优化、mRNA 疫苗翻译效率与稳定性提升、反义寡核苷酸（ASO）靶向亲和与免疫原性折衷等。

十六、实践者指南（基于本文发现的建议）
1）首选设计器：若允许使用梯度/混合法，优先考虑 AdaBeam 与 Ledidi；在大模型/长序列下，务必采用“梯度拼接”等内存优化以确保可运行性。
2）超参数启发式：迁移既有基准的优选区间，并随序列长度适当下调突变率/步幅；用小规模网格或贝叶斯搜索在给定任务先粗调。
3）起始序列控制：统一使用同一批起点做算法比较；对生产应用，建议对若干“代表性起点”配对评估，以规避被“困难种子”误导的风险。
4）统计评估：尽量采用配对设置（固定起点/多种子），用非参数秩分数汇总跨任务稳健性与收敛性。
5）算法改造要点：在进化/群体类方法中，优先把“编辑位置选择”做得更聪明（如用梯度/TISM 指导），其收益可能大于对具体替换的精雕细琢。

十七、总结
NucleoBench 通过统一任务与起点、放大量级并引入关键工程技巧，给出了当前核酸序列设计器在“真实难度”场景下的清晰画像：AdaBeam 与 Ledidi 领跑，起始序列影响不可忽视，收敛与稳定性可量化排序；“梯度拼接”把 Enformer 级任务从“不可做”变为“可做”。作为开放基准与参考实现，它为后续在“模型不确定性、可行性约束与生成模型”的更全面比较奠定了坚实基线。

NucleoBench on GitHub：https://github.com/move37-labs/nucleobench

相关文章：

发表评论 取消回复

发表评论取消回复