NucleoBench:基于神经网络的核酸设计算法大规模基准

论文NucleoBench: A Large-Scale Benchmark of Neural Nucleic Acid Design Algorithms构建了目前规模最大的核酸设计基准 NucleoBench。

论文作者为Joel Shor,Erik Strand,Cory Y. McLean,来自Move37 Labs, MIT Center for Bits and Atoms和Google Research。

一、研究背景与动机
核酸序列(DNA/RNA)定向设计是药物研发的重要瓶颈:仅仅 5’ UTR 的搜索空间就高达约 2×10120,穷举不可行。尽管近年来针对转录因子结合、染色质可及性与基因表达等性质的预测模型快速进步,但“如何从模型中反推高性能序列”的优化算法缺乏系统基准,直接限制了从高质量模型产出高质量分子的能力。NucleoBench 旨在填补这一空白,面向 16 个生物学任务、9 类经典与混合“设计器”(优化算法)开展大规模对比实验(>40 万次),系统回答超参数、初始序列与随机性的作用,并据此提出新算法 AdaBeam。

二、工作与贡献概述
1)覆盖“长序列/大模型”场景;2)对标准与新颖设计器在 16 个任务上进行 40 万+实验;3)提供关于起始超参数合理区间、对随机种子/起始序列的敏感性、随模型/序列长度扩展性的“数据驱动答案”;4)基于洞见提出 AdaBeam,在 16 个任务中有 11 个胜出,并在大模型长序列上具更优扩展性。代码开源

三、基准任务与数据设定
任务来自四个类别(表 3):(1)CRE:细胞类型特异的顺式调控活性(Malinois 模型,3 个任务,序列 200 bp);(2)TF 结合:转录因子在 3 kb 区段的结合概率(BPNet-lite,11 个任务);(3)ATAC:染色质可及性(BPNet-lite,1 个任务);(4)选择性基因表达:Enformer 预测表达并做肌肉/神经选择性优化(输入 200K bp,仅允许编辑其中 256 个碱基)。其中 BPNet-lite 任务使用 ENCODE K562 数据;Enformer 任务为文献所见首次用于设计,且可编辑位点基于 Enformer 预测的 DNASE 活性选取。

四、设计器(优化算法)谱系
基准备案覆盖 9 个代表性“设计器”:Directed Evolution、Simulated Annealing、AdaLead、FastSeqProp、Ledidi,以及作者引入并统一实现的 Ordered/Unordered Beam、Gradient Evo 与 AdaBeam(混合/改进方法)。其中 Ledidi、FastSeqProp 属梯度型;Gradient Evo 与 AdaBeam 为混合/改进型。

五、实验设置与评测指标
每个实验由“任务、设计器、设计器超参数、起始序列”四要素确定。Enformer 任务单次运行 12 小时,其他任务 8 小时或满足算法终止条件;全部在 CPU-only 的 n1-highmem-16(Google Batch)上运行。主指标为最终“能量/适应度”(由任务模型评估),并记录优化过程的能量曲线与每步耗时,统计推断使用配对检验与 95% 置信区间。

六、起始序列与随机性的系统性研究
为公平比较与增强统计功效,作者为每个任务固定 100 条起始序列(相同起点用于所有设计器),并在最佳“开箱即用”超参数下对每组(任务×算法×超参×起始)重复 5 个随机种子,构造基于秩的“0 起点”非参数序分数来衡量方差(越低越稳)。同时使用 Friedman + Nemenyi 方法分析“固有困难起始序列”的存在性与分布。

七、关键工程与方法学创新:大模型可反向传播的“梯度拼接”
Ledidi/FastSeqProp 等常用“梯度掩码”做超长序列的局部反传,虽正确但不能降低峰值显存,导致 Enformer(约 200K 输入)上易 OOM。作者提出“梯度拼接”(Gradient Concatenation):把需要求梯度的切片与不求梯度的切片在张量维度上拼接,仅对前者建图并反传,从而显著降低反向开销,使得 Enformer 任务上的梯度/混合法成为可能(而 Ledidi/FastSeqProp 不能)。

八、改进与新算法:AdaBeam 与 Gradient Evo
1)AdaBeam:受 Beam Search 与 AdaLead 启发,把每轮优化拆为“选位置/做编辑”两步,但将 AdaLead 中隐式 O(n)O(n)O(n) 的位置选择替换为显式采样的 O(1)O(1)O(1),在 3 kb 级序列上步进速度约为 AdaLead 的 2 倍;并用直接可采样的(修正后)二项分布控制每轮编辑数,避免 AdaLead 的拒绝采样低效与潜在死循环。
2)Gradient Evo:在 Directed Evolution 框架内用“泰勒近似的 in-silico 突变”(TISM)指导编辑位置选择,把最弱基线提升为强力优化器;配对检验显示“仅在选点阶段用梯度”与“选点+换碱基都用梯度”无显著差异,提示“先选对位置”比“选对具体替换”更关键。

九、主要结果(性能)
跨任务的配对检验显示:AdaBeam 平均性能最佳,并与 Ledidi 并列为最强两类;在 16 个任务中,AdaBeam 于 15 个任务上取得第 1 或第 2,Ledidi 于 14 个任务上取得第 1 或第 2。任务之间难度分化显著:Malinois 类任务对多数算法“可解”,而 BPNet/Enformer 体现更大区分度。

十、稳定性与收敛性
随机种子带来的方差整体不大(模拟退火最低,但其平均性能较弱);起始序列对性能的影响显著,且存在“固有困难起始序列”,不同任务的困难度分布不均;收敛速度以非参数秩分数汇总,给出各设计器的相对快慢排序,用于工程选型。

十一、AdaLead 消融与方法学洞见
系统消融表明:关闭重组(recombination)与阈值(thresholding)后性能显著提升;同时以显式分布替换拒绝采样可把隐式 O(n)O(n)O(n) 过程化为 O(1)O(1)O(1),避免长序列下的效率与稳定性问题。这些洞见共同催生了 AdaBeam 的设计。

十二、为何“梯度拼接”很关键
在 Enformer 等“前向尚可、反向极重”的场景中,仅在需要的切片上建图反传,可把峰值显存从“全序列掩码”级别降到“局部切片”级别,这是让梯度/混合法首次真正可用于 200K 输入的大模型序列设计的核心工程技巧。

十三、局限性
结论的“生物相关性”取决于任务模型的准确性;本文未系统比较算法对生物学约束/可行性的纳入,也未评估生成式模型与多目标权衡的影响。

十四、未来工作
计划扩展到更多任务(含合成基准、长程规划、多目标优化)、研究随序列长度与模型规模的扩展性,引入面向不确定性的优化器与更合理的探索—利用平衡策略,并在优化前后融入“生物可行性约束/筛选”,提升治疗学相关性。

十五、对药物开发的启示
改进的序列设计可直接服务于多个关键应用:CRISPR gRNA 特异性与脱靶优化、mRNA 疫苗翻译效率与稳定性提升、反义寡核苷酸(ASO)靶向亲和与免疫原性折衷等。

十六、实践者指南(基于本文发现的建议)
1)首选设计器:若允许使用梯度/混合法,优先考虑 AdaBeam 与 Ledidi;在大模型/长序列下,务必采用“梯度拼接”等内存优化以确保可运行性。
2)超参数启发式:迁移既有基准的优选区间,并随序列长度适当下调突变率/步幅;用小规模网格或贝叶斯搜索在给定任务先粗调。
3)起始序列控制:统一使用同一批起点做算法比较;对生产应用,建议对若干“代表性起点”配对评估,以规避被“困难种子”误导的风险。
4)统计评估:尽量采用配对设置(固定起点/多种子),用非参数秩分数汇总跨任务稳健性与收敛性。
5)算法改造要点:在进化/群体类方法中,优先把“编辑位置选择”做得更聪明(如用梯度/TISM 指导),其收益可能大于对具体替换的精雕细琢。

十七、总结
NucleoBench 通过统一任务与起点、放大量级并引入关键工程技巧,给出了当前核酸序列设计器在“真实难度”场景下的清晰画像:AdaBeam 与 Ledidi 领跑,起始序列影响不可忽视,收敛与稳定性可量化排序;“梯度拼接”把 Enformer 级任务从“不可做”变为“可做”。作为开放基准与参考实现,它为后续在“模型不确定性、可行性约束与生成模型”的更全面比较奠定了坚实基线。


NucleoBench on GitHub:https://github.com/move37-labs/nucleobench

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注