基于多智能体群体协作的蛋白序列设计

de novo(从零开始)蛋白序列设计的核心难点在于:序列空间极其巨大,而且“序列—结构—功能”之间耦合复杂。许多主流生成方法(如蛋白语言模型、扩散模型等)往往需要微调、任务特定数据、或模型结构/流程重配置,这会降低方法的灵活性与可扩展性。为此,论文Swarms of Large Language Model Agents for Protein Sequence Design with Experimental Validation提出一种不需要训练/微调、能直接按目标做“定制化设计”的新框架,并用实验做了验证。

论文作者为Fiona Y. Wang, Di Sheng Lee, David L. Kaplan, Markus J. Buehler,来自MIT和Tufts University。

作者的关键设计是:把蛋白序列的每一个残基位置都交给一个独立的 LLM agent(“position-wise agent”),让它只负责决定自己那一位该变成什么氨基酸;同时所有 agent 共享同一个设计目标与“共享推理枢纽/信息枢纽”,并在每轮迭代后接收评估反馈与记忆信息,再进入下一轮。整个系统强调:

  • 去中心化:不是一个模型从头到尾一次性生成全序列,而是“每个位置各司其职”。
  • 在线特化:不更新模型权重,而是在提示词中注入局部结构/邻域/历史等信息,让 agent 当场“临时专精”。
  • 涌现式设计:全局结构与功能目标通过许多局部决策的协同逐步涌现出来。

论文对比了这种 swarm 框架与“单体模型线性推理”的差异,并明确给出了 agent 提示词包含的四类信息:角色任务与规则、局部邻域与结构上下文、目标与能量趋势、以及全局/局部记忆历史;输出则是“理由 + 建议氨基酸”。

论文把一次迭代拆成清晰的四阶段循环(这样做也便于缓存/加速、避免“边提案边折叠”的混乱):

  1. 收集提案:所有位置 agent 并行给出“该位点从当前氨基酸→新氨基酸”的建议(这一阶段不做结构计算)。
  2. 应用变更并折叠:把所有位点建议拼成新序列,然后用结构预测器把序列折叠成结构(文中用的是 OmegaFold)。
  3. 结构/目标评估:用 Rosetta 做能量打分、用 DSSP 做二级结构标注,并计算与目标相关的定制评分。
  4. 接受/拒绝 + 记忆更新:如果新序列让目标评分更好,或在目标不明显变差时能量更低,则接受;否则拒绝并记录失败尝试。

作者显式做了两层记忆:

  • 全局记忆:记录哪些序列被接受/拒绝、哪些突变模式更可能成功、能量与结构分数的趋势等。
  • 局部历史:每个 agent 记录自己位点上哪些替换更有效、与邻位点的交互效应、上下文依赖的成功模式等。
    这些记忆会被整理成“可喂给 agent 的上下文”,用于下一轮决策。

直观上,这相当于把“搜索过程中的经验”结构化沉淀下来,让 swarm 不只是随机游走,而是逐渐学会哪些方向更值得探索。

论文展示了 4 类结构目标:

  • 让序列形成 α-螺旋(两种不同约束:偏亲水的螺旋 vs 重复的 A/L/E 模式)
  • 形成 β-链/β-片层倾向(通过疏水/极性交替)
  • 形成 松散 coil/无规卷曲(通过更多带电和极性残基减少紧致折叠)
    并且给出“起始序列→最佳序列→预测三维结构→序列 logo(残基偏好)”的一整套证据链。

作者选了两个易合成的短肽做 圆二色谱(CD):一个是亲水螺旋序列、一个是 coil 序列。结果显示:

  • 螺旋样品出现典型的 208/222 nm 双谷(α-螺旋特征谱),并给出 91.3% helix content 的估计;
  • coil 样品在 210 nm 以上椭圆度很低,且在 195 nm 附近负峰(无规卷曲特征),给出 58.9% coil content

这部分很重要:它把“LLM+评估”产生的序列,至少在二级结构层面,拉到了可实验复现的程度。

论文用“Rosetta 能量(物理可行性)”和“结构/目标分数(是否符合目标)”跟踪 64 轮迭代,观察到一种很像启发式搜索的模式:

  • 早期迅速把结构分数推到较高水平并降低能量;
  • 后期在保持目标结构不被破坏的前提下,继续探索更低能量或更优解;
  • 整体呈现多轮“先收敛、再探索、再收敛”的摆动,而不是一次性单调收敛。

作者展示了三类更“功能导向”的目标能力:

  1. 匹配目标振动频谱分布:设计的蛋白低频模态分布与目标高度一致,给出 cosine similarity 0.991(几乎完美匹配)。
  2. 金属结合口袋/基序:从 β-hairpin 出发,通过引入 His/Cys/Met 等残基形成配位口袋;序列 logo 还能“自己”涌现出类似 CXXC 的常见金属结合模式(作者强调不需要额外知识输入)。
  3. 多结构域设计:把“N 端 β、C 端 α”的起始构型,转换为“N 端 α、C 端 β”,并展示能处理更长的序列(例子里到 136 residues)。

同时论文进一步说明在频谱目标上也会出现收敛/探索交替:探索阶段能量与频谱分数波动更大,收敛阶段则更稳定。

论文在同一个“局部对称”目标下,对比了 6 个模型(grok-3-mini、GPT-4o-mini、Mistral-8B、GPT-4.1、GPT-4o、Llama-3.2-3B),用两种图来刻画:

  • Hamming 距离热图:看序列在各轮之间是否快速变得相似(强收敛)
  • UMAP 投影:看理化性质空间中探索的范围与聚类结构

结论是:有的模型更快收敛(多样性迅速塌缩),有的模型更“发散”探索(多样性持续更久),从而影响 swarm 在“快速找到可行解”与“更广泛探索新解”之间的平衡。

论文给了一个清晰定位:

  • 结构预测模型:更偏“预测”,突变不够“懂目标”;
  • 自回归蛋白语言模型:生成能力强,但对自定义规则/目标的可控性有限;
  • 扩散模型:可做设计但多目标/规则化控制更复杂;
  • swarm:强调 更高的设计自由度、能“有根据地”做突变、能遵守自定义规则、能做多目标优化。

作者把 swarm 生成序列、天然蛋白数据库(SCOPe)序列、以及 ProteinMPNN 生成序列放在同一个“数值特征空间”里比较:特征包括 20 种氨基酸组成频率 + 分子量/芳香性等理化指标;然后用 t-SNE 做 2D 可视化、用 neighbor-joining 做树状关系图。

结果显示:swarm 生成序列中既有靠近“天然样”区域的,也有接近 ProteinMPNN 风格的,还有一部分落在两者都较少覆盖的区域,说明它能在“合理性”和“新颖性”之间做出一定平衡。

论文把训练成本与推理成本放在一起对比:AlphaFold、ProtGPT2、ESM2、RFdiffusion、ProteinMPNN 等都有显著的预训练/训练开销;而 swarm 不需要训练,完成一次完整迭代式设计大约是“少量 GPU 小时”,总体耗时更受 LLM API 响应时间影响。

作者总结的贡献

  • 用“每位点一个 agent”的 swarm 思路,实现多种结构目标(α/β/coil)并做了 CD 实验验证;
  • 能做更复杂的功能/物性目标(频谱、金属口袋、多域结构);
  • 通过选择不同底层 LLM 调节探索/收敛行为;
  • 对标多类主流方法,强调可控、多目标与无需训练;
  • 产生序列覆盖天然样与新区域;整体计算开销低。

从方法设定出发可以预期的局限(论文里也能看到一些“暗示”)

  • 强依赖“评估器链路”(结构预测 + Rosetta + 目标评分)。如果评估器偏差较大,swarm 可能会被带偏(这是所有“生成+评估”范式的共同风险)。
  • 更长序列/更复杂功能的实验验证还很有限:本文实验主要验证了二级结构可复现;更高阶功能仍主要是计算证据。
  • 运行时间可能被 LLM 推理/调用开销主导(作者也提到总耗时主要由 API 响应决定)。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注