基于多智能体群体协作的蛋白序列设计

de novo（从零开始）蛋白序列设计的核心难点在于：序列空间极其巨大，而且“序列—结构—功能”之间耦合复杂。许多主流生成方法（如蛋白语言模型、扩散模型等）往往需要微调、任务特定数据、或模型结构/流程重配置，这会降低方法的灵活性与可扩展性。为此，论文Swarms of Large Language Model Agents for Protein Sequence Design with Experimental Validation提出一种不需要训练/微调、能直接按目标做“定制化设计”的新框架，并用实验做了验证。

论文作者为Fiona Y. Wang, Di Sheng Lee, David L. Kaplan, Markus J. Buehler，来自MIT和Tufts University。

作者的关键设计是：把蛋白序列的每一个残基位置都交给一个独立的 LLM agent（“position-wise agent”），让它只负责决定自己那一位该变成什么氨基酸；同时所有 agent 共享同一个设计目标与“共享推理枢纽/信息枢纽”，并在每轮迭代后接收评估反馈与记忆信息，再进入下一轮。整个系统强调：

去中心化：不是一个模型从头到尾一次性生成全序列，而是“每个位置各司其职”。
在线特化：不更新模型权重，而是在提示词中注入局部结构/邻域/历史等信息，让 agent 当场“临时专精”。
涌现式设计：全局结构与功能目标通过许多局部决策的协同逐步涌现出来。

论文对比了这种 swarm 框架与“单体模型线性推理”的差异，并明确给出了 agent 提示词包含的四类信息：角色任务与规则、局部邻域与结构上下文、目标与能量趋势、以及全局/局部记忆历史；输出则是“理由 + 建议氨基酸”。

论文把一次迭代拆成清晰的四阶段循环（这样做也便于缓存/加速、避免“边提案边折叠”的混乱）：

收集提案：所有位置 agent 并行给出“该位点从当前氨基酸→新氨基酸”的建议（这一阶段不做结构计算）。
应用变更并折叠：把所有位点建议拼成新序列，然后用结构预测器把序列折叠成结构（文中用的是 OmegaFold）。
结构/目标评估：用 Rosetta 做能量打分、用 DSSP 做二级结构标注，并计算与目标相关的定制评分。
接受/拒绝 + 记忆更新：如果新序列让目标评分更好，或在目标不明显变差时能量更低，则接受；否则拒绝并记录失败尝试。

作者显式做了两层记忆：

全局记忆：记录哪些序列被接受/拒绝、哪些突变模式更可能成功、能量与结构分数的趋势等。
局部历史：每个 agent 记录自己位点上哪些替换更有效、与邻位点的交互效应、上下文依赖的成功模式等。
这些记忆会被整理成“可喂给 agent 的上下文”，用于下一轮决策。

直观上，这相当于把“搜索过程中的经验”结构化沉淀下来，让 swarm 不只是随机游走，而是逐渐学会哪些方向更值得探索。

论文展示了 4 类结构目标：

让序列形成 α-螺旋（两种不同约束：偏亲水的螺旋 vs 重复的 A/L/E 模式）
形成 β-链/β-片层倾向（通过疏水/极性交替）
形成 松散 coil/无规卷曲（通过更多带电和极性残基减少紧致折叠）
并且给出“起始序列→最佳序列→预测三维结构→序列 logo（残基偏好）”的一整套证据链。

作者选了两个易合成的短肽做 圆二色谱（CD）：一个是亲水螺旋序列、一个是 coil 序列。结果显示：

螺旋样品出现典型的 208/222 nm 双谷（α-螺旋特征谱），并给出 91.3% helix content 的估计；
coil 样品在 210 nm 以上椭圆度很低，且在 195 nm 附近负峰（无规卷曲特征），给出 58.9% coil content。

这部分很重要：它把“LLM+评估”产生的序列，至少在二级结构层面，拉到了可实验复现的程度。

论文用“Rosetta 能量（物理可行性）”和“结构/目标分数（是否符合目标）”跟踪 64 轮迭代，观察到一种很像启发式搜索的模式：

早期迅速把结构分数推到较高水平并降低能量；
后期在保持目标结构不被破坏的前提下，继续探索更低能量或更优解；
整体呈现多轮“先收敛、再探索、再收敛”的摆动，而不是一次性单调收敛。

作者展示了三类更“功能导向”的目标能力：

匹配目标振动频谱分布：设计的蛋白低频模态分布与目标高度一致，给出 cosine similarity 0.991（几乎完美匹配）。
金属结合口袋/基序：从 β-hairpin 出发，通过引入 His/Cys/Met 等残基形成配位口袋；序列 logo 还能“自己”涌现出类似 CXXC 的常见金属结合模式（作者强调不需要额外知识输入）。
多结构域设计：把“N 端 β、C 端 α”的起始构型，转换为“N 端 α、C 端 β”，并展示能处理更长的序列（例子里到 136 residues）。

同时论文进一步说明在频谱目标上也会出现收敛/探索交替：探索阶段能量与频谱分数波动更大，收敛阶段则更稳定。

论文在同一个“局部对称”目标下，对比了 6 个模型（grok-3-mini、GPT-4o-mini、Mistral-8B、GPT-4.1、GPT-4o、Llama-3.2-3B），用两种图来刻画：

Hamming 距离热图：看序列在各轮之间是否快速变得相似（强收敛）
UMAP 投影：看理化性质空间中探索的范围与聚类结构

结论是：有的模型更快收敛（多样性迅速塌缩），有的模型更“发散”探索（多样性持续更久），从而影响 swarm 在“快速找到可行解”与“更广泛探索新解”之间的平衡。

论文给了一个清晰定位：

结构预测模型：更偏“预测”，突变不够“懂目标”；
自回归蛋白语言模型：生成能力强，但对自定义规则/目标的可控性有限；
扩散模型：可做设计但多目标/规则化控制更复杂；
swarm：强调 更高的设计自由度、能“有根据地”做突变、能遵守自定义规则、能做多目标优化。

作者把 swarm 生成序列、天然蛋白数据库（SCOPe）序列、以及 ProteinMPNN 生成序列放在同一个“数值特征空间”里比较：特征包括 20 种氨基酸组成频率 + 分子量/芳香性等理化指标；然后用 t-SNE 做 2D 可视化、用 neighbor-joining 做树状关系图。

结果显示：swarm 生成序列中既有靠近“天然样”区域的，也有接近 ProteinMPNN 风格的，还有一部分落在两者都较少覆盖的区域，说明它能在“合理性”和“新颖性”之间做出一定平衡。

论文把训练成本与推理成本放在一起对比：AlphaFold、ProtGPT2、ESM2、RFdiffusion、ProteinMPNN 等都有显著的预训练/训练开销；而 swarm 不需要训练，完成一次完整迭代式设计大约是“少量 GPU 小时”，总体耗时更受 LLM API 响应时间影响。

作者总结的贡献：

用“每位点一个 agent”的 swarm 思路，实现多种结构目标（α/β/coil）并做了 CD 实验验证；
能做更复杂的功能/物性目标（频谱、金属口袋、多域结构）；
通过选择不同底层 LLM 调节探索/收敛行为；
对标多类主流方法，强调可控、多目标与无需训练；
产生序列覆盖天然样与新区域；整体计算开销低。

从方法设定出发可以预期的局限（论文里也能看到一些“暗示”）：

强依赖“评估器链路”（结构预测 + Rosetta + 目标评分）。如果评估器偏差较大，swarm 可能会被带偏（这是所有“生成+评估”范式的共同风险）。
更长序列/更复杂功能的实验验证还很有限：本文实验主要验证了二级结构可复现；更高阶功能仍主要是计算证据。
运行时间可能被 LLM 推理/调用开销主导（作者也提到总耗时主要由 API 响应决定）。

相关文章：

发表评论 取消回复

发表评论取消回复