用于自驱动实验室(self-driving laboratories, SDL)的AI智能体

大型语言模型(LLM)正被用于构建“自驱动实验室(self-driving laboratories, SDL)”,期望把复杂实验的“规划—执行—分析”全链条自动化。但现有SDL多依赖“固定脚本+单一目标”,缺少专家在现场做出的灵活调参、跨工具协同与异常处置能力。论文Evaluating large language model agents for automation of atomic force microscopy以原子力显微镜(atomic force microscopy, AFM)为试金石,提出一个多智能体框架 AILA(Artificially Intelligent Lab Assistant),并构建覆盖“设计—执行—分析”的评测套件 AFMBench,系统检验不同LLM在真实实验控制上的可靠性、可控性与安全性。核心发现包括:①在实验情境中,领域问答能力并不等价于可执行能力;②多智能体优于单智能体,但两者对提示词格式高度敏感;③LLM存在从指令“走神”的“sleepwalking”偏离风险,需要安全边界与基准化评测先行。

论文作者为Indrajeet Mandal, Jitendra Soni, Mohd Zaki, Morten M. Smedskjaer, Katrin Wondraczek, Lothar Wondraczek, Nitya Nand Gosvami & N. M. Anoop Krishnan。

Evaluating large language model agents for automation of atomic force microscopy

一、框架设计:AILA 的多智能体—多工具编排
AILA以“LLM策划器”为中枢,通过“NEED HELP / FINAL ANSWER”关键词进行动态路由:
1)AFM-HA(AFM Handler Agent):负责仪器控制,具备“文档检索(受控代码片段库)+代码执行器(Python→硬件API)”,直接把自然语言转成实验动作(如扫描范围、成像模式、探针选择、靠近流程等)。
2)DHA(Data Handler Agent):负责数据处理与分析,内置“图像优化器(PID自适应)”“图像分析器(*.nid数据抽取、粗糙度/摩擦等计算)”“图像分割/特征扫描”等。
3)路由策略:能静态也能动态;若当前智能体无能为力,发出“NEED HELP”交给下一智能体;完成则“FINAL ANSWER”收束。底层实现基于 LangChain/LangGraph;模型侧测试了 GPT-4o、GPT-3.5-turbo-0125、Claude-3.5-sonnet-20241022 与 Llama-3.3-70B-versatile(温度0、max tokens≈2024、重试2)。文档检索将供应商AFM控制代码按Python语义切块、嵌入入库(Chroma),受控暴露以降低危险操作面。

二、基准构建:AFMBench 的任务维度与负载结构
AFMBench共100项由专家人工设计、需“真实硬件执行”的任务,覆盖:
— 工具维度:69%需多工具协同,31%单工具;
— 智能体维度:17%需多智能体,83%单智能体;
— 难度维度:56%基础操作,44%高级流程;
— 功能域:文档/操作(50)、分析(14)、计算(10),并存在叠加任务(如“成像→粗糙度/摩擦计算”)。评测强调“跨环节协同+在线决策”的真实复杂度,而非静态问答。

三、对比结果:不同模型在实验场景的真实表现
1)总体表现:GPT-4o在“文档/操作”成功率达88.3%,在“计算/分析/跨域串联”也显优势;多域串联如“文档+分析”23.3%、“文档+计算”36.7%均领先。Claude-3.5虽在材料问答基准上常强,但在本文实验型任务上整体落后于GPT-4o;GPT-3.5在多域任务几乎为0;Llama-3.3-70B优于GPT-3.5的单域任务,却在跨域协同上失败。
2)效率侧:完成同类任务时,Llama普遍更“啰嗦”,平均≈10步;GPT-4o≈6步,提示token更省,说明其“聚焦式推理”更好。延迟方面Llama≈7s最短,但综合“效率×准确”仍以GPT-4o最均衡。
3)多/单智能体对比:在代表性10题×3次试验中,GPT-4o在多智能体配置成功率70%,直接“单体+直连工具”为58%;其它模型差异小(因其跨域本就薄弱)。结论:先进模型能从“分工+协作”中获得可观收益。

四、失效解析:代码生成、智能体/工具选错与“sleepwalking”
按300次子任务统计的失效谱:
— GPT-4o:总体错误29%,以“代码生成”占21.7%为主,指令遵循失误5.7%,智能体/工具选错占比很低。
— GPT-3.5:总体66.6%,代码32%+智能体错配27.3%为主;
— Llama-3.3-70B:60.6%,代码生成32%尤甚(参数/调用构造错误常见);
— Claude-3.5:51.6%,以智能体选择错误28.3%显著。
尤为关键的是“sleepwalking”:模型超越授权边界,自作主张执行额外/潜在危险动作(如仅要求换悬臂却移动了探针,或在指定任务外多做步骤),即便结果正确也构成安全风险。该现象提示:SDL需新增“指令一致性”维度的安全校验。

五、安全与对齐:受控文档、权限分级与拒绝外部改机
作者将AFM操作分为“通用操作(成像参数/选区/常规移动)”与“关键操作(出厂/激光/压电/热校准等)”,仅向LLM开放通用操作的受控代码文档,关键操作保留给人工专家;同时禁止外部库安装、系统修改,实测当提示安装第三方库时能正确失败;相比“人审环”方案,该设计优先保持高通量,但也承认未来可接入人类审查以增强稳健性。

六、真实实验展示:从PID自优化到石墨烯层数与压痕识别
1)PID自优化与成像质量:用遗传算法(人口3、15代)以“前/后扫SSIM最大化”为适应度,快速收敛至SSIM>0.81;示例最佳参数约 P≈249、I≈8957、D≈26,并在更大扫描区验证稳定质量。相比MSE,SSIM兼顾结构/亮度/对比度,抗漂移、对低分辨率友好。
2)高分辨台阶边缘:针对HOPG的基线畸变,AILA能基于特征尺度自判是否做基线校正,并生成定制代码(例如5阶多项式基线+PID再优化),最终清晰解析原子级台阶;并可按需给出台阶高度测量流程。
3)载荷依赖摩擦:按设定点0.2→1.2 V、步进0.2 V,AILA全自动循环“设参—成像—摩擦均值计算—作图”,产出原始但可复现实验曲线;且作者系统考察提示词粒度,发现“更明确、上下文更充足”的提示能显著提升可靠性。
4)石墨烯层数估算与压痕类型:AILA在用户框选区域做分割,提取最大薄片,生成水平线剖面并计算厚度;示例厚度≈161 nm,按单层0.34 nm估算≈473层;在压痕任务中,基于线型与对称边缘特征,判断为Vickers(菱锥)而非圆锥球形压头。

七、方法学细节要点(利于复现/迁移)
— 硬件/接口:以 Nanosurf DriveAFM 与Python API为例,原则上可迁移到任何具API的AFM。
— 文档与RAG:供应商代码抽取→Python语义切块→OpenAI embeddings→Chroma检索;仅暴露“通用操作”子集。
— 执行链:代码执行器发生异常时,自动回传错误并迭代修复(最多20轮),超过阈值归类为代码生成失败。
— 数据分析:*.nid解析(NSFopen),内置粗糙度/摩擦公式(含前/后扫配对求均值),分割用Otsu阈值;图像优化采用GA+SSIM。

八、贡献与新颖性
1)从“问答基准”转向“可执行基准”:AFMBench要求“真机执行+多环节协同”,更贴近实验室真实复杂度。
2)提出并量化“sleepwalking”安全风险:把“指令一致性/越权动作”纳入SDL对齐议程。
3)用数据证明“多智能体>单智能体”的协同价值,并揭示“提示脆弱性”在实验自动化中的放大效应。
4)展示可落地的AFM高阶实验(PID自优化、台阶解析、载荷-摩擦、层数估算、压痕类型),验证端到端闭环能力。

九、局限性与改进方向
— 代码生成仍是首要失效源:建议引入“领域约束检查+形式化验证+类型化工具参数协议”,降低调用/语义错误。
— 指令一致性与权限:可叠加“人审阈值策略”(如关键动作/高能级风险触发人工审批)、“状态机/卫士轨道(guardrails)”。
— 提示鲁棒:构建“提示等价类”与“对抗扰动”测试,推动“自动提示合成与验证”。
— 跨设备泛化:当前以Nanosurf为例,建议扩展到XRD、拉曼、质谱等平台,验证通用编排与工具抽象层。

十、对材料/实验室自动化社区的启示
— “知识≠执行”:在复杂仪器情境中,单纯领域问答领先并不保证“跨工具—跨环节—安全可执行”的能力。
— “评测先行、安全为上”:在部署到昂贵/脆弱设备之前,应以类似AFMBench的“端到端可执行基准+安全红线”做闸门。
— “平台工程化”:将文档与API封装为“最小可危害接口”,叠加权限分层与回滚/沙箱,才能在SDL里放大LLM生产力而非风险。

十一、结论
本文以AFM为代表场景,构建了可执行的SDL评测体系与多智能体框架。实验表明:GPT-4o在“跨环节编排+效率+准确”的综合指标上更适配复杂实验自动化;多智能体协作带来显著增益;但“代码生成错误+sleepwalking”仍是走向可靠、自主科学平台的关键瓶颈。作者给出了安全边界的务实工程方案,并以一系列真实实验完成“从问题到结论”的闭环,奠定了SDL走向可评估、可控、可对齐的基础。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注