化学中的LLMs，Large Language Models and Autonomous Agents in Chemistry

论文《A Review of Large Language Models and Autonomous Agents in Chemistry》，探讨了大型语言模型（LLMs）及其在化学领域中的应用，以及基于LLMs的自主代理在化学研究中的应用和潜力。论文作者为Mayk Caldas、Christopher Collison和Andrew White。研究过程中，Mayk创建了一个LLM代理来帮助寻找论文并将它们发布到一个GitHub仓库中。

Illustration of how Large Language Models (LLMs) evolved chronologically
《A Review of Large Language Models and Autonomous Agents in Chemistry》
By Mayk Caldas、Christopher Collison and Andrew White

论文内容介绍如下：

摘要

大型语言模型（LLMs）在多个化学领域中展示出强大的应用潜力，能够准确预测性质、设计新分子、优化合成路径，加速药物和材料的发现。结合化学特定工具如合成规划器和数据库，这些模型可以形成所谓的“代理”，从而推动化学研究的跨学科应用。

介绍与背景

论文首先回顾了AI和ML在化学中的发展历程。从1950年代到1970年代的量子化学和分子建模，到1980年代的专家系统（如DENDRAL），再到1990年代引入神经网络用于药物设计。随着高通量筛选数据的爆炸式增长，支持向量机和随机森林等ML算法在分类和回归任务中变得流行。2010年代，深度学习在化学和材料科学中取得了重大进展，RNN、CNN和GNN等模型在分子性质预测、药物发现和合成预测中表现出色。

大型语言模型

Transformer模型：
- 介绍了Transformer模型，包括编码器-解码器架构，以及其在化学中的应用。
- 编码器-解码器模型通常用于翻译任务，而编码器模型用于性质预测或分类任务，解码器模型用于生成新分子。
模型训练：
- LLM的训练分为预训练和微调两个阶段。
- 预训练阶段使用无监督学习，微调阶段使用有监督学习，最后可能还需要通过强化学习进行模型校准，以确保模型输出符合人类偏好。
模型类型：
- 编码器模型（如BERT）主要用于理解输入序列，解码器模型（如GPT）主要用于生成输出序列，编码器-解码器模型（如BART）结合了两者的优点。

化学中的LLMs

分子表示、数据集与基准：
- 分子可以通过多种方式表示，如分子图、3D点云和定量特征描述。本文关注基于字符串的表示（如SMILES、SELFIES和InChI）。
- 训练数据集和评估数据集的质量至关重要，缺乏高质量的数据是阻碍化学领域LLM发展的主要瓶颈。
性质预测与编码器模型：
- 编码器模型可以有效地进行化学空间的探索和性质预测。文章列举了多个实例，展示了编码器模型在反应分类和性质预测中的应用和优越性。
基于性质的逆设计与解码器模型：
- 解码器模型在生成新分子方面具有重要价值，能够根据预设的条件生成具有特定化学性质的新分子。
- 文章详细介绍了多个基于解码器的LLM在分子生成和性质预测中的应用。

基于LLM的自主代理

模块设计：
- 自主代理包括记忆模块、规划与推理模块、分析模块、感知模块和工具模块。
- 这些模块结合起来，可以用于文献综述、化学创新、实验规划和自动化化学信息学任务。
应用实例：
- 文章列举了多个实例，展示了LLM-based自主代理在化学研究中的应用，如用于文献综述的代理、用于化学创新的代理、用于实验规划的代理等。

挑战与机遇

数据质量与多模态数据：
- 当前数据集存在质量问题，未来需要更多高质量、多模态的数据。
- 多模态模型结合结构数据与其他类型的分子信息，可能是未来的发展方向。
模型解释性与可靠性：
- 提高模型的解释性和可靠性是一个重要挑战，需要更多的研究来增强模型对化学领域的适应性。

结论

本文综述了LLMs及其在化学中的应用，指出了当前存在的挑战和未来的研究方向。通过结合LLMs与自主代理，化学研究有望取得更大的进展，加速科学发现和创新。论文全面回顾了LLMs在化学中的应用，并提出了未来的发展方向和研究重点，为化学与AI的结合提供了宝贵的参考。

Large language models and autonomous agents in chemistry: a review on GitHub: https://github.com/ur-whitelab/LLMs-in-science/

摘要

介绍与背景

大型语言模型

化学中的LLMs

基于LLM的自主代理

挑战与机遇

结论

相关文章：

发表评论 取消回复

发表评论取消回复