CheMeleon:基于分子描述符,可快速准确预测分子性质的创新模型

使用机器学习快速且准确地预测分子性质,对于多个科学领域的进步具有关键意义。尤其是基础模型(Foundation Models)已被证明极为有效,能够在小规模、真实世界数据集上实现高精度训练。论文Descriptor-based Foundation Models for Molecular Property Prediction提出了一种新颖的分子基础模型 CheMeleon,该模型在 Mordred 软件包中计算得到的确定性分子描述符上进行预训练,采用 有向消息传递神经网络(Directed Message-Passing Neural Network, D-MPNN) 在无噪声环境下预测这些描述符。与传统依赖于噪声较大的实验数据或存在偏差的量子化学模拟的方式不同,CheMeleon 利用低噪声的分子描述符来学习丰富的分子表示。在 Polaris 和 MoleculeACE 提供的 58 个基准数据集上评估结果显示,CheMeleon 在 Polaris 任务中达到 79% 的胜率,超越了 Random Forest(46%)、fastprop(39%)和 Chemprop(36%)等基线模型;在 MoleculeACE 活性测定中更是取得 97% 的胜率,显著优于 Random Forest(63%)以及其他基础模型。不过,CheMeleon 和其他被测试模型一样,在识别“活性悬崖(activity cliffs)”方面仍然存在困难。对 CheMeleon 学习到的表示进行 t-SNE 降维投影后显示,其在化学系列的区分上具有良好的效果,突显了其捕捉分子结构细微差异的能力。这些结果强调了基于描述符的预训练策略在实现可扩展且高效的分子性质预测中的潜力,并为今后进一步探索描述符集合与无标注数据集提供了广阔的研究方向。

论文作者为Jackson Burns, Akshat Zalte, William Green,均来自MIT。

一、研究背景与问题动机
在药物发现、材料设计和催化剂开发等领域中,快速准确地预测分子性质至关重要。传统方法如实验测量和量子化学模拟虽然精确但成本高昂。近年来,机器学习特别是图神经网络(GNN)成为分子性质预测的重要工具。然而,当数据集规模较小时,诸如Chemprop等学习表示模型(Learned Representation Models)面临过拟合、泛化差的问题,表现反而不如传统的Random Forest等基线方法。为了解决这个问题,本文引入了一种新颖的基础模型CheMeleon,使用预计算的分子描述符作为低噪声训练目标,预训练一个图神经网络模型,以构建可迁移、高表达力的分子表示。

二、CheMeleon模型设计与预训练策略
CheMeleon构建于Chemprop框架上,其核心为Directed Message-Passing Neural Network(D-MPNN),搭配全连接网络(FNN)作为回归器。在预训练阶段,该模型以Mordred描述符为预测目标进行训练,这些描述符是从PubChem中约100万分子结构图直接计算得出,包括结构计数、拓扑复杂性、原子体积等信息。因为这些描述符本身是确定性计算而非实验测量或QM模拟,因此大大减少了系统误差与噪声干扰。训练过程使用PyTorch Lightning实现,模型结构为6层隐藏层D-MPNN和3层FNN,每层维度2048,训练目标为最小化预测与真实描述符的均方误差

三、基准测试与性能分析
论文在58个不同数据集上评估了CheMeleon的性能,包括Polaris基准集和MoleculeACE活性悬崖挑战集。
在Polaris测试中,CheMeleon在28个任务中赢得22个,胜率达79%,远超其他模型(如Random Forest 46%、Chemprop 36%)。尤其值得注意的是,虽然Chemprop作为基础架构,但CheMeleon显著超越其表现,显示出描述符驱动的预训练策略有效提升表示学习能力。
在MoleculeACE挑战中,该测试专注于评估模型在“activity cliffs”(即结构相近但活性差异极大的分子)上的表现。尽管整体上所有模型在识别cliffs方面均存在困难,但CheMeleon仍以97%的胜率居首(29/30),优于Random Forest(63%)。然而,几乎所有模型,包括CheMeleon,在cliff与noncliff分子间RMSE表现差异较大,表明当前预训练方法尚难捕捉这种微妙但关键的结构-性质非线性关系。

四、分子指纹表示能力分析
为了进一步验证CheMeleon学习到的分子表示的结构敏感性,作者使用O’Boyle和Sayle的“Single Assay Benchmark”对其进行了分析。对比了一系列传统分子指纹(如Morgan、MACCS、RDKit等),CheMeleon的表示能在t-SNE投影中清晰地区分分子系列,特别是能识别如甲撑二氧基的移除对化学空间投影造成的分裂。这显示CheMeleon确实捕捉到了化学结构中的细粒度差异,且其低维嵌入比传统指纹更具化学一致性与结构敏感性。

五、方法比较与消融实验
本文还对比了多种模型,包括:

  1. Chemprop:随机初始化的D-MPNN。
  2. fastprop:基于固定描述符的前馈神经网络。
  3. RF-Morgan/RF-Mordred:传统随机森林模型,使用不同描述符。
  4. PCA-MLP:将描述符降维后输入MLP回归器。
  5. MoLFormer、MolCLR:分别基于SMILES和图的预训练模型。
  6. minimol:低参数量图神经网络基础模型。
    CheMeleon的表现不仅在绝对值上领先,而且在各种模型中展示了更一致、更稳定的性能,说明描述符驱动预训练策略在小样本和挑战性任务上具有明显优势。

六、结论与未来方向
作者认为最重要的发现在于:不需要昂贵的实验数据或高成本的量子化学模拟,仅凭可确定性计算的分子描述符也可以实现高效的基础模型预训练。这种方法不仅更易于扩展,也避免了实验数据中的系统性误差或实验室间偏差问题。未来的研究可以进一步探索不同的描述符集合(如DRAGON、PaDEL等)、不同领域的未标记数据集(如ChEMBL、CoCONUT),寻找最有效的组合。此外,还应研究CheMeleon在多任务学习、结构生成、药物发现等任务中的潜力,并优化其对activity cliffs等关键区域的识别能力。

七、方法与实现细节

  1. 预训练目标为Mordred描述符(共1613个维度),数据以Zarr格式存储以加快训练加载速度。
  2. 除D-MPNN结构外,作者还尝试了MLP-PLR作为Autoencoder以模仿如ChemBERTa的预训练方式;使用PCA-MLP对描述符进行降维处理以减少输入维度。
  3. 模型评估均在相同数据分割、随机种子设定下进行,避免超参数优化引起的过拟合,采用Tukey HSD统计检验进行模型间差异显著性分析。

八、结语
CheMeleon开辟了一个新的范式:通过使用结构性描述符进行预训练,打造出轻量、稳定且性能优异的基础模型。这种方法不仅在分子性质预测中取得显著成果,也为低噪声监督学习提供了理论与实践支持。未来有望扩展至合成可行性预测、反应预测乃至逆合成分析等更复杂的化学AI任务中。作者已将代码开源至 GitHub,便于社区复现与拓展该方法。


CheMeleon on GitHub: https://github.com/JacksonBurns/CheMeleon

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注