关于蛋白质结构预测历史和AlphaFold的详细介绍

Quanta杂志于2024年6月份发表的文章“How AI Revolutionized Protein Science, but Didn’t End It”内容非常精彩。文章介绍了蛋白质结构预测历史和AlphaFold，阐述了AlphaFold在蛋白质科学中的重要性以及人工智能如何改变科研的范式，并同时强调了实验验证的不可替代性。这一革命不仅为科学家提供了更强有力的工具，也为生物科学的未来发展描绘了令人兴奋的图景。文章作者为Yasemin Saplakoglu。

AlphaFold的主要发明人John Jumper在Linkedin上推荐了这篇文章：

Quanta wrote a really wonderful article on the history of protein structure prediction, and they captured great stories and quotes from scientists all around the field. It even includes a picture of me from my undergrad days looking like a “real” physicist. I would highly recommend it!
——
Quanta 写了一篇非常精彩的文章，讲述了蛋白质结构预测的历史，并且记录了来自各个领域科学家的精彩故事和引用。文章中甚至还包括了一张我本科时期的照片，看起来像个“真正”的物理学家。我强烈推荐大家阅读！

John Jumper和Demis Hassabis获得2024年度诺贝尔化学奖，他们因在蛋白质结构预测（protein structure prediction）方面作出的贡献而获得一半的奖金，各自四分之一。奖金的另一半归属David Baker。David Baker因在计算蛋白质设计（computational protein design）方面的贡献而获奖。三位获奖者的相关工作，文章均有介绍。

文章“How AI Revolutionized Protein Science, but Didn’t End It”的内容介绍如下：

1. 蛋白质折叠问题的历史背景

蛋白质是生命体中至关重要的分子，它们承担着从运输氧气到催化化学反应等各种生命功能。蛋白质的功能取决于它们的三维结构，而这种结构是由氨基酸序列自发折叠而成的。这一折叠过程，如何从一维的氨基酸链形成复杂的三维结构，一直是生物学中的核心问题，被称为“蛋白质折叠问题”。

自1950年代起，生物学家们就尝试理解这一问题。克里斯蒂安·安芬森（Christian Anfinsen）的实验表明，一条氨基酸链本身包含了足够的信息去指引蛋白质的正确折叠，这一假说后来被称为“安芬森假说”。随后，科学家们在实验室中，通过X射线晶体学和其他方法，逐步解析了越来越多蛋白质的三维结构。然而，这些实验手段非常耗时耗力，每解析一个蛋白质结构通常需要数年的努力。

2. CASP竞赛和AlphaFold的出现

为推动蛋白质结构预测方法的进步，CASP竞赛应运而生。该竞赛每两年举行一次，汇聚了来自世界各地的计算生物学家，旨在比较各种预测蛋白质结构的方法。在最初的几十年里，CASP竞赛的进展非常缓慢，计算方法的准确度一直停滞不前。而AlphaFold2的到来彻底改变了这种局面。

在2020年，AlphaFold2以超过90%的准确率大幅领先于其他参赛者，几乎解决了蛋白质折叠问题中的结构预测部分。AlphaFold2采用了一种先进的深度学习架构，即“变换器网络”（transformer），并结合了大量来自蛋白质数据库（Protein Data Bank, PDB）的数据进行训练。这使得它能够从氨基酸序列中准确预测出蛋白质的三维结构。此前，研究者们需要通过实验花费数年才能得到的结构，现在借助AlphaFold2可以在几分钟内获得。

AlphaFold2的出现震惊了蛋白质科学界。很多研究人员，如哥伦比亚大学的系统生物学家穆罕默德·阿尔库莱希（Mohammed AlQuraishi），在会议上听到结果时感到极度震惊，有些人甚至一度怀疑自己的职业生涯是否会被AI取代。然而，AlphaFold2不仅解决了科学家们苦苦追求的蛋白质结构预测问题，还为生物科学领域打开了新的研究视野。

3. AlphaFold2的工作原理与突破

AlphaFold2的成功源于其创新的深度学习方法。该系统通过训练一个卷积神经网络来预测蛋白质的3D结构，并使用变换器网络进一步优化预测结果。在预测过程中，AlphaFold2首先利用蛋白质序列的共同演化信息，通过比对数以万计的氨基酸序列来发现哪些氨基酸之间存在相互作用，然后基于这些信息构建出蛋白质的三维结构。与以往的计算方法相比，AlphaFold2的预测精度极高，尤其在处理复杂的多亚基蛋白质时，表现出色。

AlphaFold2的一个关键特性是其“信心评分”，即在预测每个蛋白质结构时，它同时会给出对预测结果的置信度。这种自评估能力使得研究人员在应用AlphaFold2的预测结果时能够更有依据地判断其可信度。

4. 对蛋白质科学的影响与局限

尽管AlphaFold2的成功无疑改变了蛋白质科学的研究方式，但它并没有彻底消除实验研究的必要性。AlphaFold2主要解决了静态蛋白质结构的预测问题，但它无法模拟蛋白质在动态环境中的行为。例如，蛋白质在细胞内的环境中往往受到其他分子、离子等的影响，其结构会发生变化。AlphaFold2无法预测这些动态变化，也无法预测蛋白质与其他分子（如DNA、RNA或其他蛋白质）形成复合体时的精确结构。因此，科学家们依然需要依靠实验方法来验证AlphaFold2的预测，并补充它无法涵盖的内容。

例如，一些科学家指出，AlphaFold2在预测蛋白质复合物（多个蛋白质之间的相互作用）方面，准确度有所下降。此外，对于存在多种构象的蛋白质（即“折叠交换蛋白”），AlphaFold2也未能很好地预测其在不同环境中的不同形态。动态蛋白质（如本质无序蛋白，intrinsically disordered proteins）的预测更是困难，因为这些蛋白质在自然状态下没有稳定的结构，始终处于不断变化之中。

5. AlphaFold3与未来发展

在AlphaFold2取得巨大成功后，谷歌DeepMind并没有停止他们的研究步伐。在2024年，AlphaFold3发布，这一版本在预测蛋白质与其他生物大分子（如DNA、RNA等）相互作用时的结构方面做出了重大改进。此外，AlphaFold3能够更准确地预测包含多个亚基的复合蛋白质结构，进一步缩小了蛋白质科学中的空白领域。

AlphaFold3采用了更加复杂的变换器架构，使得它能够更好地理解蛋白质之间的相互作用。同时，AlphaFold3在一定程度上克服了AlphaFold2在动态蛋白质预测方面的局限性，能够更好地模拟蛋白质在不同环境中的形态变化。

不过，值得注意的是，与AlphaFold2不同，AlphaFold3并未开源，而是作为谷歌的商业秘密保留。这意味着学术界和工业界在应用AlphaFold3时，面临着更多的限制。

6. 人工智能在蛋白质设计中的应用

AlphaFold2的成功也引发了科学家们在蛋白质设计领域的探索热情。华盛顿大学的大卫·贝克（David Baker）等人使用基于AlphaFold的技术开发了RoseTTAFold，用于设计自然界中不存在的新型蛋白质。这一方向被称为“逆向蛋白质折叠问题”，即给定一个特定的蛋白质结构，利用人工智能来设计可以折叠成这种结构的氨基酸序列。

这种蛋白质设计方法对于药物开发和环境治理等应用领域有着重要的意义。例如，科学家们可以设计出能够分解塑料污染的新型酶，或者能够高效捕获碳的蛋白质结构。这种从头设计蛋白质的方法依赖于AI工具的快速计算能力，使得原本需要数年甚至数十年才能实现的设计目标在几天内便能完成。

7. 对人工智能的信任与反思

AlphaFold2的成功不仅改变了蛋白质科学，也改变了科学家们对人工智能的态度。长期以来，许多实验生物学家对计算方法持怀疑态度，认为计算结果缺乏实验的可靠性。然而，AlphaFold2以其高精度的预测，改变了这种看法。实验生物学家开始认识到，人工智能可以成为他们的重要工具，而不仅仅是竞争对手。

然而，正如一些科学家所指出的，AlphaFold2的预测结果虽然精确，但并不等同于实验验证。过度依赖AI工具的风险在于，某些科学家可能会忽视必要的实验验证，从而误导研究方向。例如，有些研究团队在没有实验验证的情况下，直接将AlphaFold2的预测结果用于科研论文中，导致了错误的结论。因此，科学家们在使用AI工具时，仍需保持足够的谨慎和批判性。

8. 结论

综上所述，AlphaFold2的出现标志着蛋白质科学的重大进步，它为科学家们提供了一种快速预测蛋白质结构的新工具，大大加速了生命科学的研究进程。然而，AI工具并未完全取代实验手段，而是与之相辅相成，共同推动科学的进步。未来，随着AlphaFold3等新工具的发展，科学家们将在蛋白质与其他分子相互作用、蛋白质设计等领域取得更多突破。而AI在生物科学中的应用也将愈加广泛，成为推动科学发现的重要力量。