Evo是由Arc研究所(Arc Institute)、斯坦福大学和加州大学伯克利分校的研究团队开发的生成式AI生物基础模型。Evo用生成式AI来理解和设计基因组,其不仅能够在DNA层面进行深入的预测和设计,还可扩展到RNA和蛋白质层面,是一个真正的生物基础模型,为复杂的生命系统提供了统一的理解和操作框架。
Evo的问世标志着生成式AI在生物学领域的新应用。通过Evo,科学家们能够理解并设计全新的生物序列,从而为基因组学和生物工程带来全新的研究工具。这一模型的多模态、多尺度特性,使其能够在生物学各个层次上实现预测和设计,极大地推动了基础生物学研究和应用生物技术的发展。同时,跨学科团队的协作使得模型的开发和验证得到了充分的支持和检验。
Evo模型的开发由Brian Hie、Patrick Hsu等科学家领衔,其主要目的是解决基因组中各个层次的复杂性——从碱基到基因组,从RNA到蛋白质的跨层次关系。DNA作为生命的蓝图,通过RNA和蛋白质的作用执行生物功能,但这些分子间复杂的相互作用和新功能序列的生成,一直是科学家难以攻克的难题。传统的方法主要依赖于在自然界中寻找已有的生物系统,比如利用已存在的CRISPR工具,而Evo则通过学习DNA中隐藏的信息,进行跨尺度的预测和生成,这在基因组尺度的层面上,开辟了全新的研究路径。
Evo的独特之处在于它是一种“生物基础模型”(biological foundation model),类似于我们在自然语言处理中看到的语言模型,只不过它的输入是生物序列而非文本信息。Evo的目标是解读亿万年进化过程中写入DNA的模式,并利用这些模式设计出具有生物功能的全新分子工具。
Evo的开发是由一个跨学科团队进行的,包括计算机科学、计算生物学、实验生物学等多个领域的研究人员。模型的构建采用了前沿的深度学习架构,具有高度的可扩展性和多模态特性。Evo的训练数据涵盖了广泛的DNA序列,通过这些数据,它能够从低层次的碱基对信息一直学习到更高层次的生物学功能。模型的多模态特性使其可以同时处理并整合不同层次的生物信息,例如DNA序列的编码信息、RNA分子的转录模式以及蛋白质的功能特性。
在模型的训练过程中,团队构建并整合了大规模的生物序列数据集,以保证模型可以全面地理解和预测生物功能的复杂关系。模型的构架设计和扩展由斯坦福生物工程系的博士生Eric Nguyen和计算机科学系的博士生Michael Poli负责,而Hsu实验室的Arc研究所高级科学家Matthew Durrant则领导了计算生物学的子团队,专注于生物序列的数据库管理与下游任务的模型评估。
实验生物学验证是Evo开发中的重要环节,由斯坦福的博士生Brian Kang、David Li以及Hsu实验室的高级科学家Dhruva Katrekar领导。为了验证Evo的生成能力,研究人员首先尝试使用它来设计新的CRISPR系统,称为EvoCas9-1。这一系统与常见的CRISPR-Cas9系统相比,其序列相似度只有大约73%,却在实验中表现出了相似的基因编辑活性。传统上,设计CRISPR系统需要在自然界中寻找合适的蛋白质和RNA配对,而Evo通过同时设计蛋白质和RNA,成功实现了功能性的新CRISPR工具的生成。这种能力展示了Evo在分子生物学工具开发中的巨大潜力,为未来的基因编辑研究提供了更多可能性。
为了进一步验证Evo的能力,研究人员还要求它设计了一些基因组中的移动遗传元件,如IS200/IS605转座子。这些转座子通过复杂的“剥离-粘贴”机制在基因组中进行移动,需要多个成分之间的精密协调,包括特定的蛋白质配对、特定DNA结构的折叠(如发夹结构),以及RNA分子的引导等。Evo不仅设计出了新型的转座子元件,这些元件还成功完成了DNA的“剪切-粘贴”功能,证明了其在复杂基因设计方面的潜力。
在模型开发的过程中,研究团队同样重视伦理与安全问题。斯坦福教授Tina Hernandez-Boussard、博士后学者Madalena Ng以及博士生Ashley Lewis参与了关于Evo的伦理和安全性调查,明确了这一新技术在开发和部署中的潜在风险,并制定了相应的预防措施。随着生物基础模型的不断发展,如何确保这些模型不会被滥用、如何规范其在实验室中的应用,将是未来必须要解决的重要问题。团队的这种前瞻性考量,反映了科学家们对新技术在生物学研究中的双刃剑特性的深刻理解。
Evo的研发只是生物学基础模型研究的起步,团队的下一个目标是扩展Evo的能力,使其能够应用到更复杂的生物体和更大规模的生物组织上。例如,Evo现在已经能够生成长度超过100万碱基的DNA序列,相当于许多简单生物体的基因组规模。研究团队计划将Evo的应用扩展到多细胞生物体,探索这些生命形式如何通过演化形成的复杂系统。
更长远的目标是进入“基因组设计”的新领域,通过学习和掌握生命的规则,科学家们希望利用Evo来设计完整的细胞通路,甚至是整个有机体。这种将生物学复杂性编程化的尝试,可以让研究人员在前所未有的尺度上对生物系统进行设计和控制,为未来生物工程和医学研究带来了巨大的潜力。
同时,团队也在努力使Evo可以处理更大、更复杂的数据集,从而在生物设计中发挥更广泛的作用。这种努力不仅意味着在模型训练中的不断扩展,也意味着生物数据处理和理解的革命性变化。未来,科学家们希望通过Evo所学到的规则,将生物学设计推向一个前所未有的高度,让复杂生物系统的可编程化成为现实。