近年来,受益于人工智能和深度学习技术的快速发展以及结构生物学数据的大量积累,蛋白质结构预测的方法学取得了突破性的进展。2020年举办的第14届蛋白质结构预测竞赛CASP14中,Google DeepMind团队开发出的人工智能算法AlphaFold2(简称AF2)震惊了世界,对竞赛的目标蛋白的预测精度GDT_TS分数超过了90%,意味着对其中很多蛋白所预测的结构与实验结构非常接近,RMSD在1-2埃以内。2021年7月15日,DeepMind团队在Nature杂志发表论文,详细描述了AF2的设计思路,并提供了可运行的开源代码。同一天,David Baker 团队在Science杂志发表论文,提出了采用类似设计思路的RoseTTAFold算法及其开源代码。随后,DeepMind团队使用AF2预测了多个物种中共30余万个无实验结构的蛋白质的结构模型,并联手EBI建立了结构预测数据库AFDB。这一系列成果的出现吸引了科学界的大量关注,大家众说纷纭。一方面,施一公教授等顶级结构生物学家甚至宣称AF2本世纪最重要的科学突破;另一方面,也有科学家对AF2预测的精度提出质疑。此外,有很多人认为实验结构生物学会成为昨日黄花,逐渐退出历史舞台。本文中对此现象做出一些个人解读。
撰文 | 龚海鹏(清华大学生命科学学院副教授、博士生导师、北京结构生物学高精尖创新中心研究员)
01AF2的重要性和创新性
根据Anfinsen法则,蛋白质的氨基酸序列决定其三维结构,同时三维结构又是蛋白质行使其生物学功能的基础。因此,研究蛋白质序列和结构间关系的蛋白质折叠问题是生物物理领域最重要的基础问题之一,困扰了科学界50年之久。由于蛋白质序列和结构之间属于高维到高维的映射关系,传统上采用数学或物理的方法都无法解决这一问题。近年来,随实验技术的进步,通过新一代测序技术和蛋白质晶体学以及冷冻电镜等结构生物学方法,积累了大量的蛋白质序列和结构信息,为使用人工智能技术研究序列-结构间关系打下了良好基础。从2016年举办的CASP12竞赛开始,各种深度学习技术广泛应用于蛋白质结构预测领域,引发了结构预测准确度的快速提升。AF2是其中的集大成者,采用了不同于以往方法的全新算法设计,具有极高的创新性。从生物物理角度看,AF2设计的神经网络架构,特别是Evoformer架构中序列信息与氨基酸残基相互作用图谱间的迭代优化,与蛋白质折叠的物理机理隐隐吻合。同时,模型第一次成功地实现了端对端的精准结构预测,以序列比对为输入,不经过中间步骤,直接预测三维结构坐标。此外,能显著提高预测水平的recycling和self-distillation等技术也是首次应用于结构预测领域,体现了工程设计优化对方法学发展的重要性。因此,无论是从方法设计的角度还是从性能的角度看,AF2都体现了人工智能方法和生物物理思想的完美结合,不失为近年来最重要的科学突破之一。
02AF2的局限性
受限于算法和硬件,AF2在实用中还有一定的局限性。首先,DeepMind团队使用AF2算法对近期(2018年4月30日至2021年2月15日)新解析出的一万余条蛋白质序列进行了结构预测。虽然其中近一半的蛋白预测精度较高,RMSD95(覆盖95%残基的RMSD)在2埃以内,但是仍有许多蛋白的预测结果不佳,比如近20%的蛋白其RMSD95超过8埃。众所周知,依托结构的机理研究和药物开发等往往需要高精度的结构模型,误差在2埃以上的预测模型对真实应用没有指导作用。因此,针对这些蛋白,仍然需要采用实验结构生物学方法进行结构解析。其次,AF2在预测时严重依赖GPU显存,即使使用目前市面上最好的A100显卡,在进行单卡预测时该算法也仅能处理2500残基以内的蛋白序列。如果使用CPU进行预测则会严重影响算法的运行效率,而且随蛋白残基数越多,对内存的压力越大。当前的AF2程序还无法像单颗粒冷冻电镜一样解析出超大型复合体的结构。第三,AF2的输入信息来源于多重序列比对(MSA),而非单纯的氨基酸序列。多重序列比对相当于自然界以进化的方式做的实验,其中含有许多额外的信息。根据测算,当不使用MSA而仅使用目标蛋白的单序列信息时,AF2的预测精度大幅度下滑。因此AF2还不能算是完全解决了序列和结构间的映射关系。最后,AF2等结构预测方法目前仅能预测特定氨基酸序列的一种构象。蛋白质在行使生物学功能时往往需要发生构象变化。比如酶从失活状态转变为活性状态、膜转运蛋白需要通过构象变化交替接触膜两侧的溶液、蛋白和配体结合时发生构象变化等等。在实验结构生物学方法中,冷冻电镜、核磁共振、小角散射和单分子等技术都可以在一定程度上捕捉结构的动态特征,揭示构象变化过程。目前的AF2还不具有这样的能力。可以看到,由于以上局限性,AF2至少在目前阶段还无法取代实验结构生物学的地位。
03AF2为新一代结构生物学的发展提供契机
即便有以上的局限性,AF2的提出仍属于重要的科学突破。同时AF2将会成为实验结构生物学的重要工具,并推动相关领域的进一步发展。首先,冷冻电镜等实验生物学研究的前提是目标蛋白的表达和提纯,因此往往在天然蛋白质序列中引入点突变,以稳定蛋白的结构(比如把目标蛋白锁定在一种主要构象中)。在缺乏结构信息时,突变位点的设计往往以经验为主,费时费力。AF2可以快速预测蛋白的结构,为突变位点的设计提供重要的结构信息作为参考。基于结构的突变位点设计显然更有针对性,比如相对于蛋白结构的内部残基,表面的残基的突变往往不容易破坏结构的稳定性。其次,AF2预测的结构可以作为实验结构生物学的初始结构模型,辅助最终的结构建模。比如,X射线晶体衍射实验往往由于缺乏相位信息无法建立结构模型,已有研究表明,AF2预测的结构可以提供重要的相位信息,从而有效辅助蛋白质晶体学家快速解析结构。再比如,单颗粒冷冻电镜结构解析中二维图像的分类对最终模型的建立至关重要,但是目前的算法要先依赖经验进行初始分类再迭代优化。AF2预测的结构显然可以对二维图像的分类提供重要的理论指导,从而进一步优化电镜结构模型的建模。第三,AF2预测的结构可以提供初始坐标作为蛋白质结构动态研究的基础。冷冻电镜断层扫描、核磁共振、小角散射以及单分子荧光等实验可以快速获取蛋白质的部分结构特征用于表征或描述蛋白质的结构动态变化,但是这些方法或者只能得到低分辨率的结构信息(如冷冻电镜断层扫描),或者完全缺失结构细节(如小角散射和单分子荧光),或者需要复杂冗长的实验流程才能得到结构细节(如核磁共振)。显然,AF2预测的结构可以为这些方法补充缺失的结构信息。最后,有了AF2预测的结构,分子动力学模拟等计算化学方法也会有更广泛的应用。传统的分子动力学模拟计算需要以可靠的结构作为模拟起始点,因此很难用于研究未知结构蛋白。AF2则大大扩展了分子动力学模拟计算的研究范围,从而对分子机理的研究、蛋白质设计和药物设计等提供重要的辅助作用。
综上所述,以AF2为代表的新一代蛋白质结构预测方法将会成为结构生物学的重要补充,并推动整个结构生物学领域的进一步发展。在新的形式下,需要充分利用蛋白质结构预测算法提供的信息对结构生物学的研究模式进行新的探索。
作者简介
龚海鹏博士分别于1997年和2000年于清华大学生物科学与技术系(后改为生命科学学院)获得学士以及硕士学位,后前往美国约翰霍普金斯大学攻读博士学位,师从George Rose教授,并于 2007年获得生物物理学博士学位。随后,其加入芝加哥大学Tobin Sosnick教授实验室从事博士后研究。2009年,其返回清华大学任教至今,现为清华大学生命科学学院副教授、博士生导师、北京结构生物学高精尖创新中心研究员。其实验室专注于与蛋白质结构相关的计算研究和方法开发,包括蛋白质结构预测、定量分析生物大分子的大尺度构象变化等研究。