理解蛋白质的结构,有助于确定蛋白质的功能,了解各种突变的作用。截至目前,约有10万个蛋白质的结构已经用实验方法得到了解析,但这在已经测序的数10亿计的蛋白质中只占了很小一部分。
几十年来,研究人员一直使用 X 射线晶体学和冷冻电子显微镜等实验技术来确定蛋白质结构。但是这样的方法既费时又费钱,而且一些蛋白质不适合这样的分析。
在过去50多年的时间里,研究人员一直尝试根据蛋白质的氨基酸序列预测其折迭而成的三维结构。然而,当前使用的计算方法准确度有限,实验方法对人力和时间的要求也非常高。
2021年7月16日,谷歌公司旗下 DeepMind 团队在 Nature 发表了题为:Highly accurate protein structure prediction with AlphaFold 的研究论文。
该论文描述了神经网络AlphaFold2,AlphaFold2能以前所未有的准确度根据蛋白质的氨基酸序列预测其三维结构。
同时,DeepMind团队在论文中公布了AlphaFold2的开源代码,并发表了系统的完整方法论,详尽细致说明AlphaFold是如何做到精确预测蛋白质3D结构的。
Demis Hassabis 等人描述了AlphaFold2,这是一个基于神经网络的新模型,其预测的蛋白质结构能达到原子水平的准确度。作者们在2020年5-7月举办的第14届“蛋白质结构预测关键评估”(CASP14)大赛中验证了这种方法。
CASP14要求参赛团队根据蛋白质的氨基酸序列解析它们的结构。比赛用的蛋白质会先用实验方法解析出来,但具体结果不会公开。比赛中,AlphaFold2预测的大部分结构达到了空前的准确度,不仅与实验方法不相上下,还远超解析新蛋白质结构的其他方法。
将实验方法得到的蛋白质结构迭加在AlphaFold2的结构上,组成蛋白质主链骨架的迭加原子之间的距离中位数(95%的覆盖率)为0.96埃(0.096纳米)。成绩排第二的方法只能达到2.8埃的准确度。
AlphaFold2的神经网络能在几分钟内预测出一个典型蛋白质的结构,还能预测较大蛋白质(比如一个含有2180个氨基酸、无同源结构的蛋白质)的结构。该模型能根据每个氨基酸对其预测可靠性进行精确预估,方便研究人员使用其预测结果。
论文作者认为,这一精准的预测算法可以让蛋白质结构解析技术跟上基因组革命的发展步伐。
Demis Hassabis
更重要的是,该论文的通讯作者、DeepMind 创始人Demis Hassabis发布了一项声明:
去年在CASP14大会上我们揭晓了一个可以将蛋白质3D结构预测精确到原子水平的全新AlphaFold系统,此后我们承诺会分享我们的方法,并为科学共同体提供广泛、免费的获取途径。今天我们迈出了承诺的第一步,在 Nature 期刊上分享AlphaFold的开源代码,并发表了系统的完整方法论,详尽细致说明AlphaFold是如何做到精确预测蛋白质3D结构的。作为一家致力于推动科学进步的公司,我们期待看到我们的方法将为科学界启发出什么其他新的研究方法,也期待很快能和大家分享更多我们的新进展。”
值得一提的是,就在同一天,Science 期刊发表了来自华盛顿大学 David Baker 团队的蛋白质结构预测论文,开发了名为 RoseTTAFold 的蛋白质结构预测系统。
David Baker 表示,2020年 DeepMind 在CASP14大会上的表现,给业界带来极大震撼,AlphaFold系统对蛋白结构的预测如此精准,让学术界产生了许多悲观情绪,他自己甚至一度觉得要失业了。
但他很快调整心态,决定挑战AlphaFold系统,并很快开发出了与AlphaFold系统媲美的 RoseTTAFold 系统,而且该系统不仅可以预测蛋白质结构,还能预测蛋白复合物结构。
6月中旬,David Baker 将论文在预印本上线,三天后 DeepMind 创始人Demis Hassabis 表示 AlphaFold2 的详细信息将登录 Nature 并免费开源。David Baker 也将 RoseTTAFold 系统免费开源,供所有人下载使用。
现在,所有人都可以免费获得 RoseTTaFold 和 AlphaFold2 的代码,研究人员将能够在这两项进展的基础上再接再厉,蛋白质结构解析将在人工智能的帮助下走向大众。