人工智能(AI)再度发威,攻克了生物学领域一项重大难题:预测蛋白质如何从线性氨基酸链卷曲成3D形状以执行任务。据美国《科学》杂志网站11月30日报道,“蛋白质结构预测关键评估”(CASP)竞赛传来喜讯:英国“深度学习”(DeepMind)称其AI实现了上述成就,他们的方法将极大加快新药研发进程。
人体拥有成千上万种不同的蛋白质,每一种蛋白质都包含几十到几百种氨基酸,这些氨基酸的顺序决定了它们之间的作用,赋予蛋白质复杂的三维形状,进而决定了蛋白质的功能。了解这些三维形状有助于研究人员设计出能在蛋白质缝隙内滞留的药物。此外,合成出拥有所需结构的蛋白质,还可以加快酶的研制进程,让生物燃料领域受益。
几十年来,研究人员利用X射线晶体学或低温电子显微镜(cryo-EM)等实验技术来破译蛋白质的三维结构,但这种方法可能需要数月甚至数年,且未必见效。目前,在生命体内发现的2亿多个蛋白质中,只有17万个蛋白质的结构被破解。
1994年,为更好预测和破解蛋白质三维结构,马里兰大学结构生物学家约翰·穆尔特等人发起了CASP竞赛,每两年举行一次。在今年的比赛中,“深度学习”团队的“阿尔法折叠”(AlphaFold)方法的中位分数为92.4(满分100分,90分以上被认为预测方法可与实验方法相媲美),预测最具挑战性的蛋白质的平均得分为87,比次优预测高出25分。它甚至擅长预测嵌入细胞膜的蛋白质结构——细胞膜是许多人类疾病的核心,但很难用X射线晶体学研究。
欧洲生物信息学研究所名誉主任珍妮特·桑顿说:“‘深度学习’团队所取得的成就是惊人的,将改变结构生物学和蛋白质研究的未来。”
穆尔特则表示,这是一个有50年历史的问题,“阿尔法折叠”改变了游戏规则,实验学家将能使用精确的结构预测来理解不透明的X射线和低温电磁数据;药物设计者也可借此迅速厘清新冠病毒等新冒出的危险病原体中每种蛋白质的结构,从而更快研制出相关药物。
总编辑圈点
蛋白质的形状决定了其功能。知道蛋白质如何折叠时,我们才能知晓蛋白质的作用。但光是解析蛋白质折叠后的结构,就已经非常困难。常用的方法是冷冻电镜、核磁共振或者X射线等。结构要看得精细,耗时长且成本不菲。预测蛋白质折叠后的形状,则是“地狱难度”。它可以在极短时间内把自己折叠成令人难以想象的形状,预测所需要的算力可谓惊人。在人工智能帮助下,曾经的天方夜谭成为事实。这或许是一项革命性成果,为人类探索药物分子世界提供了强大工具。
相关讯息:一个困扰生物学家50年的问题,被AI突破了
众所周知,蛋白质就是一串氨基酸而已。可是,拿到氨基酸的排列顺序,你能猜出它会折叠出怎样的三维结构么?恐怕很难。就算是天天研究蛋白质的科学家们,也被这个问题困扰了50年。
如今有只AI,能以前所未有的准确率预测蛋白结构。它给出的答案与蛋白质的真实结构之间,大约只差一个原子的宽度:
蓝色为AI预测结果,绿色为标准答案丨DeepMind
这只AI名叫 AlphaFold,来自谷歌DeepMind,和会下棋的AlphaGo师出同门。它刚刚在蛋白结构预测比赛CASP14上,超越所有对手获得优胜。
消息发表之后,学界备受鼓舞。AlphaFold的存在,仿佛让科学家拥有了上帝视角。Nature把马普所生物学家Andrei Lupas的一句评论当做了新闻标题: 它会改变一切。
怎样的一场比赛
拿到一个氨基酸序列,每只AI都会给出自己预测的三维结构。
那么,拥有近100位参赛选手的CASP挑战赛,是依靠什么来衡量各位选手的得分?
首先,标准答案是通过 低温电子显微镜(Cryo-EM)等等学界标配的实验方法检测蛋白质本身,得出的相对精确的三维结构。
然后,对比标答和选手答案之间的相似度,利用的方法叫做Global Distance Test(全球距离测试,简称GDT)。GDT满分为100,通常只要选手得分超过90,就认为一道题目做对了。
GDT评测标准丨DeepMind
把所有题目算在一起,AlphaFold得分的中位数达到了 92.4,大约2/3的题目都做对了。这个成绩比其他选手高出一大截。
即便在最难的一组题目“自由建模(Free-Modelling Category)”当中,AlphaFold的中位数也有87.0分,比第二名高出25分。
CASP挑战赛两年一届,从1994年开始至今已经举办了14届,大致相当于蛋白结构预测界的奥林匹克。
比赛创办人之一、马里兰大学教授John Moult毫不吝惜对这只AI的赞美。他说,从某种程度上看,(蛋白结构预测)问题已经解决了。
对于那些AlphaFold预测与标答出现分歧的题目,Moult教授也认为,并不能确定是AI预测出了差错,还是实验室结果本身有问题。
AI是怎样炼成的
那么,AlphaFold的工作原理是怎样的?
DeepMind研究团队说,一个折叠的蛋白质可以视为一张 空间图(Spatial Graph):构成蛋白质的每个残基(residue)都是图中一个节点(node),然后有边(edge)把距离相近的节点连在一起。
如此一来,过往已知结构的那些蛋白质,都可以用这样的眼光来看待。在日复一日的训练之中,AI逐渐熟悉了图上节点相连的规律。再遇到陌生考题的时候,便可以按照之前摸出的规律,连出一幅新的图来。
残基相连的方式预测丨DeepMind
2018年,AlphaFold官宣之初,便拿下了CASP13冠军。虽然,那时它的得分中位数没有达到90,也就是总体上没达到系统判定正确的分数线,却也远远超越了其他选手。
从那时起,欢呼和质疑一并到来了。许多人都担心,这只AI用某种人们不知道的方式作了弊。
不过,在一种名叫Orf3a的蛋白质上,AlphaFold证明了自己。加州大学伯克利分校的分子神经生物学家Stephen Brohawn说,AI预测出的蛋白结构,和后来实验室用低温电子显微镜做出的成像十分接近。
那么,AI拥有这样的能力,到底意味着什么?
影响了谁的工作
大约半个世纪以前,有位名叫克里斯蒂安·安芬森的科学家,在研究RNA酶的时候发现:对一些蛋白质来说,只要环境不变,它的天然结构便只由氨基酸序列决定。
安芬森丨National Institutes of Health
换句话说, 给定一个氨基酸序列,理论上就可以预测出蛋白质的三维结构。
安芬森因此获得了1972年的 诺贝尔化学奖。他提出的这条假说也有了个响亮的名号: 安芬森原则。
后来的几十年间,科学家们在预测蛋白结构的路上艰难地前行,希望有朝一日能把“理论上”这几个字去掉。
毕竟,蛋白质的功能,要靠折叠成特定的结构才能实现。
而那些设计新药或者新酶的科学家们,如果能了解某种蛋白质的结构,便可以更好地预判某种蛋白质能不能和特定的分子结合,进而带来他们希望看到的反应。
假如AI能够准确预测蛋白质的结构,许多科学家的工作(没有被取代的话)可能都会变得更高效。
参考文献
[1] The AlphaFold team.(2020, November 30). AlphaFold:A solution to a 50-year-old grand challenge in biology. Retrieved from https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
[2] Robert F. ServiceNov. 30, 2., Charles PillerNov. 29, 2., Jop de VriezeNov. 25, 2., Jon CohenNov. 25, 2., Shreya DasguptaNov. 25, 2., Kai KupferschmidtNov. 24, 2., . . . Lucy HicksOct. 30, 2.(2020, November 30). 'The game has changed.' AI triumphs at solving protein structures. Retrieved December 01, 2020, from https://www.sciencemag.org/news/2020/11/game-has-changed-ai-triumphs-solving-protein-structures