用户名:  密码:   
网站首页即时通讯活动公告最新消息科技前沿学人动向两岸三地人在海外历届活动关于我们联系我们申请加入
栏目导航 — 美国华裔教授专家网科技动向学人动向
关键字  范围   
 
颜宁谈AI预测蛋白结构
2020/12/1 17:00:22 | 浏览:1912 | 评论:0

蛋白结构预测不是一个新鲜学科,很多科学家不断开发算法,希望根据序列预测出来的结构越来越准确,并且这个领域在过去15年进步迅速。自从进入电镜时代,看到一堆黑白灰的密度,如果没有同源结构,通过软件预测一个大致的结构模型放到密度图里面做框架,再根据实验数据调整,已经是个常规操作。这次新闻的亮点有两个,一是AI,二是准确度高。这确实是突破,但是有了两年前的新闻做铺垫,现在这次委实是意料之中啊

至于衍生出来的所谓结构生物学家都要失业了的调侃,如果你对结构生物学的理解还停留在20年前,那这么说也不是不行。但是结构生物学自身一直在发展着,一场冷冻电镜的分辨率革命更是令结构生物学今时不同往日了。我在2015年主持一个seminar的时候曾经评论过:structural biology的本质是biology,是理解生命、是做出生物学发现。但是在X-射线晶体学为主要手段的时代,获得大多数研究对象的结构本身太难了,于是很多研究者把【获得结构】本身作为了目标,让外行误以为结构生物学就是解结构。但是我从进入这个领域之初,就被教育的明明白白:结构本身只是手段,它们是为了回答问题、做出发现。电镜使得发现二字尤为突出。

看到结构本身、知道你的研究对象长啥样,倒也可以称之为发现,但我这里说的发现,特指超乎想象的通过结构才揭示出来的自然界里神奇的存在或者令人叹为观止的机理,我讲课最喜欢举的例子之一就是施一公组的剪接体结构。为啥呢?因为集合了结构生物学发现里几乎所有的精彩要素和挑战。

一是在这个结构出来之前,有很多剪接体的组分甚至是未知的。不同于传统的结构生物学,先知道你要研究对象是啥,再吭哧吭哧地去把它们的结构解出来;剪接体的电镜分析是看到了密度图之后,完全不晓得这是啥,需要通过质谱等手段去鉴定组分。我从2015年就预测:电镜与质谱组合,将会变成一个重要的生物学研究发现手段。在电镜时代,这样的例子越来越多。比如清华大学隋森芳老师组的那个巨大的藻胆体结构,靠质谱都不够了。为了搞明白组分,他们甚至先做了基因组测序。

二则是几十上百个蛋白如何众星捧月地把那么几条貌似简单RNA掰成与几个小小的金属离子配合的核酶反应中心,在茫茫碱基中,在正确的时间正确的地点牵线搭桥,剪掉intron,连接exon。就为了这一剪子钩针,为了几毫秒的过程这么个庞然大物的几十上百个组成部件却要分分合合,这个过程是真神奇。

结构生物学的实验手段只能获得静止的3D照片,为了揭示这部电影,就要不断获得中间态的3D照片,帧数越多,电影越顺滑越精准;但是即便如此,这个过程中的动力学问题(kinetics),简单说,就是组装的速度,依旧不是现在的结构生物学实验手段可以揭示的,需要借助更多生物物理技术、计算生物学手段去探索。

我自己的工作虽然没有剪接体那么酷炫,但是电压门控钠离子通道如何感受膜电势的变化,开门关门,就这么个过程,听着简单,我们死磕三年了,依旧束手无策。但是我们今年发的两篇PNAS论文其实代表了结构生物学的另一个努力方向:在实验操作过程中对生物大分子施加外力(电场、磁场、各种长度的波......

可能因为我自身专业而产生的局限,AlphaFold迄今带给我的震撼还赶不上冷冻电镜的革命,后者将我们从技术挣扎中解放出来,可以专注于结构带来的生物学发现本身。

AlphaFold
目前只是针对于单链分子,当然我可以乐观地预测,将来预测复合物结构也应该不在话下。相比于对于蛋白折叠的贡献,我倒是更希望AI能够助力Molecular Dynamics Simulation(分子动力学模拟)。对结构生物学而言,这个领域才是亟需进步的。

但是当AI能够成功预测我们现在正在孜孜以求的生物大分子动态、原位高分辨率结构的时候,那失业的一定不是结构生物学家、或者生物学家。

相关讯息:《返朴》

颜宁等点评:AI精准预测蛋白质结构,结构生物学何去何从?

(龚海鹏、龚新奇、李赛、王宏伟、颜宁、张鹏、张阳、周强)

121日,谷歌旗下的DeepMind公司宣布,其新一代AlphaFold人工智能系统在国际蛋白质结构预测竞赛(CASP)上击败了其余的参会选手,精确预测了蛋白质的三维结构,准确性可与冷冻电子显微镜(cryo-EM)、核磁共振或 X 射线晶体学等实验技术相媲美。(详见《解决生物学50年来的重大挑战!生物界“AlphaGo”精准预测蛋白质结》)这一消息引发了全球媒体关注,前Genentech首席执行官Arthur D. Levinson博士盛赞这一成就是划时代的进步。人工智能的进击对生物学、对其他学科会有什么影响?网络上有人提出:AI都能解蛋白质结构了,结构生物学家是不是该失业了?《返朴》总编、结构生物学家颜宁特邀几位同仁对这一新闻各抒己见, 回答大家的疑问。

by Asier Sanz | https://asiersanz.com/

AlphaFold2是个大突破,但我们还有努力的方向

张阳

ITASSER创造者,美国密歇根大学教授)

AlphaFold2显然是个大突破,这是从1969年第一篇Journal of Molecular Biology论文用比较建模方法预测蛋白质结构的51年来的真正突破。

最近四年来,有共同进化预测contact map(氨基酸接触图谱),并引入深度学习之后,原来的ITASSER/Rosetta/RaptorX等算法都有了很大进步,比原来提升了计算精度一倍以上,只不过AlphaFold2进步更多,说他们接近解决了这个问题没错。

谷歌公司拥有强大的资源,他们用TPU,我们用GPU,而很多实验室还没有GPU。他们原来在宣传中说只用100GPU训练了两周,这是不客观的。因为训练稳定的模型,起码要重复100次甚至1000次,就像饿汉一样,不能说最后一个馒头才有作用,前面那么多的尝试都有作用。这是学术界与产业界最大的差别。

 当然,他们不训练contact map,直接训练结构中的原子坐标,这是新的想法,以前没人成功过。

我很高兴他们取得了突破,因为证明了蛋白质结构预测问题是可以解决的,我在15年前的PNAS论文上提出,用PDB库中的模板在理论上可以解决这个问题,他们这次用暴力实现了。

 但基于商业或其它考虑,他们还不会公开代码或server,所以要依靠我们科学界来做出让公众受益的方法。这次只有2/3的题目可以做到实验精度,还有1/3做不到,是否还有更快更好的途径来产生更高精度结构的算法?这是值得我们努力的方向。

龚新奇

(中国人民大学数学科学研究院教授,清华大学北京结构生物学高精尖中心合作研究员)

2020年第14届国际蛋白质结构预测竞赛CASP14共有84个常规Regular题目,其中有14个题目因为生物实验没给出确定结构等原因被取消或延缓,其他70个题目的单体和复合物蛋白质所含有的氨基酸个数从732180不等。

19个国家的215个小组参加了CASP14。最终,谷歌旗下DeepMind公司的人工智能系统AlphaFold22018年的Alphafold基础上迭代创新,超常发挥,一枝独秀,基本解决了从氨基酸序列预测蛋白质结构这个困扰人类50年的生物学第二遗传密码问题。

AlphaFold2的成功表现在三个方面:

  • 不少结构的预测精确度跟实验晶体结构相当,可以替代晶体结构;
  • 一些含有多个结构域的复杂超长的单链结构也达到了可以跟实验结构比较的程度;
  • 帮助解析了竞赛中涉及到的、实验多年没拿到的X射线晶体和cryo-EM冷冻电镜结构,比如T1058的膜蛋白是用了Alphafold2的预测模型之后,才跟原有晶体学数据综合成功解析了结构。

AlphaFold2团队的John Jumper报告表明,他们使用了基于注意机制的神经网络,动态调整网络中节点的顺序和链接;依靠的是端到端的优化整体构建结构,而不是氨基酸距离;网络中内置了大量的序列、结构和宏基因组等多重比较信息;还依赖分子模拟软件优化去掉了原子的堆积碰撞。

AlphaFold2的摘要作者名单里,交叉团队的30位作者中有19位都被标记为相同贡献的第一作者。他们将近8分钟的宣介视频,记录了团队成员在新冠疫情期间精诚合作、攻坚克难的宝贵场景。

CASP组织者John Moult指出,计算下一步还有更困难的问题要解决:超大复合物结构、动态构象变化、蛋白质设计、药物设计等等。

除了我们蛋白质结构预测小同行对AlphaFold2的成功很欣喜之外,社会上还有多个不同方向的学术界、产业界和新闻界对它寄予了厚望。

在欣喜的同时,蛋白质结构预测小同行也有一些保留意见:

  • 工程化明显,依赖于强大的GPU计算资源和代码优化团队;
  • 谷歌公司几乎可以收集全球所有网络信息,虽然看起来AlphaFold2的自动化程度很高,但他们在人工操作中使用了哪些信息值得关注;
  • 预测对了结构,但不等于明白了蛋白质折叠过程和原理。
  • 算出结构只是生物学规律发现的第一步;
  • 计算的多个models中,有时打分排序不准;
  • 开放AlphaFold2server之后,使用效果不一定那么好
  • 只是在已有蛋白质结构数据集上训练得到的模型,尚不能计算其它构象或其它类别的分子结构

还有关心这个领域的其他方向的专家也提出了问题:怎么理解这个算法成功的原理?怎么跟原有的热力学、物理学等基本原理相融相通?

我认为AlphaFold2是个大突破,后续可能性很多,会替代一些简单的结构生物学实验,但对当下科学家追求的前沿生物学来说,共赢大于竞争;对生物学、数学和计算机学等学科而言,则会带来新的机遇。

颜宁

(美国普林斯顿大学雪莉·蒂尔曼终身讲席教授,美国科学院外籍院士)

首先,简单说一下,什么是生物学里的结构。用个不太恰当的类比:变形金刚。比如擎天柱是辆车还是个机器人,这就是不同的结构了,机器人能打架大车做运输,功能也不一样。而不同的汽车人组成成分可能差不多,都有合金、玻璃、橡胶,但是形态各异,特长也不一样。生物分子的组成成分和基本单元就那么几种,但是组装起来,不同的序列不同的结构,于是功能各异、五花八门。这个结构不是静止的,每一个生物大分子基本都像个小机器,比变形金刚更复杂、更变化多端。

因为结构决定了生物大分子的功能,所以解析高分辨率结构在过去几十年一直是理解生物大分子工作机理最有力的工具。但是一直以来,因为技术局限,对于绝大多数生物大分子的结构解析困难重重。所以,一批科学家另辟蹊径,试图在已有的知识基础上,绕开劳心劳力又劳财的实验步骤,从蛋白质的序列直接通过计算预测出它们精准的三维结构。

蛋白结构预测并不是一个新鲜学科,一直以来就是结构生物学的一个分支,很多科学家不断开发算法,希望根据序列预测出来的结构越来越准确。这个领域在过去十几年进步迅速,并且与实验结构生物学融合度越来越高。比如,自从进入电镜时代,看到一堆黑白灰的密度,如果其中某些部分没有同源结构,通过软件预测一个大致的结构模型,放到密度图里面做框架,再根据实验数据调整,已经是个常规操作。

这次人工智能赢得CASP的新闻亮点有两个,一是AI,二是准确度高。这确实是突破,但是有了两年前的新闻(注:2018年,DeepMind开发的第一代AlphaFold首次参加CASP并且拔得头筹)做铺垫,现在这次委实是意料之中。

至于衍生出来的所谓结构生物学家都要失业了的调侃——如果你对结构生物学的理解还停留在20年前,那这么说也不是不行。但是结构生物学自身一直在发展着,一场冷冻电镜的分辨率革命更是令结构生物学不同往日了。我在2015年主持一个学术研讨会的时候曾经评论过:结构生物学的主语是生物学,是理解生命、是做出生物学发现。但是,在X-射线晶体学为主要手段的时代,获得大多数研究对象的结构本身太难了,于是很多研究者把获得结构本身作为了目标,让外行误以为结构生物学就是解结构。但我从进入这个领域之初,就被教育得明明白白:结构本身只是手段,它们是为了回答问题、做出发现。而电镜使得发现二字尤为突出。

看到结构本身、知道你的研究对象长啥样,倒也可以称之为发现,但我刚刚说的发现,特指那些超乎想象的、通过结构才揭示出来的、自然界里神奇的存在或者令人叹为观止的机理。我讲课最喜欢举的例子之一就是施一公组的剪接体结构。为啥呢?因为它集合了结构生物学发现里几乎所有的精彩要素和挑战。

第一,在剪接体结构出来之前,有很多剪接体的组分甚至是未知的。不同于传统的结构生物学,先知道你要研究对象是啥,再吭哧吭哧地去把它们的结构解出来——剪接体的电镜分析是看到了密度图之后,完全不晓得这是啥,需要通过质谱等手段去鉴定组分。我从2015年就预测:电镜与质谱组合,将会变成一个重要的生物学研究发现手段。在电镜时代,这样的例子越来越多。比如清华大学隋森芳老师组的那个巨大的藻胆体结构,靠质谱都不够了。为了搞明白组分,他们甚至先做了基因组测序。

第二,几十上百个蛋白如何众星捧月地把那么几条貌似简单的RNA掰成与几个小小的金属离子配合的核酶反应中心,在茫茫碱基中,在正确的时间正确的地点牵线搭桥,剪掉intron
(内含子),连接exon(外显子)?就为了这一剪子钩针,为了几毫秒的过程,这么个庞然大物的几十上百个组成部件却要分分合合,这个过程是真神奇。

结构生物学目前的实验手段只能获得静止的3D照片,为了揭示这部电影,就要不断获得中间态的3D照片,帧数越多,电影越精准。但即便如此,这个过程中的动力学问题,简单说,就是变化速度,依旧不是现在的结构生物学实验手段可以揭示的,需要借助更多生物物理技术、计算生物学手段去探索。

我自己的工作虽然没有剪接体那么酷炫,但是电压门控钠离子通道如何感受膜电势的变化,开门关门,就这么个过程,听着简单,我们死磕三年了,依旧束手无策。另外,我们今年发的两篇PNAS论文其实代表了结构生物学的另一个努力方向:在实验操作过程中对生物大分子施加外力(电场、磁场、各种长度的波......

也许是受到我自身专业领域的局限,AlphaFold迄今带给我的震撼还赶不上冷冻电镜的革命,后者将我们从技术挣扎中解放出来,可以专注于结构带来的生物学发现本身。

AlphaFold
目前最成功的预测是针对单链分子,当然将来预测复合物的高精结构也应该不在话下。相比于对蛋白折叠的贡献,我倒是更希望AI能够助力Molecular Dynamics Simulation
(分子动力学模拟)。对结构生物学而言,这个领域才是亟需进步的。

我个人认为生命是地球上最神奇的存在,那么多未知要探索,任何一次技术进步都是契机。该考虑的是如何把新技术为我所用,去问出、去探索更有意思的问题。

最后,当AI能够成功预测我们正在孜孜以求的生物大分子动态、原位高分辨率结构的时候,那失业的一定不止是结构生物学家、或者生物学家了 :p

根据现在披露的结果,AlphaFold2已经基本达到实验解析结构的精度。前天AlphaFold2团队的报告展示了新冠病毒SARS-COV-2的预测结果,说明RNA聚合酶这么大的蛋白也能基本预测准确。理论上,这会对结构生物学有很大冲击,尤其是以后单颗粒cryo-EM的实验方法上,是否还需要把分辨率做得那么高?低分辨率的电子密度图,甚至SAXS数据结合预测结果应该就能解决问题了。

但是,现实中的冲击不会那么大。这是因为,AlphaFold2模型的创新性非常高,其中结合的2D transformer3D equivariant transformer都是AI领域的前沿技术,模型的训练难度很大。DeepMind的训练方法在学术界很难复现,估计学术界要花几年的时间才能跟上,因此短期内AlphaFold2对结构生物学的影响会比较有限。DeepMind可能会和个别实验室合作,预测蛋白质结构。

——龚海鹏(计算生物学家,清华大学结构生物学高精尖创新中心研究员)

AlphaFold为结构生物学家提供了除晶体学、冷冻电镜、NMR以外的另外一种手段,用于揭示生物大分子发挥作用的分子机制。
——张鹏(结构生物学家,主要利用晶体学和冷冻电镜技术;中科院分子植物科学卓越创新中心研究员)

AlphaFold目前还不能预测复杂的分子机器,主要是因为蛋白-蛋白相互作用非常复杂,存在极多的可能性。实验手段所揭示出来的蛋白-蛋白相互作用方式还只是冰山一角,更何况在不同生理条件和过程中的结构变化。因此,未来对有特定功能的、多个成分组成的、生物大分子复合体的结构解析,以及体内的结构分析,将成为结构生物学实验研究的主要内容。无论有没有AlphaFold,结构生物学也正在朝这个方向发展。

Rosetta(注:从头蛋白结构建模算法)也好,AI也罢,结构预测都是基于已有的实验数据够大。没有足够的数据积累,这些基于统计和数据库的预测就无法实现。完全基于物理学和化学第一性原理的结构预测还没有出现。

实验科学永远是探索未知的必要手段。新的软件算法应该是成为实验科学家的更有力工具,而不是取代实验科学。

——王宏伟cryo-EM专家,清华大学结构生物学高精尖创新中心执行主任,清华大学生命科学学院院长)

最近两年,结构生物学领域经历了与围棋界类似的故事。Alphago Fan版本时围棋界并不认为它能够战胜人类顶尖高手,可是Alphago Lee后整个围棋界甘拜下风,并且转向AI拜师学艺。2018Alphafold出现时,实验结构生物学领域认为被战胜的仅仅是传统的结构预测领域,2020Alphafold2之后,实验结构生物学领域应该开始思考如何与之共存以及如何拜师学艺了。目前阶段人工智能在围棋上已经远远超过人类顶尖棋手,但是人类围棋比赛并未因此取消,如同汽车发明后奥林匹克仍然在进行田径比赛一样。原因之一是人工智能虽然超越了人类,但并未解决围棋的最终解。同样的道理,对于复杂的结构生物学问题,预测手段本身还不能号称完全解决了问题。实验结构生物学领域接下来需要做的一个事情是要拥抱变化,更好地与预测方法结合以及共同发展。

——周强cryo-EM专家,西湖大学生命科学学院特聘研究员)

蛋白质体系越大,结构的解析越难仅依赖计算方法。Cryo-ET冷冻电镜断层成像) 技术擅长解析体外难表达的大分子机器结构、细胞中的原位蛋白结构等复杂体系,因此很难被脱离实验手段的方法取代。目前,由于体系过于复杂,使用分子动力学模拟整颗病毒尚未实现,要模拟细菌、细胞、组织,还要很长的路要走。

——李赛Cryo-ET专家,清华大学结构生物学高精尖创新中心研究员)

相关栏目:『学人动向
普林斯顿教授“辛辣”点评中国学生:一个普遍的「坏习惯」阻碍了他们的长远发展 2024-11-16 [91]
朱民:中国经济将面临巨大的结构性变化! 2024-11-06 [391]
巫宁坤:活下去,并且“在日暮时燃烧咆哮” 2024-11-04 [431]
周其仁:中国经济高位下行的根本原因 2024-11-03 [460]
张维迎:让我最痛心的是社会变得如此虚伪,如此假话连篇 2024-10-31 [562]
达龙·阿西莫格鲁:制度视角下的中国未来经济增长 2024-10-31 [516]
钱满素:献身精神本身不足以成为一种美德 2024-10-31 [514]
战争琐思录(一):关于诺娃 2024-10-31 [513]
​“中产阶级气质”批判——关于当代中国知识者精神状态的一份札记 2024-10-27 [676]
后生可畏!这位华裔才俊掌控着全球顶尖公司AI模型训练! 2024-10-21 [766]
相关栏目更多文章
最新图文:
:美国《2016-2045年新兴科技趋势报告》 :天津工业大学“经纬英才”引进计划 :浙江财经大学国际青年学者论坛的邀请函 (10/31-11/1) :美国加大审查范围 北大多名美国留学生遭联邦调查局质询 :天安门广场喜迎“十一”花团锦簇的美丽景象 马亮:做院长就能够发更多论文?论文发表是不是一场“权力的游戏”? :印裔人才在美碾压华裔:我们可以从印度教育中学到什么? :北京452万人将从北京迁至雄安(附部分央企名单)
更多最新图文
更多《即时通讯》>>
 
打印本文章
 
您的名字:
电子邮件:
留言内容:
注意: 留言内容不要超过4000字,否则会被截断。
未 审 核:  是
  
关于我们联系我们申请加入后台管理设为主页加入收藏
美国华裔教授专家网版权所有,谢绝拷贝。如欲选登或发表,请与美国华裔教授专家网联系。
Copyright © 2024 ScholarsUpdate.com. All Rights Reserved.