一位试图设计一种新的癌症治疗方法的药物开发人员,一位研究病毒如何入侵细胞的病毒学家,一位探索突变对生物体健康影响的进化生物学家,这些都是需要了解特定蛋白质三维结构的科学家。然而,通过实验推断蛋白质的形状既费力又昂贵[1]。到20世纪20年代初,研究人员只成功地利用了大约20万个分子,不到已知生物体产生的总分子的0.1%[2]。但在2022年年中,科学家们宣布,由总部位于英国伦敦的谷歌子公司DeepMind开发的一种名为AlphaFold的人工智能(AI)模型已经预测了几乎所有2.2亿多个未解决蛋白质的结构(图1)[3],[4]。美国康涅狄格州新伦敦康涅狄格学院化学教授Marc Zimmer表示,研究人员用了大约50年的时间,花费了大约20亿美元,实验确定了20万种蛋白质的结构。“AlphaFold可以在几天内完成这项工作,因为它是在线的。”
图1. 细菌产生一种名为冰核蛋白的分子,这种分子可以使水在0摄氏度以上的温度下结冰。AlphaFold对冰核蛋白结构的预测,例如这种来自生长在草地上的细菌Pseudomonas graminis的冰核蛋白,可能有助于研究人员更好地了解这些分子是如何工作的,以及如何利用它们的作用。来源:DeepMind(public domain)。
人工智能不仅照亮了现有分子的结构。它也在发明新的。几种人工智能设计的药物已经进入临床试验,其中一种药物首次进入II期试验,将测试其是否有效[5]。人工智能正在其他研究领域提供有新闻价值的发现,包括地质学[6]、物理学[7]、神经科学[8]和数学[9]。Zimmer说,人工智能“正在建立我们以前从未建立过的联系,这是一个突破。”
但一些研究人员担心科学界对人工智能的依赖日益增加。AI可能会误导。它编造了错误的结果,这是一个被称为幻觉的问题[10],[11]。即使是准确的发现也可能不具有科学相关性。与所有科学发现一样,人工智能的发现也需要得到证实。但美国伊利诺伊州芝加哥市德保罗大学计算和数字媒体助理教授Casey Bennett表示,许多研究人员在这一步上有所吝啬。“很多人没有按照科学过程正确地验证答案。”此外,研究人员可能无法验证人工智能的一些结果,因为它得出结论的程序往往很模糊,一些专家担心这个问题可能会引发科学中的“可重复性危机”[12],[13]。
人工智能包括多种技术,包括机器人技术。但研究人员经常使用被称为机器学习的人工智能,其中计算机通过研究大量数据集来推断或识别模式[14]。Bennett说:“机器学习擅长找出超出我们认知能力的模式。”这种能力已经使人工智能在包括天文学在内的多个领域不可或缺。美国亚利桑那州图森市亚利桑那大学天文学教授Chris Impey表示,如果没有机器学习的帮助,天文学家就无法希望分析望远镜和其他仪器产生的大量数据。例如,他指出,智利的Vera C. Rubin天文台将于2024年开始对南方天空进行为期十年的调查,每晚将产生高达40 TB的数据。他说,人工智能检测异常的能力使其特别有价值,使研究人员能够识别出可能被忽视的新物体。“在天文学中,你并不总是知道自己在寻找什么。”天文学家已经利用人工智能确定了太阳系外的一颗新行星,揭示了一颗可能撞击地球的小行星,并做出了其他发现[15]、[16]。
如上所述,试图解决生物学中最棘手的问题之一——预测蛋白质如何折叠成复杂形状——的研究人员也从人工智能中获得了改变游戏规则的推动力[4]。蛋白质的结构决定了它的工作方式,但仅从氨基酸序列或化学构建块预测蛋白质的形状是极其困难的[17]。尽管几十年来,研究人员一直在测试人工智能模型的预测能力,包括之前版本的AlphaFold,但直到2020年的蛋白质折叠比赛,即蛋白质结构预测的关键评估,该技术才显示出其强大的能力。AlphaFold以很大的优势击败了其他50多家竞争对手,其三分之二的预测与实验确定的结构一样准确,这是人工智能模型性能的显著提升[18],[19]。
DeepMind的科学家通过向模型输入约17万种蛋白质的已知结构来训练模型。当AlphaFold的任务是预测未解决蛋白质的形状时,它使用这些结构作为指导来确定哪些氨基酸可能彼此靠近[18]。该模型的开发人员在先前版本的AlphaFold的基础上进行了改进,增加了一种算法,该算法从小块开始构建蛋白质的结构,然后逐渐扩展到更大的部分[18],[20]。
AlphaFold的成功引发了应用它的热潮。在AlphaFold数据库上线后的前九个月,有超过40万人访问了它,同时引用该模型的论文数量增加了两倍多[21]。研究人员利用AlphaFold发现了一种治疗癌症的潜在新药[22],预测了一种危险病毒关键蛋白的结构[23],并生成了最全面的核孔复合体模型,这是一种复杂的分子通道,控制着细胞核的进出[21]。Zimmer说:“我们可以突然轻松地完成以前极其困难或不可能的事情。”DeepMind还发布了AlphaFold的升级版本,可以预测蛋白质将如何与其他类型的分子相互作用,这一能力可能会使药物开发人员受益[24]。
美国加州大学洛杉矶分校生物化学教授Tamir Gonen警告说,一些新闻文章宣称AlphaFold已经“解决”了蛋白质折叠问题,但人工智能模型并不能提供关于分子结构的最终结论。Gonen说,这种能力使研究特定蛋白质的科学家更容易获得分子可能外观的模型,这“可能有助于他们解释他们的实验”。他补充道:“我措辞谨慎”,因为AlphaFold预测的结构也可能是错误的。Gonen说:“你必须验证这些模型。如果你不这样做,把它们当作真理,你可能会遇到大问题。”简而言之,他说,人工智能还没有准备好取代生物学家。“也许有一天,我们不再需要通过实验来解决结构问题,但我们还没有做到。”
加拿大多伦多儿童医院研究所的高级科学家Julie Forman-Kay和其他研究人员发现,AlphaFold也在与某些蛋白质特征作斗争。所有人类蛋白质都包含被称为内在无序区域的部分,这些部分不会折叠成确定的形状,而是在不同的构象之间不断变化[25]。蛋白质中超过三分之一的氨基酸处于无序区域,蛋白质的范围从几乎没有无序到完全无序[26]。2023年,Forman-Kay和她的团队分析了AlphaFold如何处理内在无序区域。研究人员曾认为,AlphaFold会将其对这些区域的预测标记为不确定,从而警告用户,假定的结构可能是不正确的。但Forman-Kay和她的同事报告称,大约15%的时间,该模型假设这些区域会折叠成特定的形状,并为其预测提供了高度的置信度[27]。Forman-Kay表示,在大多数情况下,无序区域在某些条件下可能会采用特定的形状,例如当它与另一种蛋白质结合时。但这些条件是未知的,许多时候无序区域在不同条件下折叠成不同的结构,这使得AlphaFold的预测结构不准确。Forman-Kay表示,很少有科学家意识到这些局限性,他们可能会错误地得出结论,认为该模型的预测是确定的。她仍然认为人工智能为蛋白质折叠提供了重要的见解,但研究人员需要认识到“它只是一种工具”,需要谨慎应用。
人工智能不仅帮助研究人员分析数据。在空间科学和天体物理学等领域,它还可以帮助决定数据科学家看到了什么。如今,航天器和观测卫星可以收集的数据比它们传输回地球的带宽多得多。这就是为什么越来越多的太空任务还包括配备人工智能模块的机载计算机。这些人工智能系统过滤掉了糟糕或低质量的数据,使飞行器只能将高质量的数据发送回地球[28]。美国马里兰州劳雷尔市约翰霍普金斯大学应用物理实验室的物理学家Simon Wing表示,赋予人工智能算法强大的能力也会给它们带来很大的负担。“如果我们使用人工智能来减少数据,我们需要小心,”他说。如果人工智能没有得到适当的训练或应用,“它可能会将有用的数据误分类为坏数据。如果发生这种情况,数据将永远丢失。”
Bennett担心,人工智能模型产生的许多已发表的结果都是错误的或无关紧要的。他说,研究人员没有仔细检查他们的发现是否准确,是否具有科学信息。“问题不在于‘我能找到一个模式吗?’这很容易。问题在于找出哪些模式在现实世界中是有意义的。这很难。”Bennett表示,根本原因是不了解人工智能的微妙之处和局限性的研究人员急于使用它。他认为,在科学家将人工智能应用于他们的研究之前,他们应该通过由律师和医生许可组织等专业机构设立的认证课程。他说:“机器学习就像手术一样,需要适当的培训和经验。否则,我们可能会产生误导性的答案和糟糕的解决方案。”
其他研究人员没有走那么远。但一些承认人工智能限制的科学家正在努力使其结果更加可信。人工智能的所谓黑匣子问题——模型如何得出结论往往很神秘——长期以来一直是一个令人担忧的问题[29]。DeepMind的首席执行官承认,就连AlphaFold的一些“想法”也令人费解[30]。为了解决这个问题,研究人员正在开发所谓的可解释人工智能,即遵循特定规则和程序的模型,使其推理透明[31]。
专家表示,这只是使人工智能结果更加可信的一步,但科学家们还需要更清楚地了解模型可以实现什么和不能实现什么。Wing说,人工智能工具可以很有启发性,“只要它们被正确使用,并且它们的局限性得到承认。”
参考文献
引用信息:Mitch Leslie, Artificial Intelligence Could Revolutionize Science—If We Can Trust It, Engineering, Volume 35, 2024, Pages 4-6.
原文链接:https://doi.org/10.1016/j.eng.2024.03.002