用户名:  密码:   
网站首页即时通讯活动公告最新消息科技前沿学人动向两岸三地人在海外历届活动关于我们联系我们申请加入
栏目导航 — 美国华裔教授专家网科技动向生物医学
关键字  范围   
 
药物研发中人工智能的发展思考与未来展望
2021/3/3 17:28:53 | 浏览:165 | 评论:0

药物研发中人工智能的发展思考与未来展望

尽管人工智能(Artificial intelligence, AI)对图像识别等领域产生了深远的影响,但在药物发现方面仍处于起步阶段,目前主要集中在给定化合物的类似物识别,构效关系(Structure-Activity Relationship, SAR)分析,部分物理化学性质的预测上等。然而,在面对传统技术难以突破的难靶先导化合物发现及多维的成药性决策上仍突破很少,尤其是在First-in-class功能化合物发现和体内功效方面,尚未能完全发挥AI在药物研发中的潜力。因此,选择药物研发中什么样的科学问题以及要对哪些成药指标进行建模将是在药物研发中发挥AI突破的关键。

20世纪80年代以来,来源于化学计量学和计算机科学的算法逐步应用并扩展到药物的合成与分析,如基于结构的药物设计(Computer-Aided Drug Design, CADD),常用于解释药物化学结构变化与活性的关系的构效关系;定性/定量机器学习方法(Machine Learning, ML),对水溶性、代谢性、毒性等进行预测。随着生物信息学的不断发展,其技术也在不断与药物研发中用到的算法相比较并互相融入。药学是一个融合化学和生物学的学科,在数据层面,我们首先看一下来自化学和生物领域数据的差异:

化学信息特征 生物信息特征
数据维度和相互依存性 数据高维(约10^63个小分子结构),且数据点之间没有相互依赖性 数据中到高维(人体10^13个细胞中有23000个基因),且数据点相互依赖性未知
对当前领域的认识程度 对基本物理化学原理有很好的认知(如化学反应性、热力学等) 对生物特征认知有限(如通常不清楚在哪种生物背景中,给定的分子/通路与疾病是否有联系等)
用于描述系统的数据准确性 化学结构可以准确描述分子组成,但在动态结构方面,有时是未明确的 不清楚哪种类型的信息包含哪种类型的信号,因此难以确定。
系统稳定性 化学结构需要相对稳定才能合成并用作药物,其结构测定的分析方法便宜稳定 生物系统受背景、可塑性和高度异质性的影响,很难定义(如在大量病例中出现不同细胞对同一种药物的不同反应)
数据整合性 化学结构一旦确定,其在实验中是不变的,重复性好 生物读数高度依赖于所使用的实验系统,可重复性不足;需要对多种实验条件进行标准化才能整合数据

如上所示,当前化学信息显然比生物学信息可适合进行人工智能计算处理。物理化学中热力学基本原则可以在一定程度上明确配体对受体的亲和力。与之相比,在生物学中受体蛋白的构象变化,平衡和偏置信号就难以定量;当研究涉及到基因表达量或蛋白质修饰的变化时,会变得更加困难,因为建模涉及了对空间变化和时间变化进行模拟。当前一些药物发现的辅助细分领域中,我们能够很好地描述化学数据,并且有大量可用于模型建立的测定数据(如小分子的各种体外物理化学性质和晶型),这些也是当前AI可以发挥作用的地方。但是在真实药物的核心研发步骤中,对于小分子药物在生物系统中的作用很难用一组有限的参数来定义,使得人工智能在药物发现和药效评估上面临着更大的不确定性。

简而言之,药物研发中开展AI需要可以定量的变量和有意义的标记。但是在特定的生物靶标体系中,我们常常无法确定哪些是重要的变量,难以通过实验对其进行定义并获得数据,也无法在与AI兼容的水平上构建体现生物学功能的参数。在此,我们对当前药物研发中数据的AI利用进行一些回顾和反思。

(一)药物发现中,质量决策比速度和成本更重要

药物研发中人工智能的发展思考与未来展望

考虑到一个专利寿命为20年,假设在临床一期开始时提交专利申请,为了项目平均能够覆盖成本,我们比较了提高化合物的发现速度(每一阶段花费时间减少20%)、提高化合物的成药质量(每一阶段故障率减少20%)和降低化合物成本(减少20%)对药物发现项目净利润的影响(如上图)。可以看出,化合物质量对项目的成功有更深远的影响,远远超出了提高各自阶段的提高速度和降低成本。降低由于化合物质量带来的损失对项目价值的总体影响最大,远比提高化合物发现及推进速度重要。换句话说,提高化合物的药物成功率可减少将药物推向市场所需的试验次数,而失败次数的减少比更快或较少花费的失败更为重要。

这一分析结果对于AI在药物发现中的应用有着重要意义。原则上,AI可以实现以上所有目标:可以更快地做出决策(预测要比实验快)并且可以更便宜地进行决策(预测的成本要低于实验),并可以做出更好的决策(在合适的数据或模拟允许的情况下,以及如果有事实支持,决策会更好)。然而,目前人工智能在药物发现中的主要重点似乎是加快速度和节省成本,而不是决策化合物的质量或是对药效成功的影响。那么在AI药物研发中,应该如何定义化合物质量的成功?为了使AI在药物发现项目中显示其价值,这一关注点可能需要进一步明确,模型构建不应局限于加快每一阶段的速度和节省成本。

(二)当前处于各自孤立机制和靶标中使用的AI发展困境

药物研发中人工智能的发展思考与未来展望

如上图所示,化合物可以通过调节蛋白质活性来实现它们的效果,但这一过程会受到药物代谢、药物活性以及非靶点效应等多重因素影响。在目前AI方法面向的药物发现中,其主要关注点是化合物对蛋白质的活性,而化合物在体内的其他特性(包括其前体化合物,代谢产物,浓度依赖性效应等)则在模型中被降级为次要的或可忽略部分。

由于AI模型从一开始就很少考虑生物学的复杂性,使得这种模型方案在实际应用存在多个问题而降低成功率:(1)仅在单因果疾病的情况下才是合理的,如在病毒感染的情况下,某种蛋白酶是复制或者受体进入细胞所必要的。基于这类单一靶点确实有效并且已经产生了大量的批准药物。但是,更多较复杂的疾病难以靠单一靶点调控进行有效修复,导致了许多基于单一靶点药物在临床实验中失败。(2)在AI系统中往往会简化模型而忽视其他问题,如化合物是否到达其预期的靶点,是否能够治疗患病的表型,以及它的副作用是否在可以接受的范围。(3)AI系统要取得成功,需要建立明确的“化合物-靶点-表型”联系,这是在当前生物医学知识下非常困难的。

(三)药物发现中相关的化学和生物数据特征及其未来可扩展空间

数据来源 特征 是否能作为体内的预测表征
靶点活性实验(包括脱靶靶标验证) 靶点验证困难,尤其是靶点与表型之间的关联需要多重交叉验证 在体外蛋白或细胞检测中,靶点上的活性往往不同于体内情况,两者通常需结合考虑
理化性质实验(如溶解度、亲脂性) 与药物研发几乎所有方面都普遍相关,特别是在口服给药 与体内吸收、分布、代谢等药物特性具有广泛的相关性,也需要综合其他复合性质考虑
药代性质实验 一般使用简化细胞系统,以预测化合物的吸收、代谢和运输。 由于器官和组织比细胞系统更为复杂且异质性更高,通常在应用中会忽略组织或器官中不同细胞类型的异质性、适应性反应以及微生物组对体内情况的影响等
细胞毒性实验 对人HepG2细胞的影响可以代替药物的肝毒性,是化合物不良反应的早期标志。 由于分离细胞或细胞系的反应往往不同于体内复杂系统,通常在这里不考虑器官和组织的异质性
异质细胞培养/3D细胞模型 模拟器官系统,优于单个细胞及2D培养 相比其他培养方式更能代表体内情况,但培养条件苛刻,目前无大数据集可用
毒性/安全性 通常关注个体数据,而不是真正的基于器官毒性作为指标 治疗指数量化了药物有效性和安全性之间差异,但基于器官毒性的定量评估目前较难实现
动物模型药效 动物模型被视为有效性测试的“金标准”,但该结果对于药物在人类上有效性和安全性的预测并不一定准确 数据可靠性取决于病例(疾病、动物模型选择等),部分器官数据在动物和人类之间的对应关系要比其他器官更好

如上表所示,当前药物发现项目中使用的代表性指标。大部分并不能很好地表征人体体内的实际情况。近年来,出现了一些来源于临床相关模型的高通量数据,例如用于高通量测试的异质细胞系统及其参数(3D中的细胞间相互作用和渗透性)和患者衍生的测试系统(癌症中患者衍生PDX模型)。这些系统产生的数据将来可能会对药物发现产生重大影响;但当前阶段,可用于AI挖掘的数据仍相对较少,需要生成足够大量的数据才能真正实用。

(四)人工智能在药物发现中的未来展望

为了充分发挥人工智能在药物发现中的作用,我们需要提高针对靶点发现的化合物质量。但在多数情况下,可用于做出这些决定的数据并不完全适合这一目的。因此,我们未来需要更多的高质量化合物数据进行AI研究,包括这些化合物的体外活性/毒性指数,正确剂量/药代动力学数据等。在后期阶段,还需要这些化合物的动物模型药效和毒性数据。此外,我们还需要更有效地进行临床试验,以获得高质量化合物临床数据。

尽管药物发现中的AI领域最近受到了广泛关注,但是利用我们当前的数据生成和利用方式,我们不太可能实现使高质量的药物发现决策。虽然化学数据可大规模获得,并已成功用于配体设计和合成,但是这些数据并不能满足AI药物发现的需求。为了真正推动该领域的发展,我们需要更好地了解生物学,并以假设驱动的方式生成包含感兴趣信号的数据,这些信号与疗效和毒性均相关。换句话说,我们需要让更多高质量候选化合物进入临床,更好地验证靶点,改善患者招募并更好地推进临床试验的进行,所有这些方面都是为了生成更恰当地反映药物发现生物学方面的数据。只有当这些数据可用于AI方法,才能期望该领域取得真正的进展。

参考文献

1. LeCun, Y. et al.(2015)Deep learning. Nature 521, 436–444

2. Griffen, E.J. et al.(2020)Chemists:AI is here, unite to get the benefits. J. Med. Chem. 63, 8695–8704

3. Bender A. et al.(2020)Artificial intelligence in drug discovery:what is realistic, what are illusions? Part 1:Ways to make an impact, and why we are not there yet. Drug Discov Today. doi:10.1016/j.drudis.2020.12.009.

 

药物发现中的人工智能:关于物理数据和生物数据的讨论
zhuanlan.zhihu.com
前言
人工智能(AI)最近在图像和语音识别等领域产生了深远的影响,这一进展已经转化为实际应用。然而,在药物发现领域,这种进展仍然很少,其中一个原因是所使用的数据本身。不同领域的数据存在显著的差异,即图像、语音、化学和生物领域,尤其在生物领域受限于可用数据的数量,以及与药物发现的相关性,这些都限制了AI在药物发现领域的应用。
未来需要我们改进对生物系统的理解,以及随后产生的足够数量的实际相关数据,以真正推进AI在药物发现领域的发展,从而能够发现新的化合物,以及新的作用模式,从而能够在实际的临床应用中表现出理想的疗效和安全性。
物理数据和生物数据的差异
人工智能已经改变了许多领域,可能最显著的是图像和语音识别领域,除了算法,对于数据的要求也非常重要。特别是在“深度学习”的背景下,数据更是至关重要的,这涉及到可用数据的数量及其分布。
不同领域的可用数据量差别很大,从仅有数百个带有体内注释的数据点(例如注释有可能诱发药物性肝损伤的药物,DILI)到特斯拉运营的车队每年可用的Zettabytes(1021字节)。在其他领域,可供使用的化学和生物数据量相对较少。
除了大量可用数据外,以计算机可修改的形式表示数据的能力也至关重要,为数据挖掘使用相关端点标记数据的能力也是如此。在这方面图像识别和化学,生物领域具有显著的差异。
药物研发中人工智能的发展思考与未来展望
在对图像和语音进行分类时,对对象的模型结构的表示和呈现比使用化学和生物数据时更为完整,标签的分配也相对不那么模糊。在化学领域,一个物体的最佳表征通常是未知的,一种化学物质的不同方面导致不同类型的效应,有些可能与官能团有关,有些可能与表面性质有关。而在生物领域,哪种类型的信息提供了与哪个终点相关的信息也是很模糊的。化学和生物领域的共同点是,标签在很大程度上取决于特定实验的设置,即使这些相同的东西在“原则上”是可测量的。
人工智能在围棋等类型的游戏上取得了突破性的进展,但这样的游戏比药物发现设置简单得多,因为存在一组有限的状态,规则是明确定义的,并且可以穷尽地计算(至少在理论上是)。然而在生物学领域,系统通常不遵循明确定义的规则(或者至少那些通常属于未知的规则,并且只能从可用的有限数据中获取)。相反,系统可以在大量不同的水平上定义,例如转录组学、蛋白质组学和代谢组学水平,也可以从表观遗传和功能相互作用水平,以时间和空间分辨的方式,同时考虑细胞内和细胞间信号,从细胞到生物整体水平。
此外,在生物领域的观察是高度条件性的(取决于大量的参数),这通常是未知的。在诸如副作用资源(SIDER)之类的数据库中,人们可以对具有特定副作用的药物进行注释,并使用这些信息训练计算模型以进行预测。然而,除了给药本身外,这种效应还取决于:(i)剂量;(ii)受体的遗传设置或遗传多态性;(iii)影响药物药代动力学(PK)特性的因素(如食物摄入量);(iv)联合用药;(v)疾病状态;(vi)性别;(vii)年龄;或者(viii)微生物组;然后副作用可能只发生在特定的一部分患者身上,而且可能在不同的严重程度、不同的器官中以不同的形式出现。可以明显看出,不同领域的数据及其含义存在很大差异,并非每个在一个领域有效的方法都可以直接转移到另一个领域。化学和生物数据的使用必须非常谨慎,并始终在其背景下加以解释。
难点1:如何将生物活性和不良反应联系起来
我们现在根据间接的药理学分析数据,并将蛋白质基团的生物活性与生理功能联系起来,试图说明化学和生物领域结论的复杂性。尽管人们可以假设,针对蛋白质靶点的活性足以理解并预测其在生物系统中的作用(这确实有利于药物发现中的人工智能方法),但不幸的是,实际情况并非如此。
例如,基于FDA不良事件报告系统(FAERS)在考虑靶细胞生物活性与未结合血浆浓度的比值时,即如果一种药物的血浆浓度高于作用于某一特定靶点所需的阈值,那么假定人们就会看到一种特定类型的副作用(或者更普遍地说,生物效应),分析结果如下图所示。
药物研发中人工智能的发展思考与未来展望
根据体外生物活性与血浆游离浓度的比值进行分析,针对靶点具有高阳性预测值(PPV)的不良事件往往具有较低的命中率,这意味着只有一小部分与不良事件相关的药物与靶点的生物活性相关。另外,高命中率与低PPV相关,表明该靶点活性与不良事件对应的高假阳性率。因此,总的来说,靶向活性与给药后观察到的不良事件之间不存在明确的一对一关系。
此外,这种分析过于简单,因为在这种分析中没有考虑到许多因素(如化合物代谢、完整的PK、脱靶效应等),化合物的单一(甚至没有)描述将无法解释预测药物效应的全部生物学复杂性,然而,这是许多计算药物发现方法的基本假定。
比如氯胺酮,氯胺酮既是一种麻醉剂,也是一种街头毒品,在2000年发现,当明显低于用作麻醉剂的剂量时,其表现出抗抑郁的效果,此外,其支气管扩张特性也是众所周知的。尽管氯胺酮长期以来被认为是通过阻断NMDA受体发挥作用,但其他NMDA阻断剂,如美金刚和兰尼西明,在临床试验中并没有成功,这暗示了它们各自作用方式的不同,这一点还有待充分了解。除了NMDA受体外,研究发现阿片受体系统也与氯胺酮的作用有关。此外,最近发现氯胺酮的代谢物在抑郁症动物模型中具有活性,人类对氯胺酮的研究仍然有许多未知。这个案例说明了用明确的作用模式和适应症来注释药物的困难,因为这些通常都不知道细节,并且取决于剂量、代谢以及其他因素。这使得人工智能在药物发现中对这些注释很差的数据的应用变得极为艰难。
难点2:药物发现中的数据和问题设定
为了在药物发现领域使用数据分析方法,我们通常可以区分两种类型的模型:(i)基于大规模和代替指标的模型,这些模型通常旨在从大量物理可用或虚拟分子(例如,在虚拟筛选中)中选择化合物,在性质上更倾向于定性的模型,包括溶解度、脂溶性或蛋白质靶点生物活性的模型通常属于这一类;以及(ii)基于通常规模较小的可用数据的模型(但通常是与体内终点更相关的数据),其中具有更定量的性质,旨在预测安全性或疗效相关终点,更复杂的模型,如动物模型(人体药效或安全性数据)属于这一类。
在药物发现中,通过相对简单的分析类型可以生成大量的数据点,这有利于培训所需的数据量。然而,在代理指标对相关体内终点的预测性相对较低的情况下,单纯的数据量往往不足以生成实际有用的模型。而相比之下,复杂生物学的定量读数在人体内相关性方面可能更有利,但这些数据更难生成和建模。
总而言之,我们目前还没有合适类型的数据来生成模型,从而真正利用人工智能进行药物发现。因此,对这些代理终点进行建模的能力的增量变化也不会改变游戏规则,因为它们不会转化为与药物安全性和疗效相关的任何体内终点。在许多情况下,我们对生物学的理解还不足以指导我们需要测量什么,而替代终点的选择(与理化性质、PK、疗效或安全性相关)总是与它们如何转化为临床的重大不确定性相关。鉴于可用基础数据的这一特性,无论使用何种算法也无法改善当前的情况。
难点3:药物发现中的数据注释与标识
由于各种原因,生物注释通常远远不适合用于数据挖掘,例如药物的“作用模式”概念,其中通常使用解剖治疗分类(ATC)代码来提供这种类型的标签。然而,ATC代码在历史上一直在增长,ATC的最高级别类别是器官级别,这与任何有意义的生物学行为模式都没有联系。
那么还有哪些选择?例如,在特定靶标上的活性是一种常见的选择,可以使用Entrez基因ID作为目标标识符,然而,情况并不是那么简单。如果一个唯一可识别的基因不是靶标,而只是一个特定的剪接变体,或者一个的特定激活状态(例如激酶的磷酸化形式),或者一个特定的变构结合位点,那么应该使用哪个标识符?此外,该靶点也可能被抑制(而其浓度保持不变),或其表达可能被改变(例如,跨细胞类型或状态),或可能通过PROTACs标记降解,等等。
因此,有许多不同的方式与药物靶点相互作用,其中只有少数是功能等效的。此外,同一靶点上不同类型的相互作用可能导致不同的效果;在最简单的情况下,这可能是蛋白质上的激动剂和拮抗剂之间的差异;但受体药理学当然比这更微妙,而且偏倚的信号传递或考虑配体-受体相互作用的药效学,它们的功能性后果,导致了如何用行为模式“标记”特定化合物以实现数据挖掘的进一步复杂化。因此,即使一个人接受这样一个前提,即针对特定靶点的活性可以被用来注释化合物的作用模式(这本身就是一个很大的“如果”),那么用于这个目的的标签决不是无足轻重的。
未来AI在药物发现中的发展方向
目前,我们经常“在数据所在的地方建模”,这就像只在灯光所在的地方去寻找车钥匙,而不是真正期望在哪里找到它们,仅仅拥有“数据”是没有帮助的,我们需要的是正确的数据,以正确的格式提供,并用于正确的目的,药物发现中的人工智能才能给该领域带来真正的变化。
人们已经认识到,药物发现数据需要更好地被组织起来,目前,我们已经能够更好地进行数据查找、编目和搜索,所有这些都是有用的。然而,要进入下一个层次,我们需要超越现有数据的局限性,并根据这些数据所包含的信息来决定我们需要哪些数据来回答与体内安全性和有效性相关的问题。
科学问题或假设,是任何模型的开始,这使我们能够以一种有针对性的方式生成数据,我们需要以适当的方式表示这些数据,并最终使用适当的方法分析数据。
药物研发中人工智能的发展思考与未来展望
为了能够在药物发现的决策中真正使用化学和生物数据,我们需要超越技术“推动”产生的数据,朝着科学需求的“拉动”方向发展。因此,我们首先需要更好地确定要测量什么。
小结
药物发现领域的可用数据本质上与人工智能最近取得巨大进展的其他领域(如图像识别领域)的数据有根本不同。在许多情况下,生命科学数据很难标记,这是人工智能方法在药物发现领域应用时的一个严重问题。
为了真正推动这一领域的发展,我们需要了解为哪种目的生成哪些数据,这首先涉及到更好地理解生物学。只有当我们能够在体内测量和捕捉相关的生物终点时,我们才能在这一领域取得更大的进展,并将目前可用的计算算法有效地应用于药物发现领域,以提高化合物在临床上的疗效和安全性。
 
相关栏目:『生物医学
《英国血液学杂志》:COVID-19促使免疫系统释放T细胞消灭癌症 2021-04-17 [117]
德国科学家借助人工智能识别出一百六十五个新癌症基因 2021-04-17 [44]
英、美国际联合专家团队新研究:全面描述肿瘤内异质性 2021-04-17 [70]
mRNA 技术会改变世界吗? 2021-04-14 [671]
布朗大學「腦門」團隊:「意念控制」真的要走入現實 2021-04-11 [81]
伍斯特大学研究警告:低脂肪素食饮食,让男性睾酮水平下降26% 2021-04-10 [130]
美国范德堡大学新发现颠覆过去百年来的癌症新陈代谢模型 2021-04-10 [110]
哈佛大学干细胞研究阐明压力如何影响毛发生长 2021-04-10 [74]
美国国家标准与技术研究院:人造细胞可像天然的那样生长分裂 2021-04-10 [73]
利兹大学:食用香肠、火腿 导致患痴呆症甚尔茨海默病的风险增加 2021-04-10 [102]
相关栏目更多文章
最新图文:
慕波:爬取7万条帖子  看看人们都是怎么吐槽相亲的 :陈文玲: 必须推动中美关系回到正确轨道 Colleen Flaherty 翻译 刘勤:MIT教授发文《美国经济评论》 :生命科学受益于明星科学家们的死亡 :北京和上海金融人的最新鄙视链 :日本政府《氢能利用进度表》 :美国《2016-2045年新兴科技趋势报告》 :天津工业大学“经纬英才”引进计划 :浙江财经大学国际青年学者论坛的邀请函 (10/31-11/1)
更多最新图文
更多《即时通讯》>>
 
打印本文章
 
您的名字:
电子邮件:
留言内容:
注意: 留言内容不要超过4000字,否则会被截断。
未 审 核:  是
  
关于我们联系我们申请加入后台管理设为主页加入收藏
美国华裔教授专家网版权所有,谢绝拷贝。如欲选登或发表,请与美国华裔教授专家网联系。
Copyright © 2021 ScholarsUpdate.com. All Rights Reserved.