发表在Nature期刊1月份的文章:Seven technologies to watch in 2022对2022年可能撼动科学发展的工具进行了第五次年度总结,其中包括了从基因编辑到蛋白质结构确定再到量子计算的技术[1]
完整版基因组
人类共有基因组序列GRCh38于2013年首次发布,是用来绘制序列的支架,但它们较短,长度不足以明确地绘制出高度重复的基因组序列。2019年端粒到端粒(T2T)联盟成立以来解决了大约十分之一未知的人类基因组。去年5月,该联盟报告了人类基因组的第一个端到端序列,为人类共有基因组序列 GRCh38 添加了近2亿个新碱基对,并撰写了人类基因组的最后一章。T2T联盟是如何完成这些工作的呢?答案是美国太平洋生物科学公司和英国牛津纳米孔技术公司开发的长读长测序技术,这种技术可以在一次读取中对数万甚至数十万个碱基进行测序。到2020年T2T团队首次重组单独的X染色体和8号染色体时,太平洋生物科学公司的测序已经使T2T科学家可以检测到长段重复序列中微小变化的程度。这些微妙的“指纹”使长段重复的染色体片段易于处理,基因组的其余部分也能迅速归位。纳米孔技术公司帮助T2T捕获了许多调节基因表达的 DNA修饰,即“表观遗传标签”。T2T解决的基因组来自包含两组相同染色体的细胞系。正常二倍体人类基因组中每个染色体都有两个版本,研究人员现在正在研究“基因分型”策略,可以将每个序列分配给对应的染色体拷贝。这项二倍体组装工作是与T2T的合作伙伴组织——人类泛基因组参考联盟合作进行的,该组织希望根据来自世界各地的数百名捐赠者制作更具代表性的基因组图谱。未来有望利用这些完整基因组的组装能力为地球上的每个脊椎动物物种生成完整的序列。
图1 端粒到端粒联盟正在对整个染色体进行测序
(来源:Adrian T. Sumner/SPL)
蛋白质结构解析
蛋白的结构决定了功能,但蛋白的结构并不容易确定。在过去两年里,实验和计算方面的进步使研究人员能够以前所未有的速度和分辨率确定蛋白质的结构。AlphaFold2结构预测算法由英国DeepMind公司开发,它依靠“深度学习”策略从氨基酸序列推断蛋白质的形状。自2021年7月公开发布以来,AlphaFold2已应用于蛋白质组研究,来确定在人类和20种模式生物中表达的所有蛋白质的结构,以及Swiss-Prot数据库中的近440000种蛋白质,大大增加了可获得高置信度建模数据的蛋白质数量。AlphaFold算法也证明了其解析多链蛋白质复合物的能力。同时,冷冻电镜(cryo-EM)的发展使研究人员能够通过实验方法处理即使是最具挑战性的蛋白质和复合物。Cryo-EM使用电子束扫描快速冷冻的分子,生成多个方向的蛋白质图像,然后可以通过计算重新组装成3D结构。2020年,cryo-EM硬件和软件的改进使两个团队能够生成分辨率低于1.5埃的结构,捕获单个原子的位置。AlphaFold2现在被视为对冷冻电镜等实验方法的补充,其计算模型可以帮助数据分析和重建。冷冻电镜可以生成目前无法进行计算预测的结果。另一相关技术冷冻电子断层摄影术(cryo-ET)可以捕捉冷冻细胞薄片中的天然蛋白质结构,这也相当振奋人心。
图2 RBD-ACE2-B0AT1复合物的冷冻电镜图[2]
量子模拟
原子很小,但它们可以被诱导进入直径在一微米或更大的高度激发状态。通过控制数百个原子排列阵列的激发,物理学家已经证明他们可以解决具有挑战性的物理问题,进而将传统计算机推向极限。量子计算机以量子比特的形式处理数据。量子比特通过量子物理中的纠缠现象可以在一定距离内相互影响。这些量子比特可以极大地提高计算能力。多个团队已经成功地将单个离子作为量子比特,但它们的电荷使其难以在高密度下组装。法国国家科学研究中心的Antoine Browaeys和美国哈佛大学的Mikhail Lukin等物理学家正在探索使用光学镊子在紧密排列的2D和3D阵列中精确定位不带电的原子,然后应用激光将这些粒子激发成大直径的“里德堡原子”,并使它们与附近的原子纠缠在一起。里德堡原子系统是单独可控的,它们的相互作用可以打开和关闭,这反过来又赋予了它们可编程性。这种方法在短短几年的时间里获得了相当大的发展势头,技术进步提高了里德堡原子阵列的稳定性和性能,并从几十个量子比特快速扩展到几百个量子位。早期的应用主要集中在已提出的问题上,例如预测材料的性能,但其用途十分广泛,不仅限于此。该领域的先驱们已经成立了一些公司,正在开发实验室用的里德堡原子阵列系统,这种量子模拟器可能在一两年内就可以商用。这项工作为量子计算机在包括经济、物流和加密领域(如通信加密)的更广泛应用铺平道路。
图3 量子模拟观测声波的产生[3]
精确基因组调控
CRISPR-Cas9技术倾向于使基因失活而不是基因修复。这是因为细胞对Cas9酶靶向基因组序列产生双链切割的修复并不精确。CRISPR-Cas9修复经常因小的插入或缺失而变得混乱。哈佛大学的化学生物学家David Liu指出,人类大多数遗传疾病需要的是基因修正而不是基因失活。他们团队已经开发出两种方法来做到基因修正。两种方法都利用了CRISPR的精确定位,但在该位点不能行使切割DNA功能的Cas9的变体。第一种称为单碱基编辑,将催化受损形式的Cas9(Dcas9或Cas9 nikase)与另一种酶(DNA修饰酶)结合,帮助一种核苷酸转化为另一种核苷酸,但目前只能使用此方法进行某些特定碱基到碱基的更改(参见 Nature https://doi.org/hc2t;2016))。该团队最新开发了引导编辑,将Cas9与逆转录酶联系起来,并使用一种修改的引导RNA,该RNA可以将所需编辑的内容整合到基因组序列中[4]。通过多阶段的生化过程,这些成分将引导RNA复制到最终取代目标基因组序列的DNA中。重要的是,这两种方法都只切割一条DNA链,这对细胞来说是一种更安全且破坏性更小的过程。单碱基编辑在2016年首次被报道,现在已经进入临床。引导编辑也在不断升级换代。
图4 引导编辑示意图[4]
靶向基因疗法
基于核酸的药物虽然具有临床价值,但它们可应用的组织仍受到很大限制。大多数治疗或是局部给药,或是对从患者身上采集的细胞进行离体操作再移植回患者体内。腺相关病毒是许多基因疗法的首选载体,动物研究表明,仔细选择合适的病毒,结合组织特异性的基因启动子,可以实现特定器官的高效递送。但病毒有时难以大规模生产,还会引发免疫反应,破坏疗效或产生不良事件。脂质纳米粒是一种非病毒替代品,过去几年发表的几项研究强调了调控其特异性的潜力。美国德克萨斯大学生物化学家Daniel Siegwart等人开发的选择性器官靶向(SORT)方法能帮助快速生成和和筛选脂质纳米粒,找出能有效靶向肺或脾脏等组织细胞的纳米粒。许多团队也在探索如何利用细胞特异性抗体等蛋白质成分帮助靶向过程。Beam Therapeutics和Intellia等公司在骨髓中靶向血液和免疫细胞前体的临床前进展振奋人心,这两家公司都使用特殊设计的脂质纳米粒,它们的成功靶向将使患者避免当前包括化疗在内的体外基因疗法所涉及的痛苦过程。
图5 负载mRNA脂质纳米粒的制备、优化和肝靶向递送示意图[5]
空间多组学
单细胞组学的发展使研究人员现在可以常规地从单个细胞中获得遗传、转录组、表观遗传和蛋白质组学的见解,但是这种技术也由于将细胞从其原始环境中剥离出来而遗漏关键信息。空间转录组学领域的大爆发源于2016年,瑞典皇家理工学院的Joakim Lundeberg团队制备了带有条形码的寡核苷酸(RNA或DNA的短链)载玻片,它们可以从完整的组织切片中捕获信使RNA,这样每个转录本就可以根据其条形码定位到样本中的特定位置。现在有多种商业系统可供使用,包括10x Genomics公司的Visium空间基因表达平台,该平台建立在Lundeberg的技术之上。学术团体也在继续开发新方法,以更好的深度和空间分辨率绘制基因表达图谱。研究人员正在他们的空间图谱中叠加组学数据,例如耶鲁大学Rong Fan开发了采用微流体系统的DBiT-seq 16平台,可以同时为数千个mRNA转录样本和数百个以标记寡核苷酸抗体作为标签的蛋白质生成条形码,这可以更准确地评估细胞基因表达如何影响蛋白质的产生和活性。他们还利用此平台来研究免疫细胞激活等过程。包括Visium平台和Nanostring的GeoMx系统的商业系统还可以在从多种蛋白质中获取空间数据的同时获取转录组学信息。Lundeberg团队改进空间转录组学方法,来同时捕获DNA序列数据,进而绘制肿瘤发生背后的时空事件。Rong Fan的团队展示了组织样本中染色质修饰的空间定位,用来揭示影响发育、分化和细胞间通讯等过程的细胞基因调控。
图6 空间转录组学的应用[6]
基于CRISPR的诊断
CRISPR-Cas系统能够精确切割特定核酸序列,这种能力来源于细菌抵抗病毒感染的“免疫系统”作用,因此该系统对病毒诊断也有适用性。但并不是所有Cas酶的作用都相同。Cas9是基于CRISPR基因组操作的首选酶,但基于CRISPR的诊断大多使用Cas13的靶向RNA分子家族,该家族于2016年由分子生物学家张锋及其团队发现。Cas13利用向导RNA通过碱基配对识别RNA靶标,并激活核糖核酸酶活性,可通过报告RNA作为诊断工具使用。Cas13作为病毒诊断工具是因为它不只是切割向导RNA靶向的RNA,它还对附近的其他RNA分子进行“附带切割”。许多基于Cas13的诊断方法使用一种将荧光标签连接到抑制荧光猝灭分子上的报告RNA。当Cas13在识别病毒RNA且被激活时,会切割报告基因并从猝灭基团释放荧光标签,产生可检测的信号。一些病毒释放出强的信号,可以在不扩增的情况下被检测,从而简化了即时诊断。去年1月,就有研究人员展示了一种用于检测无扩增SARS-CoV-2的基于鼻拭子的快速CRISPR-Cas13检测方法。RNA 扩增可以提高对微量病毒序列的敏感性,麻省理工学院-哈佛大学博德研究所的遗传学家Sabeti和她的同事开发了一种微流体系统,仅使用来自几微升样本的扩增遗传物质,就可以同时筛选多种病原体。她们还开发出了可以同时检测超过169种人类病毒的基于CRISPR的工具。包括靶向DNA的Cas12等其他Cas酶可以充实诊断工具箱,检测更广泛的病原体,甚至可以有效诊断其他非传染性疾病。
图7 基于CRISPR的诊断系统示意图
(来源:https://innovativegenomics.org)