加州大学旧金山分校巴卡尔计算健康科学研究所T. Goldstein1团队于2019年8月8日在Nature Communications 上发表了题名为《Comprehensive transcriptomic analysis of cell lines as models of primary tumors across 22 tumor types》的文章。该研究利用RNA测序分析TCGA和CCLE数据库中重叠的22种肿瘤类型,以胰腺癌为例,通过分析细胞系与原发肿瘤间的相关性,找出相关系数最高的细胞系作为研究相应原发肿瘤的体外模型。并推荐了TCGA-110-CL,一个综合性的泛癌细胞系板,该研究为肿瘤研究提供更合适的细胞模型,帮助群众更好了解癌生物学,同时使得体外研究更多转化到临床研究中。
摘要
肿瘤细胞株是肿瘤研究的基石,但既往的研究表明,不是所有的细胞株的模拟原发肿瘤的能力都是相同的。这里,我们借助从The Cancer Genome Atlas(TCGA)和The Cancer Cell Line Encyclopedia(CCLE)数据库中获得的转录组结构数据对泛癌做综合性分析,来评价常作为肿瘤模型的22种肿瘤细胞。我们做了相关性分析和基因富集分析比较了细胞株和原发肿瘤的不同点。并且,我们在9种肿瘤中将细胞株划分成肿瘤亚型。我以胰腺癌的分析结果为例,发现最常用的细胞株MIA PaCa-2在转录水平上并不是典型的胰腺癌。最近,我们建议将新的细胞系panel(TCGA-110-CL)用作泛癌研究。本研究为肿瘤研究者们挑选出最具有代表性的细胞株模型提供资源。
文中重要图片说明
图1 | 细胞系和匹配的原发肿瘤样本的泛癌分析。a. 研究设计。转录组测序数据由Google Cloud Pilot下载,转录组测序数据集是CCLE和TCGA数据库中重叠的22种肿瘤类型数据集。数据在分析过程中标准化,分批更正,调整以提高肿瘤浓度。b. CCLE和TCGA数据的相关性分析。小提琴图中的每一个样本通过可变度最大的5000个基因对应一个细胞系和一个原发肿瘤样本的的斯皮尔曼相关系数。覆盖在其上的箱式图中,红色的中心线代表中位数,箱子的界限代表上/下四分位数,须状代表1.5倍四分位点内距。c. CCLE和TCGA中所有肿瘤类型中值相关性热图。
图2 | 原发肿瘤样本/细胞株中肿瘤纯度的相关性。a.单边Wilcoxon检验发现15/20种肿瘤类型中,细胞系与高肿瘤纯度的原发肿瘤样本(红色)的相关性显著大于细胞系和低肿瘤纯度的原发肿瘤样本(青绿色)。小提琴图上的P值用相应的符号表示,“ns”表示p > 0.05,一颗星表示p<=0.05,两颗星表示p<=0.01,三颗星表示p<=0.001,四颗星表示p<=0.0001。相关系数中位数由小提琴图中黑色水平线描述。b. STRING分析了本研究中20个肿瘤类型中,95个在原发肿瘤中高表达的基因间的蛋白互作(PPI富集p< 1.0e-16)。线的粗细代表相互作用的可信度,只有可信度高的互作才会展示出来。PPI网络在免疫应答通路基因富集(错误检出率=5.51e-06)。c. 通过分子标签数据库(MSigDB)的标记基因对原发肿瘤样本和细胞系的基因富集分析(GSEA)。FDR<5%的通路标记为NES。蓝色格子表示细胞系的富集,红色格子表示原发肿瘤样本的富集。在研究的肿瘤类型中,和细胞周期发展相关的基因集富集在细胞系,免疫通路富集在原发肿瘤中。d.癌通路中的标记基因的富集分析。在所有肿瘤类型中,基因组不稳定在细胞系中富集,促癌的炎症富集在原发肿瘤中。
图3 | 细胞系肿瘤亚型预测。a. 本研究中肿瘤亚型预测方法概览。同其他肿瘤亚型相比(LFC > 1, FDR < 0.01),TCGA中肿瘤被分为训练集(80%)来发现在每种肿瘤亚型中该表达的基因。亚型模板就会将细胞系(LFC>2)和在至少2种细胞系种不稳定表达的基因过滤掉,以产生符合亚型模板的细胞系。这些TCGA检验集的亚型(20%)可以通过最近模板预测方法预测,如果分类的准确度大于80%,这个基因模板将会使用于CCLE细胞系以预测细胞系亚型。b.TCGA中 (左)和预测的CCLE细胞系(右)的肿瘤亚型比例,预测准确度高于80%。标记为红色肿瘤类型(BRCA, LUAD, SKCM)说明TCGA亚型和CCLE预测亚型具有显著差异。
图4 | 胰腺癌中肿瘤样本和细胞系的相关性分析。a. 通过5000个差异最显著的基因联系原发胰腺癌样本和所有CCLE细胞系斯皮尔曼相关系数的小提琴图。相关系数由细胞系组织来源分隔(x轴)。覆盖的箱式图上,红色中心线代表中位数,箱子的界限代表上/下四分位数,须状代表1.5倍四分位点内距(IQR)。胰腺原发肿瘤样本和细胞系的相关性最强,其次是胆管。b. 胰腺癌细胞系和胰腺癌样本的斯皮尔曼相关系数小提琴图,由细胞系分割开(x轴)。由红线标出的相关系数中位数为0.67到0.49。在重叠的箱式图上,箱子的界限代表上/下四分位数,须状代表1.5倍IQR。c.胰腺癌细胞系(x轴)和胰腺原发肿瘤样本(y轴)斯皮尔曼相关性热图。Y轴上的颜色条表示TCGA原发肿瘤样本亚型。d. 热图展示了胰基础的经典的胰腺导管腺癌亚型中,腺癌模板基因的表达水平。上面的图表示TCGA胰腺癌检验集,有注释的颜色条表示实际的亚型,预测的亚型以及亚型预测的FDR值。下面的图表示胰腺癌细胞系,有注释的颜色条表示预测的亚型以及亚型预测的FDR值。
图5 | TCGA-110-CL:一种改良的整合了TCGA和CCLE数据的细胞系板。a. NCI-60板中的细胞系和原发肿瘤数据相关性的热图。在NCI-60板和CCLE中只有36和细胞系被分享出来。每种细胞的肿瘤类型在热图的左侧有注释条注明。b. 改良胡的NCI-60热图。改良后的板和原始的NCI-60板有相同数量的细胞系和肿瘤类型,但是和与之匹配的相关系数最高的细胞系才被选中。c. 箱式图表明改良的NCI-板和与之匹配的原发肿瘤样本有更高的相关系数(双边Wilcoxon检验p= 7.6e-07)。箱式图的中心线表示中位数,箱子的界限代表上/下四分位数,须状代表1.5倍四分位点内距(IQR)。d. 推荐的TCGA-110-CL板。一个改良的含有5种在22种肿瘤种与原发肿瘤相匹配相关系数最高的细胞系的细胞系板。对于肿瘤亚型的预测,在每种亚型种相关系数最高的亚型被挑选展现在板中。