波士顿儿童医院蛋白质组学主任Hanno Steen(未参与这项研究)表示:“虽然之前其它一些大型蛋白质组数据集也收集了接近上万个蛋白数据,但是这两项成果确实是真正的突破性成果,全面覆盖了超过80%的人类预期蛋白质组,其中还有一些之前未曾被发现的蛋白。这些成果清楚地表明,想要达到这样的蛋白覆盖率深度,就需要探索许多不同的组织类型。”
在第一篇文章中,来自约翰霍普金斯大学的蛋白质组研究员Akhilesh Pandey,与来自印度生物信息学研究所等处的研究人员合作,分析了30种不同的组织类型,编撰了由84%所有预期编码蛋白的人体基因翻译得到的蛋白。
这项研究识别出17, 294个蛋白编码基因,并通过表达分析证明了组织和细胞特异性蛋白的存在,并且研究人员还通过从注解的假基因、非编码RNA和未翻译的区域识别翻译的蛋白,表明了“蛋白基因组”分析的重要性。
研究人员在线公布了这些人类蛋白质组图谱发现,相关数据将很快可以通过美国生物技术信息数据中心(the National Center for Biotechnology Information database)查询得到,Pandey说。
同时另外一篇文章中,来自德国研究人员慕尼黑工业大学的Bernhard Küster等人创新性的推出了一个搜索性公共数据库:ProteomicsDB,这一数据库公布了18, 097个基因获得的蛋白,占目前预计人类蛋白总数(19, 629)的92%。这种数据能用于识别数百个翻译的lincRNAs,对药物敏感的标记,以及用于发现mRNA和组织中的蛋白水平之间的定量关系等。
这两个研究组都利用了质谱方法分析人类组织,Pandey研究组分析的是全新的数据,针对了多种不同健康人体组织的数据,其中包括七种胎儿组织和六种血细胞类型。
而Küster研究组则采用了稍微有些不同的方法,他们汇集了已有质谱分析数据,以及同事的一些成功,这些大约占据ProteomicsDB数据的60%。为了填补这些数据间的空白区域,Küster实验室构建了自己的质谱数据,分析了60个人类组织体液,13个体液,以及147个的癌细胞系。Küster表示,他们只挑选了高分辨率的公共数据,这些数据具有严格的计算过程,高质量控制标准。
“这两项研究可以互补”,加拿大多伦多Lunenfeld-Tanenbaum研究院的 Anne-Claude Gingras(未参与该项研究)评价道,“前者霍普金斯大学的研究真正发现了之前蛋白质组学的缺陷所在,从单一来源进行了人体蛋白质的研究,有助于通过他们的数据进行简单比对”,而后者ProteomeDB的研究,则将新内容与原有蛋白质组数据联系在了一起,正如Küster所说,就是发展和完善原有数据库,进一步从蛋白研究中汇集更多资源。
此外Küster实验室通过比较每个蛋白与mRNA水平的比例,发现翻译比例对于每种mRNA转录来说是一个恒定特征。“这是一个令人惊讶的发现,具有重要意义”Gingras说。
Steen表示赞同,“如果这个观点正确的话,那么将会给原有的法则提出新的内容。之前研究人员发现转录组合蛋白质组数据好似一个硬币的两面,”他说,“但这一分析又进一步表明,至少在稳定状态下,一旦一对mRNA/蛋白比例被计算出来,那么蛋白水平就能从特定的mRNA水平中估算出来。”
这两项研究提出的证据表明之前被认为不能翻译的DNA区域其实能进行翻译,这其中包括Küster 研究组发现的400多个基因间非编码RNAs(lincRNAs),以及Pandey研究组发现的193个新蛋白。但是这些新发现的蛋白质的生物学意义还不清楚。
“目前的基因组注释主要基于计算运算法则,”约翰霍普金斯大学研究员,人类蛋白质组图谱作者之一Min-Sik Kim说,“这些预测可能并不完全准确,这就是为什么需要直接分析蛋白的原因。”
Pandey研究组目前正在分析进一步分析胎儿蛋白质组,以及将蛋白质翻译后修饰数据添加到数据库中。这一研究组还希望能深入探索人脑器官,这一部分是目前公布的蛋白质组图谱中不包含的部分。
“我们一般认为,信息的传递是从基因组到转录组,再到蛋白质组。这些最新研究却表明,这其实是一个双向的途径——蛋白质组也可以用于注释基因组。其重要性在于利用这些数据集,我们能进一步注释基因组,改进预测转录和翻译的运算法则”,Steen说,“基因组学领域将从蛋白质组学数据中获益良多。”