近日发表在《Science》上一项研究(点击左下角阅读原文)让我们叹为观止。科学家利用一种手机视频流算法展示了如何最大化利用DNA的存储潜力。他们的方法能够将215PB(1PB=1024TB)数据存储在一克DNA中,这几乎是两倍于Google和Facebook服务器上数据量总和。这个数字比人们之前认为的要大100倍。此外,研究人员还将一个操作系统和一部电影编码存储到DNA中,并且成功的从DNA序列中获得了数据,且没有任何错误。
人类每天要产生2.5quintillion(百万的三次方)字节的数据,而且这个速度还在加快。IBM估计现在世界上90%的数据是在过去两年中产生的。随着人类生活越来越多的用数字化存储,这个趋势只会继续扩大。现在的存储设备已经无法满足巨大量数据的需求,所以人们开始考虑DNA。
DNA常被称作“生命蓝图”,原因显而易见。人体中的每个细胞都被碱基序列(A, G, C 和 T,核苷酸碱基)编码。从上世纪50年代James Watson发现DNA起,科学家们很快就意识到它可以以很高的密度在几个分子内就存储巨量数据。此外,DNA可以长期稳定地保存,最近的研究从430000年前的人类祖先身上恢复出了DNA。
纽约基因中心(NYGC)的Erlich和同事选择了六个文件写入DNA:一个完整的操作系统、一部1895年的电影、一个50美元的亚马逊礼品卡、一个计算机病毒、先锋号飞船上的牌匾,以及信息学家Claude Shannon一项1948年的研究信息。
纽约基因组中心的Yaniv Erlich和Dina Zielinski
所有文件被压缩到一个文件中,然后被分割成二进制的短字符串。研究人员利用喷泉码使读写更加高效。利用这种算法,他们将1和0映射到核苷酸碱基A, G, C 和 T上。这种算法对于存取数据非常必要,因为它能够纠正和删除会导致错误的字母组合。
他们最终生成了一个由72000个200碱基长的DNA链组成的文本文件。之后他们将这个文件发送给旧金山一家名为Twist Bioscience的创业公司,该公司通过合成DNA将所有的数字数据转化为生物数据。两周以后,Erlich收到了一个含有DNA的小瓶子,所有的信息都被编码在里面了。
研究人们利用常见的DNA测序工具和一个将碱基转换为二进制的特殊软件成功地提取出了数据。整个过程非常顺利,信息没有任何错误。
Erlich用虚拟机安装了他存储在DNA中的操作系统,并玩了扫雷游戏。“我们相信这是有史以来密度最高的数据存储设备”Erlich说。
Erlich没有就此停步。他和同事展示了这些编码数据可以任意多次地拷贝。如果想要拷贝数据,只需要通过聚合酶链反应(PCR)复制DNA即可。研究人员发现,经过多次拷贝的数据也可以毫无错误地还原出数据。
但是也存在一些值得注意的事项。合成DNA花了7000美元,再把数据读取出来花了2000美元。但值得庆幸的是测序DNA的价格正变得越来越便宜。15年前对人类DNA进行测序要花费27亿美元,到了2008年下降到1000万美元。在不久的将来,它还会变得越来越廉价。
另外一个必须提的事情是,DNA存储并不适合普通使用。你不能在家里使用电脑将硬盘用DNA替换,因为读写时间需要花上几天。但是DNA对于存储每天产生的巨量数据是一个好的选择。也许在未来某一天有人会发明出在分子中非常快速的编码解码技术,但这目前看起来难度还是非常大。