从数字图书到DNA图书
2014-03-17林森
林森
联合国教科文组织对图书的定义是:凡由出版社(商)出版的不包括封面和封底在内49页以上的印刷品,具有特定的书名和著者名,编有国际标准书号,有定价并取得版权保护的出版物。
然而,图书的内涵是,它是信息和知识的载体。因为图书是人类用来记录一切成就的主要工具,也是人类交流感情,取得知识,传承经验的重要媒介。从形式上看,图书经历了石书、龟甲书、竹简书、布书(养蚕业与织布提供了布料)、纸书(蔡伦发明纸之后)和数字图书的历程。不过,现在一种新的图书——DNA(脱氧核糖核酸)图书已经进入人们的生活。
信息技术和生物技术结合的图书
DNA图书是数字(信息)技术与生物遗传技术结合的新结晶。
数字图书是用数字技术处理和存储各种文字、图片和音频的图书。数字图书是当今最先进的图书,是由数字技术编辑加工而成。数字技术的本质是电子计算机和网络信息技术,借助这些技术和设备可以将各种信息,包括图、文、声、像等转化为电子计算机能识别的二进制数字0和1,再进行加工、制作、存储、传送、传播、还原和出版。
在加工、存储和出版等环节中要借助计算机对信息进行编码、压缩、解码等,因此称为数码技术、计算机数字技术、数字控制技术等。依靠这些技术出版的图书称为数字图书。
DNA是包括人在内的高级生物的细胞的细胞核,其蕴藏的遗传信息不仅是海量的,而且也是有序的。这种有序就是其中的4个碱基的互补排序。DNA的稳定双螺旋结构是由4种不同的碱基来支撑的。它们英文名称的首字母分别称之为A(腺嘌呤)、T(胸腺嘧啶)、G(鸟嘌呤)和C(胞嘧啶)。
根据DNA的这种稳定搭配,研究人员设想,可以把数字技术与生物技术结合起来,编撰一种全新的图书——DNA图书。编撰DNA图书的可行性在于,可以利用计算机的二进制数字0和1与4种碱基进行转化编码、编程,把数字图书所编码的所有文字、图像、符号等再编码到DNA中,制作成DNA图书。在阅读时,再利用DNA测序技术把DNA密码还原为数字编码,就可以解码和阅读。
当然,DNA图书最吸引人的还是它与传统图书和数字图书相比的巨大优势。它的蕴藏量是无限的,其体积更小,远比光盘、U盘、硬盘更小,而且信息可以长久地在DNA中保存。根据DNA的半衰期,如果在零下5摄氏度的理想条件下保存,DNA的4个碱基可以保存680万年。这也意味着,制成的DNA图书至少可以保存上百万年。
比较起来,数字图书保存信息的弱点之一是存储时间较短。目前数字信息的载体都是磁盘(软盘、硬盘)和光盘。虽然数字生产厂商号称硬盘保存信息、数据的寿命不低于10万小时,但这只是理论值,在实际使用过程中,有许多因素会缩短这个时间。一般而言,硬盘保存信息比较保险的时限是3~5年,读写频繁的硬盘保存信息时间3年多一点,负荷不重的硬盘保存信息时间5年左右。光盘据说可以保存信息100年,但也是理论值。保险的做法是,10年左右要把光盘拿出来读一读,如果发现读取困难时,要及时翻刻一次。
同时,因特网上的信息储存更有时限。数字信息容易创建,也容易修改、删除,并消失。目前网上有超过40亿个公共网页,平均每天还有700多万新的网页出现,但是,网页的平均寿命为44天。所以,DNA图书在保存信息和数据上具有空间大、保存时间长的更大优势。
第一本DNA图书《再生》
美国哈佛大学维斯生物工程研究所的乔治·丘奇等人在2012年9月28日的美国《科学》杂志上发表文章称,他们成功地编撰出一本5.27兆比特的DNA图书,这本书不仅有文字,还有图,是图文并茂的DNA图书,书名叫作《再生》。这本书有5.34万个单词,还有11张JPG格式的图片和一段Java Script程序(Java Script又称爪哇脚本,是一种程序设计语言,即依据一定的格式编写的可执行文件,又称作宏或批处理文件)。
DNA图书编撰的原理是,把需要编撰的内容先转化为数字信息(电子文件),然后把数字信息按DNA的碱基顺序编码并合成,读取时再用DNA测序仪按编码规则将DNA图书转换解读为数字文件,就能在电脑上阅读和使用了。
根据这个原理,研究人员编撰了DNA图书《再生》后,再利用DNA测序仪来阅读这本书,内容可以成功地读出,这证明DNA能够被用来长期储存数字信息,也即可以用DNA来生产图书。这种新图书所储存的信息量是DNA原来储存的生物遗传信息量的1000多倍。也就是说,DNA图书不仅比传统的纸质图书储存的信息要多得多,也比DNA本身储存的遗传信息要多很多。
DNA图书的具体制作是,首先将《再生》这本书的文字内容和图片转化为HTML格式的文件,然后将这些文件编译为由0和1组成的大小为5.27兆比特的二进制序列。然后再用DNA的一个核苷酸(一个碱基)对应一个比特,把这个5.27兆比特的二进制序列按照顺序分配到多个96比特长的核苷酸片段中。
研究人员用的是短DNA序列而不是长DNA序列来编码数据,因为这可以降低写入和读取数据的困难和成本。在DNA上编码数据也相似于把数据储存到硬盘上,只不过在硬盘中数据是被写入被称作扇区的小硬盘块中。
用于编码和储存信息的DNA不过是一滴DNA液滴,当《再生》的全部信息(数据)和其他信息被编码到DNA之中后,DNA液滴被放置到微阵列芯片上储存。这些芯片在4摄氏度下保存3个月,然后溶解它们并测序,以便降低储存信息时的错误。每个核苷酸片段的每个拷贝被测序高达3000次,利用这种方式可以把这个5.27兆比特内容的书籍中的错误降低到只有12个。也即是说,存储在DNA中的内容能被准确无误地读取出来。
《再生》这本DNA图书的优势在于,它能长期存储信息,它的内容至少在1000年时间内也能够被读出。而且,由于DNA能储存更多信息,理论上计算,1克DNA即能储存上千亿个千兆字节,相当于1000亿张DVD光盘的内存。全世界一年的数码信息总量约为1.8ZB信息,可以被存储在约4克的DNA中(ZB是信息量单位,等于10的21次方,常见的GB是10的9次方)。纸质和磁盘存储信息是平面的,但DNA能折叠变化,即可以立体存储信息,存储密度非常高。当然,DNA图书也容易保存,因为DNA在室温下就非常稳定。endprint
但是,《再生》这种DNA图书也有明显的缺点。一是制作时存储数据过程比较缓慢。二是合成和测序DNA的技术非常昂贵,即把文字和图片等信息按计算机的二进制原理与DNA的4个碱基对应编码时,比较昂贵。相应地,对DNA图书的读取也比较缓慢,这也可能限制它成为一种普通的图书让人们在生活中简单而方便地阅读。当然,这种DNA图书还有一个缺点,只能读出信息和数据,不能改写数据。
改进的DNA图书——《莎士比亚诗集》
在《再生》问世后一年,另一本DNA图书《莎士比亚诗集》也诞生了。这本DNA图书是由欧洲生物信息研究所(EBI)的尼克·戈尔德曼等人编撰而成。该书编入了莎士比亚所有的154首十四行诗、一篇沃森和克里克DNA双螺旋论文的副本(沃森和克里克因此而获1962年的诺贝尔生理学或医学奖)、一张戈尔德曼等人所在研究机构EBI大楼的彩色照片,一段这次试验使用的软件算法,还有一段26秒来自马丁·路德·金著名演讲《我有一个梦想》的剪辑音频,信息总量约739千字节。
显然,这本DNA《莎士比亚诗集》的内容更丰富,而且包含了一个音频文件,也更符合数字图书的标准。与《再生》相比,DNA《莎士比亚诗集》的编撰更优化、更完善、操作性更强,也更实用。
戈尔德曼等人的编码比丘奇等人的编码更进了一步,他们把数字内容的二进制码(0,1)改成三进制码(0,1,2);然后用这种三进制码来对应DNA的4个碱基(A、T、C、G),从而将三进制码编写成一个DNA序列。一般情况下,每500个碱基的序列可能会出现一个错误。为了防止出错和漏掉内容,研究人员以每25个碱基向后错位的方式把这个DNA序列切割成若干个含100个碱基的等长片段,这就能使整个序列的所有内容都获得4个副本,例如,1、2、3、4;2、3、4、1;3、4、1、2;4、1、2、3。
当数字内容编写进DNA后,再用专门设备合成为DNA《莎士比亚诗集》。在读取或阅读DNA《莎士比亚诗集》时,先把合成的DNA《莎士比亚诗集》放入标准化学试剂,然后用DNA测序仪根据索引标识,将各个DNA片段依顺序粘贴成原来的DNA序列,再转译到数字文件的二进制码,从而形成电子文件,就可阅读了。
合成的DNA《莎士比亚诗集》只有砂粒般大小,静静地躺在试管的底部,连戈尔德曼还是经同事指点才发现了这本DNA《莎士比亚诗集》。在阅读时,研究人员用DNA测序仪把DNA《莎士比亚诗集》中的信息还原为数字文件,结果它与原始数字文件的内容百分之百重合。这种从DNA程序到数字程序百分之百的重合靠的是巧妙的设计。
在阅读DNA《莎士比亚诗集》时,研究人员发现有两个25个碱基对的序列不见了。缺了它们,这本DNA《莎士比亚诗集》的内容要么不全,要么会出现偏差,甚至难以读出。不过,由于在设计时就考虑到这一点,拷贝了4个副本,利用这4个副本完全还原了漏掉的数字文件的内容。而且,戈尔德曼等人也发现了碱基对丢失的原因,在未来只要修改一下程序,就不会发生类似丢失内容的问题。
DNA《莎士比亚诗集》的诞生也获得了丘奇等人的好评,他认为,戈尔德曼等人的研究让“我们终于有了一个真实的领域”。而且,类似DNA《莎士比亚诗集》的图书非常稳定,更容易保存,只需放在冷、暗、干燥处,没有恒温恒湿的苛刻要求。同时,DNA《莎士比亚诗集》的编撰使用的设备和方法都是生物学研究的常规工具,这可以让DNA图书的存储有效避开因设备技术更新换代而产生的许多麻烦,储存和阅读也更方便。
不过,与丘奇等人制作的DNA《再生》图书一样,DNA《莎士比亚诗集》同样有费时费力和成本高昂的弱点。数码信息编入DNA目前只能由专门的DNA合成设备来做,而从DNA中读取信息并还原为数码文件,也很费时。戈尔德曼等人用了整整两个星期才完成DNA《莎士比亚诗集》中5个文件739千字节的还原。
另外,戈尔德曼等人制作DNA《莎士比亚诗集》的存储费是,每一兆(MB,10的6次方)字节的钱是12400美元,并且在阅读时还要测序解读,需要再花220美元。这是常规磁盘储存费用的100多万倍。
同时,DNA《莎士比亚诗集》与DNA《再生》一样,编撰后就不能修改。这与数字文件的常规存储(硬盘和U盘)的便捷差了十万八千里。现在,人们只需花几十元或上百元人民币买一个16GB储存量的U盘,插入电脑,就能反复使用,包括下载文件、写文章、听音乐、看录像、做计算等。
由于不能重复使用、昂贵和读取时间长,DNA图书目前显然还不可能像数字图书一样被人们广泛使用,因此,其市场化也需要时日。不过,当有一天,研究人员通过新的技术攻克了DNA图书这些弱点之后,DNA图书也将走进人们的生活。那时,DNA图书将成为比数字图书更先进更实用的图书。
【责任编辑】张田勘endprint