以DNA为介质的信息储存方法的发展
2021-04-28王澳
王澳
摘 要:作为一种新兴储存方式,DNA储存系统以其极强的稳定性和极高的储存密度备受关注。尤其是近些年随着储存需求的快速上升,与之相关的研究也在增加,并取得了一些令人振奋的成果。本文从储存方法、汇编算法、未来发展等方面出发,简要汇总了一些科研成果,并提出可能的未来发展方向,以期为该领域的进一步研究提供帮助。
关键词:信息载体;DNA储存;DNA算法
一、绪论
自信息革命以来,随着计算机科学的发展与网络交流,人类文明的信息量成指数级增长,又被称作大数据时代。信息总量突破100ZB,这个数字还在以每18个月翻一番的速度急剧增长。[1]这要求储存装置必须要有更大的容量,还应当具有更快的运行速度,更可靠的储存质量和更高的安全性,同时还希望足够廉价。目前广泛采用的半导体颗粒或是磁性储存介质的固有缺陷愈发凸显且基于它们的研究陷入瓶颈,难以满足这日益增长的需求,而计算机存储体系越发显得后继无力,现有的方法或许很快将会逼近其理论极限。[2]值此时,我们对发展新一代储存装置提出了迫切的需求。DNA存储技术正是在这种情况下脱颖而出,受到广大相关行业的关注与支持。
基于核物理、高能激光、超强磁场等技术的进步,全息图储存、原子探针、非挥发性的磁性随机寄存器相继面世。[3]同时,伴随生命科学的进步,人类在自然中获取灵感。而DNA,即脱氧核糖核酸;以其出色的稳定性,高效的可复制性和无出其右的信息密度成为新的储存方式中强而有力的候选。在对其进行深入发掘后,以DNA为载体的信息储存技术的概念开始发声。研究表明DNA的编译方式非常接近计算机程序,它们都采用顺序编码,都采用数据纠错译码来保证信息的精确与完整,都通过点阵储存信息,同时,都可以通过特定的点阵区间进行纠错。因此,DNA储存天然有极好的向下兼容性,适宜作为未来的信息介质。同时以DNA分子为存储载体,以四种碱基排列组合来存储信息,信息存储量大,通过PCR扩增使成本降低,便于保存且安全高效,完美契合了当前我们对于信息存储的需求。
二、DNA储存技术的原理
DNA分子可以看作是很长的多聚核苷酸链,拥有数目巨大的位,因此,DNA天然具有储存信息的功能。DNA分子由两条互补配对的碱基链构成,在自然界中存在多种碱基分子,包括近年发现的5-胞嘧啶甲酰(5-formylcytosine),5-胞嘧啶羧基(5-carboxylcytosine),其中的4种A,T,G和C是构成DNA的主要碱基,它们的排列组合使得信息储存在DNA链中,编译生命活动。DNA储存技术利用这一系统将信息编码,通过生物或化学方法储存在DNA中与复制,测序操作共同完成储存器的读写和复制功能。这样,DNA分子就类似于磁盘,拥有储存与修改信息的功能。而碱基互补配对的过程就像是计算机的处理单元,从而又引发有关DNA分子计算,DNA存储器的热潮,吸引了大量尤其是计算机科学家的兴趣。
DNA计算是随着分子生物学的出现与发展而兴起的。1994年,美国加利福利亚大学的Adleman博士在《science》上首次发表了关于DNA分子生物计算方法的开创性文章,通过生化方法求解了7个顶点的哈密顿回路问题,显示了用DNA进行特定目的计算的问题。其研究开启了DNA算法的先河,引得众多学者的侧目。DNA分子计算研究受生物学、遗传学、计算机科学、化学等学科的交叉影响,内容涉及极广。这个新观念拓宽了人们对自然计算尤其是基本算法的理解。
三、DNA储存技术的优势
在漫长的生物演化中,生物体的一切生命活动都由它们的遗传物质操纵。为了保证生物体的最终目的即繁衍遗传,生命演化出了极端稳定的信息储存系统。研究表明,DNA的半衰期为512年,在理想环境中可以保存100万年以上依旧能识别完整信息。[4]这是现有的储存介质无法企及的。由于半导体颗粒的记录方法是储存电子现成电容阵列,电子的缓慢释放使得储存时间大约为10年,磁性储存器(硬盘,光盘或磁带)的储存是建立在磁畴阵列上,环境的变化及自身的干扰将使其发生不可避免的消磁。光介质例如光盘或全息储存系统虽然不会发生上述问题,但由于自身材料的性能保存时间也在数百年之内。于是,就有人发现了DNA,DNA能够人工合成再通过PCR技术大量扩增,这就为DNA作为信息储存的界质提供了充足条件。同时,做为一种高度折叠的分子,DNA的储存密度极大,达到TB级。通过PCR方法也能实现快速复制。磁力储存系统如磁带磁盘基于稳定性的考虑有最小磁畴面积,它们的储存接近极限。光系统也具有最小读取面积的问题。相对于传统储存技术来说,由于PCR能大量扩增DNA分子,所以批量生产的成本较低;它没有运动部件,也不存在断电问题,更加适合长久稳定的保存数据;DNA作为信息储存载体,其数据储存容量非常之大,远远超过当前的任何储存方式。综合来看,DNA作为一种新兴储存系统,在超长时间储存,大容量储存方向有极大优势,且具有稳定可靠的载体,检索速度极快,抗干扰能力强等优点,具有非常广阔的发展前景,未来随着技术进步极有可能成为一种常见的储存方式。
四、DNA储存系统的起源发展
为了实现DNA分子生理功能,DNA系统并非采用计算机语言中常见的顺序逻辑(由一般到特殊、由抽象到具体、由主要到次要、由现象到本质、由原因到結果、由概念到应用)通过并行算法及分布式储存单元,DNA系统在随机寄存性能和鲁棒性上表现良好。20世纪70年代,最早关于DNA进行信息储存的构想就被提出:通过碱基分子的排列记录二进制数据,通过生化方法进行记录复制。这一构想在1988年首次实现。1994年,南加州大学课题组实现了在生化系统中运算解决哈密顿圈问题。[5]次年,DNA储存器的首个模型被提出。[6]1999年,首次使用DNA链编码并恢复了23字节的信息,Kashiwamura在2003年制造了一个高密度的小型DNA存储器,又在两年后证明该系统的可靠性。在2007年生物学家把枯草芽孢杆菌作为试验对象,将信息刻入DNA。2012年1月,德国的联合科研团队利用三文鱼的DNA制造单次写入反复读取的存储器,但至多能存储30小时。2012年9月,哈佛医学院教授、遗传学家George Church的团队发表文章将5.34万字的书籍图片和程序存进了不到1沙克DNA中。2013年,Evan、Birney和Nick Goldman的研究团队将十四行诗一张格式图片一篇学术论文和26秒的演讲片段以及一个文档存进了微量的DNA片段里,把成果发到了《nature》上。2016年,微软研究团队将100部包括《战争与和平》在内的作品寄存在DNA中,又通过测序完整的读取出内容。同时通过对DNA进行包覆等方法进一步增加了稳定性。[7]甚至通过将编码基因导入活细胞中,实现信息的自我复制,准确度达到90%。[8]
五、DNA储存技术现存的问题
当今社会,每天产生的信息量都极为庞大,目前的信息储存技术已经难以完成如此巨额的工作,需要有更加适合的信息载体,DNA储存技术应运而生。相对于传统信息存储技术而言,它在包括写入、读取、检索、稳定、大容量、存储时间长,稳定可靠方面都有巨大的优越性。但目前尚存在部分问题,例如DNA作为遗传信息的载体,其存在与表达都需要其他蛋白质的参与,很容易受到外界因素的影响受到损伤,导致信息缺失,恐怕难以适应类似硬盘的信息储存。關于核酸蛋白质的序列和结构数据十分庞大繁杂,对这些信息的管理、控制、分析、解读也成为当前生物信息学的一大难题。DNA存储技术的发展还需要依靠生命科学的发展,还需我们对生命机理、对DNA序列有更深刻的研究和了解。诸如此类的问题还有许多,现在DNA分子存储技术还在起步阶段,要想真正投入生产使用乃至于取代当前的存储技术还有很长的路要走,还有许多技术难关需要克服,但应该相信其巨大的潜力可以在未来信息存储领域发挥巨大的作用。
六、DNA存储器的应用前景展望
DNA是人体的遗传信息载体,经过无数年的不断进化和残酷的自然筛选,DNA储存信息是一种安全可靠的信息储存方式,DNA储存系统的性能远远超过现有的任何一种人工手段。但由于DNA储存技术尚在起步阶段,人工编码特定序列的DNA及测序工作等工作还有很多困难,许多理论尚不清楚。单分子操作、生物编程、合成后的保护等技术都亟待解决。减少非特异性杂交与保留存储空间之间的矛盾彼消此长。[9]但或许通过增加人工合成的碱基使DNA具有更高的复杂度能解决这个问题,同时还可以确保合成DNA不能逃逸到自然界之中。[10]虽然DNA储存系统还很不完善,距离成熟可靠的实用储存器尚需时日。鉴于它的巨大潜力,许多机构都开展了相关的研究。例如Erlich等人发明的“水滴”法,将字符串随机包装成“水滴”,再将其映射到DNA上。使得每个碱基储存1.6Bt信息并增强DNA的抗逆性。[11]未来,一切都将是数字化的,数据训练算法也应用越来越广泛,以DNA为载体的信息储存技术也将越来越普遍。在这个信息大爆炸的时代,每天都有大量的信息产生,依照目前的发展速度,很快就将没有足够的信息储存和计算材料可供使用,就需要有新的信息储存方式,所以,研究DNA储存方式是极有意义和必要的事。相信在不久的将来,以DNA为载体的信息储存技术就会大量出现,得到广泛的应用。
七、结语
DNA储存技术是一种新型的信息储存方式,具有稳定可靠、储存量大、超长储存时间等优点,是生物与计算机科学的交叉学科,具有十分重大的意义。虽然现在DNA存储技术还有许多难关没有攻破,还需要生命科学的不断进步,对生命活动的不断认识与了解,但这几十年中不断取得的发展与成果十分可喜,也印证了DNA存储技术的巨大潜力。相信这些都不是问题,以DNA为界质的信息储存方式必然会取代传统的信息储存方式,成为新时代的主流。
参考文献:
[1]Hilbert Martin,López Priscila.The Worlds Technological Capacity to Store,Communicate,and Compute Information[J].Science,2011,332(6025):60-65.
[2]韦丹.磁信息存储技术的回顾与展望[J].物理,2004,33(9):646-651.
[3]方粮.未来存储新技术的发展方向[J].通信世界,2003,000(013):29-30.
[4]Kaplan Matt.DNA has a 521-year half-life[EB/OL].https://www.nature.com/news/dna-has-a-521-year-half-life-1.11555,2012-10-10.