纳米孔测序技术在DNA信息存储领域的应用
2023-11-24韩娜黄蕾强裕俊彭贤慧张婷婷李秀文张雯
韩娜, 黄蕾, 强裕俊, 彭贤慧, 张婷婷, 李秀文, 张雯
(1. 中国疾病预防控制中心传染病预防控制所, 传染病溯源预警与智能决策全国重点实验室, 北京 102206; 2. 成都齐碳科技有限公司, 四川 成都 610000)
脱氧核糖核酸(DNA)存储是一种以人工合成的生物大分子DNA作为信息载体的新型存储技术。有别于传统的以固体介质(如硬盘、光盘、可移动磁盘等)为媒介的存储方式,利用DNA的核苷酸序列(A、T、C、G组合)编码进而进行信息的存储和解读,具有并行性、高存储密度及低能耗等优点,近年来引起越来越多科学家的关注[1]。1996年,Davis[2]成功地将一段编码35 bit的黑白图像的DNA序列存储在细胞载体中,首次从实验上证实了信息可以在DNA中进行存储[2]。此后科学家们不断尝试将越来越多的信息存储在DNA中。2012年,美国哈佛大学Church等[3]将5.27 Mb的一本书的信息(包含53 426个单词、11个HPG图像文件和1个JavaScript程序)完整存储在DNA中。除图片[4]和书籍外,也有科学家成功地将其他类型的信息,如数字[5]、诗歌[6]、歌曲[7]等写入DNA并进行数据读取。随着DNA合成技术(数据写入)和DNA测序技术(数据读取)的突破性发展,DNA存储已成为下一代存储技术的热点。
相较于DNA数据存储技术的飞速发展,目前数据读取技术仍依赖于二代测序技术,虽然二代测序技术具有精度高、通量大等优点,然而仍存在操作复杂、耗时长且成本高的缺点[8]。常规的二代测序实验过程,包含文库构建(4~8 h)、测序(12~80 h)、数据分析(2~24 h)等多个步骤,步骤多、时间长,因此不能实现对存储信息的即时、快速提取。
随着测序技术的成熟和发展,新出现的三代测序技术[9-10]具有测序长度更长的优点。三代测序技术中的纳米孔测序仪具有便携性、实时读取信息的优点,更适宜于DNA存储信息的数据读取。为验证新出现的便携式国产测序平台是否可用于开展DNA存储信息的即时读取,本研究设计并进行了实验验证。
1 方法
1.1 文本信息转核酸编码器
基于perl语言开发文本信息转核酸编码器,将中国古诗词《将进酒》中的179个汉字信息依次转换为机内码、0和1数字串,再根据A和0、C和1的对应关系,将文本信息转换为核酸序列(图1)。
图1 DNA存储、样本准备、测序和信息解码流程图
1.2 样本制作
人工设计用于信息存储的DNA存储介质。设计含有插入序列的pGH质粒作为信息载体(图1)。插入序列结构为起始标记序列+信息序列+终止标记序列。信息序列采用A、C、G、T碱基分别代表0、1、空格和回车符号。每条插入序列的长度在400~1 000 bp内。序列合成委托生物公司完成。
1.3 文库构建和纳米孔测序
使用限制性内切酶HindⅢ对含有插入序列的pGH质粒进行酶切,得到线性化质粒样本。使用Qeagen-8测序试剂盒和国产纳米孔测序仪QNome-9604的Qcell-3841芯片对样本进行文库构建和测序。QNome-9604测序仪的测序原理为人工合成一种具有跨膜通道蛋白的多聚合物膜,通过在膜两侧施加不同的电压产生电压差,使DNA链在马达蛋白的牵引下解螺旋并通过纳米孔蛋白。由于不同的碱基跨膜时会形成特征性离子电流变化信号,根据电流信号可识别碱基信息,记录DNA链跨膜时的电流变化,从而读取到每条DNA链上的碱基信息,获得fastq格式的测序数据。
1.4 测序转文本信息解码器
Fastq格式的下机测序数据采用filtlong过滤掉小于400 bp和大于1 000 bp的序列后,采用minimap2[11]方法比对,将测序reads进行分组。基于分组结果,进行组内reads的错误纠正,并生成最终的consensus序列,再将ATCG碱基解码成相应的字节和符号,利用自开发的解码器将转换所得的0和1字符串转化为文字信息。
2 结果
2.1 DNA存储和样本准备
本研究选用了诗仙李白的《将进酒》作为待存储的信息,将诗中的179个中文字符利用方法中描述的文本信息转核酸编码器转化为核酸序列进行加密,最终获得3 843个碱基,分为6条序列(表1),长度范围为433~845 bp。将人工构造的6条序列分别合成后插入克隆载体pGH,形成可在大肠埃希菌中稳定传代的质粒。携带人工合成信息的甘油菌及其所包含的质粒可于-80 ℃冰箱中长期保存(如图1所示)。将6种质粒按照等摩尔比混合,制作成待读取信息的核酸存储物质,该物质可存储于-20 ℃冰箱短期保存。
表1 合成的6条序列信息
2.2 国产测序平台QNome-9604读取核酸存储物质信息
相较于二代测序仪,国产纳米孔测序平台QNome-9604具有便携性和实时产生数据的优点。采用该平台的Qeagen-8测序试剂盒和Qcell-3841芯片对本次实验设计的核酸存储物质进行测序,在4 h内持续产出数据,累计共获得38 210条测序序列,总碱基数98 510 636 bp,平均reads长度2 578 bp。
基于fastq格式的原始测序数据,利用自开发的测序转文本信息解码器进行信息的转码,解码过程中基于read多重比对实现测序序列的矫正,最终实时获得的解码结果如图2所示,成功实现了《将进酒》诗中的179个中文字符的134个字符的正确破译,破译成功率为74.9%。由于测序过程产生的部分插入或缺失碱基未能通过解码过程中的序列比对实现自我矫正,仍有45个字符未能成功破译。
图2 原始信息和解码信息对应图
3 讨论
DNA信息存储在信息数据存储方面具有极大潜力,早在20世纪80年代后期就已有科学家证明了DNA作为数据存储介质具备存储密度高、存储时间长、损耗率低等方面的能力和优势[12]。近几十年来,该领域的研究在存储的数据量和存储密度的最大化方面取得了重大进步。2018年,美国发布的《半导体合成生物学路线图》预测基于DNA分子的数据存储将有望解决海量数据存储、数据中心规模与能耗方面的挑战。2019年7月,《科学美国人》将DNA存储列为年度十大突破性技术之一。相较于DNA合成技术和DNA存储技术的快速发展,近年来测序技术的飞速发展使快速准确读取DNA中存储的信息成为可能。然而二代测序仍有着耗时较长的缺点,其技术原理决定了必须整个实验结束后才能读取测序信息,实验流程短则十几个小时,长则几天,目前尚未能实现对于二代测序实验过程中的数据实时读取。国产纳米孔测序平台QNome的出现,因其具备实时读取核酸信息的特点,使从存储于核酸介质中的信息即时读取成为了可能。本研究通过制作模拟样本,利用纳米孔测序平台实时读取信息,成功地从存储了一首中文诗歌《将进酒》的核酸样本中破译信息,耗时4 h,破译成功率为74.9%。
测序技术不仅在读取DNA存储方面发挥读取信息的作用,近年来在临床医学、公共卫生领域也发挥着重要作用,例如未知病原的检测等等。除华大智造BGIseq/MGIseq测序仪外,目前主流的测序仪器(如Illumina、Ion、Nanopore)仍为国际垄断,而华大智造的BGIseq/MGIseq测序仪为二代测序技术,目前仍不具备实时读取信息的能力。此前,国际上仅有Nanopore测序仪具备测序时实时产生数据的能力,该品牌为英国产品,目前已被证明可应用于DNA存储数据(如1.67 Mb的图画)的准确解码和实时读取[13]。国产测序品牌QNome为目前国内第一款商业化的纳米孔测序仪,具有实时测序的能力,本研究实践验证了其从存储DNA信息的介质中即时读取信息的能力。在成本方面,国产QNome-9604测序仪单次运行成本约9 000元,相较于国际品牌有一定的成本优势,也提示了未来在国内DNA存储信息领域获得实际应用的可能性。然而,本研究虽然揭示了纳米孔测序技术在DNA存储信息即时读取方面的可能性,但同时国产QNome测序仪在准确度方面仍待进一步提高。本次实验测序数据量较低且数据矫正方法有待提升,目前本次解码实践仅实现了74.9%信息的即时读取,仍有待在测序通量、测序芯片信号读取的准确度和电信号转码过程中的矫正算法等多个方面做进一步的改进。随着DNA合成和国内各品牌测序平台的进一步发展,DNA存储和基于测序技术的信息读取技术有望彻底改变未来数据访问和计算领域。