APP下载

DNA折纸术
——全编程的信息工具

2019-05-07

关键词:折纸芯片网格

(北京大学 信息科学与技术学院, 北京 100871)

DNA是生物遗传信息存储和传输的重要分子,同时也是天然的纳米材料和元件[1].研究者们利用DNA设计和构建各种纳米结构和器件,如DNA芯片[2]、纳米机器人[3-4]、DNA信息存储[5]、DNA计算等[6-7].这些新科技词的出现,表明了DNA在信息领域具有巨大的潜力.

DNA纳米技术起源于20世纪80年代美国纽约大学的Nadrian Seeman的奇思妙想.他试图将通常认为是遗传信息载体的DNA作为材料来构建各种纳米尺度的形状或结构.最初的时候,DNA纳米技术仅能构建简单的几何图案和二维对称图形.随着研究的深入,特别是2006年Rothemund[1]创造性地提出了DNA折纸术,给DNA纳米技术领域带来了突破性的进展.DNA折纸术是利用一条长的DNA单链,像折中国结一样来回折叠出特定的形状,同时设计出上百条短的互补链,用于和长的DNA单链互补来固定折叠形状.用来折叠形状的长链条称为scaffold链条,用来固定折纸形状的短链称为staple链.一般常用的scanffold链条为7 249 nt的M13mp18噬菌体的环状单链.折纸链条上所有的DNA序列都是已知的,可以在任何部位进行增减删除和连接.而且DNA折纸具有很强的鲁棒性,结构稳定、刚性强、尺寸可控.因此,DNA折纸结构是完美的纳米级全编程的信息工具.

经过近20 a的发展,DNA折纸术可应用于生物医药[8-9]、结构材料[10-11]、分子机器[12-13]、生物计算[14-15]等多方面.特别是近几年来,DNA纳米技术结合新兴的人工神经网络[16]、人工智能[17]、大数据存储[18]、大规模并行计算技术,相比于传统的电子计算机,DNA计算有着独特的优势.

1 基于DNA折纸的计算模型

DNA计算具有巨大的潜力,传统计算机由于面临摩尔定律的失效,其发展已经快要达到顶点.而且,传统的计算机还面临着能耗巨大,计算速度有限,串行连接效率低等问题.DNA计算有大并行性、微量化、能耗低、存储密度高等优势.DNA计算的速度比当今计算机最快的运算速度(1019次/s)还要快上许多倍,而且它只需要极少的能量(按1019次/J运算).DNA计算的第一个实验从1994年Adleman使用DNA解决著名的NP-complete计算机难题(旅行商问题)开始[19].事实上,适用于DNA折纸的计算模型要比DNA折纸术更早的提出和设想过.

1.1 粘贴模型

加州理工大学的Roweis等[20]在1996年提出了一种粘贴模型,利用DNA链条的互补配对特性进行识别操作的DNA检索模型.在一条长的DNA链条上进行合并、分离和清零等操作,实现DNA计算.该模型同样也可以应用于DNA折纸结构,1998年Winfree[21]在博士论文中对粘贴模型进行了改进,提出了多种基于识别、粘贴的计算模型,图1所示的为Winfree提出的2D和3D块计算模型,完美契合DNA折纸术(虽然8年后DNA折纸术才被发明).图1中,左列为基本计算模块.右列为特异性组装计算模型结构.

基于同样的粘贴思想,Nadrian Seeman等在2000年成功地实现了基于DNA结构的XOR异或运算[22].2004年,Rothmund等[23]合作完成DNA谢尔宾斯基三角的计算实验.作为DNA折纸术的发明人,Rothmund对这种计算模型具有更深刻的理解.进一步地,Winfree[24]设计了一种通用的2D计算模型(图2),该模型利用DNA块的特异性识别和粘贴,可控方向、可控种类的生长实现了一系列NP完全问题的计算模型转换.

图2 通用计算模型框架Fig.2 A general computing model framework

图2中最下方一行为输入数据,中间的连接结构为计算过程,最上方一行为输出.不同形状的组件块代表着不同的计算单元.

该模型具有很强的扩展性和可靠性,在当时直到现在都具有很高的适用性.该模型要求输入组件要有稳定的结构,输入组件首先成型,并且只有在正确匹配的情况下才能粘贴到晶体上.通过对组件块的粘性末端编码,使得它们满足计算逻辑的需要.并且通过对组件块的设计,能让它们在更高的温度下保持稳定.通过对温度和结合域的调整保持平衡,实现最终的计算结果.

基于这种思想,国内外很多专家学者设计出了一系列的DNA计算模型.强小利等根据二部图完美匹配的规则和他们之间的连接关系,设计出DNA自组装计算模型,用于求解二部图完美匹配问题,见图3(a)[25].李肯立等设计出最大团问题的DNA自组装模型,见图3(b),减少了解的空间规模并通过实验仿真出了正确结果[26].

图3 DNA粘贴模型解决图论问题Fig.3 DNA stickup model solves graph problems

除此之外,还有:李肯立等[27]设计的最大匹配问题DNA计算;殷志祥等[28]设计的顶点覆盖问题的计算模型;网格聚类的DNA计算模型等[29].这些模型无不应用了DNA块的拼接模型.无论是已经实现的模型还是未实现的模型,DNA折纸结构无疑是最为合适的计算单元.

1.2 网络模型

近5年来,研究者们越来越不满足于简单的粘贴模型.随着神经网络的兴起,如何利用DNA块搭建大规模网络成为研究的热点.2015年Schiefer等[30]设计了一种基于DNA自组装的化学反应网络-CRN(Chemical Reaction Network).在该网络中,他设计了6种化学反应方程式(图4),分别是前向反应和删除反应、生成反应和重置反应、激活反应和淬灭反应.将计算块按照每一种反应方程式进行编码,这样计算块就能按照预定设计,自发地进行反应,计算的结果由自组装的结构输出.最后他详细地论证了该模型是图灵等价的,并通过对计算模块进行编码,仿真了一系列NP完全问题.

图4 6种反应方程式Fig.4 Six basal chemical reaction for CRN

在图5的模型中,作者给出了一个柯尔莫果洛夫最佳组装的示例.并证明所有的平面形状都可以用该CRN网络实现柯尔莫果洛夫最佳组装.除了Schiefer设计的CRN网络,还有许多研究学者设计出其他类型的CRN网络.比如明尼苏达大学的Keshab等设计的CRN网络,该网络可以实现复杂的高等函数计算,Parh课题组通过Visual DSD软件仿真出这些高等函数的计算结果[31].除此之外,比较重要的计算模型还有如加州理工钱露露组设计的seesaw门[32],北京大学许进提出的探针计算模型等[33].由于以上计算模型是通用型的计算模型,并非只用于DNA折纸计算,因此这里不再赘述.

图5 柯尔莫果洛夫最佳组装示例Fig.5 Kolmogolov optimal assembly example

事实上,要实现复杂的计算过程,计算模型必须同时具有粘贴、剪接、增加、传递、检查等多种特性.DNA折纸虽然能具有其中几个特性,但是复杂的计算过程往往是多种条件综合的结果.例如DNA聚合酶、外切酶的作用,DNA分子的连接和扩增作用的综合效果.DNA折纸作为其中的计算单元有良好的特性,但更加完善的计算,需要更加高效准确的手段.

2 基于DNA折纸的计算机

DNA结构虽然很普通,但却对生命有着重要的功能,并且DNA分子已经成为化学、结构、计算机科学等许多领域的研究基础.由于DNA的反应必须要在溶液中进行,因此,DNA计算机也是溶液中的机器.构建基于DNA折纸的计算机的目标是发展成为能在获得生物体中进行工作的纳米计算机.通过生物体的特性帮助实现计算过程,并实现对周围环境的监测做出判断.

2.1 DNA计算游戏

DNA计算机的一个挑战就是如何将上百个逻辑分子有序的整合到一个系统,这是非常重要的一点.幸运的是DNA折纸具有很高的延展性,DNA折纸表面可以进行计算的标记,探针链条的设计,能够进行信息的传递和表征.还有DNA折纸自组装能够形成大规模的可控晶体,这为设计纳米电路,DNA芯片提供了完美的解决方案.加利福尼亚理工学院的Qian小组设计出大规模的DNA折纸计算机能够完成三子棋的游戏[17],见图6.它能够通过2种不同的标记(○和×)显示出双方所有的动作(人与DNA计算机),双方轮流在9个方格(3×3的棋盘)中落子,当3个棋子连成一条线时即为胜利.DNA计算机能穷尽所有的下法,表现出很高的智能性.

图6 DNA计算机游戏——三子棋
Fig.6 DNA computer game-Three chess

2.2 DNA分子神经系统

据《自然》杂志2018年发表的一篇论文,科学家已经建立了一种能够识别手写数字的DNA分子神经系统[16].手写系统的识别在深度学习中是一种非常常见的任务.研究者通过20条DNA链条设计出1~9等不同的手写数字,并将这些手写数字编码为不同的模式.在10×10的网格中显示出不同的数字.通过训练的神经网络识别特定的模式和相关的数字,并将其与训练的数组进行匹配,对结果进行验证.图7所示为DNA分子精神系统识别手写数字的示意图.

图7 DNA神经网络识别手写数字Fig.7 DNA Neural Network to identity numbers

在具体的实验操作中,10×10的网格是设计在DNA折纸表面.DNA折纸作为计算平台不仅是数字模式的基底,而且是结果检测的介质.通过对计算平台的检查(原子力显微镜、电子透镜),可以直接观测出DNA神经网络的识别结果.这种DNA神经网络不仅能够用来识别手写文字,还能用来进行医学检测或构建分子生物电路.

目前DNA计算机所能计算的问题还都停留在中小型问题上,大规模的计算依然面临着多种计算单元块整合的问题.因此,虽然DNA计算机从理论上来说比传统的电子计算机要快很多,但是在实际工作中存在着大量待克服的困难.不过,DNA更适用于求解普通电子计算机难以解决的某些特定问题,例如图论问题、信息加密等问题.DNA由于本身的特性,要比电子计算机更为适合.

3 DNA信息存储工具

目前全球数字信息的重量为3.52×1022bit,预计到2040年将增长到3×1024bit[34].基于磁带的存储数据会在20年内恶化,而硅芯片的数据存储密度有限.硅芯片有限的数据存储能力还具有严重的局限性,例如对人体健康存在危害和对环境污染.世界各地研究人员都在寻找合适的替代方案,DNA由于具有耐久性、更高的信息存储密度,以及具有和电子计算机0/1相似的存储逻辑,因而成为最吸引人的选择.

DNA具有取代传统硬盘的所有特性,因为和传统的磁体颗粒相比,它能够保存10倍以上的数据,具有千倍的存储密度,并且消耗的能量及其微小.近些年,以DNA作为存储介质的研究发展迅速.图8是DNA信息存储的简要年代表.

图8 DNA信息存储年代表Fig.8 Chronology of DNA information storage

最先使用DNA作为信息存续工具的是,1988年Davie将古日耳曼符号写入到18 bp的DNA链中[35].之后DNA信息存储开始了快速发展.2年后Eduardo等就将129个字符文本转化到DNA信息存储中[36].2001年Bancroft等[37]甚至将狄更斯的小说存放在了DNA里,2005年DNA2.0公司把圣经写入了DNA的序列[38].除了文本和图像信息的存储之外,电影、音乐数字信息等也能同样的存储在DNA信息里.例如,2009年Ailenberg等[39]编写了音乐和视频信息,2013年Goldman等[40]对DNA序列编写了740 K字节的数据,包括了莎士比亚的十四行诗、MP3文件和图像等数据.甚至还有编程爱好者把自己编写的java程序写入了DNA序列[41].目前最新的研究成果是Erlich等使用DNA Fountain策略编码了2.14×106字节的数据,包括有完整的计算机操作系统和电影[42].DNA作为纳米级的信息存储载体,无疑是最佳的大规模信息存储材料.

然而DNA存储也存在一些问题,现有的DNA信息的读出方式还依赖于测序,这种方法缓慢且消耗大.另外DNA合成复制过程可能出现碱基错配缺失,严重影响着DNA存储的可靠性.DNA作为未来的数据存储设备具有巨大的潜力,但是它也需要解决多个瓶颈.例如DNA合成过高的成本,极其缓慢的写入和读取机制以及容易受突变或错误的影响.不过DNA作为未来分子,是最有可能解决未来数据紧缩的方向.

4 DNA芯片和微流控芯片

4.1 DNA芯片

随着科学技术的进步和人类社会的发展,人们越来越希望提高自身的体格,维持自身的健康状况.例如,现代人普遍关注三高问题,关心家族是否有遗传病、自身患癌症的概率、身体代谢情况等,这些与人类的生命健康息息相关的问题都可以通过一种叫做“DNA芯片”的技术来掌控.

DNA芯片是一门新兴的科学,是与生命科学、微电子科学、物理学、化学等多种类科学交叉的技术,既有重要的实用价值,又有重要的科研学术价值,已经成为高科技、工业界、企业界的重点关注对象.

DNA芯片实际上是一种高密度的寡核苷酸的DNA阵列,它使用电子束光刻或化学生物的方法,将大量特定的DNA探针有序的固定在玻璃或硅介质的基底上,成为储存大量有序可控信息的DNA聚合体.

DNA芯片可以将人类全部的基因序列集中固定在大约1 cm的芯片上.目前已经可以达到的密度是40万个探针/芯片,每个探针之间的距离在10 μm以下.将DNA芯片放到目标检测物中的时候,即可检测出大量生命信息,DNA芯片也可用于基因的鉴别和检测、基因突变和基因表达等.

目前DNA芯片主要作为DNA信息处理的工具,这是因为DNA芯片上集成的是DNA探针序列的信息.DNA芯片可以大规模并行的处理相应信息,也可以快速高效的同步获得大量的数据,因此,DNA芯片很可能成为未来生命科学、电子科学和医学中革命性的方法.

DNA芯片与传统的电子芯片相比,最大的优势就是在于DNA探针数据的高密度和高准确度.目前以硅片作为基质的芯片无法突破纳米极的限制,而DNA芯片特有的纳米级准确度使得DNA芯片要比传统的电子芯片有更大的优势.相应的纳米级的检测手段,目前也取得了长足的进展.这其中包括有共聚焦荧光显微镜技术、扫描近场光学显微镜和原子力显微镜技术在内的技术手段,为研究者们提供了精确的实验方法.

相信DNA芯片对信息领域有着非常重要的应用,乃至对工业、农业、人类健康和环境等国家重点项目可以做出重大的贡献.

4.2 微流控芯片

微流控芯片可以实现全样品的分析,通过控制溶液在微流控芯片通道中的流动,能实现样品的分离和分析.微流控芯片可以控制DNA探针在特定的PCR环境下信号放大、杂交及分析检测.因此,虽然微流控芯片非常小,但是与电子芯片相比,却是处理、存储、判断分析等功能都一应俱全.

如何将实验室的各种仪器的功能如生物和化学等领域中所涉及的样品制备、生物与化学反应、分离、检测等操作单元转移到微型分析设备中,甚至几平方厘米的芯片上,是非常重大的挑战.微流控芯片在满足这些功能的同时,更要实现仪器的体积微型化和便携化、功能集成化、分析快速化.微型全分析系统是一个交叉的领域,已经不是简单的分析化学科学,它既建立在分析技术的基础上,又融入了微电子加工技术、生物科学、材料和光学等学科,同时又需要物理、化学的理论支持.

微流控芯片的微通道能够纯化、分离样品和控制液体流向,当前微型全分析系统研究热点集中在微流控芯片上.微流控芯片可以对样品进行采集、处理、分离、检测、定性和定量等操作.

分离和检测是分析科学的重点,也是微流控芯片目前研究的热点.在芯片通道内可以对空的毛细管通道进行分离,也可以填充各种分离介质来扩大柱内表积,增强通道柱效.在这几种方法中,将各种功能元件组装到微流控芯片是当前芯片发展的趋势和特点.它现在主要应用于检测生物样品,且集中在蛋白质和核酸2个方面.根据不同的生物样品、设计思路,整合的元件亦不相同.对蛋白质的检测,可以根据蛋白质的一些理化性质(如等电点、特异性结合物等特性)来设计,而核酸就要考虑是否需要PCR扩增或者序列是否已知.在毛细管电泳中,实现快速、高效的分离可以通过施加高场强来达到,但是高场强产生的焦耳热降低了分离效率.在毛细电泳中就存在这个瓶颈,对芯片毛细管来说,由于厚度很小,具有优良的传热效果,可以通过提高场强来提高分离效率和分离速度.在某些试验中,芯片毛细管电泳的场强比普通毛细管电泳场强高一个数量级.在普通毛细管上的一些技术,如自由溶液区带电泳、凝胶毛细管电泳、胶束电动毛细管色谱、电色谱等,都在芯片上得到开发应用,甚至凝胶的双向电泳都在芯片电泳上得到实现.

5 基于DNA折纸的线框构型计算

DNA折纸由于其全编程的特性在二维以及三维的结构上有着独特的优势.然而有限于DNA折纸骨架链条的长度,其构成的结构大小有限.如何利用有限长度的骨架链来设计出尽可能多的种类、大小的结构,是摆在研究者面前的难题.

由于DNA折纸是全编程的工具,一种解决办法就是利用DNA骨架链条构建线框.仅用DNA来搭建目标结构的框架,而把中间空缺出来.如何解决这个问题,如何使得构建的线框结构稳定并且满足DNA的螺旋特性,如何使得staple链特异性最高,这些问题都是摆在基于DNA折纸的线框构型上的计算难题.

核酸分子自组装是通过平行排列的DNA螺旋结构来构建2D和3D纳米结构[43-47],线框结构可以通过这种策略实现,图9为一些3D结构的例子.DNA 网格是一种复杂的线框架结构,它在DNA结构设计中有很大的难度.在DNA 网格设计中,一系列四臂连接点被设计为结构的顶点.线性的双链DNA用于连接这一系列四臂结构,以形成设计的线框形状.DNA 网格可用于组装二维阵列、多层结构、三维结构和曲面物体.

图9 三维线框的DNA纳米结构Fig.9 3D wireframe DNA nanostructures

在DNA网格的设计中,有一套经典的Holliday中间体(4臂连体)被用作基本结构.其支架链的双螺旋方向不限于一维并行,而是栅格排布的.通过设计不同长度的DNA片段进行连接,可以构建复杂的线框几何图形(图10).

(a)52-bp空腔尺寸的双层格子网格.黄色圆圈表示允许连接点到第三层.虚线对应于可能的连接点以形成附加层;(b)双层格子网格(X和Y长度)和第三层交叉点之间的距离,角度q可以计算为180° -cos-1 [(X2+Y2-L2)/2XY]; (c)交织在一起的网格框架; (d)3层6角网格设计的原理图(左),AFM(中)和TEM(右)图像,q=120°; (e)4层网格设计;(f)通过使用垂直链接组装的3D网格.所有图像比例为200 nm×200 nm.

图10 多层网格设计策略
Fig.10 Multi-layer gridding strategy

虽然可以直接在水平和垂直方向连接4臂连接结构就像制作烤架一样,但这种方法需要一些非常规的链接特性[48-50],如图10(a)中设计的DNA 网格结构.该结构的DNA链极性为从5′到3′. 在这个DNA 网格结构中,4个4臂结构连接在一起形成双螺旋的2层方形框架.假如连接链是反向平行排列的,则该结构无法扩大连接下去.

在图10(b)中,四臂结构都以其松弛的构型来描绘,使得螺旋形成具有向右60°扭转角扭曲. 每个连接处都需要从松弛构象到垂直构象来形成网格单元格. 首先,水平取向的螺旋(顶部和底部)中的红色链可以连接在一起以产生连续的链. 接下来,垂直取向的螺旋连接旋转角度,以便在上下连接点之间形成连续的5′至3′端的连接,见图10(c).

连接多个网格单元可形成各种2D格子,见图10(d)、10(e).蓝线代表DNA链形成稳定的螺旋结构,并具有连续的碱基堆积.这种连续的堆叠对于保持整体结构刚性是非常重要的.右侧为原子力显微镜下观察到的结果.在最基本的设计中,脚手架从一个角落开始,填充第一层,在对角处改变方向,然后填充第二层,以产生2层内的垂直螺旋结构.最后,脚手架回到其初始位置并形成闭环,见图10(f).

通过改变相邻连接点之间的碱基对的数量,可以改变格子结构的空腔尺寸.同时也可以在没有支架链的情况下创建DNA 网格结构.

DNA线框结构的设计,体现了DNA折纸术强大的自组装能力[51].近十几年来人们高产率的构建了种类繁多的、具有各种不同类型和几何结构的DNA形状.结构DNA纳米技术能够对特性几何形状、周期性、手性和拓扑等性质进行精准的控制,DNA折纸术自下而上的组装为纳米技术提供了无尽的应用,体现了DNA折纸术无穷的魅力.

6 结 语

经过近十几年的发展,DNA折纸术取得了一系列令人瞩目的重要进展.DNA自组装从简单的一维到二维到三维结构的组装结合,以及在自组装的发展过程中,人们对信息处理的能力不断提高.每一次技术的突破都会伴随着相关领域的快速发展和其他科学的融合.目前DNA组装在信息领域的应用不仅限于简单的信息存储和解读,而是和其他很多相关学科有联合.随着人们对DNA自组装认识的加深,DNA自组装将会在许许多多方面应用和扩展.

可以预见DNA自组装在一些新兴的研究领域,例如合成生物学、生物信息学、神经网络学中获得一些尚未发现的突破和应用,逐步实现人类对自然的认识和模拟.相信DNA自组装将会在功能化的道路上实现更广阔的应用.

对目前DNA在信息领域的应用而言,DNA由于其特有的性质无疑是最为合适的未来信息处理的工具.但是制约DNA计算、DNA信息存储的关键还是在于目前人们所能掌握的生化技术还远不能达到进行复杂信息处理的需求.人们致力于希望使用DNA构建大规模纳米电路、复杂的神经网络.如果DNA计算机要像电子计算机一样方便地工作,还需要多领域的研究者们共同努力.我们相信DNA计算机有朝一日会被广泛应用于人类的生活当中.

猜你喜欢

折纸芯片网格
用全等三角形破解网格题
芯片会议
关于射频前端芯片研发与管理模式的思考
反射的椭圆随机偏微分方程的网格逼近
重叠网格装配中的一种改进ADT搜索方法
折纸鹦鹉
折纸
折纸图形
折纸
基于曲面展开的自由曲面网格划分