从全球专利分析看DNA合成与信息存储技术发展趋势
2021-07-21陈大明张学博刘晓马悦熊燕
陈大明,张学博,刘晓,马悦,2,熊燕,2
(1中国科学院上海生命科学信息中心,中国科学院上海营养与健康研究所,上海 200031;2中国科学院大学,北京 100049)
随着信息量的指数式增长,开发新型的数据存储技术已成为各界关注的焦点。磁芯存储器在20世纪中期曾用于早期计算机,但由于随着其体积变小性能会变得不稳定,导致后来为半导体存储品所取代。如今,硅基集成电路已经极为常用,但其数据存储密度仍然无法满足高速增长需求。为此,也有研发者试图以纸为基板,在其上集成超小型半导体元件,但其相对于硅基集成电路的改进主要体现在成本和环保优势方面,仍然无法满足万物互联时代的高密度、小体积的存储要求。在人类已研发的存储介质中,DNA作为存储介质具有高密度、高稳定性、高保密性、小体积、易拷贝、可并行访问、强兼容性的优点。
DNA合成和存储技术涉及生物学、化学、信息科学、机械技术、电子技术、软件技术等多领域的集成,系统揭示其发展脉络及技术谱系,有利于更有效地攻克信息存储难题。专利文献集中体现了发明人的智慧,对其进行系统检索、鉴别、统计、分析和研究,可以较为完整地厘清全球DNA合成和存储技术的发展现状,分析该领域的主要专利申请人(专利权人)的技术布局,识别已有的技术路线、未来的发展潜力等。本文作者在前期合成生物学专利分析[1]基础上,聚焦DNA合成和存储技术,综合利用关键词、国际专利分类、专利权人、发明人检索等方法,检索并筛选出全球范围内DNA合成和存储相关的1833件专利(不包括DNA存储技术所需的基因测序专利,也不包括专用于诊断、治疗等其他应用的DNA合成专利),在逐一阅读和比对的基础上,综合运用专利价值分析、引证分析、聚类分析、技术功效分析等方法从中筛选出具有代表性的专利,以期为该领域的研究开发、专利布局和运营等决策提供参考。
1 DNA合成与存储技术的发展阶段
20世纪50年代,利用磷酸二酯法实现了寡聚二核苷酸的合成[2],在此基础上不断完善了寡核苷酸合成方法[3-6]。20世纪80年代开发的基于亚磷酰胺的DNA合成法[7]为DNA合成仪的创制奠定了基础。早期的DNA合成,主要用于分子生物学研究,应用范围相对较窄。21世纪以来,随着合成生物学的发展[8],DNA合成受到关注。不过,在21世纪前十年,DNA合成的应用中,面向DNA存储的专利布局有限。究其原因,早期的柱式合成法不仅成本高[9],而且合成通量较低、合成的错误率也较高[10]。为降低DNA合成的成本,研发人员试图采用基于微阵列的芯片来合成DNA[11]。在此之前,微阵列主要应用于生命科学和医学的分析仪器中[12-13],这也为后来的第二代合成仪的开发提供了启示。并且以此为基础,开发了光刻合成、电化学脱保护合成、喷墨打印合成这三种芯片式原位合成技术[14-16]。虽然这些合成方法在化学原理上仍是亚磷酰胺化学合成法,但由于借鉴了半导体领域的工艺,使合成通量实现大幅提高。其中,喷墨打印技术又因其高通量、高效率、低成本成为最受关注的焦点,并极大推动了DNA合成的发展,相关专利数量也大幅提升。2013年,美国半导体研究联盟启动“半导体合成生物学”(semiconductor synthetic biology,SemiSynBio)计划[17],使半导体与合成生物学的交叉融合进一步加深。2018年美国发布“半导体合成生物学路线图”[18],进一步推动半导体与合成生物学的融合“会聚”。在此背景下,DNA合成与存储的专利数量快速增长(图1),一方面是由于半导体技术在DNA合成中的应用,另一方面是投资者看好DNA存储可以作为半导体存储器的互补技术。此时,亚磷酰胺化学合成法的进一步改进是重点,而末端脱氧核糖核苷转移酶(terminal deoxynucleotidyl transferase,TdT)等聚合酶的酶促合成法[19]的研发,在实现其合成效率可较亚磷酰胺化学合成法高一个数量级的同时,也促使相关专利布局渐次展开。
图1 2001—2020年公开的DNA合成与存储专利数量、代表性专利权人及合成成本的变化[专利的检索日期为2021年3月1日,图中对应年份为专利公开年,所示的国家(地区)的公开量为该区域对应的知识产权局公开的专利量;图中所示的企业(或机构平台),以对应阶段加入DNA合成与存储技术开发的部分企业为代表]Fig.1 Patent publication numbers and representative patentees of DNA synthesis and storage,and the cost changes for gene synthesis during 2001—2020[①The patent search date is March 1,2021;The corresponding year in the figure is the patent publication year,and the publication amount of the country(region)shown is the amount of patents published by the corresponding Intellectual Property Office in the corresponding region;②The enterprises(or institutional platforms)shown in the figure are represented by those who have joined the development of DNA synthesis and storage technologiesat thecorresponding stage]
在这一历程中,哈佛大学威斯生物启发工程研究所的Church团队[20]做了很多开创性的工作,其于2012年首次利用DNA存储了多媒体文件(专利申请号US15/970 257)。该团队于2016年构建了基于基因组编辑的分子记录器,使人的细胞实现按时间顺序获得数字和存储数字信息[21]。2017年,该团队又进一步将黑白图像、电影短片的信息存储至活细胞的基因组[22]。在哈佛大学团队的开创性工作发表后不久,欧洲生物信息研究所(EBI)的团队于2013年利用DNA存储了多媒体文件的同时,还引入了纠错机制,实现了完整的解码[23](专利申请号EP13728990.6)。此后,诸多的高校和研究机构也加入了基于DNA的信息存储研究行列,例如哥伦比亚大学、纽约基因组中心的团队利用喷泉码作为容错纠错算法,建立二进制和碱基的映射关系,弥补了因分段序列拼接需要设置重叠部分的局限,降低了冗余度,提升了存储的密度[24]。
DNA存储的巨大优势,不仅吸引了研究机构和一批创业者加入,也使微软、英特尔、华为等龙头企业将目光投向其中。从企业专利权人分析,美国昂飞公司(Affymetrix)作为生物芯片的早期开发者之一,较早布局了一些相关专利,而安捷伦(Agilent)、合成基因组公司(Synthetic Genomics)等专利权人也是该领域的积极参与者。其中,安捷伦是最早利用喷墨打印来合成寡核苷酸的开发者,Twist生物科学(Twist Bioscience)公司则进一步拓展了该技术,使芯片上可合成的基因座数量增加到数千个,引领了第二代基因合成仪的发展。在酶促合成方面,成立于2013年的美国分子组装(Molecular Assemblies)和成立于2014年的法国DNA Script公司,都是酶促合成的代表性专利权人。近年来,微软等信息技术企业也开始研发DNA存储技术,例如,微软和华盛顿大学不仅合作申请了很多专利,还共同开发了用于DNA存储数据的全自动系统。2020年,Twist生物科学、因美纳(Illumina)、西部数据(Western Digital)、微软四家公司也通过成立联盟,共同推进DNA存储的发展。
2 DNA合成与存储技术的专利布局和知识图谱
2.1 专利布局
DNA作为数据存储的介质,其合成技术是其中的重要技术之一,而寡核苷酸或多核苷酸的合成又是长片段DNA合成和组装的基础。21世纪初,安捷伦等专利权人开发的技术为喷墨打印合成DNA奠定了基础,其所开发的原位合成技术,涉及将固体支持物与核苷酸之间的官能团化、“脱保护、偶联、盖帽和氧化”循环的展开、寡核苷酸阵列的切割等方面。近十年来,随着技术的不断发展,专利布局所保护的客体已从寡核苷酸合成转到多核苷酸合成,酶促合成的相关专利也逐渐增多(表1)。在这过程中,也涉及一批表面图案化的官能团配套试剂的研发,例如活化剂包括但不限于N-(3-三乙氧基硅烷基丙基)-4-羟基丁酰胺(HAPS),11-乙酰氧基十一烷基三乙氧基硅烷、N-癸基三乙氧基硅烷、(3-氨基丙基)三甲氧基硅烷、(3-氨基丙基)三乙氧基硅烷、3-缩水甘油氧基丙基三甲氧基硅烷(GOPS)、3-碘丙基三甲氧基硅烷、丁基醛基三甲氧基硅烷、(3-氨基丙基)-二乙氧基甲基硅烷、(3-氨基丙基)-二甲基乙氧基硅烷、(3-氨基丙基)-三甲氧基硅烷、(3-缩水甘油氧基丙基)-二甲基乙氧基硅烷、缩水甘油氧基三甲氧基硅烷、(3-巯基丙基)-三甲氧基硅烷、3,4-环氧环己基乙基三甲氧基硅烷、烯丙基三氯硅烷、7-辛-1-烯基三氯硅烷或双(3-三甲氧基硅丙基)胺等;钝化剂包括但不限于全氟辛基三氯硅烷、三氟辛基三乙氧基硅烷(FOS)、叔丁基[-5-氟-4(-4,4,5,5-四甲基-1,3,2-二氧戊环-2-基)吲哚-1-基]-二甲基硅烷、全氟辛基三氯硅烷、全氟辛基二甲基氯硅烷、全氟癸基三乙氧基硅烷、全氟辛基三乙氧基硅烷、全氟辛基三甲氧基硅烷、辛基氯硅烷、二甲基氯辛基硅烷、甲基二氯辛基硅烷、三氯辛基硅烷、三甲基辛基硅烷、三乙基辛基硅烷、十八烷基三氯硅烷等。
表1 寡核苷酸或多核苷酸合成的代表性专利Tab.1 Representative patents of oligonucleotide or polynucleotide synthesis
续表
续表
在寡核苷酸或多核苷酸的合成过程中,除固相亚磷酰胺合成法相关的技术外,还需要喷墨打印相关的设备。要将碱基单体作为“墨水”逐个喷射在芯片上,涉及到喷嘴、试剂吸注、精密定位、图像识别、微流体控制等诸多方面,而液滴的生成、分配和控制更是涉及很多精密技术,因而涉及开发和改进精密加工技术的专利也是必不可少的(表2)。
表2 喷墨打印及微流控的代表性专利Tab.2 Representative patents of inkjet printing and microfluidics
DNA组装主要分为体内组装和体外组装,其中体外诊断可在反应试管中、多孔平板中、平板表面上、柱中、微流体管等微流控装置中、毛细管中等不同场景中进行。近年来,同源重组等体内组装方法也有不少专利布局(表3)。
表3 DNA组装的代表性专利Tab.3 Representative patents of DNA assembly
在将数字化信息转化为可存储的基因序列的同时,如何准确访问多核苷酸序列数据存储系统中的数据、如何在多核苷酸序列的日志中创建时间记录、如何在稳定的环境中长期保存多核苷酸序列、如何保障多核苷酸序列中存储的信息的安全等问题,都需要考虑和应对。微软、哈佛大学等企业和大学在这些领域的专利已有所布局,许多专利也体现出其前瞻性(表4)。
表4 DNA存储的代表性专利Tab.4 Representative patents of DNA storage
在DNA信息存储的过程中,还有更多技术因素需要考虑,例如,序列中鸟嘌呤(G)和胞嘧啶(C)的比例需要保持在合理区间;同时,碱基重复率也是存储中需要考虑的参数。因而,不少专利也将GC含量和碱基检出算法嵌入其中(表5)。
表5 其他的代表性专利Tab.5 Other representative patents
2.2 知识图谱
在合成生物学专利分析的基础上,本文系统梳理了DNA合成与存储技术的专利文献,绘制了相关技术的知识图谱(图2)。在DNA合成与存储技术专利的知识谱系中,设计存储数字信息的核酸序列是基础,在此基础上可采用第一代、第二代或第三代合成技术进行DNA合成。其中,第一代和第二代合成技术均采用亚磷酰胺化学合成法,而第二代中所用的半导体技术或可在未来应用于酶促合成。从各种技术和方法的演进过程可以看到,DNA合成技术在不断迭代中发展,而又保持一定的连续性。总体上,目前的技术迭代沿着合成通量的增加、合成原理的升级两个维度进行,这两个维度的组合必将形成一系列技术,这也是专利布局和运营的起点。
图2 DNA合成与存储技术的知识图谱Fig.2 Knowledge map of DNA synthesis and storage
同时,这些技术与组装技术组合,构成长片段DNA的合成和柱状技术。由于核酸组装本身也可有不同的技术组合(例如,利用各种工具酶的方法,可以与基因组编辑的技术组合),因而这种排列组合就为长片段DNA合成的不断升级提供了动力。在此基础上,再重点考虑“写”的速度、成本,“读”的便捷性,以及信息存储的安全性、稳定性等技术要求。“写”与“读”(通常利用先进的测序技术)的结合,构成了未来DNA存储系统的基本架构。这种架构建立后,随着各个环节或工艺的不断优化,未来或许可以期待DNA存储也呈现出类似“摩尔定律”的定期升级换代。
3 总结与展望
随着人类社会进入海量数据时代,信息存储的重要性已经不言而喻。在巨大的需求面前,DNA存储的优势进一步展现。近十年来,寡核苷酸的合成已经拓展至多核苷酸,在提高寡核苷酸合成的长度和效率、降低合成成本的过程中,全球的企业、大学和研究机构有一系列的专利布局,该领域的专利竞争格局也呈现出交叉融合的态势。
3.1 从专利布局看DNA合成与存储技术的发展
对近20年来的DNA合成与存储的相关技术专利进行分析,可以发现合成通量的提升、从化学方法向酶促合成的生成,是推动合成能力提升的动力。以DNA为介质,其天然性突破了传统的存储技术在寿命限制和低数据密度两方面的局限(DNA数据存储的保存周期长,且不会损坏;1 kg
的DNA可以存储海量数据)[25],因而DNA合成技术的升级已经使得“写”的速率有所突破,而在“读”方面的基因测序技术本身也在不断升级,并伴随着成本的不断下降,使得DNA存储或呈现出类似数十年前集成电路早期发展的态势。
从技术的角度看,DNA合成仪结合了化学、物理、材料、半导体、生物、流体力学、信息科学等领域,这种学科间的交叉融合促进了技术的不断改进,将进一步带来合成通量、合成长度、合成精度的提升,以及合成成本的降低。在未来,喷墨打印或微流控技术与酶促合成进一步结合,将在通量、可扩展性和成本方面突破现有方法的限制,实现DNA合成的全面升级。
从专利分析来看,尽管基于DNA的信息存储仍处于早期,但仍然可以预见其未来专利将解决的技术功效包括更高的读写速率、更高效的编解码、更低的存储成本、更高的存储稳定性等方面。例如,在存储稳定性方面,长期稳定的存储需要排除热辐射、电离辐射、化学诱变等方面的因素。目前微软在该功效的方向已有一定的技术布局,但未来发展若综合考虑不同的应用场景,或可使用微纳尺度的真空室作为容器。又如,在编码方面,需要同时考虑存储效率、合成难度、加密安全等要求,当前的专利布局已经考虑到尽可能地避免连续的单碱基重复,同时也需要避免高鸟嘌呤和胞嘧啶占比(GC含量)。为了探索更好的编码,也有研发团队在考虑二进制、三进制、四进制模型中的不同编码策略(例如CN201910909594.0)来实现理想的技术功效。随着信息存储的进一步发展,未来或许也可探索多进制模型的混合使用的可能性和可行性。
以高通量、高效率、高保真、低成本的DNA合成为基础,综合信息编解码、基因测序等技术的改进,集“‘编’-‘写’-‘读’-‘解’”于一体的DNA存储系统或将成为真正“用得上”的解决方案。咨询公司高德纳(Gartner)在2020年的预测中认为,随着未来数据的海量增长,到2024年将有约30%的数字业务开始尝试用DNA进行信息存储[26]。从现有专利权人的视角来看,合成或存储的质量和准确性、单个碱基的平均合成消耗或成本、合成通量这三大指标是关键。从精度来看,质量和准确性是所有客户的基本要求,而当前的DNA合成和存储技术还需要大量的克隆筛选和纠错,才能产生准确的序列。只有将0.1%左右的碱基对误差率降至更低,才能巩固降低成本、提高生产通量的优势:从合成长度来看,长片段的DNA合成伴随着相对较高的错误率;从合成成本来看,较高的错误率必然导致纠错等各种成本上升。以优化和提升这些技术功效为导向,仍有很大的专利布局空间。随着DNA的信息存储专利将越来越多地涉及到编码、解码、信息寻址、信息安全等的部分,集基因合成、基因测序、计算机控制于一体的DNA存储设备或存储系统的开发也越来越深入,微软等信息技术企业开始大规模地在该领域进行研发。
3.2 从竞争格局看DNA合成与存储专利的布局与运营
在第一代的柱式合成技术领域,美国的ABI、Biolytic、Digilab、BioAutomation和Synthomics等公司,德国的K&A Laborgeraete和PolyGen,以及俄罗斯、日本和中国的企业都开发了相关的产品。总体上看,与第二代合成仪相比,柱式合成技术路径上的专利布局在近年来已经逐渐减少。
在第二代合成技术的开发路径中,昂飞公司侧重于利用物理掩膜法进行光刻合成。考虑到掩膜开发成本较高,罗氏的下属企业也曾尝试无掩膜技术的开发,利用数字化控制、光敏保护基团介导来实现原位合成,但这一技术路径的专利较少。与光刻合成法不同,电化学介导的脱保护合成法利用芯片表面上的微电极阵列,可控制合成链末端的酸敏基团水解来实现脱保护,继而促进合成反应。美国CustomArray公司(原Combimatrix公司)在电化学介导的脱保护合成法开发中,推出过可合成上万种单链的产品,但还存在寡核苷酸合成错误率高、产量低、准确率低、不稳定等缺点,因而后续的开发者不多。喷墨打印是当前DNA合成中的主流方法,早期的专利布局以安捷伦公司的专利最具代表性,而近十年又以Twist生物科学公司的专利布局最为典型。总体上看,Twist生物科学公司的专利布局已成体系,而Evonetix公司、Synthomics公司等也有一定数量的专利。然而,要实现高通量、高效率、低成本、低错误率的DNA合成和存储,还需要加大技术研发和专利布局。
本文基于现有专利布局所展示的知识图谱,为我国研究机构和企业的专利布局提供了参考。总体上看,与美国研究机构和企业相比,中国专利权人在DNA合成和存储专利的布局起步相对较晚,高价值专利数量也相对较小。该领域的发展仍处于技术生命周期中的早期发展阶段,因而迎头赶上的空间仍然存在,尤其是未来集基因合成、基因测序、计算机控制于一体的DNA存储系统的开发,与信息编解码等技术的交织,将带来相关技术策略、技术功效的“排列组合”,有非常大的挖掘空间。对这些领域,需要系统性地解析其潜力,针对性地提出适合各研究机构或企业的专利战略。