基于专利引文网络的合成生物学领域主路径分析
2023-12-01徐东紫杨潇逸欧阳昭连
张 婷,徐东紫,陈 娟,杨潇逸,欧阳昭连
(中国医学科学院医学信息研究所,北京 100020)
合成生物学是21 世纪生物学领域的新兴交叉学科,基于工程设计理念,通过生物元件的挖掘与设计、元件和功能的组装与集成、系统的优化与适配,从而获得符合预期目标的人造生命单元或系统[1]。合成生物学是继基因组学后生命科学领域的又一次重大创新性革命,核心理念是系统化设计和工程化构建,遵循从生物元件、生物模块到生物系统自下而上的设计思路,利用生物系统内最基本的元件(DNA、RNA、蛋白质等生物分子),借助转录调控和代谢调控等开关组件,将基本元件组成功能模块和系统,实现新的功能或生成新的物质[2-4]。合成生物学的主要技术包括DNA 人工测序和合成技术、生物元件(基因)和模块组装技术及异源移植与调控表达技术,其中基因克隆组装技术是合成生物学的核心技术[5-7]。微生物药物和天然药物的微生物合成是合成生物学的重要分支,具有里程碑意义的研究成果是青蒿素和紫杉醇中间体的微生物合成,极大地推动了合成生物学在微生物和天然药物领域的应用[8-9]。在天然药物领域,合成生物学在青蒿素、紫杉醇、丹参酮、银杏内酯等多种药用活性成分的生物合成方面取得了突破性进展。在微生物药物领域,借助合成生物学的克隆组装技术和生物设计理念,不但可以提高现有微生物药物的发酵水平,还可以获得具有新结构和新活性的微生物药物。合成生物学的出现和兴起为药物研发提供了新的思路和方法。主路径分析(main path analysis)属网络分析方法,能将一个庞大而复杂的网络(通常体现为科学研究或技术开发领域的论文或专利及其引文)简化为一个或多个仅由少数连接节点和弧组成的主路径(main path),从而降低网络复杂性[10]。此概念提出以来一直受到学术界的广泛关注,尤其是面向应用的研究,通过主路径分析追溯历史发展以阐明科学或技术领域的演变,追踪技术发展轨迹及技术随时间的变化情况。与传统引文计量分析相比,主路径分析的本质和优势是其能体现出时间轴上的发展。主路径分析的引文网络是由专利、论文或法院判决书等文档组成的数据集构建而成,基于专利引文网络可以探索技术发展路径。专利是技术信息最有效的载体,专利文献包含了丰富的技术信息[11-13]。基于专利引文网络,开展合成生物学领域的主路径分析,可以客观把握技术发展路径,从情报学角度为技术开发提供新的研究视角。
1 数据来源
合成生物学领域专利数据来源于Web of Science平台德温特专利数据库(Derwent Innovation Index,DII),数据检索及采集时间为2023 年6 月5 日。DII 数据库覆盖全球96%的专利数据,整合了Derwent World Patent Index(DWPI)与Derwent Patents Citation Index(DPCI)信息,可为本研究提供全面的专利信息及专利引文信息[12]。合成生物学领域正处于多种生物学研究领域的交叉口,概念还处于开放探索阶段,是从理解到设计再到创造生命的宏观科学的微观集成。合成生物学狭义是指利用可再生的生物资源为原料生产各种产品;广义是指通过构建生物功能元件、装置和系统,对细胞或生命体进行遗传学设计、改造,使其拥有满足人类需求的生物功能,甚至创造新的生物系统[14]。本研究中基于狭义合成生物学,以查准为目标,采用“合成生物学”为主题词进行精确检索,构建合成生物学领域精准专利数据集,共检索到专利432 项(1 609 件),包含专利引文4 987件。
2 方法
2.1 思路
1989 年,HUMMON 与DOREAIN 发表了关于科技文献引文网络“关键路径”的应用研究,提出了“主路径”思想[10]。采用深度优先搜索算法(depth first search)与穷举搜索算法(exhaustive search algorithm)结合的方法寻找网络中所有可能的搜索路径,以遍历数(traversal counts)优先来定义引证网络的主路径—— 对于网络中的节点,选择其输出连线中具有最高遍历数的连线作为下一路径,重复应用遍历计数最大法则,直至定义出全网络中最常用路径,即是反映知识主流的主路径。主路径分析有3 个重要步骤:1)构建无环有向网络;2)遍历权重分配;3)选择搜索路径。
2.2 无环有向引文网络的构建
基于专利引文构建专利引文网络(无环有向图),选择引文网络中最大连通子网提取主路径。根据引用关系将引文网络最大连通子网中的专利分为起点专利、中间专利、终点专利、孤立专利(各专利特点见表1)。
表1 专利引文网络中的专利类型Tab.1 Types of patents in the patent citation network
2.3 遍历权重的计算
计算专利引文网络中所有连线的权重。选择起点专利作为路径的起点,选择权重高的连线作为下一路径,重复应用遍历计数最大法则,当遇到终点专利时,算法终止。目前,比较成熟且常用的3 种遍历权重算法是HUMMON 和DOREIAN(1989 年)提出的搜索路径连接数(search path link count,SPLC)算法、搜索路径节点对(search path node pair,SPNP)算法,以及BATAGELJ(2003 年)提出的搜索路径数(search path count,SPC)算法[15]。
通常计算出的遍历权重,SPNP 算法≥SPLC 算法≥SPC算法。有研究表明,3种算法的主要区别是如何看待中间节点的作用[16]。对于中间节点,SPC 算法将其看作“枢纽”,其仅作为载体传输、接收知识并传递给引文链中的下一个节点;SPLC 算法将其看作“枢纽+ 知识来源”,其既作为知识起源,也作为知识传播载体;SPNP算法将其看作“枢纽+ 知识来源+ 知识汇”,其既作为知识起源,也作为知识传播载体,同时还是知识传播的终点。可见,研究中应避免采用SPNP 算法,除非相信原始知识可以在引文链中的一个中间体中消失。
SPLC 算法最接近科技发展中的知识扩散场景,可反映科学知识的传播方式,其中每篇文章均引用了以前的文章,并另添加想法来创造新知识。单篇论文或专利不仅传递知识,本身也是知识来源[16-17]。故本研究中采用SPLC算法来计算遍历权重,追踪知识扩散轨迹。
2.4 搜索路径的选择
2.4.1 路径搜索方式
主路径的路径搜索方式可分为2种:一种是全局搜索路径,包括2种变体,即全局主路径(global main path)和全局关键路径主路径(global key-route main paths);一种是局部搜索路径,包括3 种变体,即局部前向主路径(local forward main path)、局部后向主路径(local backward main path)、局部关键路径主路径(local key -route main paths)[18]。全局搜索路径是寻找路径中遍历权重之和最大的路径;局部搜索路径每一步均选择遍历权重最大的链接,直至算法结束[19]。关键路径主路径既有全局关键路径主路径,也有局部路径主路径,先找出路径中遍历权重最大的一条链接,全局关键路径主路径是找出这条链接所在路径中遍历权重之和最大的路径,而局部关键路径主路径则是以这条链接作为起点,分别向前、向后依次寻找遍历权重最大的链接,直至起点、终点,将链接两端路径合并即得[20]。
2.4.2 全局搜索路径
全局主路径:指在整个网络中具有整体最大遍历权重的路径,与局部视角关注过程中的重要节点不同,其更关注在整体知识流动或技术传递的重要节点。
全局关键路径主路径:指首先找出网络中遍历权重最高的链接路径,从该链接路径起点开始,不断搜寻下一个拥有最大遍历权重的节点直到网络中的起点节点,再从该链接路径终点开始,不断搜寻下一个拥有最大遍历权重的节点直到网络中的终点节点,将链接两端路径合并即得,查找关键路径所在路径中起点节点和终点节点之间具有最大累积权重的路径。
2.4.3 局部搜索路径
局部前向主路径:从网络中的起点节点出点,不断搜寻下一个拥有最大遍历权重的节点直到网络中的终点节点。
局部后向主路径:从网络中的终点节点出发,不断搜寻下一个拥有最大遍历权重的节点直到网络中的起点节点,此方法可追溯到当前技术的初始技术来源。
局部关键路径主路径:局部关键路径主路径是首先找出网络中的遍历权重最大的链接路径,从该链接路径起点开始,不断搜寻下一个拥有最大遍历权重的节点直到网络中的起点节点,再从该链接路径终点开始,不断搜寻下一个拥有最大遍历权重的节点直到网络中的终点节点,将关键路径两端路径合并即得。
3 合成生物学领域的技术创新态势
3.1 时间趋势
合成生物学领域共有专利申请432 项(1 609 件),国际规模指数3.72,平均每个专利家族超过3 件专利,专利布局广泛,海外市场开拓范围较广,专利申请量年度分布见图1[由于专利从申请到公开有18 个月的滞后期,因此2022 年(82 项)和2023 年(1 项)的数据不完整,不代表最终趋势]。最早的专利申请开始于1992 年(US5637677A),该发明构建了一种能中和针对病原体免疫应答的生物活性肽,可使免疫宿主免于感染病原体;该专利于2019年得到专利许可,许可方为专利权人宾夕法尼亚大学,被许可方为美国国立卫生研究院(NIH)、美国卫生和人类服务部(DHHS)和美国政府。
图1 合成生物学领域专利申请量年度分布Fig.1 Annual distribution of quantity of patent applications in the field of synthetic biology
合成生物学领域技术开发活跃,专利申请数量呈现逐年增长的态势。基于1992 年至2021 年的数据进行多项式回归分析,得回归方程Y=0.000 2X4-0.003 7X3-0.001 7X2+ 0.832X- 0.359 2(R² = 0.982 4)。基于该方程预测,如果全球专利申请数量继续以同样的速度增长,则到2025年和2030年将分别达113项和216项。
3.2 技术创新热点
通过提取合成生物学领域专利标题、摘要的高频词,构建创新词云图(见图2),可了解该领域的技术创新热点。合成生物学领域的技术创新聚焦于基因合成和编辑等基因相关研究。通过DNA 合成技术,合成自定义的基因序列,用于构建新的生物体或改造现有生物体。CRISPR - Cas9 等基因编辑技术可精确修饰基因。此外,还可明确代谢领域热点,包括代谢工程、代谢途径等。合成生物学致力于重新设计代谢途径,以实现有价值药物的生产等。
基因相关研究专利申请数量最多,且被引频次较高,技术创新活跃且具有较高技术影响力。被引频次最高的专利是2016 年申请的WO2016166340A1(94 次),该发明涉及用于基因或基因组编辑的基因工程工具、方法和技术,在10 多个国家/地区进行了技术布局。综合战略价值、法律价值、市场价值、经济价值、技术价值来看,专利价值最高的专利是2014 年申请的JP2014176390A,该发明是生产肌醇和肌醇衍生物的方法,涉及基因重组技术在肌醇生产中的应用。该专利在美国、欧洲、中国等10 多个国家/ 地区进行了技术布局,全面占领海外市场。合成生物学领域基因研究的典型专利见表2。
表2 合成生物学领域基因研究的典型专利Tab.2 Typical patents for gene research in the field of synthetic biology
4 合成生物学领域的主路径分析
4.1 主路径提取
432 项(1 609 件)专利共包含专利引文4 987 件,其中起点专利4 317件(86.57%),中间专利59件(1.18%),终点专利611 件(12.25%),孤立专利0 件。基于专利引文构建有向引文网络(包含4 987个节点和9 068条边),选取引文网络中的最大连通子网(包含25 个节点和30 条边)提取合成生物学领域的各全局及局部主路径。结果表明,局部后向主路径与全局主路径完全一致;局部前向主路径与全局关键主路径上的专利完全相同,仅技术轨迹有差异。
4.2 全局搜索路径
4.2.1 全局主路径
合成生物学领域全局主路径(同局部后向主路径)见图3(绿色为起点专利,蓝色为中间专利,红色为终点专利;线的粗细代表边的权重。下图同)。该路径共6 条技术路线,包含14 件专利(见表3,*为涉诉专利,#为高价值专利,下表同),其中起点专利6 件,中间专利7 件,终点专利1 件。从全局关键主路径来看,合成生物学领域技术创新主要聚焦于脂质体、样本处理方法、水凝胶和液滴网络等。在合成生物学领域中,脂质体可以作为有效的载体,帮助将外源分子引入细胞内,从而实现定向基因编辑、基因治疗和药物递送;水凝胶被广泛用于细胞培养、生物材料制备和仿生实验,提供了一个模拟生物环境的平台,有助于研究细胞行为、生物反应和材料性能;液滴网络被应用于单细胞分析、基因编辑、代谢工程等领域,可以将不同试剂分隔到微小液滴中,从而实现高效的并行实验和高通量筛选。此外,合成生物学需要处理大量的生物样本,包括细胞、蛋白质和核酸,优化的样本处理方法可以提高实验效率、减少污染,并确保实验结果的准确性。
图3 合成生物学领域全局主路径Fig.3 Global main paths of synthetic biology
表3 合成生物学领域全局主路径上的专利Tab.3 Patents on the global main paths of synthetic biology
合成生物学领域的全局主路径(同局部后向主路径)上有4 件高价值专利,分别是US10548852B2,US9831010B2,US11213797B2,US20120116568A1。其中,US20120116568A1既是高价值专利,又是涉诉专利。涉诉专利通常具有极高的价值,如US20120116568A1为美国专利,而美国专利诉讼往往需花费大量人力和财力,如果专利背后无巨大的利益纠葛,企业不会贸然提起专利诉讼。
4.2.2 全局关键路径主路径
合成生物学领域的全局关键路径主路径见图4。该路径共6 条技术路线,包含13 件专利(见表4),其中,起点专利6 件,中间专利6 件,终点专利1 件,全局关键路径主路径比全局主路径少了1 件专利(US9831010B2),该专利是全局主路径上的高价值专利。由于US9831010B2和WO2014064459A2是同族专利,涉及水凝胶网络技术,因此全局关键路径主路径与全局主路径蕴含的技术信息是相同的,虽然路径上少了1 件专利,但并未造成技术信息损失。从全局关键路径主路径来看,合成生物学领域技术创新也是主要聚焦于脂质体、样本处理方法、水凝胶和液滴网络等。
图4 合成生物学领域全局关键路径主路径Fig.4 Global key-route main paths of synthetic biology
合成生物学领域的全局关键路径主路径上有3 件高价值专利,分别是US10548852B2,US11213797B2,US20120116568A1,三者也均在全局主路径(同局部后向主路径)上。其中US20120116568A1 既是高价值专利,又是涉诉专利。
4.3 局部搜索路径
4.3.1 局部前向主路径
合成生物学领域局部前向主路径见图5。该路径共12 条技术路线,包含13 件专利,其中,起点专利6 件,中间专利6 件,终点专利1 件。局部前向主路径中的专利与全局关键路径主路径的专利完全相同(见表4),仅技术路线有所差异,有12条技术路线,提供了更丰富的技术路线信息,其高价值专利也与全局关键路径主路径完全相同,共有3 件。局部前向主路径是所有路径中技术路线最多的主路径,技术发展轨迹更加多样。技术创新也是主要聚焦于脂质体、样本处理方法、水凝胶、液滴网络等。
图5 合成生物学领域局部前向主路径Fig.5 Local forward main paths of synthetic biology
4.3.2 局部关键路径主路径
合成生物学领域的局部关键路径主路径见图6。该路径共4 条技术路线,包含9 件专利(见表5),其中,起点专利1 件,中间专利7 件,终点专利1 件。局部关键路径主路径上的专利最少,比全局主路径(局部后向主路径)少了5件专利,分别是:US5858399A,WO2007094739A1,EP2253378A1,WO2009148598A1,US20120116568A1,技术路线未涉及脂质体、样本处理方法等技术,仅有水凝胶和液滴网络等。局部关键路径主路径缺失的US20120116568A1 是前几条主路径上识别出的涉诉专利,该专利涉及生物打印制造组织的装置、系统和方法等相关技术。
图6 合成生物学领域局部关键路径主路径Fig.6 Local key-route main paths of synthetic biology
表5 合成生物学领域局部关键路径主路径上的专利Tab.5 Patents on the local key-route main paths of synthetic biology
合成生物学领域的局部关键路径主路径上有3 件高价值专利,分别是US10548852B2,US9831010B2,US11213797B2,均在全局主路径(同局部后向主路径)上,但与全局关键路径主路径和局部前向主路径上的3 件高价值专利有所差异。局部关键路径主路径上仅有高价值专利,没有涉诉专利。局部关键路径主路径上的高价值专利US9831010B2 未在全局关键路径主路径和局部前向主路径上识别出来。
5 高价值专利
通过对合成生物学领域的主路径分析,综合战略价值、法律价值、市场价值、经济价值及技术价值五个角度,识别主路径上的高价值专利。合成生物学领域主路径上共识别出4 件高价值专利(见表6),其中1 件既是高价值专利,也是涉诉专利,在主路径上的分布情况见表6。全局主路径(同局部后向主路径)上识别出的高价值专利最多,有4件(见表7);其他主路径上仅识别出3 件,其中全局关键路径主路径和局部前向主路径未识别出US9831010B2,而局部关键路径未识别出重要的涉诉专利US20120116568A1。合成生物学领域主路径上共识别出的4件高价值专利均是美国专利。美国专利申请审查制度严格,必须通过多个程序和检验,在全球具有广泛的影响力和较高的认可度。一旦在美国获得专利保护,说明具有真正的创新性和实用性,很大程度上增加了专利的含金量和市场价值,在全球市场上的竞争优势将得到显著提升[21-22]。
表6 合成生物学领域主路径上的高价值专利Tab.6 High-value patents on the main paths of synthetic biology
表7 合成生物学领域主路径上的高价值专利信息Tab.7 Details of high-value patents on the main paths of synthetic biology
涉诉的高价值专利US20120116568A1是2011年申请的美国专利,该发明描述了1 种生物打印机,还包括打印头,生物墨水和支撑材料等,进一步描述了用于制造组织构建体的方法。该专利解决了器官移植面临的一些亟待解决的问题,如由于药物研发周期长、成本高,且发现新疗法的概率较低,需要促进组织工程与再生医学应用工具和技术的研发,以缓解对组织和器官的迫切需求;以及能显著提高具有成本效益的创新药物数量和质量的工具和技术。该专利有2件中国同族专利,分别是CN103249567B(已授权)和CN105496601A(驳回),前者是2011年通过PCT 专利申请进入中国,而后者是在中国申请的1 件美国优先权的专利。US20120116568A1 被引频次高达109 次,因专利侵权提起诉讼,涉及3条诉讼信息,从立案到结案分别历时80天,133 天,263 天,分别以无效、转让、无效而最终结案。随着专利的经济价值的不断凸显,专利诉讼已经从单纯的法律问题,演化成了资源和竞争战略等要素相复合的产物,成为一种新型的牟利手段。此外,分析具有诉讼历史的专利是对产品进入市场前进行风险预警和评估的一个重要手段,同时也是挖掘核心专利、评判专利质量和价值的重要指标之一。
另外3 件高价值专利均没有涉及专利诉讼,US10548852B2 是2012 年申请的美国专利,该发明提供了1种液滴封装及其制备方法,在合成生物学和膜蛋白研究中可以用作药物输送载体;该专利有1件中国同族专利CN104053497B(已授权),2012 年通过专利合作协定进入中国。US9831010B2 是2013 年申请的美国专利,该发明提供了1种水凝胶网络及其生产方法,还涉及用于包含水凝胶网络机械装置的电化学电路和水凝胶组件,可以用于合成生物学以及作为电化学电路和机械设备中的组件,该专利未在中国进行技术布局。US11213797B2 是2013 年申请的美国专利,该发明涉及1 种用于生产液滴组件的设备及方法,还涉及包含多个液滴的液滴组件及液滴组件的各种用途;该专利有1件中国同族专利CN105188934B(已授权),2013 年通过PCT专利申请进入中国。
对4件高价值专利的技术主题进行分析发现,合成生物学领域的核心专利聚焦于生物打印、液滴封装、水凝胶网络等技术。
6 讨论
合成生物学是一种具有潜力的新兴技术和颠覆性技术,近年来受到广泛重视,随着基因编辑与合成技术的突破,在大数据、人工智能等技术的加持下,生物技术与信息技术融合发展更加明显,合成生物学的应用场景也不断拓展。人工合成基因组技术在基因工程、代谢工程、蛋白工程、细胞工程、制药工程中的运用拓展了合成生物学的应用前景。合成生物技术涵盖平台开发、医药、化工、能源、食品、农业等重点领域。医疗健康行业是合成生物学影响最大的重点领域,合成生物学在医疗健康领域的应用广泛,上中下游均有覆盖,包括细胞免疫疗法、医疗耗材、体外检测、药物研发等诸多方向。合成生物技术的创新及应用,有望进一步助力肿瘤、感染等疾病的预防、诊断及治疗。主路径分析是一种网络分析方法,能将庞大而复杂的网络简化为一个或多个仅由少数连接节点和弧组成的主路径。专利是技术信息最有效的载体,基于专利引文网络,对合成生物学领域开展主路径分析,可以追踪技术发展轨迹,把握技术演变路径,客观呈现该领域技术创新态势。
合成生物学领域技术开发活跃,专利申请数量呈逐年增长态势,基于多项式回归预测,2025年和2030年专利申请数量将分别达到113 项和216 项;创新词云分析显示技术创新聚焦于基因和代谢相关研究。基于专利引文网络提取合成生物学领域主路径,各种路径搜索方式识别出的专利差别不大,最多的有14件,最少的有9 件。全局主路径(同局部后向主路径)上的专利最多,有14 件,包含6 条技术路线;局部前向主路径的技术路线最多,有12 条,包含13 件专利。综合战略价值、法律价值、市场价值、经济价值、技术价值5 个角度,从合成生物学各主路径上共识别出4件高价值专利,均是美国专利,其中,US20120116568A1 还是涉诉专利。美国专利因审查制度严格,在全球具有广泛的影响力和较高的认可度,含金量和市场价值相对较高。通过高价值专利技术主题分析可以看出,合成生物学领域核心专利主要涉及生物打印、水凝胶网络及液滴封装技术。涉诉专利US20120116568A1 是有关生物打印技术的一项发明,涉及3 条诉讼信息,最终以无效、转让、无效结案。近年来,高科技企业越来越意识到专利在全球战略布局中的巨大作用,不断加强核心专利及其外围专利的申请和争夺。由于专利背后关系着企业的利益与生存,频繁的专利扩张必然导致企业间专利摩擦升级,最终导致企业间的专利诉讼日益加剧。
合成生物学是以工程化手段设计合成基因组为标志的第三次生物技术革命。多个国家将合成生物学作为优先发展的学科和技术,制订和实施了相关的科技计划。21 世纪以来,合成生物学得到了长足发展,但在技术、产业应用、外部环境等方面依然面临诸多挑战,需要产学研各界携手共同面对。合成生物学产品的开发,必将在解决人口与健康、资源与环境、能源与材料重大难题的过程中发挥重要作用。