国际合成生物学领域主题演化的领先-滞后模式研究 *
2023-11-29刘小平陶治宇杨举伦
梁 爽 刘小平 , 陶治宇 杨举伦
(1.中国科学院文献情报中心,北京 100190;2.中国科学院大学经济与管理学院信息资源管理系,北京 100190;3.联勤保障部队第九二〇医院病理科,昆明 650032)
合成生物学在基因组学、系统生物学等基础上发展形成,是研究创建、控制和编程细胞行为的一门新兴工程学科,融合了工程学的建造性质与生物学的研究性质[1]。经过一段时期的探索,合成生物学在研究范围及产出方面取得了长足的发展,成为生物学研究中一个广受认可的分支[2],同时在生物技术和医学等领域取得了显著的应用成效,具有改变未来的巨大颠覆性潜力。在过去十几年里,世界主要国家纷纷针对合成生物学领域进行科学研究布局,制定相应战略规划。从2006年起,美国农业部就已针对合成生物学领域的研究开展资助,随后美国能源部、国家科学基金会等机构也开始支持相关基础研究与创新平台的建设[3]。2012 年,英国率先发布国家路线图以明确科学研究及产业转化的发展任务,并在全国范围内建立研究中心,形成全国范围内的综合研究网络[4]。2010 年,我国重点基础研究发展计划(“973计划”)对合成生物学专题研究进行了启动部署,在此发展基础上科技部于2018 年启动国家重点研发计划“合成生物学”专项,在2018—2021 年间对114 个研究项目给予立项资助[3]。2022 年,国家发改委印发《“十四五”生物经济发展规划》,提出要加快提升生物技术创新能力,推动合成生物学技术创新及其在新药开发、疾病治疗、生物育种、环境保护、能源供应和新材料开发等相关领域的应用[5]。受各国政府的战略引导与社会各界的协力推动,合成生物学领域迎来飞速发展时期。
在科技发展进程中,我国通常会受到科技强国规划战略与发展路线的影响,同时以一定的延迟接受这种影响并对自身战略规划进行相应调整,从一定意义上讲,学科整体演化体系是关于相似发展模式的移位过程,相似性和时滞性是学科领域发展的重要特征。与目标领域科技强国相比,合成生物学主题发展的领先滞后关系如何?与其他科技强国的具体滞后期是多少?不同研究方向上的优劣势情况如何?研究这些问题的有效解决方案,对于我国科技战略路线的调整与资助管理决策的制定具有重要意义。因此,本文旨在通过对各个国家关于合成生物学发展的相关时序数据进行分析,探究各国演化态势及其时滞特征,以期为不同国家或地区学科发展差异的定量测度研究提供新的思路。
1 研究现状
围绕合成生物学领域的发展特征及现状趋势等方面,目前已有学者利用引文分析、社会网络理论、文献计量分析、内容分析、统计学分析等方法进行了相关分析与探讨。吴晓燕等[6]基于专利数据对合成生物学领域专利申请的数量变化趋势、重要国家分布、重要专利申请人、专利应用领域、技术热点等方面进行计量分析。张雪等[7]基于论文和专利数据,利用科学关联度、技术关联度、引用时滞、科学及技术循环周期等计量指标,对合成生物学领域技术创新与基础研究之间的关联进行探讨分析。邓桦[8]采用内容分析与文献计量法,从产学研视角出发对合成生物学领域的论文及专利的数量趋势、主要研发方向以及行业投资现状等方面进行剖析。Hu 等[9]从国家及机构成果数量情况、学科类别分布以及热门主题关键词的年度h 指数等层面对合成生物学领域的发展现状进行分析。Dai 等[10]对用于能源生产的合成生物学和基因组工程的文献数据进行定量分析,并利用关键词共现、突发词检测等分析前沿热点与研究趋势。
综合以上分析,可以发现已有研究主要围绕合成生物学领域的科技成果产出数量、国家布局、研究热点、合作态势等角度展开探讨。关于领域发展态势与差异分析的落脚点通常是结合学科演化过程所涵盖的特征要素对这种差异进行定性论述与简单的定量比较,缺乏从文本语义层面进行挖掘以深入剖析学科本质内容发展情况的研究,同时,国家发展差异所内含的领先滞后关系以及具体时滞期的测度也鲜有研究提供解决思路。基于以上分析,本文对文献语义进行深入挖掘,以论文的主题内容表征某一学科的发展面貌并识别热点主题,在确定目标领域强国之后,针对各国关于热点主题研究强度的时间序列进行量化挖掘,测度国家在主题演化上的关联关系,以进一步揭示我国与其余各科技强国主题发展趋势的异同与领先-滞后的发展关系。
2 研究方法
2.1 热点主题分析
在众多主题方向中,如何准确探测与追踪学科热点一直是相关学者与科研人员的关注焦点,同时热点主题中也往往孕育着科学机遇的生长点与科研创新的突破口。因此有必要对合成生物学的研究热点进行挖掘,并在此基础上,展开我国和目标领域科技强国关于热点主题的演化时滞性差异探究。在热点主题的识别方法上,本文依据已有研究中对热点主题的定义并结合研究实际情况[11,12],利用LDA 主题模型的输出结果对主题强度分别进行计算,并通过设定主题强度阈值,对学科热点主题进行遴选。主题强度的计算公式如下所示,其中Dt表示属于时间窗口t 的文档数量,θzd表示文档d 中主题z 的概率值,θtz表示主题z在时间窗口t 下的主题强度。
针对已经识别得到的研究主题,依据该公式分别计算其主题强度,并根据设定的主题强度阈值对热门主题进行筛选,从整体上把握当前学科领域的研究现状,发现研究热点。在后续进行国家主题演化的时滞性分析中,分别计算我国及目标领域科技强国在本节识别得到的全部热点主题上的研究强度变化趋势,以着重体现热点研究方向上我国与其余科技强国发展水平的时滞关系。
2.2 国家主题强度演化分析
本文依据上述识别得到的热点主题,将属于不同国家的文献依照出版时间分别离散到相应时间窗口,利用文档-主题概率分布分别计算近二十年不同研究国家在热点主题上的主题强度变化趋势。将国家主题强度随时间的分布θct( z)表示为在时间片t 上国家c 对主题z 的研究强度,如下公式所示。
其中,Dt表示属于t 时间窗口的文档数量,θzd表示文档d 中主题z 的概率值,如果论文d 的作者之一来自于国家c,则wc(d)=1,否则为0。根据该公式,对国家在不同时间窗口下的主题分布强度进行计算。对于每个热点主题,分别计算不同时间段该热点主题在选定国家上的主题强度,并进行曲线拟合,从而对各个热点主题上全部国家的时序发展情况进行分析及对比,并利用该时间序列进行后续我国与其余领域强国在主题演化发展上的关联强度及时滞关系探究。
2.3 各国关于热点主题演化的关联程度测度
灰色关联分析是灰色系统理论中的一个重要分支[13],为描述与测度事物或因素之间的关联程度提供了定量研究方法,其基本原理是依据曲线的几何形状对序列相似性进行测度[14],目前对模型的探索应用与相关改进也已经有了较多的积累与有益成果。在基于相近性思想对序列之间的相关程度进行判断的有关方法模型中,邓聚龙教授提出的灰色关联分析模型对关联度的测算具有重要意义与广泛影响[13,15],其具体定义如下。
1)对于经过处理后得到的待分析序列,确定参考序列X0以及比较序列Xi(i=1,2,…,m),其中X0={x0(k),k=1,2,…,n}={x0(1),x0(2),…,x0(n) }。
2)计算点关联系数。灰色关联度的本质是通过对事物或因素之间变化趋势的相近程度进行比较,以衡量因素发展间的关联程度。在具体实现步骤中,首先需要对反映事物变化特征的时序数据在各个时间点k(k=1,2,…,n)上空间位置的几何接近程度进行衡量[16],即对灰关联系数进行计算,具体公式如下。
式中,计算k 时刻下参考序列的对应值x0(k)与比较序列对应值xi(k)的差值绝对值,得到差序列| x0(k)-xi(k) |,并分别求取得到两级最小差和两级最大差。式中ρ为分辨系数,能够避免因序列值异常或最大差值过高而引起的计算偏差,其取值范围为[0,1],通常情况下取ρ=0.5。依照以上思想,最终得到比较序列Xi与参考序列X0在k 点的关联系数γ(x0(k),xi(k) )。
3)灰色关联度计算。灰关联系数是比较序列与参考序列在某一时期关联程度的体现,为比较两个时间序列在整体发展上的关系紧密程度,还需对各个时期的关联系数作平均处理,最终得到两序列间的关联程度。如下公式所示,通过对k 点的关联系数求平均值可以得到比较序列Xi与参考序列X0的关联度。最后,依照各比较序列与参考序列的关联度值大小进行排序,对各比较因素与参考序列所指因素间的关联程度的相对强弱进行分析比较,以确定该发展系统中的重要关联关系及影响目标序列变化的主要因素。
灰色关联度对样本数据量或数据分布特征没有过高要求,适合应用于小样本数据,且能够通过序列之间关联程度的比较确定发展过程中目标序列的主要影响因素,并在具体实践中据以制定或调整相关策略。在对国家主题演化关联及其时滞关系的探究中,两个国家的主题发展序列是否存在某种关联以及关联程度如何,可以通过对时序数据发展过程中的相似性来进行判断,包括形状相似性与距离相似性。而灰色关联分析是通过比较时间序列数据变化曲线之间的几何形状来进行的关联程度度量,即时序数列间的发展态势越接近,则对应因素的关联强度越大,对时序数据的位置相似度有所忽略。因此,本文引入欧氏距离对时序曲线距离上的接近程度进行度量,并充分利用灰色关联度能够实现形状度量这一特性,将二者结合来进行关联强度测量指标的构造,具体计算方法为
式中,γz(X0,Xi)为主题z 下参考序列X0与比较序列Xi的灰色关联度,φz(X0,Xi)为两序列的距离相似度,通过对二者之间的欧式距离EDz(X0,Xi)求取倒数得到。因此,距离相似度的取值范围为0 到1 区间内,且与序列距离成反比,即两序列间的欧式距离越小,则相应的距离相似度越大。在最终关联强度的综合测量指标中,对灰关联度及距离相似度分别赋予相应的权重α1及α2,以明确形状相似性与距离相似性对关联强度的决定程度。基于以上方法,对国家主题演化时序数据间的关联程度进行计算,以辨别学科发展中各国关于热点主题的研究态势变化曲线之间是否存在关联关系,并通过各比较国家序列与参考序列所指国家的关联度大小,了解不同热点方向下各国与目标国家关联程度的主次顺序,发现各热点领域中与目标国态势发展关联紧密的主要国家。
2.4 各国关于热点主题演化的时滞分析
为进一步探究我国与各科技强国在热点主题发展上的领先-滞后关系及对应时滞期,本文利用时间滞后互相关方法进行分析。互相关作为一种统计度量方法,能够应用于时间序列之间的相似度度量并确定两序列间的时滞关系。其基本思想是,对于两个时间序列,保持其中一个序列不变,使得另外一个序列在所设定的移动范围内平移s 个单位,并计算每次平移后两序列之间的相关性,当两序列相关性最大时,通过此时对应的位移s 即可得到二者之间的领先-滞后关系及对应时滞期[17-19]。基于以上方法原理,引入时间滞后互相关分析对国家主题演化间的时滞差异进行探究。针对某一研究主题上各个国家所对应的时间序列,确定参考序列X0以及比较序列Xi(i=1,2,…m),保持X0的位置不变,将比较序列依次移动s 个单位,并计算相应位移下比较序列与参考序列的关联强度。当s>0 时,表示比较序列向右移动s 个时间单位,当s<0 时,表示比较序列左移s 个单位长度。如下式所示,分别为保持参考序列不变,比较序列右移s 个单位及比较序列左移s 个单位后所对应的序列表示。
基于以上序列表示,计算平移后各比较序列与参考序列之间的关联强度。以右移s 个单位为例,对移动后的比较序列X1进行截取得到X1'={ x1(1),x1(2),…,x1(n-s-1),x1(n-s) },以此类推,形成新的比较数列Xi'(i=1,2,…m)。相应地,参考序列X0的序列长度应取至n-s,得到新的时间序列为X0'={x0(s+1),x0(s+2),…,x0(n-1),x0(n) }。在确定平移后的时序数列后,利用前述构建的关联强度指标对此时各比较序列与参考序列之间的相似性进行度量。根据设定的移动范围,分别计算在不同位移长度下,各比较国家序列与参考国家序列的关联强度大小,并提取得到全部位移下关联强度计算结果中的最大值。将该最大值与未移动前对应时序的关联强度进行对比,以明确两国在该主题发展上是否存在时滞关系。若未移动前的关联值较大,则表示二者不存在明显的时滞差异;若最大值高于未移动前,则说明两国在该主题发展上存在一定时滞性,并可根据此时的移动方向与移动长度判断二者的领先-滞后关系与具体时间差距。当最大值对应的位移s大于0 时,表示比较序列所指国家在该主题上的发展领先于参考序列对应国家,领先时间为s;当最大值对应的位移s 小于0 则表示比较序列所指国家在该主题上的发展滞后于参考国家s 个时间单位。
3 国内外主题演化模式间的时滞关系探究
3.1 数据获取与处理
本文以合成生物学领域的相关论文为数据来 源,以Web of Science 中 的SCIE、SSCI、CPCI-S及CPCI-SSH 为索引数据库,对类型为Article、Review、Proceedings Paper 的文献进行检索,参照Philip 等针对合成生物学领域的搜索策略[20],将检 索 式 确 定 为(((TS=(“synthetic biolog*” OR“synthetic dna” OR “synthetic genom*” OR “synthetic*nucleotide” OR “synthetic promoter” OR “synthetic gene* cluster”) NOT TS=(“photosynthe*”))OR (TS=(“synthetic mammalian gene*” AND“mammalian cell”) NOT TS=”photosynthe*”) OR(TS=”synthetic gene*” NOT TS=(“synthetic gener*” OR “photosynthe*”)) OR (TS=(“artificial gene* network” OR (“artificial gene* circuit*” AND“biological system”)) NOT TS=”gener*”) OR (TS=(“artificial cell”) NOT TS=(“cell* telephone” OR“cell* phone” OR “cell* culture” OR “logic cell*”or “fuel cell*” or “battery cell*” or “load-cell*” or“geo-synthetic cell*” or “memory cell*” or “cellular network” or “ram cell*” or “rom cell*” or “maximum cell*” OR “electrochemical cell*” OR “solar cell*”))OR (TS=(“synthetic cell”) NOT TS=(“cell*telephone” OR “cell* phone” OR “cell* culture”OR “logic cell*” or “fuel cell*” or “battery cell*”or “load-cell*” or “geo-synthetic cell*” or “memory cell*” or “cellular network” or “ram cell*” or “rom cell*” or “maximum cell*” OR “electrochemical cell*” OR “solar cell*” OR “photosynthe*”)) OR(TS=(“artificial nucleic acid*” OR “artificial*nucleotide”)) OR (TS=(“bio brick” or “biobrick”or “bio-brick”)))) AND PY=(2000-2021),得到检索数量为14546 条。获取文献全记录并剔除重复文献及摘要和关键词均为空的文献记录,最终得到共计14439 条文献数据。将每篇文献的标题、关键词及摘要字段进行合并,并对形成的文本内容进行数据清洗,包括分词、移除停用词、短语提取、词形还原等操作。将经过上述处理得到的文本语料作为主题模型的输入,通过计算不同主题数目下的一致性指标值并结合模型实际效果,最终将主题数量设定为57 进行LDA 模型训练,并得到相应的概率分布。
3.2 热点主题分析
依照得到的文档-主题概率分布,针对识别得到的合成生物学领域的主题分别计算其主题平均强度,最终得到该领域中各主题的热门程度,如图1 所示,其中虚线为设定的主题强度阈值0.03,由此可以确定合成生物学领域的热点主题,即大于该强度阈值的11 个学科主题。如表1 所示,为该领域全部热点主题以及与之相对应的主题含义。
表1 合成生物学领域热点主题Tab.1 Hot Topics in Synthetic Biology
图1 合成生物学领域各主题强度情况Fig.1 Topic Strength in the Field of Synthetic Biology
3.3 国家主题强度演化分析
基于上述识别得到的热点主题,以该领域具有较高科研产出的国家作为本领域科技强国,并对各国关于热点主题的发展趋势进行分析。在科技强国的选取上,通过提取文献题录中的国家信息对各国的论文数量进行统计,若1 篇文章由多个国家的作者合作完成,则对应参与国家的论文数量增加1,以此来确定该领域成果产出较为活跃突出的研究国家。利用每篇文献的全部地址信息提取得到对应国家,从而获得每篇文献对应所属的国家信息,形成文献—国家数据表。该表格记录数量为19430,即平均每篇文献对应的国家数量为1.35,可见合成生物学领域研究中存在一定的国际交流合作。按照国家进行分类汇总后可以得到近20 年来各国在该领域对应的发文数量,如表2 所示,为按照论文产出总量进行排序后得到的各个研究国及其相对应的发文数量。
表2 各研究国发文量情况(部分)Tab.2 Number of Publications by Country(Part)
经统计,该领域涉及到的研究国共有108 个,其中论文数量居于前3 位的国家为美国、中国、英国,发文数量分别为5856 篇、2115 篇和1563 篇。结合当前合成生物学领域的国际竞争格局与各国的科技实力现状,本文选取中国、美国、英国、德国、法国和日本六个国家作为研究对象进行后续热点主题发展的关联程度分析与时滞性探究。
在研究各国关于热点主题发展的领先滞后关系之前,首先对近二十年来不同热点主题下六个国家的研究强度变化趋势进行刻画。如2.2 节所述,将各国文献离散到相应时间窗口后,通过文献对应的国家信息及文档-主题概率分布对国家c在t 时间窗口对主题z 的研究强度进行计算。最终得到2000—2021 年间中美英德法日六个国家关于各个热点主题研究的时序演化情况。如图2所示,分别为不同主题下各国关于该主题研究强度的变化趋势图。
图2 各国关于热点主题的研究强度变化趋势Fig.2 Research Strength Trends of Hot Topics in Different Countries
从主题的整体发展趋势来看,在上述热点主题中,各国对于代谢工程的关注度呈现出较为明显的上升趋势,其他主题例如细胞工程、组装工程以及基因组工程等方向的研究热度具有一定波动性,但从整体上也呈现出热度升高的变动趋势。不同于上述展现出热度持续上升走势的研究方向,其余一些主题的发展则呈现出一定幅度的下降。基因表达、酶促反应、肿瘤治疗、DNA 序列分析等领域在各个国家研究中的关注度曲线表现出高开低走的态势,各国关于此类主题的研究热度由高趋低,并最终维持在一种较为稳定的科研投入程度与发展状态。
除此之外,各国在关于其他热点主题研究上的发展模式与上述发展趋势存在一定差别。数学模拟与功能计算领域呈现先升高后平稳的研究趋势,即各国均在达到研究强度的最高点后产生平稳波动,但各个国家曲线最高点所代表的研究热度与达到该点所对应的时间均存在差异。在分子生物学方向的研究上,通过观察各国的发展曲线可以发现,中日法三国在初期达到研究强度的最高点后均产生了一定程度的下降,而英美德国家的发展曲线则维持在较为稳定的研究水平,没有明显的高低浮动。对于基因调控方面的研究,较多国家关于该领域的研究强度波动幅度较小,未存在明显的最高点。
综合以上六个国家关于热点主题的研究强度变化趋势可以发现,各国发展模式具有一定的互联性与相通性。从曲线形态来看,对于大部分热点主题,各国发展曲线的变化方向与总体轨迹较为接近,但各国关于某主题的发展曲线在朝同一方向产生变动的时间上有所差距。从曲线整体来看,对于初步发展较为平稳或是近些年保持稳定趋势的主题来说,该类主题的前期探索阶段或者后期稳定发展阶段,各国的关注强度差距很小或基本在同一水平上。从某个主题的发展进程来看,各国主题强度达到最高点所对应的时间通常存在差异。针对最高点值的大小来看,各国最高研究热度之间是否存在较大差距也有所区别。
3.4 国家主题演化关联关系分析
通过对六个国家热点主题研究强度的时序变化基本趋势的分析,初步认为我国与科技强国在同一主题上的演化发展具有相似性与关联性。为验证这种关联关系的存在,并对其间的联系程度进行衡量,本文以中国为参考对象,将我国关于不同主题的研究热度时序数据作为参考序列,美英德法日等其他国家在对应主题下的时间序列作为比较序列,分别计算中国与其他各个国家关于热点主题演化态势的关联密切程度。
以 表1 中 的Topic27,DNA 序 列 分 析(DNA sequence analysis)主题为例,各国主题强度的时序数据如下表3 所示。以我国主题强度变化数列为参考数列,即X0={ 0.0528,0.0922,……,0.0382,0.0264,0.0261},剩余五个国家关于该主题的研究强度变化数据作为比较序列,设ρ值为0.5,依次对两两序列在不同年份的灰色关联系数进行计算,并通过求取平均值分别得到美英德法日五个国家与中国在DNA 序列分析方向上的灰关联度为γ={ 0.7691,0.7851,0.7680,0.7507,0.7482 }。此外,利用欧氏距离分别计算五个国家对应的比较序列与参考序列之间的距离相似度,对应结果为φ={ 0.8249,0.8327,0.8217,0.7988,0.8511 }。取α1=α2=0.5,将灰关联度与距离度量结果进行综合,最终得到在DNA 序列分析研究方面,美英德法日五国与我国发展态势的关联强度为S={0.7970,0.8089,0.7949,0.7748,0.7997 }。对该数列按照数值大小进行排序可以发现,我国与其他五国在该主题的发展上均具有较为紧密的联系,以与英国之间的关联最为密切。类似地,采用以上思路可以得到在全部热点主题上,我国与其他国家研究态势之间的关联关系及密切程度,如表4所示。
表3 各国关于DNA 序列分析主题的研究热度变化Tab.3 Changes in Research Popularity on the Topic of DNA Sequence Analysis by Country
表4 各国关于热点主题研究态势的关联强度Tab.4 Correlation Strength of Research Trends on Hot Topics among Countries
通过对我国与其他国家在热点主题发展上的关联强度进行比较可以发现,在大部分主题的研究走势上,我国与其他国家均具有较为紧密的关联性,且关联程度差异不大;而对于基因组工程这一主题方向,我国与各国的发展曲线相似度具有相对明显的层次差别,与其他国家相比,我国与日本在基因组工程研究方面保持着较为突出的关联强度。我国在肿瘤治疗方面的研究发展与英美法三国关联程度较高,同时在基因调控方向也与英美国家有着较为紧密的关系;在细胞工程、代谢工程、酶促反应等主题方向的研究上,与德国的关联强度最高。此外,我国与日本在分子生物学、数学模拟和功能检测、基因表达等领域的发展上具有较强的关联关系。
3.5 国家主题演化时滞关系探究
从上述发展曲线及关联计算结果来看,由六个国家组成的学科发展系统处于一种相互影响、相互关联、稳中有变的动态发展状态中。各国主题演化趋势具有一定相似性与联系程度,但在达到最高研究强度及产生发展方向变化的时间先后顺序上可能存在一定差别。
为探究这种时滞差异,本文利用互相关方法的基本思想,仍以我国关于主题研究强度的时间变化数据为参考序列,美英德法日五国的主题强度变化数据为比较序列,对我国与其他各国主题发展序列进行时间滞后互相关分析,以探析热点主题演化中我国与其余五国的领先-滞后关系及相应时滞期。针对某一热点主题,保持我国关于该主题的时序状态不变,将s 的移动范围设为-5至5,并在该区间内对美英德法日五国关于该主题的时间序列进行单位移动,计算每次位移s 下其余各国与我国发展曲线的关联强度值。最终,对全部结果中的最大关联强度值进行筛选并得到该最大值所对应的位移s。如表5 所示,为对比较国家对应时序进行不同单位长度的移动后,计算得到的关联强度最大值,表6 为该最大值所对应的移动单位s,即我国与其他各国的领先-滞后年份。
表5 不同热点主题下的关联强度最大值Tab.5 Maximum Association Strength under Different Hot Topics
表6 不同热点主题下最大关联值所对应的位移Tab.6 Displacement Corresponding to the Maximum Correlation Value under Different Hotspot Topics
通过表6 结果中最大关联强度所对应的位移长度及移动方向,能够分析得知我国与其他科技强国在该领域热点主题发展中所体现出来的领先-滞后关系及具体年份差距。为更清晰直观地展现我国在合成生物学各个领域与其余国家相比所存在的优势与弱项,基于表中数据绘制我国与其余国家关于各主题发展的领先-滞后年份的相关热力图,如图3 所示。两种色块分别代表不同的时滞方向,通过颜色可以确定我国在某主题研究上为领先方还是滞后方,并可以结合颜色深度判断这种领先或滞后程度,颜色越深,则与对应国家之间的时滞差距越大。
图3 我国与其余各国关于不同热点主题的发展时滞期Fig.3 Time Lag between China and Other Countries on Different Hot Topics
由图中的色块分布情况可知,我国合成生物学领域的发展整体呈现出滞后于国外发展的局面。就各个热点主题方向的研究情况来看,我国在分子生物学、组装工程、肿瘤治疗、基因调控、基因表达以及基因组工程等学科子方向的研究中表现出较为明显的滞后性。与上述研究领域相比,我国在细胞工程、代谢工程及DNA 序列分析领域发展速度较快,具有较大的发展潜力与一定优势地位。例如我国在干细胞研究领域已取得重要突破与原创成果,包括全能干细胞的建立、干细胞的定向分化调控、干细胞疾病治疗等方面[21]。同时,在数学模拟和功能检测等学科主题上我国与个别国家相比也展现出一定的领先实力。在肿瘤治疗、基因调控及组装工程等研究方向上,日本相较于我国具有3~4 年的领先时期。美英德三国在包括肿瘤治疗、基因表达、组装工程等在内的领域中展现出了较为突出的科研实力与领先地位,在一些学科方向中与我国发展水平具有5 年时滞期。
4 结论与建议
4.1 研究结论
本文以合成生物学领域为例,对学科主题进行识别并遴选热点主题方向,计算并得到2000—2021 年我国与世界科技强国在热点方向上的主题强度变化序列。综合距离度量与形状度量对国家主题演化之间的关联强度进行探究,并通过时间滞后互相关方法揭示主题发展间的潜在时滞效应,对国家之间的领先-滞后关系及相应时滞期进行分析,得出以下结论。
1)近二十年来美国在合成生物学领域的总发文量居于首位,我国的成果产出数量排在第二,但还未达到美国发文总量的二分之一。从论文发表情况来看,美国与其他国家相比具有遥遥领先的科研产出水平。
2)合成生物学领域的研究分支较为广泛,其中研究热度比较高的主题方向包括分子生物学、细胞工程、代谢工程等领域基础研究以及基因表达与调控、基因组学、肿瘤治疗等体现工程生物学特点的应用研究。与其他研究主题相比,热点主题的关注度相对较高,但结合主题热度的时序变化曲线来看,DNA 序列分析、酶促反应等主题的研究呈现热度下降的趋势变化。
3)我国与美英德法日主要科技强国关于合成生物学领域的发展态势具有较为密切的关联程度。从大部分主题的研究热度发展趋势来看,我国与其他五国的主题发展模式与总体轨迹较为接近,但在基因组工程方向上,我国与日本在该主题的发展上存在相对明显的关联关系。
4)从学科整体来看,我国合成生物学领域的总体发展水平偏于滞后,且与美英德国家在肿瘤治疗、基因表达、组装工程等研究领域的发展上存在较长滞后期。但在细胞工程及代谢工程领域我国具有较大的发展潜力及成长速度,展现出了一定的科研实力与优势地位。
4.2 针对我国合成生物学领域发展的建议
作为一门新兴交叉学科,合成生物学同时具备基础集成性、前沿性、颠覆性等特征,也是“第三次生物科学革命”的引领者。本文基于以上数据分析与研究结论从科技情报视角出发,提出相应的对策建议。
1)继续提升科研成果的产出效率与能力,在论文产出数量上缩小与美国的差距。当前我国论文产出总量与美国相比仍存在断层差距,应着重加强领域薄弱方向的科学研究力度,促进成果高效产出。
2)基因的表达与调控、基因组工程能够实现对基因的调节、设计与构建,其不仅仅是合成生物学领域的核心技术体系,也是用于疾病诊疗等生物医学研究的重要手段[22]。我国在该领域方向的研究与各科技强国相比存在较为普遍的滞后现象,加大基因工程等技术方向的攻关力度,是促进合成生物学实现跨越发展的关键因素,也有望为肿瘤治疗等医学难题提供新的解决方案。
3)受益于丰富的生物资源与长期的代谢工程研究基础,我国合成代谢研究起步时间较早且已形成了强大的科研队伍与丰厚的研究成果,是我国较具优势的研究领域[23]。此外,在细胞工程以及DNA 序列分析、计算建模等合成生物学使能技术的研究方面,我国相较于个别国家也具有一定的领先地位。保持既往优势,力争在部分特色领域引领科技前沿也应作为未来合成生物学发展的重点任务。