科技主路径分析:一种同被引知识流的方法*
2021-11-22严婷婷李文静
严婷婷 刘 向 李文静
(华中师范大学信息管理学院 武汉 430079)
0 引 言
科学文献通过引证关系形成的引文网络从时间角度来看是学科历史演进的时序图,从空间角度来看是学科群,它能够反映特定领域知识的发展和演变[1]。随着时间的推移及知识的增长,引文网络已经演变成一个庞大的网络系统。如何从庞大的引文网络中发现关键文献,是分析具体领域变化趋势的一个重要问题[2-3]。基于引文的主路径分析对于提取特定领域的关键文献或关键技术及其演化路径具有明显的优势[4-5]。
技术主路径通过提取网络的主干来简化复杂的引文网络,并将关键技术节点按照时间顺序排列,以便清晰地展示科技领域重要技术及其发展承接关系[6-7]。Hummon等[8]最早提出基于引文的主路径分析方法,其采用节点对投影计数(NPPC),搜索路径链接计数(SPLC)和搜索路径节点对(SPNP)三种方法来衡量链接的重要性,然后基于局域或全局最优进行路径搜索,得到最高遍历权重的路径。之后,Batagelj[9]在总结上述遍历计数方法的基础上提出了搜索路径计数(SPC)方法,指出SPC方法比 Hummon 等提出的三种算法更有效[10]。Liu等[11]对路径搜索方法进行了完善,提出了关键路线搜索 (key-route search) 方法,这一方法可以通过选择关键路径的数量来解决主路径单一的问题,得到更加全面完整的演化路径。祝清松等[12]、陈亮等[13]、Gwak等[14]、刘向等[15]结合不同方法对主路径进行了改进。实证方面,研究者将主路径分析方法应用到不同科技领域来探索技术轨道。杨中楷等[16]究了太阳能光伏电池板领域的技术轨道识别。李健等[17]基于主路径研究了太阳能领域的知识扩散。Liu等[18]探索了DEA领域的局域、全局和多元主路径。王婷等[19]、Kang等[20]、颜端武等[21]分别将主路径方法应用到中药、色谱技术、石墨烯制备等领域。
然而,主路径分析采用SPx方法对直接引证网络的边权赋值存在以下问题:被引频率越高、参考文献数量越多的文献,其在遍历计数过程中获得的权重越大,被引频次高可以从一方面体现文献的重要性程度,然而参考文献的数量并不一定可以反映该文献的重要性[22]。同时,由于每条引文对知识扩散的影响不同,在引文网络中,权重相同的边的重要性也不尽相同。区别于传统的SPx方法对引文网络边的权重进行遍历计数,本文基于知识流在引文网络中传递的思想,考虑施引文献与被引文献之间关系的紧密程度,提出了一种根据施引文献与被引文献同被引强度分配知识流的引文网络边权赋值算法,据此计算得出引文网络中各边的权重值,然后采用全局搜索方法得到权重值之和最大的主路径。最后,由于文献间的同被引强度会随时间演变发生变化,基于上述方法构建的主路径在不同时期也会存在差异,我们采用有机发光二极管 (OLED) 领域的不同时间阶段的引文数据实证本方法的合理性和有效性。
1 同被引知识流方法
1.1方法描述主路径分析方法主要包括以下两个步骤:第一步,运用遍历计数方法计算网络中的链接权重;第二步,基于局域或全局方法进行路径搜索,得到最高遍历权重的路径即为领域主路径。本文提出的同被引知识流方法与传统主路径方法(如SPC)相比,改进主要体现在第一步计算链接权重。在SPx方法中对链接进行赋权时,参考文献数量这种无关因素会对节点的权重大小产生影响,而本文中同被引知识流的方法从节点与节点之间的联系紧密程度出发,依据同被引强度对网络链接进行赋值,具体计算方法如下所述。
基于特征向量中心性的网络节点影响力评价取决于该节点邻居节点的数量及质量。在引文网络中,即施引文献的数量越多,被引文献的影响力越大;施引文献的影响力越大,被引文献的影响力也越大。我们将引用关系视为文献之间影响力传递的路径,如果文献B引用了A,那么节点B的部分影响力通过有向边B→A传递到A,即施引节点的重要性通过引用链接分配给被引节点;就如同投票,B将票投给了A,A获得影响力。对于被引节点而言,施引节点的影响力越大,其分得的影响力越大;同时,施引节点的参考文献数量越多,其分得的影响力越小。
由于不同节点对之间的关系密切程度有所差别,在知识流的传递过程中,对于同一施引节点,不同被引节点分配到的权重值也会存在差异。我们可以根据引文网络中两节点间的同被引强度来确定权重值的分配。同被引强度越高,专利文献相关的可能性与关系密切程度越高,传递的影响力值也越大。假设节点A同时引用了B和C两个节点,B与A的同被引强度高于C,我们可以假设A向B传递了更多的影响力。被引节点B与A之间相关程度更高,从B到A的知识扩散比从C到A的知识扩散更多。因此同被引强度越高的节点对,施引节点传递的影响力越大。
施引节点根据关系密切程度按比例将其影响力传递给被引节点。施引节点传递的权重值的大小与自身权重值成正比,与其参考文献数量成反比,与施引节点和被引节点的同被引强度成正比。每个节点所获得的影响力来自于其所有施引节点所传递的影响力之和。假设节点D同时引用了节点E,F和G,节点D的权重值越大,被引节点E,F和G的权重值也越大。但是,如果节点D有3个以上的参考文献,那么每个分支分配得到的权重值会减少。假设节点对(D,E),(D,F)和(D,G)的同被引强度分别为2,1,0,那么节点D会通过连接到E的链路传递更多的权重值,在边的权重值中所占比例最大。
在实际的引文网络中存在一定数量的同被引强度为0的引文节点对(如上述节点对D,G),如果仅根据绝对同被引强度分配权重值,则同被引强度为0的施引节点与被引节点之间不会传递任何值。为了解决这一问题,我们在传递权重值的计算过程中不采用原始同被引强度,而是将每对节点对之间的原始同被引强度值加1,然后根据同被引强度加1后的比值传递知识流;这样的处理也可以解释为将引用本身视为施引文献和被引文献的一次共现。
1.2操作步骤第一步:数据预处理。提取专利号、专利引文数据及发布时间,如表1所示。
表1 专利引文数据表
第二步:构建专利引文网络。考虑到文献间的同被引强度会随时间演变而发生变化,我们尝试将数据集中的专利文献及其参考文献以专利文献为节点、直接引证关系为边,根据不同时间阶段的引证关系构建专利引文网络。设定每个节点的初始值为1。
第三步:计算引文网络中各节点的重要性度量值及每条边的权重。每个施引节点根据节点对之间的同被引强度按比例分配自己的重要性度量值,直到达到引文网络中的所有源。根据每个节点的重要性度量值CIF计算每条边的权重值。节点i与节点j连边的权重值Wij与节点j从引用它的节点获得的总权重值TWj可以表示为:
(1)
(2)
其中Cij为节点i与j同被引强度,n为节点i的参考文献数量,V为节点j的施引文献集合。 图1为知识流传递过程示意图,表2为图1中各节点的CIF值。
图1 基于同被引强度的引文网络知识流过程示例
第四步:搜索路径。本文采用全局搜索策略进行路径搜索,筛选出权重和最大的路径,得到不同时间阶段的技术主路径。
表2 图1中各节点的CIF值
1.3实验数据本文选取OLED领域的美国授权专利数据进行实验。采用检索词"OLED""organic LED""organic light-emitting diodes""organic electroluminescent""organic electro-luminescence""polymer light-emitting diodes"和"polymer LED" 在美国专利商标局数据库中进行检索,检索字段为:标题、关键词,检索时间范围为1976年1月-2018年5月,得到7 343条专利数据作为本文实验数据,这些专利的引文共计179 425条,平均引文数量24.43。
选取OLED领域美国专利数据作为数据来源的原因如下:a.OLED是相比传统的LCD技术而言更具优势的显示技术,其在电子产品、工业、医疗、军事等领域具有广泛的应用前景,对此领域进行研究具有一定的理论意义和实际意义。b.美国专利作为全球科技创新和发明的主要阵地,公开和授权了大量LED、OLED的专利,在专利数量和专利的覆盖率等方面具有一定优势,拥有较为完整的技术演化路径。
2 实验结果
2.1同被引知识流与SPC方法对比
2.1.1 路径形态 实验结果如图2所示,图2左图和右图分别为采用基于同被引知识流方法和SPC方法,再使用全局搜索得到的主路径。其中纵坐标表示专利申请年,横坐标没有特殊意义,节点大小表示专利文献的被引频次,边的线条粗细表示边的权重值。
从路径形态对比观察图2左右两种算法进行全局搜索得出的主路径,可以看出采用基于同被引知识流方法得到的主路径的节点提取会更偏向于老节点,从技术主路径显示来看,最早的节点可以追溯到1965年,比右图中技术主路径源节点申请年对应的1979年,早了14年时间。此外,左图主路径中专利节点申请年份的平均值为1995.5,右图平均值为1999.3,从整体来看基于同被引知识流方法得到的主路径节点也更偏向于早期节点,这是因为同被引频次是基于当前视角对过去的审视,随着领域研究的发展,重要且相关联的专利节点会在后人研究的引文中凸显出来。
图2 基于同被引知识流传递的全局搜索(左) 基于SPC的全局搜索(右)
2.1.2 路径内容 从专利内容上看,如表3所示,基于同被引知识流的主路径共有12项专利,基于SPC方法的主路径共有15项专利,两条路径共有7项重合专利,重合度高,且集中分布在1983-2002年。两条路径的差异主要存在于路径的源节点及2008年之后的节点。首先,基于同被引知识流方法搜索得到的主路径的源节点是3172862,这项专利首次公开了含共轭结构的主体有机材料的电致发光现象,揭开了对有机电致发光器件的研究;基于SPC方法得到的主路径的源节点是4164431,这项专利公开了使用多层有机组合物的有机太阳能电池,提高了光电转换效率。其次,两条路径高度重合部分(4356429 -…- 6303238),所有专利都是关于有机电致发光器件,这与基于同被引知识流方法搜索得到的主路径的源节点承接性较强,而与SPC方法得到的主路径的源节点(关于光电转换)关系较弱。最后,基于同被引知识流方法搜索得到的主路径在2008年之后的专利(7332232-9281483-9722193)公开了包含不同的金属配合物的有机发光二极管器件;基于SPC方法得到的主路径在2008年之后的专利(7279704-9059412-9224963-9385329-9947881)中,专利7279704关于磷光有机材料,专利9059412关于金属配合物,专利9224963、9385329和9947881则都是关于铂配合物。为提高发光效率,铂配合物等其他重原子金属配合物在电致发光材料领域被广泛探索[23]。基于同被引知识流的方法得到的位于主路径后期的节点在研究内容上承接关系稍强,而SPC方法得到的位于主路径后期的节点稍显分化。
表3 基于同被引知识流方法与SPC的全局主路径中关键节点
总体来说, 基于同被引知识流方法搜索得到的主路径能提取出更早的专利技术,可以追溯到技术的根源节点。从内容分析可以看出,基于同被引知识流方法搜索得到的主路径更为集中,源节点以及主路径节点表示的专利技术都与有机电致发光器件相关,而基于SPC方法得到的主路径节点数量更多,专利技术更为分散。相比之下,基于同被引知识流方法提取出的技术主路径对于理清有机发光二极管技术的演化过程的脉络更有理论价值。
2.2基于同被引知识流方法的演变路径将本文得到的7 343篇专利文献按时间划分,每5年为一段,由于2003年以前的数据量较少,不作单独划分。然后将1976-2003,1976-2008,1976-2013,1976-2018年的专利文献和它们的引文构成专利引证网络,依照上文实验步骤得到基于同被引知识流方法的技术主路径。表4为OLED领域的美国授权专利数据按时间阶段划分的统计数量。
表4 OLED领域的美国授权专利数据
2.2.1 路径形态 实验结果如图3所示,图3从左至右分别为截至2003、2008、2013的专利数据及其引文数据构成引文网络,然后采用同被引知识流方法得到的技术主路径。截至2018年的技术主路径如图2(左)所示。
从路径形态上来看,图3 (左)与图3 (中) 所示路径在除源节点外的节点上完全重合,侧面说明有机发光二极管领域在2004-2008年间专利技术没有较为重大的突破。比较基于同被引方法得到的4条技术主路径(图2 (左) 与图3)发现,路径(4356429-4539507)在整条技术主路径中一直占比较大,该路径连接的两项专利被引频次也较高。
1976-2003 (左) 1976-2008 (中) 1976-2013 (右)
2.2.2 路径内容 从路径内容上来看,图2 (左) 及图3所示的4条技术主路径的源节点分别为3173050、3172862,这两项专利都是由Gurnee等人于1965年申请,首次公开了含共轭结构的主体有机材料的电致发光现象,揭开了对有机电致发光器件的研究,在专利内容上具有相似性。4条主路径在源节点后的2个节点(4356429,4539507)是完全重合的,专利4356429中美国柯达公司的Tang等人首次发明了具有三明治结构的有机双层薄膜电致发光器件,使器件的开启电压大大降低,这是有机电致发光技术进入实用化时代的重要标志[24],自此有机电致发光材料与器件在国际上开始了大规模的研发。4539507从提高交流技术效率方面改善了器件制备工艺。
图3 (左) 和 (中)所示路径的中后期节点(5059861-5276381-5742129-6232713)完全重合,其中专利505986和5276381从开发新型发光材料、专利5742129从探索新的器件结构方面提高了发光效率,6232713则通过屏障将有机电致发光装置彼此分离从而改善了制作工艺。值得注意的是,图3 (中) 所示路径与图3 (左) 相比并无新增节点,但节点及边权相对大小发生改变,说明2004-2008年新增专利更加侧重对专利5059861-6232713的引用,对新增专利的同时引用较少。
图3 (右) 所示路径中,中后期专利(如5151629、6130001和6798135)更多涉及开发新的发光和传输材料,以提高操作稳定性、器件寿命、发光效率和颜色等。这与姜春林等[25]的研究结论类似:OLED涉及的技术领域以半导体器件为核心,同时有明显的演化趋势,如用于控制光的强度、颜色、相位、偏振或方向的器件或装置逐渐变为主导性技术领域,这与OLED显示器的技术成熟化相关。此条路径与前两条(图3 (左) 和 (中))相比,在节点4539507后发生变化(由5059861转变为5061569,此二项专利分别关于公开新型阴极发光材料、改进发光器件的内部结构),且后续节点无一相同,表明在2009-2013年OLED领域专利研究方向较之前发生较大转变。
图2 (左) 所示路径中,中期专利(如5343050、5674597和5834893)以探索新的器件制作工艺及器件结构为主,而后期则主要涉及开发和研究新型发光材料,如6303238公开了掺杂磷光化合物的发射层,7332232研发了具有过渡金属的发射材料和光活性配体,9281483和9722193研发了磷光金属配合物以改进磷光材料。正如焦志强等[26]的研究所述,理论上,有机磷光材料发光效率是有机荧光材料的4倍,在发光效率上有突破性的进展,磷光发光材料近来已成为OLED材料极重要的发展方向。与图3 (右) 所示路径相比,此路径在节点5151629后改变,由5925980转变为5343050,此二项专利都是关于探索新的器件结构,分别为具有梯度(分级)区域的发光器件、具有多层结构的有机薄膜。并且在节点5151629后,图2 (左) 与图3 (右) 两条路径完全无重叠。
总的来看,图3所示的1976-2003年与1976-2008年专利数据形成的演进路径基本重合,二者与截至2013、2018年的路径在前期基本重合,属于领域内开创性研究,在研究发光机理、探索新的器件制作工艺及研发新型发光材料三方面均有涉及,但中后期差异显著。在1976-2013年专利数据形成的演进路径中,中后期专利以开发新的发光和传输材料为主。在1976-2018年专利数据形成的演进路径中,中期专利主要涉及优化器件制作工艺及器件结构,后期则注重于新型发光材料的研发。从实验结果来看,基于同被引知识流的技术主路径并非一成不变,具有动态演变的特性。
3 讨 论
3.1贡献与创新之处基于同被引知识流方法对专利引证网络边权赋值,采用全局搜索方法提取权重值之和最大的技术主路径。相比传统的主路径分析方法SPx对引证网络的边进行遍历计数,本文采用的基于同被引知识流方法有以下贡献和创新之处:
a.解决了参考文献数量多的文献有更大机会获得更高权重的问题。在引证网络中将节点间传递的知识流的大小作为边的权重值,然后根据边的权重值采取全局搜索算法提取主路径,避免由于参考文献太多导致节点权重值大入选主路径而边的权重值都很小的问题。
b.本文基于引证网络中节点关系来衡量链接权重。在提取领域主路径时不仅考虑了节点的影响,还考虑了节点之间关系的密切程度。
c.通过专利文献的同被引强度确定路径上的知识流比重。由于文献的同被引关系是由比它们新的知识内容决定的,上述方法得到的主路径建立在历史追溯的角度上,反映了不同时期的当前研究者们对过去知识的看法,具有动态演变的特性。
3.2局限之处与应用范围基于同被引知识流方法提取技术主路径的方法存在以下三点局限:
a.本文基于专利文献间的同被引强度对引文网络的边权赋值,由于文献的同被引关系是由比它们新的知识内容决定的,因此在时间上存在一定的滞后性,不适于用来发现前沿研究领域。
b.基于不同时间阶段的专利文献及其参考文献所得的主路径可以发现该领域研究内容的转变,但无法衡量这种转变的大小,可对此做进一步研究。
c.本文基于文献之间的引证关系,所以并不适用于没有引文的专利数据。