APP下载

基于主路径分析的核心主题凸显及演化

2019-06-03闫肖婷刘向

现代情报 2019年6期

闫肖婷 刘向

摘 要:[目的/意义]主路径上核心主题的演化可以反映行业发展方向,凸显行业热点技术并预测技术的未来发展,有效判断技术主题间的传承演变关系。[方法/过程]本研究构建一种凸显主路径上的核心主题及演化方法。该方法不同于文本挖掘和聚类,是基于引文网络主路径映射专利分类号的链接计数,通过专利的分类号替代技术主题在主路径上演化并计算节点的技术主题含量,以技术主题含量的变化凸显主路径上的核心主题及其发展历程。[结果/结论]展示有机发光二极管OLED的主题演化图,证实了该方法的合理性。

关键词:技术主题演化;主路径分析;主题演化;专利分类号;技术主题含量

DOI:10.3969/j.issn.1008-0821.2019.06.003

〔中图分类号〕G306 〔文献标识码〕A 〔文章编号〕1008-0821(2019)06-0024-08

Abstract:[Purpose/Significance]The evolution of core topics on the main path can reflect the direction of industry development,highlight industry hotspots and predict the future development of technology,judge the inheritance and evolution relationship between technical topics.[Method/Process]The study buildt evolution method that highlighted core themes on main path.The method was different from text mining and clustering methods.It was link count based on main path of citation network mapping patent classification numbers.The technical subject content of the node was evolved and calculated on the main path by replacing the technical subject with the patented classification numbers.Changes in the content of technical topics highlighted the core themes and their development in the main path.[Result/Conclusion]The rationality of this method was verified by displaying the thematic evolution diagram of OLED.

Key words:technology subject evolution;main path analysis;subject evolution;patent classification numbers;technical subject content

专利文献是原始技术信息中最具有价值的信息源,包含世界最新科技信息的90%~95%[1]。技术演化又称“技术演进”、“技术轨道”等,用以描述某一领域的专利主干技术及其发展动态[2]。掌握核心技术主题演化规律有助于把握行业的技术发展方向,预测行业技术发展动态,为新兴产业遴选提供有效的支撑,也为相关的研发人员提供理论借鉴。

当前核心主题演化分析主要采用文本挖掘和聚类的方法,通過类群关键词的改变探讨技术主题的变迁,但这一方法难以判断技术主题间的传承演变关系[3]。如基于关键词聚类的主题发现方法是先将科学技术文献进行时间切片处理,然后利用关键词的共现关系得到多个技术主题的聚类,比较不同时间切片上的主题演化,以阐述不同时间段技术领域的发展趋势。该方法不仅需要专业人员分析关键词之间的演变关系,同时由于关键词的一词多义和多词一义等问题使得对关键词聚类结果的判断较为模糊。

其次,由专利文献之间的引用关系构成的专利引文网络,表现为专利技术之间的联系和演进关系,主路径分析能够用来识别技术领域内的主要构架及发展脉络[4]。很多学者利用Hummon和Doreian提出的主路径方法研究不同领域的主要发展脉络,并从不同角度补充和完善主路径方法。然而,单纯依靠主路径引证关系无法体现文本信息,并且主路径中可能包含非核心主题,需要专门人员耗费时间筛选和辨别。

而专利的分类号可以明确地表示专利所属的技术领域和主题。每个节点包含多个分类号,表明节点包含多个主题,且节点对每个主题的倾向是不同的[5]。相互引证的节点具有更大的可能性倾向相同的主题。因此,通过主路径节点的传递来构建技术主题含量指标,量化节点属于某一主题的程度,清晰表明领域发展中主题的发展变化。在主路径上的演化中,技术主题含量越高,则节点对该主题的倾向性越强。本方法首先通过主路径方法得到技术演化的主干;其次,用专利分类号代表技术主题进行链路计数,统计主路径上节点的技术主题含量并分析变化趋势,绘制主题演化图直观显示核心主题及其变迁;最后,对有机发光二极管(OLED)进行实证分析验证本方法的合理性和有效性。

1 研究综述

专利之间的引用关系一定程度上反映技术之间的继承和发展关系,利用专利引文网络主路径分析可以探讨主路径上的核心专利文献及其演化趋势[6]。中外学者利用专利文本信息的不同内容,将技术发现与主题演化方法分为以下3类[7]。

第一类是基于专利引文网络发现重要节点并进行主题演化,研究内容主要集中在主路径分析方法的改进以及其在具体领域的应用。基于主路径分析方法的改进主要有:Hummon N P等在1989年首次提出“主路径分析”概念,通过构造引文网络主路径,提出搜索路径连接计数(SPLC,Search Path Link Count)、搜索路径节点对(SPNP,Search Path Node Pair)以及节点对计数(NPPC,Node Pair Projection Count)算法,通过引文网络连接计数凸显技术领域内的重要链路[8]。Batagelj V在2003年提出一种新的遍历计数—搜索路径计数(SPC,Search Path Count)算法,这种算法节省计算弧权重的时间,可以用来分析大型引文网络[9]。Liu J S等阐述整合主路径方法能够克服链路中最大权重的路径未被捕获的问题,提出关键路线方法(Keyroute Search Path),并利用此方法实证研究Hirsch指数的发展历史[10]。此外,中外学者采用主路径方法中不同算法研究不同领域中主题演化过程。国外学者Calero-Medina C等、Lucio-Arias D等、Fontana R等和Choi C等主要采用SPC方法分析具体领域的技术发展路径[11-14]。国内学者韩毅等、章小童等、许冠南等分别利用SPC、SPLC和SPNP算法识别引文网络主路径分析法领域、富勒烯领域及3D打印等行业发展的不同阶段中的核心技术及其产业技术的发展轨迹[15-17]。

技术发现与演化分析的另一类方法是专利文本内容的技术演化,即通过文本挖掘技术获取专利的主题、摘要、权利要求等专利内容,研究内容主要是采用不同文本挖掘技术如LDA,运用不同文本描述语言如关键词、语义分类号来表达文本重要信息。Yoon B等利用技术的关键词聚类分析专利之间的关系[18]。但通过专利文档的关键词聚类,存在关键词丢失或者关键词属于绝大多数分组的现象。方曙等提出以语义分类号代替关键词进行专利文档聚类,绘制石墨烯传感器的技术主题演化图[19]。为弥补简单关键词统计对文本信息揭示不足的问题,祝娜等提出一种基于LDA的科技创新主题语义识别方法,以3D打印领域数据为对象进行实证分析[20]。吴菲菲等通过语义相似度跟踪技术关联主题的演化,获得太阳能电池板多个技术主题的演化路径[21]。

另外,也有学者运用专利分类号出现的频次,获得领域中重要主题及演化过程。朱婧对Tio2光催化材料的专利号统计分析,进而揭示光催化领域的主要制备技术及应用变化[22]。龚勋等引入时间片段,研究不同时间段内IPC大类的专利数量变化,反映汽车行业的热点技术[23]。廖列法等通过IPC分类号表示技术的关联性,度量技术主题强度,对稀土专利数据的主题演化进行实证分析[24]。

总之,通过专利引文网络发现重要节点以及主题间的关联存在一些问题,主要表现在:单纯依靠引用关系可能会忽略文本内容的联系。其次,文本挖掘识别核心主题演化路径有一定的限制。例如关键词之间的结构关系并不能明确表示,同一个关键词可能属于绝大多数分组。专利文本分析需要研究人员具有专业背景知识。另外,大部分学者仅统计分类号的数量探讨技术主题演化,并未从专利分类号演化的角度深入分析[25]。因此,本研究基于引文网络主路径,以专利分类号表示节点所含的主题,将主题映射于技术主路径,构建技术主题含量并进行链路计数,通过主题含量的变化凸显主路径上的核心主题并分析主题的变迁。

2 技术主题演化路径分析

2.1 方法描述

首先,利用SPC方法提取专利引文网络主路径。在专利引文网络中,节点表示专利,节点间的连线代表专利间的引用关系。箭头方向是从被引专利指向施引专利,表示技术流动的方向。从专利引文网络中提取领域主要技术的发展路径是从网路整体的连通性出发,利用SPC遍历方法衡量每对节点之间的边,抽取最大遍历次数的边形成网络主路径的边。Batagelj提出的SPC算法中起点必须是源点之一,终点必须是汇点之一。图1代表某领域的主干技术的发展脉络,共有8个节点,包括两個起点(A、B)和一个终点(H)。以D→E为例计算路径的SPC值,由于经过D→E的路径有A→C→D→E→G→H和B→C→D→E→G→H,故的SPC值为2。通过遍历路径计数,以局部、全局和关键路线搜索方法获得专利引文网络中的主路径。

其次,主路径反映领域中技术流动的方向。Liu J S等提出主路径上节点的知识强度在路径传递中不断衰减[26]。技术从源点流动到汇点过程中,技术主题含量在主路径上也存在衰减情况,而主题的重复出现则会增加技术主题含量。下文通过标注每个节点的联合专利分类号,映射主路径上主题的演化,构建技术主题含量指标分析核心主题的演化。

图1中领域主路径上的主题流动方向为A/B→C→D→E/F→G→H。不妨假定每种主题的初始含量和由主题重复出现引起的主题含量增加值为1,衰减因子f为1/2。以下用H01L技术为例阐述主题的演化。主路径共包含8个节点,其中节点A、B、C、D、E和G含H01L技术,节点F和H不含H01L技术,专利A与专利B均为主路径源点且被专利C引用。不考虑专利分类号出现的频次,将所有主路径源点具有的专利分类号合并,作为主路径共同起点所含的分类号,则主路径共同起点包含H01L技术,且H01L技术的主题含量为1。由于主题含量在流动过程存在消耗,H01L技术在流向节点C时主题含量衰减为1/2,但H01L技术在节点C中重复出现,故H01L技术的主题含量增加,此时节点C中H01L技术的主题含量变为3/2。技术沿主路径继续流向节点D,D中H01L的技术主题含量为1/2×3/2+1=7/4。此时,技术流动中存在两条分支,假设节点D流向每条分支路径的技术含量一致。如图2所示,每条分支路径获得的主题含量为节点D的1/2。则E中H01L技术的主题含量为7/4×1/2×1/2+1=23/16,节点F中H01L技术的主题含量为7/4×1/2×1/2=7/16。节点E与F中的H01L技术的主题含量沿主路径汇聚到G,且节点G包含H01L技术,则G中H01L技术的主题含量为(23/16×1/2+7/16×1/2)+1=31/16。

主题演化过程涉及以下具体情况:1)主路径存在多个源点、中间路径分叉或多个汇点等分支情况。鉴于主路径出现的不同分支情况,路径上主题的标示情况也不同。首先,分析含多个起始节点路径的主题演化。起始节点过多,增加技术主题流动的复杂度,为简化计算,将多个起点包含的相同主题合并,作为主路径共同起点的主题。其次,讨论主路径中间出现分支的情况。路径分支的出现是由于施引节点的被引频次相同,每条分支代表主题的不同流向。由于被引频次常表示节点重要性大小,不妨假定流向每条分支的技术主题含量相等。如果路径中间的某一节点的技术主题含量为1,有n个被引节点,则构成n条路径分支,且每条分支的技术主题含量为1/n。再次,针对存在多个汇点的主路径,统计含同种分类号的汇点数占所有汇点数的比重。比重越大,表明该主题有很大的发展前景或未来越有可能成为领域内的重要技术,反之表明这种技术主题的发展将受到阻滞。2)本方法设定主题演化中的衰减因子为0.5,是因为设置不同的衰减因子值得到的技术主题演化趋势是一致的,但阈值过小或过大影响图像的直观效果。本方法将所有源点的主题合并作为主路径上第一个节点的主题,当技术主题含量沿共同起点流向下一个节点的过程中,路径上第i个节点的主题含量(CD)为:

2.2 操作步骤

第一步:提取技术主路径。

第二步:联合专利分类号(CPC)的选取。CPC是欧洲专利局和美国专利商标局合作开发的一套分类体系,其以欧洲专利分类号(ELCA)体系为基础,沿用国际专利分类号(IPC)的分类规则,并融合了ELCA/ICO以及美国专利分类号(USPC)的信息。IPC含有6.9万个分类号,而CPC含有26万个专利分类号,涵盖欧洲专利数据、美国专利数据以及PCT最低的文献量[27]。CPC分类是由IPC技术主题更具体细分得到的,能够有效提高检索效率。

CPC分类表分为9个部,分别为A~H和新增的Y部,其中Y部只能用于标引附加信息。附加信息是那些可能便于检索者查找但对现有技术发展没有贡献的信息[28]。如Y10技术是从已有的USPC直接转换的,不考虑对Y10S和Y10T技术进行主题演化分析。由于增加联合专利分类号选取的位数,会增多保留的分类号的数目,导致技术主题演化图复杂化;而减少专利号选取位数,专利技术分类过于宽泛,致使专利分类号表示的主题演化方向大致相同,不具有区分性。因此,本方法选取联合专利分类号的前4位进行主题分析,表1是主路径上的节点所含的专利分类号及分类号表示的信息。

第三步:技术主题演化分析。用专利分类号表示节点的技术主题进行链路计数,构建技术主题含量指标反映主题的变化,绘制技术主题演化图。

2.3 实验数据

采用关键词“OLED”、“Organic LED”、“Organic Light-emitting Diodes”、“Organic Electroluminescent”、“Organic Electro-luminescence”、“Polymer Light-emitting Diodes”和“Polymer LED”检索词”在USPTO(美国专利商标局)数据库中检索1976年1月-2016年12月的有機发光二极管专利数据,共选取7 343条美国授权专利数据作为数据来源。选择美国授权的有机发光二极管数据的原因:1)美国是较早研究OLED的国家,拥有较高的OLED发展水平,是OLED专利数量最多的国家。2)OLED是一门新型显示技术,是继LCD之后理想和最具有发展前景的下一代显示器[31]。OLED量产技术逐渐成熟,拥有较为完整的技术发展脉络,对OLED专利分析可以较为明显观察到核心主题的发展趋势。

3 实验结果

使用SPC算法,通过前向、后向搜索OLED专利引文网络,得到OLED领域局部、全局和关键路线的技术主路径图。图中节点代表专利,节点之间的连线表示专利间的引用关系,节点大小表示专利被引频次的大小。基于图2的技术路径图,用主路径节点的联合专利分类号(CPC)探索OLED领域各子技术演化的方向并预测专利技术主题未来的发展趋势。

3.1 SPC局域、全局、关键路线

观察局域、全局以及关键路线3幅图并对比3条路径,发现3幅图中的节点并不重合。对主路径上的高被引节点如4356429、5061869、5834893、6303238等的专利内容解读,发现研究者主要从材料、器件制备工艺两方面改善电致发光器件效率的内容,且除少数专利6046543、6645645、6803720外,基于SPC关键路径方法几乎涵盖了其余两种路径上的专利节点。其次,针对图2中基于局域和关键路线方法的路径存在很多低被引频次的起始节点,局域路径中间存在分支及关键路线末端的节点出现聚集的情况,作如下处理:1)图2(左)局域路径存在7个源点,整合4356429的被引节点的专利联合分类号(CPC),作为共同起点的技术主题。2)图2(左)局域路径中,包含6803270-7279237-7563519、6803270-7279235-7563519两条分支,且6803270的主题含量均等流向两条分支。3)针对图2(右)关键路线末端专利7655323的被引节点出现聚集的情况,考虑到主路径的末端节点是当前OLED技术的研究方向,节点包含的技术主题一定程度能够反映OLED领域各技术未来的发展趋势。统计专利7655323的被引节点包含的分类号种类,分别计算不同分类号的节点数占被引节点总数的比重,来预测OLED领域内各主题的发展趋势,所占比重越大,表明这种技术在OLED领域内越重要。

3.2 局域、全局、关键路线的技术主题演化图

对图2中3条路径上的节点的技术主题含量进行链路计数并统计变化值,绘制技术主题演化图。图3中,横轴表示专利,次坐标(横轴)代表时间,纵轴表示专利的技术主题含量(CD),FO表示源点,FU表示技术的最新发展方向。通过对局域、全局以及关键路线技术主题演化图分析,发现OLED的发展主要集中于电学(H)和化学(C)两大技术领域。基于局域、全局和关键路线方法得到的路径均含6种技术主题(C09B、C09K、C07D、C07F、H05B和H01L),且这些主题的发展趋势几乎是一致的。关键搜索路径包含的主题最为丰富,几乎囊括局域和全局的技术主题。以下是对OLED各技术主题的演化分析。

技术从源点流向汇点中,主路径上的节点大都含有H01L技术,故H01L技术的演化是一条较为平缓的曲线。由此,可以表明H01L技术对OLED的发展至关重要。从表1中可知,H01L定义为半导体器件及其工艺或设备。查找相关文献了解到,OLED的器件及其制备工艺改进贯穿OLED发展的整个历程。H05B涉及电致发光光源器件,具体涉及半透明电极以及电致发光材料(如荧光材料、磷光材料)的排列的改进。图3中H05B的发展并不连续,是一种较为明显的阶段性发展。H05B技术从4539507到以56开头的专利呈现上升的趋势,此后相关专利减少,直到从以72开头的专利后再度迅速发展。C09K表明有机发光材料的化学性质。图3显示C09K是在H01L和H05B后出现的。新主题出现后短时间内受到关注,之后除少数专利如6303238外,很少有研究者参与该项技术的研究,直到以72开头的专利再次涉及C09K,这种技术的影响力才不断上升。C07D的出现最晚,它提供一种杂环化合物,更具体涉及含有五元环的杂环化合物与其他环稠合,一个氮原子作为唯一的环杂原子。C07D技术出现一段时间后逐渐受到研究者关注,并演化为OLED领域的主流趋势之一。

而图3局域(上)出现B82Y、F21K技术、关键路线(下)中的B82Y、F21K和C07C技术、全局(中)出现的Y02E技术以及3幅图中均存在的C09B、C07F在行业发展中均逐渐衰退。其中,B82Y是一种纳米结构的特殊用途或应用。C07F涉及一种杂环化合物,具体包含有机材料中掺杂含3、4、13或14族元素的杂环化合物的结构。

从主题演化的角度分析,H01L、H05B、C09K和C07D技术呈现上升发展趋势,表明4种技术在OLED领域发展中占据重要的地位,是OLED领域发展的核心主题。图3表明,OLED的发展首先集中在器件领域,之后研究人员逐步关注有机发光材料的改进,更具体涉及有机发光材料的化学性质以及含五元环的氮或硫杂环化合物在磷光发光材料中的应用。其他的分类号,如B82Y涉及的信息传输技术,Y02E涉及的有机光伏电池等技术在技术主题流动过程中逐渐衰退。这与OLED在实际发展过程中逐步趋向于器件结构以及磷光材料改进的大体方向一致。观察关键路线技术路径图末端节点,表明H01L、H05B发展势头良好,有机发光二极管器件的改进仍然是OLED领域未来值得关注的方向。其次,C07F、C09K和C07D技术呈现上升发展趋势,预示有机发光二极管化学材料性质的研究将是OLED发展的主流方向之一。

4 结 论

本文结合引文网络主路径以及专利的联合专利分类号实现主路径上主题的标示和演变,构建技术主题含量(CD)指标衡量节点属于某一主题的程度,凸显主路径上的核心主题并丰富主题演化的方法体系,通过OLED实例验证了其具有科学性与可行性。所构建的方法清晰、直观反映出领域内各技术主题含量随时间的演化,帮助研究人员更便捷了解核心主题的发展脉络。

本方法仍然存在一些需要深入研究的地方,它的局限性主要體现在:

1)以专利号作为主路径上主题分析依据可能会忽略专利技术细节。

2)主路径上衰减因子和技术主题重复出现的主题含量的初值设定是固定值。而技术主题流动中,主路径上的主题衰减和主题重复出现增加的主题含量可能是变化的。

3)技术主题演化分析是基于单一主路径,但引文网络主路径可能并不是单一路径,技术主题含量如何在路径分支上分配需要更深入的研究。本研究通过对有机发光二极管的实证研究,证明以专利分类号替代主题进行链路计数,构建技术主题含量指标凸显专利的核心主题及其演化方向是合理的。下一步也可以选择不同领域的数据进行实证研究,进一步证实凸显主路径上核心主题与演化分析方法的有效性。

参考文献

[1]吕祥惠,仇宝艳,乔鸿.基于本体的专利知识发现体系研究[J].计算机与信息技术,2008,(7):47-53.

[2]万小萍,刘向,闫肖婷,等.基于关联分析的技术演进路径发现[J].情报学报,2018,37(11):1087-1094.

[3]刘向,万小萍,马费成.基于专利信息的科技创新趋势探测:理论与方法[J].情报科学,2015,33(12):20-50.

[4]胡阿沛,张静,张晓宇.基于专利文献的技术演化分析方法评述[J].现代情报,2013,33(10):172-176.

[5]周磊,杨威.基于专利IPC的技术知识流网络挖掘[J].现代情报,2016,36(1):45-50.

[6]张娴,方曙,王春华.专利引证视角下的技术演化研究综述[J].科学学与科学技术管理,2016,37(3):58-67.

[7]陈亮,张志强.技术演化研究方法进展分析[J].图书情报工作,2012,56(17):59-66.

[8]Hummon N P,Doreian P.Connectivity in a Citation Network:The Development of DNA Theory[J].Social Networks,1989,11(1):39-63.

[9]Batagelj V.Efficient Algorithms for Citation Network Analysis[J].Computer Science,2003.

[10]Liu J S,Lu L Y Y.An Integrated Approach for Main Path Analysis:Development of the Hirsch Index as an Example[J].Journal of the Association for Information Science & Technology,2012,63(3):528-542.

[11]Calero-Medina C,Noyons E C M.Combining Mapping and Citation Network Analysis for a Better Understanding of the Scientific Development:The Case of the Absorptive Capacity Field[J].Journal of Informetrics,2008,2(4):272-279.

[12]Lucio-Arias D,Leydesdorff L.Main-path Analysis and Path-dependent Transitions in HistCiteTM-based Historiograms[M].John Wiley & Sons,Inc,2008.

[13]Fontana R,Nuvolari A,Verspagen B.Mapping Technological Trajectories as Patent Citation Networks.An Application to Data Communication Standards[J].Economics of Innovation & New Technology,2009,18(4):311-336.

[14]Choi C,Park Y.Monitoring the Organic Structure of Technology Based on the Patent Development Paths[J].Technological Forecasting & Social Change,2009,76(6):754-768.

[15]韩毅,童迎,夏慧.领域演化结构识别的主路径方法与高被引论文方法对比研究[J].图书情报工作,2013,57(3):11-16.

[16]章小童,阮建海.引文网络主路径分析法演化脉络及研究现状的文献计量分析[J].情报资料工作,2016,(5):61-66.

[17]许冠南,谢梦娇,潘美娟,等.3D打印产业技术的演变与预测研究——基于专利主路径分析[J].北京邮电大学学报:社会科学版,2016,18(4):77-85.

[18]Yoon B,Park Y.A text-mining-based Patent Network:Analytical Tool for High-technology Trend[J].Journal of High Technology Management Research,2004,15(1):37-50.

[19]方曙,胡正银,庞弘燊,等.基于专利文献的技术演化分析方法研究[J].图书情报工作,2011,55(22):42-46.

[20]祝娜,王效岳,杨京,等.基于LDA的科技创新主题语义识别研究[J].图书情报工作,2015,59(14):126-134.

[21]吴菲菲,陈肖微,黄鲁成,等.基于语义相似度的技术多主题演化路径识别方法研究[J].情报杂志,2018,37(5):91-96.

[22]朱婧.光催化材料相关的专利分类号情况综述[J].广州化工,2016,44(11):51-98.

[23]龚勋,韩彩云,许雯燕.汽车产业专利总体态势及关键专利技术IPC研究[J].特区经济,2007,(12):251-252.

[24]廖列法,勒孚刚.基于LDA模型和分类号的专利技术演化研究[J].现代情报,2017,37(5):13-18.

[25]祖坤琳.基于专利文献的技术演化分析[D].大连:大连理工大学,2015.

[26]Liu J S,Kuan C H.A New Approach for Main Path Analysis:Decay in Knowledge Diffusion[J].Journal of the Association for Information Science & Technology,2016,67(2):465-476.

[27]廖佳佳,高菲,呂良.联合专利分类体系研究[J].现代情报,2014,34(1):64-68.

[28]李莹.CPC专利分类体系在OLED领域的应用[J].河南科技,2017,(7):15-17.

(责任编辑:郭沫含)