识别高被引专利
——基于稀有事件Logit与倾向得分匹配模型*
2021-07-01张克群项星星欧慧玲
张克群,项星星,张 婷,欧慧玲
0 引言
发光二极管(简称LED)是全球电子产业的前沿和热点,具有耗电量少、不含汞、寿命长、响应速度快、体积小、无污染等特点,充分体现了可持续发展理念。“十二五”期间,半导体行业被我国视为重点发展的新兴产业,目前我国已成为全球最大的半导体照明产品生产、销售和出口国。《半导体照明产业“十三五”发展规划》对半导体照明产业提出“由大变强”目标。对企业而言,积极响应国家号召,充分发挥参与国家创新决策的作用、联合企业间协同开展创新研究、加强国际专利部署等,以推进我国LED产业迈入中高端发展水平显得尤为重要。面对这一发展目标,LED产业的技术创新水平能充分反映企业的市场竞争能力,而专利作为企业的无形资产,不仅可以将自己发明创造的产品与其他同类产品区分开来,并受国家法律保护,而且它还可以反映出企业的创新性及市场地位。因此,申请专利是各LED厂商保护自身产品的有效机制。
根据以往研究,专利被视为与技术创新活动相关的最重要的输出指标之一,专利分析已经成为衡量企业创新的重点[1]。随着专利统计数据的完整性与公开性不断提高,专利分析不再局限于对专利数量及专利的静态属性(如专利的向前引证数、向后引证数、IPC分类数、权利要求数)指标进行分析,而是基于专利的动态属性,即其与其他专利的引证关系,来探究专利的特征。No等[2]指出专利引证数据含有包括引证专利与被引证专利在内的丰富信息,其中,向前引证即指专利被其他专利所引证,体现专利对后续技术的影响;向后引证则指专利引证其他专利,是对先前技艺的延续。因此,专利引证是提供技术关系信息的主要指标;而且,专利被引证数越多,专利的价值越高,则该专利相对于其他专利就越重要[3]。Hall等[4]把专利被引证数作为企业专利重要性的衡量指标,并运用Tobin’s Q指数去探究专利的市场价值,结果表明专利被引证数越多,专利的市场价值越高,专利对企业就越重要。所以,对企业经济绩效产生重大的技术影响也是高被引专利的价值所在[5-6]。本文通过对高被引专利的特征进行分析,以期为企业更好地评估专利价值提供参考。
本文将专利区分为高被引专利与低被引专利,并计算专利的外向程度中心性、中间中心性、特征向量中心性等中心性指标及PageRank值。由于高被引专利在专利中所占比例较少,属于稀有事件(Rare Events),采用传统logit回归模型不仅会导致参数估计有偏,并且会低估稀有事件的发生概率,因此本文通过稀有事件logit回归校正参数和概率估计值来解决这个问题。同时,研究外向程度中心性、专利PageRank值、中间中心性和特征向量中心性对高被引专利价值的影响,应当排除其他因素对专利价值的影响,如权利要求数、发明人人数、专利族数等均会对专利价值产生影响。只有控制其他因素干扰,才能更准确地研究影响高被引专利价值的因素,为此本文采用由Rosenbaum等[7]所提出的倾向得分匹配模型(Propensity Score Matching Model,PSM)对此进行估算。倾向得分匹配是一种较好地控制其他因素影响的方法,可以选出主要特征最接近的专利进行比较,从而准确地分析高被引专利的特征[8]。
本文综合运用传统logit回归模型、稀有事件logit回归模型和倾向得分匹配模型对LED行业高被引专利价值评估影响因素及对策进行研究,为企业提供更有效的方法来识别更有价值的专利,以提高企业的专利管理水平。
1 文献探讨与研究假说
1.1 社会网络分析
社会网络分析(Social Network Analysis)是基于社会网络理论对社会关系与结构进行分析的方法,主要研究不同行动者的属性及行动者间内在联系构成的网络。研究重点在于节点在网络中的地位、作用,并探讨网络中个体的关系。在专利研究领域,Yoon等[9]最先将社会网络分析应用于构建专利引证网络并进行分析,研究分为核心技术识别、技术集群与技术演进分析等方面。黄晓斌等[10]以4G通讯技术领域为例,应用社会网络方法构建专利引证网络的竞争态势分析框架,发现4G底层技术发展过程中的关键专利,并进一步借助中心度识别出核心专利。Weng等[11]以保险行业的专利为例进行探究,其结论表明处于核心位置的专利技术更可能成为主要发明并在技术发展进程中扮演重要角色,在边缘位置的专利则随着核心位置的专利的发展而发展。张克群等[12]利用专利引证网络,研究得出在技术发展的早期和成熟期,专利价值的影响因素会对专利价值产生不同程度的影响。由此可以看出,专利引证网络已成为专利分析领域的研究热点,本文也将通过构建专利引证网络对LED领域高被引专利特征予以分析。
1.2 网络中心性特征与高被引专利
网络中心性是社会网络研究中重要的结构位置指标,用于衡量某一节点获取与控制资源的能力。Freeman[13]认为个体在群体中具有的权利和地位是其在社会网络中占有的中心位置的体现,行动者越处于网络的中心位置,其影响力就越大。因此,将网络中心性应用于专利引证网络,衡量专利在整个网络中的地位,并据此辨别价值较高的专利。
(1)程度中心性。程度中心性测度节点在社会网络结构中的位置或优势,某节点的程度中心性是通过计算与该节点存在直接联系的节点的个数来测量。某一节点的程度中心性愈高,则表明与该节点存在直接联系的相邻节点数量愈多,意味着该节点更有可能在整个网络中处于中心地位,也越有可能拥有较大的影响力。
就专利而言,外向程度中心性即是专利引证先前技术的程度,与专利的向后引证相对应。专利外向程度反映了对其他专利的参考和继承情况,表明某项专利对其他科学技术的依赖程度。在当前科学技术日新月异、突飞猛进的环境下,先前的技术大都存在着些许不足,专利以这些技术为基础加以发展与改进。如果某项专利引证先前技艺较多,则说明该项专利技术领域已经比较成熟,该专利所包含的技术主要是对先前成熟技术的改进。除此之外,专利引证在一定程度上衡量了知识溢出与转移的程度。如果某项专利引证先前技艺较多,则说明该项专利技术能够较好地融合先前技术知识,拥有较高的技术广度或深度,该专利技术领域已经比较成熟,其所覆盖的技术领域也就更广[12,14]。故提出假设1:
假设1:相比于低被引专利,高被引专利的外向程度中心性更高。
(2)专利PageRank值。PageRank最早是由Google创始人Sergey Brin和Lawrence Page于1998年提出的,是一种基于链接分析的网页排序算法[15],通过分析网络的链接结构来获得网络中网页的重要性排名。如果一个网页被许多其他网页链接则说明该网页比较重要,对应的PageRank值会相对较高。同样,如果一个PageRank值较高的网页链接到其他网页,那么被链接网页的PageRank值也会因此而提高。该算法同样适用于社会网络分析。社会网络中的节点类似于网页,而网络中节点之间的相互连接类似于网页与网页之间的链接。因此,可以通过专利之间的引证关系构建类似于网页中的超链接关系,并计算出专利的PageRank值。
基于上述概念,某一专利的PageRank值越大,意味着该专利被后续专利引证的数量越大,该专利的重要性相对更高,价值就越大。Reinstaller等[16]以欧洲专利局的生物技术专利为研究对象,发现专利的PageRank值与衡量专利质量的直接引证数存在高度的正相关关系,且通过PageRank算法计算专利得出的国家排名与通过专利引证得出的排名基本一致。顾立平[17]通过构建专利引证网络并利用专利引证数计算基于专利的PageRank值,并与专利被引证数排名进行对比,结果发现两者具有显著一致性。由此,提出假设2:
假设2:相比于低被引专利,高被引专利的PageRank值更高。
(3)中间中心性。中间中心性主要测量个体或组织作为媒介者的能力,Freeman[13]认为,如果一个行动者处于多对行动者之间,那么这个行动者可能起到重要的“中介”作用,因而处于网络的中心。如果有一个行动者在两个分离的行动者中间形成纽带的话,那么这个行动者就构成一个桥(Bridge)。在两个分离的大团体间,若彼此需交流和沟通相关信息与意见,以及协调行动的话,作为桥的行动者就非常重要。
专利在专利引证网络中占据的位置也会影响其专利价值。在专利引证网络中,中介者可以在不同技术领域的专利中传递技术知识。由于其连接了不同领域的专利,因此更容易推动新技术的产生、促进技术发展。另外,处于中间位置的专利与相邻专利包含的冗余信息更少,形成的替代关系就会越弱,更容易对后续专利产生更大的影响。最后,由于中介者在连接相关专利中处于重要地位,其可视为迅速阻碍竞争者进入市场的战略工具。所以,占据中介位置的专利往往含有较高的专利价值。基于此,提出假设3:
假设3:相比于低被引专利,高被引专利具有较高的中间中心性。
(4)特征向量中心性。特征向量中心性测度的是整体网络结构中最为核心的成员,是在考虑与特定行动者联系的其他行动者的中心性程度之后,进而对该行动者进行测量的中心性指标。一个行动者的中心性不仅取决于与其相连的其他行动者的数量,还取决于这些行动者的中心性程度。武澎等[18]通过将特征向量中心性指标运用到超网络信息系统中,研究得出在整个超网络中,节点所连接的重要节点越多,在网络中的价值就越高,对整个信息交流系统的影响也越大。朱丽波[19]在对科学合作网络进行中心性分析时,研究得出一个作者在该网络中的特征向量中心性指标越高,那么就越接近该网络的权重中心,其影响力也就越大。因此,在专利引证网络中,若某一专利的特征向量中心性程度较高,通常表明与该专利存在引证关系的其他专利的中心性也较高。对于专利而言,若其他专利都具有较高的中心性,即向前引证与向后引证数量都较多,这样的专利也具有较高的质量。一方面,与这些专利相连的专利的特征向量中心程度越高,意味着该专利越接近于专利引证网络的核心,在整个专利引证网络中,该专利能够通过直接或间接联系影响到许多专利,其影响力也越大。另一方面,这类专利可以获得的信息与知识也就越多,作为中介的作用越明显,质量也更高。由此,提出假设:
假设4:相比于低被引专利,高被引专利具有较高的特征向量中心性。
2 研究设计
2.1 样本选取与数据收集
本研究样本涉及包括外延片制造、芯片生产与芯片封装在内的整个LED产业链,采用Thomson Innovation数据库中截至2011年5月美国专利局授权的LED专利数据作为数据来源,另外考虑到“引用时滞”(time lag of citation)的影响,专利被引证数统计截至2016年5月。通过检索LED领域的专利关键词进行专利查询,初步得到40,330件美国LED行业内的相关专利信息,经人工筛选并剔除相互之间不存在引证关系的专利,共得到4,650件符合研究条件的专利。
2.2 变量操作型定义
(1)专利价值。专利评价领域中,专利H指数常作为识别专利价值的一项有效指标而被广泛采用。H指数是由Hirsch[20]提出来的新指标。Hirsch在其研究中将“H指数”定义为:某科学家发表的N篇论文中,最多有h篇论文至少被引用了h次,以此简单计算得出的数值h就是该位科学家的H指数。Guan等[21]首先将H指数用于专利分析上且提出专利H指数。专利H指数越高,表示其专利影响力越大,故专利H指数可用于评价专利的重要性及其质量特征。
根据H指数的定义,经过计算得到LED行业的专利H指数为105,即在这4,650件专利中,有105件专利的被引证数大于其H指数,即为本文定义的高被引专利。本研究中高被引专利为105件,非高被引专利为4,545件。因此,本研究采用专利H指数将专利区分为高被引专利与低被引专利,以此作为专利价值的代理变量。将高被引专利定义为1,低被引专利则为0。
(2)外向程度中心性。外向程度中心性越高,意味着先前专利被该技术领域的专利所引证的数量越多,进而在先前技术的基础上加以改进和发展,涉及的技术范围也越广,技术基础也更雄厚。对n个节点的网络图,节点i的外向程度中心性计算公式如下:
其中,Xij表示节点i是否直接引证节点j,如若节点i直接引证节点j,那么该值为1。否则,其取值为0。
(3)专利PageRank值。PageRank算法表述为以某一专利作为节点,专利之间的引证关系可以类比网页之间存在的链接关系,由此构建专利引证网络。在该网络中某专利的链出数量指其引证其他先前专利的数量,相反,链入数量指某专利被其他后续专利引证的数量。由此,专利PageRank值的计算公式如下:
其中,n表示所有专利的数量;PR(pj)表示引证专利pi的n件专利中的其中一件专利的PageRank值;L(pj)表示专利pj引证其他专利的数量;d表示阻尼系数,主要用于解决专利引证的终止问题和自我引证问题,取值范围0<d≤1,根据研究,d最优值接近0.5,因此本文采用d=0.5[22]。
(4)中间中心性。中间中心性测量的是一个点在多大程度上位于图中其他“点对”的“中间”。计算公式如下:
其中gst是行动者s到达行动者t的捷径数,是行动者s达到行动者t的快捷方式上有行动者i的快捷方式数,g是此网络中的人数。
(5)特征向量中心性。专利i所连接的特征向量数与其所连接的其他所有参与者的特征向量的总数之间的比值。通过计算节点的特征向量中心性,可以在整体社会网络中找到最具影响力的网络成员。特征向量中心性的计算如下:
其中,aij表示节点i与相邻矩阵(i,j)之间的相连关系,若相连,则aij等于1,否则等于0;λ为相邻矩阵的特征值;ej为每个特征值λ对应的特征向量。
3 实证结果与分析
从表1可见,变量中以专利PageRank值的标准差0.0149为最大,特征向量中心性的标准差0.0115次之,说明专利的PageRank值和特征向量中心性差别较大且分布较为分散。专利中间中心性的均值与标准差均为0.0001,说明中间中心性分布较为集中。
表1 描述性统计结果
从表2第二列的数据看出,在logit回归中,在1%显著水平下,专利的外向程度中心性对专利价值的系数估值为正,表明外向程度中心性越高的专利成为高被引专利的概率越大,因此本文的假设1成立。同时,在5%的显著水平下,专利的PageRank值对专利价值的系数估值为正,结果显示专利PageRank值越大,成为高被引专利的概率越大。因此,本文的假设2是成立的,即专利PageRank值与专利价值呈正比例关系。除此以外,从表2看出,在5%的显著水平下,专利的中间中心性和特征向量中心性均为正且显著,因此假设3与假设4也成立,即中间中心性越高的专利或特征向量中心性越高的专利成为高被引专利的概率越大,亦即相比于低被引专利,高被引专利具有较高的中间中心性和特征向量中心性。此外,表2第三列表明中间中心性对高被引专利的边际影响(Marginal effects)最高,其次为外向程度中心性。这说明中间中心性对专利是否为高被引专利的概率的边际影响为正,亦即在其他条件不变下,中间中心性每增加1单位,专利成为高被引专利的概率上升60.79%;在其他条件不变下,外向程度中心每增加1单位,专利成为高被引专利的概率上升6.8%。
表2 回归结果
由于高被引专利占比很低,属于稀有事件,大量专利属于非高被引专利,因此采用传统logit回归模型会严重低估事件发生的概率[23]。为了纠正这种偏差,本研究采用King等[23]开发的稀有事件logit回归模型进行重新估计。表2的第四列显示了稀有事件logit模型的结果,从中看出与logit回归结果相比,专利外向程度中心性、专利PageRank值、专利中间中心性及专利特征向量中心性回归系数有些变化,但是整体方向与显著性不变,同样证明假设1至假设4皆成立。
由于高被引专利和低被引专利在权利要求数、发明者人数、专利族数等诸多专利特征存在差异,为避免样本选择性偏差(Sample-Selection Bias)导致的内生性问题,本文采用由Rosenbaum等[7]提出的倾向得分匹配模型,在模型中加入专利特征变量,以期通过多元匹配方式找到与高被引专利样本相似的低被引专利样本。本文选取匹配变量:具体使用权利要求数、发明者人数、专利审查时间、技术覆盖范围、现有技术数(专利文献)、现有技术数(非专利文献)和专利族数。本文将高被引专利和低被引专利分别采用三种比率(1∶1、1∶2与1∶3)进行匹配,最终得出:倾向得分匹配模型(1)选取204件专利(105件高被引专利,99件低被引专利);倾向得分匹配模型(2)选取306件专利(105件高被引专利,201件低被引专利);倾向得分匹配模型(3)选取407件专利(105件高被引专利,302件低被引专利)。倾向得分匹配模型(1)(2)(3)结果见表2的第五、六、七列。
由结果看出,专利外向程度中心性、专利PageRank值、专利中间中心性及专利特征向量中心性回归系数均为正且显著,同样验证假设1至假设4成立。结果显示,不同模型皆支持和验证本研究假设,所以本研究结论是稳健的。
4 结论与建议
面对激烈的国际市场竞争,尤其是全球气候治理进程加快,企业不仅要加大LED行业核心技术的自主研发,还应在技术与资金有限的前提下,掌握专利价值的评估方法,获取更高质量的专利,以跟上绿色技术革命的趋势。作为节能领域的高科技新兴产业,LED产业秉承创新、协调、绿色、开放、共享的发展理念,在绿色技术的发展中具有强烈的代表性。
本文通过对LED领域高被引专利价值评估的影响因素进行研究,最终得出以下结论:
(1)研究发现,专利中间中心性与专利价值呈显著正相关关系且影响程度最大,即中间中心性每增加1单位,专利成为高被引专利的概率上升60.79%。这表明处于中介位置的专利更容易获得更高的价值,其他专利必须通过此专利才能获得联系。因此,建议在开发专利时,利用其他领域的知识进行创新,挖掘其他领域与本领域的关系,从而开发出具有较高中间中心性的专利。
(2)研究发现,专利外向程度中心性与专利价值也存在显著的正相关关系且影响程度次之,即外向程度中心每增加1单位,专利成为高被引专利的概率上升6.8%,外向程度中心性代表专利引证其他专利的次数,是对先前技术的进一步改进与发展。所以,建议企业在进行研发时,应该充分学习现有技术的创新点,并改进现有技术的不足,在获取足够的技术知识和打好坚实的理论基础后进行技术创新和发展,以提高专利的技术复杂度,从而实现专利价值的提升。
(3)研究发现,专利PageRank值与专利价值也呈正相关关系。建议企业借助PageRank算法计算自身拥有的专利的PageRank值并与同一技术领域的其他专利比较,对于排名靠前的专利应当重点保护。也可以参考该技术领域内排名较为领先的专利,分析这些专利背后的技术,改进自身拥有的专利技术,或在申请新专利时引证排名靠前的专利,以提升新专利的价值。
(4)研究发现,专利特征向量中心性对专利价值具有正向影响。建议企业通过构建专利引证网路,并计算特定范围内的专利特征向量中心性指标,在申请专利时可以引证特征向量中心性较高的专利,使自己的专利具备较高的特征向量中心性。这样更容易使自己的专利具有较高的价值,从而实现企业在技术创新方面上的成本效益最大化,并获得持续的竞争优势。企业可以寻找科研能力比较强的合作研发伙伴来弥补自身的不足,因为通过与科研能力强的合作伙伴合作也能够更快地提升自身的研发能力,且这些合作伙伴拥有的专利质量更高,可以使企业更容易寻求到高质量的专利。
本文以LED产业作为绿色技术领域的代表行业,通过对LED行业高被引专利价值的影响因素及对策研究,为企业在申请、评估专利价值时提供相应的参考与建议;让企业识别LED技术领域的核心专利,进而获取相关技术的未来发展趋势信息,这对于企业进行专利战略部署具有十分重要的意义;同时,本研究也能为其他绿色技术领域的高被引专利价值评估影响因素的研究提供新思路,从而促进绿色专利与绿色技术的发展与扩散。