基于机器学习的高质量专利特征组合挖掘
2021-07-01王婧怡黄彩云余玲珑
周 磊,王婧怡,黄彩云,余玲珑
基于机器学习的高质量专利特征组合挖掘
周 磊a,王婧怡a,黄彩云b,余玲珑a
(武汉纺织大学 a. 会计学院,b. 管理学院,湖北 武汉 430200)
挖掘高质量专利的特征组合有助于揭示专利价值形成机制,进而引导专利质量整体提升。以中国专利奖获奖发明专利为样本集,从技术质量、法律质量和经济质量等指标建立高质量专利评价指标体系,进而利用决策树模型抽取出9条区分金奖发明和优秀发明的知识规则。发现法律质量是高质量专利的第一要素,高权利项可作为识别金奖发明的唯一特征;较高的权利项与专利族、被引频次的组合可以识别金奖发明;权利项偏低时,专利需满足多个技术质量指标阈值才能认定为金奖发明。
专利质量;机器学习;决策树;专利权利项;中国专利奖
当前,中国国家知识产权局年均受理专利申请量位于全球首位,但专利“大而不强,多而不优”的整体态势并未完全扭转。本文将以中国专利奖授予的金奖发明为目标集,利用机器学习模型挖掘其指标特征以揭示高质量专利的价值形成机制,为监督式学习分类器提供多元化的高质量专利筛选标准,为提升我国专利知识产权总体质量提供参考建议。
1 国内外文献综述
1.1 专利质量评价指标研究
主流观点将专利质量分为三个构面:技术质量、法律质量和经济质量。技术质量重点反映专利的技术新颖性和创造性,主要指标包括:基于专利引用关系的专利被引频次、技术循环周期(TCT)、专利权人的H指数、技术原创性与多样性[1, 2];基于NPC分析的科学关联度、专利科学强度;基于技术保护范围的专利技术宽度、技术融合程度[3, 4];基于专利申请人的合作申请模式、发明人规模;基于专利申请策略的专利族规模、PCT申请、三方专利申请等[5, 6]。法律质量重点反映专利经受审查、无效和诉讼程序的综合能力,只有确保专利有效才能借助专利实现垄断性经济价值[7]。主要指标包括:专利权利项、专利合同备案、异议、纠纷、诉讼、专利说明书和附图平均页数[8]。经济质量反映专利商业化和经营创效前景,主要指标包括:专利技术市场需求度、专利市场技术垄断程度、专利寿命、专利技术利润率;专利实施、许可、质押等转化能力指标[9,10]。
1.2 专利质量评价方法研究
情报学早期研究利用文献计量、层次分析法等定性研究法对专利质量进行综合评价。技术创新管理研究利用计量经济学方法,发现对创业板上市公司专利质量综合指数影响较大的是有效发明专利量、专利近 3 年被引次数[11];而专利被引次数和权利要求数量对企业盈利能力具有显著正向效应[12]。目前,新兴研究引入逻辑回归、决策树、神经网络等机器学习方法,以期提升专利质量评价的客观性、便利性和科学性。张杰等(2018)以诉讼专利为目标集,利用AdaBoost算法提升专利质量评价弱分类器的准确性[13]。刘夏等(2019)针对专利大数据,提出基于随机森林算法的专利质量预测模型[4]。Mariani MS et al (2019)提出了一个年限标准化的专利中心性指标rescaled PageRank,证明该指标比引用次数计量法更能准确发现引用网络中重要专利[14]。Lee et al (2019)对18个专利质量指标进行前馈多层神经网络建模,预测具有高被引次数的高质量专利[15]。
综上所述,专利质量评价主题的国内外研究成果颇丰,针对中国高质量专利的探索性研究也已展开。然而,如何将丰富的专利评价指标充分嫁接于中国专利系统,推动中国高质量专利研究从评价指标的描述性统计向综合性、关联性分析升级,仍是一个值得深入探讨的问题。基于此,本文将以中国专利奖金奖专利、优秀奖专利作为对立样本,通过决策树建模挖掘金奖专利的综合质量特征,从而揭示高质量专利的形成机制,并为专利质量指标体系研究提供多样化的评价准则。
2 数据源与研究设计
本文首先构建专利质量区分指标体系并进行单特征统计、进而增加若干辅助指标进行决策树建模、最后抽取出高质量专利特征组合的知识规则,研究思路如图1所示:
图1 研究思路
2.1 数据源
中国专利奖由国家知识产权局和世界知识产权组织共同主办,是我国唯一专门对专利给予奖励的政府部门奖。鉴于发明专利、外观设计专利在专利“三性”要求上存在显著差异,本文选择发明专利作为样本集。其中,金奖发明作为高质量专利集,优秀奖专利作为对照组。为了获得足够的样本集并统一时间窗口,笔者在incoPat数据库中下载了第13届(2011年)至第21届(2018年)金奖发明153件、优秀奖专利3575件。
2.2 研究设计
2.2.1 专利质量区分指标集构建
综合国内外研究结论及样本数据源特征,从技术价值、法律价值和经济价值三方面建立专利质量区分指标体系,如表1所示。
表1 专利质量区分指标体系
需要特别说明的有三点:一是考虑到专利引用的“时间截面”问题,以年均被引频次替代被引总次数;二是技术融合程度是新兴的专利质量评价指标,本文以专利中不同IPC小类的共现来表示;三是由于有效数据稀疏,技术标准、PCT专利、自引、他引评价指标未纳入本研究。样本中的绝大部分专利尚处于有效期内,故未将法律状态、专利寿命指标纳入本研究设计。
2.2.2 专利质量辅助判断指标
还有部分指标不能独立评价专利质量但常用于专利分类,可以辅助上述指标判断专利质量。特此增加申请人类型、国民经济分类2个辅助指标:
(1)申请人类型:以取值0-6分别表示申请人为企业、机关团体、科研单位、其他、个人、大专院校、合作申请。
(2)国民经济分类:以专利所属的国民经济分类为表示专利技术类别,取值0-5分别表示分类为农林牧渔业、采矿业、制造业、电力热力燃气及水生产和供应业、建筑业、信息传输软件和信息技术服务业。
2.2.3 机器学习模型选择
常用的二分类监督学习模型包括决策树、SVM、逻辑回归模型。决策树、SVM能够表示复杂的、非线性关系,分类准确性通常高于逻辑回归模型;而决策树能够直观展示分类规则。基于分类器准确性及本文的研究目的,故而选择决策树模型。
决策树模型以二叉树的形式表示分类过程,每一个父节点表示一个属性分裂规则,左分支表示满足该判断条件的样本集,右分支表示不满足该判断条件的样本集;每一个叶节点表示一种分类结果。一般通过计算各节点的信息熵(entropy)、基尼指数(Gini)、信息增益值确定每一属性的分裂规则。从根节点出发,历经各级父节点,到达叶节点的一条路径表示一条完整的分类规则。决策树的层次越深,分类越精细,但也可能带来分类规则过于复杂及覆盖性有限的问题。
3 高质量专利特征组合挖掘
3.1 中国专利奖获奖发明的单特征统计
将金奖发明记为第1组,优秀奖发明记为第2组,依次检验表1中各指标的显著性。由于被引频次、专利族规模、技术宽度、发明人规模、权利项规模、审查时程的取值为定量数据,故采用T检验。T检验要求样本符合正态分布;均值比较时,根据样本是否具有方差齐性,选则不同的计算规则进行检验。统计发现被引频次、专利族规模、保护宽度、发明人规模、权利项规模5个指标的样本不符合正态分布,故首先利用公示(1)进行正态化:
对5个指标进行正态化后,对上述6项指标进行T检验,如表2所示。
表2 金奖专利与优秀奖专利的指标对比(T检验)
注:***表示。
非专利引用、三方专利、技术融合、专利运用的取值为分类数据,故采用卡方检验,统计结果如表3所示。
表3 金奖专利与优秀奖专利的指标对比(卡方检验)
注:*表示。
由表2、表3可知,金奖专利、优秀奖发明在技术质量上的差别不显著,而法律质量存在显著差异、经济质量存在一定差异。具体来看,专利权利项是金奖发明的重要标志,正态化处理前,金奖发明平均拥有6.3条权利要求而优秀奖发明平均仅有1.7条权利要求。专利运用也可用于区分金奖发明、优秀奖发明,说明二者的经济价值亦存在较大不同。
3.2 中国专利奖获奖发明的决策树建模结果
近年来,金奖发明与优秀奖发明比重持续走低,如2018年授予发明和实用新型金奖20件,优秀奖802件。针对样本中两类数据不均衡性问题,分别利用过采样、欠采样、综合采样三种算法协调两类数据的采用比例,将其与原始样本的训练、测试准确率进行对比,结果如表4所示。
表4 各采样策略下决策树建模结果比较
由表4可知,基于原始采样的决策树建模准确率高于其他采样策略,前者在训练集上的分类准确率为96.14%、在测试集上的分类准确率为94.37%。笔者认为,这可能与原始采样在最大程度上保证样本真实性、十折交叉验证策略赋予分类器足够的、多样的学习样本有关。利用原始数据建立决策树模型,最终发现9条表征金奖发明的if-then知识规则:
Rule-1: if 权利项≤10, 高校或合作申请, 技术宽度>5 then 金奖发明
Rule-2: if 权利项≤10, 高校或合作申请,年均被引>9.78, 审查时程≤11个月 then 金奖发明
Rule-3: if 权利项≤10, 企业、研究所、机关团体、个人或其他方独立申请, 审查时程≤30个月, 技术宽度≤2, 专利转让、许可或质押, 年均被引>13.53 then 金奖发明
Rule-4: if 权利项≤10, 企业、研究所、机关团体、个人或其他方独立申请, 审查时程≤9个月, 技术宽度>2, 发明人=1 then 金奖发明
Rule-5: if 11≤权利项≤12, 专利族≤18,企业申请, 年均被引>3.665, 发明人≤6 then 金奖发明
Rule-6: if 权利项>26, 专利族≤18, 非企业申请, 年均被引≤0.525 then 金奖发明
Rule-7: if 11<权利项≤22, 专利族≤18, 非企业申请, 1.34<年均被引≤1.715 then 金奖发明
Rule-8: if 权利项>18, 专利族>18, 年均被引>1.3 then 金奖发明
Rule-9: if 10<权利项≤18, 专利族>18, 年均被引>1.4 审查时程≤11个月 then 金奖发明
由上述9条知识规则可知:
(1)Rule-6表明,权利项足够大时(>26),即可判断该专利为金奖发明。由此说明专利法律质量,特别是专利权利项是评价专利质量的第一标准。
(2)Rule-5、Rule-7、Rule-8、Rule-9表明,当专利权利项较大时(10<权利项≤22),专利族、年均被引频次、审查时程分别大于阈值时,该专利为金奖发明。由此说明,专利法律保护范围较大时,若目标市场范围广(>18),则对后续技术影响较大的发明即为高质量专利;若目标市场范围较广(≤18),还需考察申请人类型、被引频次、发明人规模等指标。
(3)Rule-1至Rule-4表明,权利项偏小时(≤10),需要分别考察技术宽度、申请人类型、专利运用、审查时程、年均被引等多个指标的取值情况,才能认定该专利是否为金奖发明。由此说明,法律保护范围较有限时,高校申请或合作申请的专利更容易满足高质量专利条件;其他主体申请的专利,还需要考核审查时程、技术保护范围、专利运用、技术影响力、发明人等多个指标。
综上所述,通过对比单特征统计结果与上述9条知识规则,发现专利权利项在单因素分析和决策树建模中均发挥了关键作用;单因素分析中非显著的技术质量因素通过与专利权利项的组合,在决策树建模中表现出足够的判别能力。这一发现与刘夏等(2019)提出的基于随机森林的专利质量预测模型[7]一致,亦可作为专利质量评价向多指标评价、综合化方法升级的有力证据。
4 结束语
中国经济“双循环”发展模式离不开高质量科技创新的支撑。本文以中国专利奖获奖发明专利集合为样本,探索以金奖专利为代表的高质量专利的特征组合,形成了三点主要贡献:一是就单一专利质量评价指标而言,金奖发明、优秀奖发明在技术质量指标上的表现无显著差异,金奖发明在权利项规模、专利运用两个指标上的表现优于优秀奖发明;二是就专利质量评价指标组合而言,专利权利项的判别性强于其他指标,专利权利项与多项技术质量指标、经济指标、辅助指标的组合可用于识别金奖发明;三是就研究结论的拓展应用而言,笔者将专利被引、专利运用等事后指标的统计时间限定为《中国专利奖评奖办法》规定专利授权日前,使得研究方法与结论具备一定的事前预测能力。
此外,本研究亦可对优化专利质量评价研究及提升专利质量提供参考建议。一是研究人员应客观认识专利质量外延的丰富性和综合性。当前专利定量研究中多以被引频次作为专利质量指标,而本文发现法律质量是区分专利质量的单因素指标,技术质量指标主要充当专利质量判断的组合指标;二是专利申请人应重视权利项范围的撰写。专利权利项是金奖发明的决定性指标,申请人应通过对权利项范围的全面布局来增强专利保护能力,引导专利质量的提升;三是专利权利人应重视授权专利的运用。专利运用是高质量专利的重要特征,权利人应通过专利许可、转移、抵押等手段实现高质量专利的经济价值。
[1] 朱容辉, 刘树林, 林军. 产学协同创新主体的发明专利质量研究[J]. 情报杂志, 2020, 39(2):78-84.
[2] 魏骏巍, 王晰巍, 李雪灵. 信息生态视角下专利质量评价指标构建研究——以汽车无人驾驶专利为例[J]. 情报理论与实践, 2016, 39(11):106-110.
[3] 卞雅莉. 科学引文对企业专利质量的影响——以纳米材料产业为例[J]. 情报杂志, 2013, 32(1):50-54.
[4] 刘夏, 黄灿, 余骁锋. 基于机器学习模型的专利质量预测初探[J]. 情报学报, 2019, 38(4):72-80.
[5] 蒋仁爱, 张路路, 石皓月. 专利发明人合作对中国专利质量的影响研究[J]. 科学学研究, 2020, 38(7): 1215-1226.
[6] 宋河发, 穆荣平, 陈芳, 等. 基于中国发明专利数据的专利质量测度研究[J]. 科研管理, 2014, 35(11):68-76.
[7] 刘立春. 二元专利质量研究[J]. 情报杂志, 2017, 36(11):168-174.
[8] 苟尤钊, 吕琳媛, 陈永伟. 专利质量分析的研究进展与述评[J]. 电子知识产权, 2019, 30(2):59-65.
[9] 刘运华. 专利质量阐释及提升策略探讨[J]. 知识产权, 2015, 29(9):79-83.
[10] 刘云, 王小黎, 闫哲. 专利质量测度及区域比较研究——以我国石墨烯产业为例[J]. 科学学与科学技术管理, 2019, 40 (9): 20-36.
[11] 胡谍, 王元地. 企业专利质量综合指数研究——以创业板上市公司为例[J]. 情报杂志, 2015, 34(1):77-82.
[12] 宋艳,常菊,陈琳.专利质量对企业绩效的影响研究——技术创新类型的调节作用 [J/OL]. 科学学研究(网络首发),https://kns.cnki.net/KCMS/detail/11.1805.G3.20200915.1651.014.html,[2020-09-15].
[13] 张杰, 孙超, 翟东升, 等. 基于诉讼专利的专利质量评价方法研究[J]. 科研管理, 2018, 39(5):138-146.
[14] Mariani M S , Medo M, Lafond F. Early identification of important patents: Design and validation of citation network metrics[J]. Technological Forecasting and Social Change, 2019, 146: 644-654.
[15] Lee C, Kwon O, Kim M, et al. Early identification of emerging technologies: A machine learning approach using multiple patent indicators[J]. Technological Forecasting and Social Change, 2018, 127: 291-303.
Mining Features Combination of High-quality Patents by Machine Learning
ZHOU Leia, WANG Jing-yia, HUANG Cai-yunb, YU Ling-longa
(a. Accounting College, b.School of Management, Wuhan Textile University, Wuhan Hubei 430200, China)
Mining features combination of high-quality patents is helpful to revealing the mechanism forming patent value and improving the overall quality of patents. Treating award-winning inventions of China Patent Award as the sample, a high-quality patent evaluation index system is established including technical quality, legal quality, and economic quality. And then, 9 knowledge rules are extracted to differ gold award inventions from excellent award inventions by a decision tree model. Several findings are drawn from such 9 rules. Firstly, legal quality is the fundamental element for high-quality patent with the evidence that patent claim is regard as the individual feature of gold award invention. Secondly, the combination of larger patent claims, patent family and yearly citations refers to gold award invention. Thirdly, a gold award invention with smaller patent claims must reach the thresholds of multiple technical quality index simultaneously.
patent quality; machine learning; decision tree; patent claim; China Patent Award
周磊(1986-),女,副教授,博士,研究方向:技术创新管理、数据挖掘.
国家社会科学基金青年项目(19CTQ030).
F204
A
2095-414X(2021)03-0067-05