基于机器学习的高校可转化专利识别模型构建与应用*
2022-07-20北京工业大学经济与管理学院李建霖李兰琪
北京工业大学经济与管理学院 李建霖 李兰琪
高校是科研创新的前沿阵地之一,其专利技术具有巨大的潜在价值。探索构建高校可转化专利识别模型,精准锁定具备技术转移价值的专利,对提升高校专利转化率,加快高校科技成果向产业界转移具有重要意义。首先,融合高校特征,构建四维一体的高校可转化专利识别指标体系;其次,选择8 类机器学习算法建立高校可转化专利识别模型;最后,以42 所“双一流”建设高校的63340 项有效发明专利数据进行实证研究。结果发现,极端梯度提升(XGBoost)算法和随机森林算法的准确率在85%以上,验证了模型的有效性;此外,前向引证次数指标对高校专利的转化影响最大。
高校作为我国人才、经费投入、平台等科技创新资源的聚集地,在国家科技创新中占据重要地位,专利成果产出快速增长,据《中国统计年鉴-2021》显示,2020 年授权的国内发明专利中,企业占60.9%,高校占26.9%,科研单位与机关单位占8.3%。然而,我国高校科技成果应用情况却不容乐观,在发明专利产业化率达34.7%的总体情况下,高校却仅为3.8%。因此,探索如何在大量高校专利中识别具有转化潜力的专利,有助于专利运营管理部门及企业挖掘高校核心专利,也极大程度地促进了高校专利转化率的提升,对推动我国科技成果产业化具有重要理论价值。目前在专利价值评估方面的研究已较为成熟,也有部分学者开始对专利可转化性进行探索,但多局限于专利转化与其影响因素的相关性研究,未对可转化专利的识别进行深入探索,未形成系统性的专利可转化性评价体系。本研究将基于专利的可转化性建立系统性的多维评价指标体系,采用机器学习方法构建适用于大规模数据的我国高校可转化专利识别模型,旨在系统化地为我国高校的专利可转化性评估提供有益参考。
1 文献综述
1.1 可转化专利的内涵
Namuk Ko 指出,可转化专利是兼具经济价值和技术价值的专利,可以通过交易实现专利潜力。现有研究表明,专利是否易实现转化,取决于专利自身的内在价值。根据许华斌等对专利价值内涵的界定,专利价值主要包含技术价值、法律价值、经济价值三个方面。
1.2 可转化专利指标体系研究
通过文献研读可知,专利价值评估的指标体系逐渐由单一维度评价向多维度评价发展。1999 年,Lanjouw和Schankerman 在大量数据的基础上,选取引用次数、被引用次数和同族专利数等指标构建了单维度LS 模型。而后,专利价值评估的维度逐渐增加,刘清海等则基于反映专利某一方面特征的专业性指标和全面反映专利价值的综合性指标建立了二维专利价值评估体系。李丹通过技术、法律和经济3 个维度的特征对专利价值进行评估。刘勤等人则从专利、发明人和权利人3 维度的特征,形成了专利价值评估模型。此外,欧洲专利局使用的IPScore 工具更是从专利法律状态、技术水平、市场条件、财务指标和公司战略5 个维度对专利价值进行评估。
在多维度的专利指标体系研究中,专利指标体系的构建多从技术、市场、法律3 个维度展开。郑思远等在技术、法律、市场3 个维度的基础上,加入主体维度指标,将原始专利权人划分为包含高校在内的5 种类型,但只探究了不同原始专利权人在专利转化中的特征与影响,并未深入探究高校内部特征属性对识别可转化专利的作用。韩盟等提出高校专利能否转移与其法律、技术和市场三种因素密切相关,在文献调研的基础上检验并确定可转移高校专利识别指标。李睿等发现高校专利可转化性与其文献计量特征之间具有一系列相关关系,为建立识别可转化高校专利的指标体系提供来自文献计量学视角的参考依据。陈振英等以高校专利数量、有效维持情况、被引用情况等为依据,评价高校专利转化能力。
上述研究总体涉及范围较广,虽已取得阶段性成果,为高校专利可转化性评价提供了一些思路,但评估指标维度较为单一,准确性不够高,难以完整全面地反应专利可转化性,且未考虑高校作为原始专利权人的属性特征在专利转化中的影响,目前尚缺少一套普遍适用的高校专利可转化性评价体系。
1.3 可转化专利识别的方法研究
目前关于可转化专利的识别研究中,多通过专利价值来判断专利是否易转化,国内外学者也从多角度对此展开研究,主要涵盖以下三类方法:
1.3.1 基于传统技术资产评估方法、期权法的可转化专利识别
传统技术资产评估方法中,主要使用重置成本法、现行市价法、收益现值法等。但是在应用传统技术资产评估方法时,主观成分占比较大,需要评价者根据现有的评估环境,自主选择适当的评估方法和参数。期权法为传统技术资产评估方法的后续引入方法,期权法将专利权看成产品的看涨期权,并进行专利价值评估。但是,基于传统技术资产评估方法、期权法的方法存在评估价值偏低、专利可能不具备可比性、参数估算不准确导致结果错误的缺点。
1.3.2 基于综合评价的可转化专利识别
该类方法主要采用层次分析法和模糊综合评价方法,综合考虑了影响专利价值的主客观因素,将定性分析与定量分析结合,充分考虑专利价值的时效性、模糊性和不确定性。如:赵辉等采用模糊综合评价法对5G 专利进行综合评估。张黎等提出了利用模糊综合评价法对专利质量进行评估的综合评价模型。蔡祺祥等,利用模糊综合评价法分析了影响专利转化能力的核心要素。但是,基于综合评价的方法由于需要对专利逐件评估,且对专家评估依赖程度较高,存在效率较低,主观性较强的缺点。
1.3.3 基于机器学习的可转化专利识别
机器学习由于其精确、迅速、自动化、可自定义、规模化的优势,被许多学者应用于专利价值评估的研究。国外学者如Trappey等人于2012 年首次利用BP 神经网络对专利价值进行评估,并识别可转化专利。Woo等采用贝叶斯结构方程模型对专利价值进行评估。Chung等利用深度学习对专利等级进行评估。国内学者如则赵蕴华等利用决策树、支持向量机和神经网络三种算法对专利价值的评估进行测试,验证了机器学习在此方面的作用。而后,邱一卉等提出了一种基于分类回归树算法的专利价值评估指标体系。王思培等构建了基于随机森林算法的潜在高价值专利预测模型。韩盟等基于贝叶斯理论和组合赋权法,提出了高校可转移专利识别方法。此外,马鑫探索了机器学习算法应用于专利创造性辅助判断的可能性。
2 高校可转化专利识别指标体系
本研究在既有研究的基础上,基于可获得性和可量化性从技术、法律、市场和高校主体四个维度遴选出一系列指标,以构建综合考虑专利特征与高校属性特征的可转化专利评价指标体系,具有较高综合性与系统性,为高校可转化专利特征识别奠定理论基础。
2.1 专利技术特征
专利技术维度用于衡量专利的技术水平,既有研究发现专利技术水平受其技术交叉程度、影响力、可靠性与稳定性等影响,本文依据引用选取了五个技术指标:技术涵盖范围、前向引证次数、后向引证次数、发明人规模、专利优先权。
2.2 专利法律特征
专利可转化性与其法律特征同样息息相关,根据已有研究选取五个法律维度指标:专利保护范围、诉讼情况、是否代理、交易情况、审查时长等。专利的保护范围由独立权利要求数量代表,权利范围越大的专利,其价值更高。专利诉讼涉及高昂的费用,因此被诉讼的专利往往具有更大的经济价值。专利代理机构在许多方面都能够对专利质量的提升起到积极作用。专利审查时间也可体现专利技术水平高低,专利申请的技术水平越高,审查的时间就会越长。
2.3 专利市场特征
针对专利的市场特征,研究选取内部与外部指标共四个:PCT 申请、同族专利数量、市场需求性、市场竞争性。PCT 国际申请在一定程度上反映了专利技术的重要性,通过PCT 申请的专利更有可能获得广阔的国际市场布局。专利同族指在多个国家、地区或组织申请的具共同优先权的一组专利,更多的同族专利数量代表专利有更大的市场价值。市场需求性指同类专利在市场上的需求程度,专利主分类号下过往转化专利数量越多,需求性越大。市场竞争性指同类专利市场的竞争激烈程度,专利主分类号下现存专利数量越多,其竞争性就越大。
2.4 高校主体特征
过往专利评价多从技术、法律、市场3 个维度展开,本文的研究对象为高校,其具有独特的主体特征,因此在传统的3 个维度中其中加入高校主体维度,并基于已有研究选取8 个指标:申请人数量、申请人城市、校企合作、专利权高校专利有效率、专利权高校专利转化率、专利权高校申请量、专利权高校专利年均被引用量。
综上,构建高校可转化专利特征指标框架,4 个维度下21 个指标及其含义如表1 所示。
表1 高校可转化专利特征及度量Tab.1 Features and measurement of transferable patents in Colleges and Universities
3 高校可转化专利识别模型及实证研究
3.1 数据采集与处理
本文以2017 年中国教育部颁布的《“双一流”建设高校名单》的42 所高校作为研究对象,通过IncoPat 数据库检索了42 所高校近五年(2016—2020)的70817 项有效发明专利。在删除专利审查时长、申请人地址等信息缺失,平衡转化集和未转化集后,共获得63340 项专利作为研究样本。
3.2 描述性统计分析
首先,本文统计了42 所高校近五年(2016—2020)有效发明专利总量及转化率,结果如图1 所示。
图1 各高校2016—2020 年有效发明专利总量及转化率Fig.1 Total number and transfer rate of effective invention patents of each university from 2016 to 2020
对比各高校的有效专利总量和转化率发现:(1)专利
总量方面,清华大学、哈尔滨工业大学、浙江大学、上海交通大学和西安交通大学的专利总量处于领导地位;(2)专利转化率方面,重庆大学、哈尔滨工业大学、华东师范大学、北京航空航天大学、清华大学、西北工业大学、西安交通大学、上海交通大学、天津大学、东南大学、南开大学和北京大学共12 所高校,专利转化率超过50%,其余高校专利转化率相对较低;(3)总体而言,清华大学、哈尔滨工业大学、上海交通大学和西安交通大学的专利总量和转化率均处于较高水平。
其次,将研究样本根据是否转化分为未转化组与转化组,各维度变量统计结果如表2 所示。
表2 可转化专利特征描述性统计Tab.2 Descriptive statistics of the features of transferable patents
对比转化组与未转化组发现:(1)技术维度,未转化组的前向引证次数和专利优先权均值分别为0.001 和0.013,转化组的前向引证次数和专利优先权均值分别为0.459 和0.034,表明具备专利优先权和高前向引证次数的高校专利更易发生转化;(2)法律维度,转化组的专利审查时长均值明显高于未转化组,表明专利审查周期长的高校专利更易发生转化;(3)市场维度,PCT 专利和同族专利数量较高的高校专利更易发生转化;(4)高校主体维度,转化组的校企合作,高校地区研发投入和专利权高校专利年均被引量3 个指标的均值明显高于未转化组。总体而言,未转化组与转化组在很多特征上存在较为明显的差异,初步表明机器学习方法适用于高校可转化专利的识别。
3.3 可转化专利识别模型的算法选择与精度指标
3.3.1 可转化专利识别模型的算法选择
本文选取8 类机器监督学习分类算法:(1)决策树:决策树算法具有易于理解和解释、较高的分类精度等特点;(2)随机森林:随机森林算法具有不容易过拟合、处理高维特征输入样本无需降维和大量特征遗失时仍可以维持准确率的特点;(3)朴素贝叶斯:朴素贝叶斯算法具有稳定的分类效率等特点;(4)K 邻近(KNN):K 邻近算法具有准确率和可读性高、理论成熟等特点;(5)逻辑回归:逻辑回归算法具有计算代价较低、运行速度快和实现简单等特点;(6)支持向量机:支持向量机算法具有泛化能力较强和适合解决高纬度的数据问题等特点;(7)Boosting:本文采用自适应提升算法(AdaBoost)、极端梯度提升算法(XGBoost)和梯度提升决策树算法(GBDT)。Boosting 算法具有改善弱分类器预测精度等优点;(8)BP 神经网络:本文采用基于误差反向传播(Back Propagation)算法的神经网络对数据集进行分类。该算法的学习过程包括信号的正向传播和误差的反向传播两个过程组成,具有自适应性强、准确率较高等特点。
3.3.2 可转化专利识别模型的准确率检验
本文通过Python 3.9.0 实现上述8 类算法,并采用准确率指标来评价算法性能,相关计算方式如下:
其中:精确率和召回率的计算方式如下:
TP:测试集中,模型预测为可转化专利,实际为可转化专利的样本数量;
TN:测试集中,模型预测不为可转化专利,实际不为可转化专利的样本数量;
FP:测试集中,模型预测为可转化专利,但实际不为可转化专利的样本数量;
FN:测试集中,模型预测不为可转化专利,但实际为可转化专利的样本数量。
3.4 实证及结果分析
将研究样本的63340 项专利作为实证数据集,并按照8∶2 的比例随机划分为训练集和测试集。各算法准确率和F1 得分如表3 所示。
表3 准确率及F1 得分Tab.3 Accuracy and F1 score
由表3 可得,可转化专利识别效果较好的是极端梯度提升(XGBoost)算法和随机森林算法,其准确率和F1得分均达到85 以上。朴素贝叶斯算法、逻辑回归算法和支持向量机算法的识别效果相对较差。
(1)随机森林算法通过行抽样和列抽样2 个过程,保证了采样过程的随机性,并获得抗噪声能力。这使得该算法在降低过拟合概率的同时,又提高分类精度。此外,该算法能够处理高维特征数据,无需做特征选择,保留了数据的原始性值,对数据集的适应能力强。
(2)极端梯度提升(XGBoost)算法对代价函数进行二阶泰勒展开,使其更为精准地逼近真实的损失函数。同时,XGBoost 算法还加入了正则项来控制模型的复杂度,有利于防止过拟合,从而提高模型的泛化能力。
(3)选取XGBoost 和随机森林算法,构建高校可转化专利识别模型,并计算各指标的特征重要性,即:计算每个特征在每棵树进行分裂后平方损失的减少量的均值。再计算2 种模型各指标特征重要性的均值。结果如图2 所示,发现:前向引证次数的重要性最高,为0.5784;其次,专利审查时长、市场需求性、市场竞争性和后向引证次数比较重要;高校主体维度中,专利权高校专利年均被引量和专利权高校专利转让率对高校专利转化的影响程度较高。
图2 指标特征重要性Fig.2 Feature importance of indicators
4 结论
本文从技术、法律、市场和高校主体4 个维度,选取21 个专利可转化性识别指标,以42 所“双一流”建设高校作为研究对象,选取8 类(10 种)机器学习分类算法对样本数据进行训练,以识别高校可转化专利,得出:(1)极端梯度提升(XGBoost)算法和随机森林算法的识别效果最好,准确率高达86.45%和85.29%。(2)前向引证次数、专利审查时长、市场需求性、市场竞争性、后向引证次数在高校可转化专利识别中,具有重要作用。(3)高校主体维度,专利权高校专利年均被引量和专利权高校专利转让率在高校可转化专利识别中较为重要。
引用
[1] 中华人民共和国统计局.《中国统计年鉴-2021》[M].北京:中国统计出版社,2021.
[2] 国家知识产权局战略规划司(CNIPA).《2020年中国专利调查报告》[R].2021.
[3] 冉从敬,宋凯.高校可转化专利识别模型构建:以人工智能领域为例[J].情报理论与实践,2020,43(11):79-85.
[4] 刘澄,雷秋原,张楠,等.基于BP神经网络的专利价值评估方法及其应用研究[J].情报杂志,2021,40(12):195-202.
[5] 冉从敬,宋凯.高校专利价值评估模型构建:以云计算领域为例[J].图书馆论坛,2021,41(1):91-98.
[6] 邓洁,张彩铃,李源信.高校专利质量对专利转化的影响效应研究:基于“双一流”高校的实证研究[J].情报杂志,2021,40(10): 200-207.
[7] 李睿,范九江.高校专利可转化性与其文献计量特征相关性研究[J].科技进步与对策,2021,38(17):43-50.
[8] 王瑞敏,滕青,卢斐斐.影响高校专利转化的因素分析和对策研究[J].科研管理,2013,34(3):137-144.
[9] Ko Namuk,Jeong Byeongki,Seo Wonchul,et al.A Transferability Evaluation Model for Intellectual Property[J].Computers & Industrial Engineering,2019,131(MAY):344-355.
[10] 许华斌,成全.专利价值评估研究现状及趋势分析[J].现代情报,2014,34(9):75-79.
[11] 胡元佳,卞鹰,王一涛.Lanjouw-Schankerman专利价值评估模型在制药企业品种选择中的应用[J].中国医药工业杂志,2007(2): 148-150.
[12] 李清海,刘洋,吴泗宗,等.专利价值评价指标概述及层次分析[J].科学学研究,2007,25(2):281-286.
[13] 李丹.专利领域市场支配地位的认定:基于专利价值评估的角度[J].电子知识产权,2018(5):21-29.
[14] 刘勤,杨玉明,刘友华.高价值专利评估建模与实证[J].情报理论与实践,2021,44(2):122-127.
[15] 郑思远,王学昭.专利转化视角下技术转移特征指标体系研究[J].图书情报工作,2020,64(07):94-102.
[16] 韩盟,吴红,李昌,等.高校可转移专利识别研究:基于贝叶斯理论和组合赋权法[J].图书情报工作,2021,65(5):118-125.
[17] 陈振英,陈国钢,殷之明.专利视角下高校科技创新水平比较:“十一五”期间我国C9大学的发明专利计量分析[J].情报杂志,2013,32(7):143-147+96.
[18] 戴大双,石纪.技术资产评估的方法选择研究[J].中国软科学, 2001(9):59-60+117.
[19] 王敬,李舒.知识型企业专利估值方法研究[J].管理学报,2004 (3):341-345+247-248.
[20] 赵辉,肖翔.标准必要专利评估筛选研究:以5G专利为例[J].高技术通讯,2020,30(1):101-108.
[21] 张黎,李倩.基于直觉模糊层次分析法的专利质量模糊综合评价[J].科技管理研究,2019,39(07):85-92.
[22] 蔡祺祥,翟胡萍,王炜,等.基于层次分析法的多因素模糊综合评价方法在专利转化中的应用[J].南京理工大学学报,2018,42(4): 497-502.
[23] 宋凯.高校专利技术转移价值评估研究:基于熵权TOPSIS模型和梯度提升树算法[J].情报杂志,2021,40(7):52-57.
[24] TRAPPEY A J C,TRAPPEY C V,WU C Y,et al.A Patent Quality Analysis for Innovative Technology and Product Development[J].Advanced Engineering Informatics,2012,26(01): 26-34.
[25] WOO H Y,KWAK J,LIM C.A Study on Patent Evaluation Model Based on Bayesian Approach of the Structural Equation Model[J].Korean Journal of Applied Statistics,2017,30(06):901-909.
[26] CHUNG P,SOHN S Y.Early Detection of Valuable Patents Using a Deep Learning Model:Case of Semiconductor Industry[J].Technological Forecasting and Social Change,2020(158):1-9.
[27] 赵蕴华,张静,李岩,等.基于机器学习的专利价值评估方法研究[J].情报科学,2013,31(12):15-18.
[28] 邱一卉,张驰雨,陈水宣.基于分类回归树算法的专利价值评估指标体系研究[J].厦门大学学报(自然科学版),2017,56(2):244-251.
[29] 王思培,韩涛.基于随机森林算法的潜在高价值专利预测方法研究[J].情报科学,2020,38(5):120-125.
[30] 马鑫.机器学习算法在专利创造性辅助判断中的应用研究[J].中国发明与专利,2021,18(9):70-79.
[31] 沈健.我国大学专利转化率过低的原因及对策研究[J].科技管理研究,2021,41(5):97-103.
[32] JAFFE A B,RASSENFOSSE G D.Patent Citation Data in Social Science Research:Overview and Best Practices[J].Journal of the Association for Information Science and Technology,2017,68 (06):1360-1374.
[33] THOMAS P,MCMILLAN G S.Steven McMillan.Using Science and Technology Indicators to Manage R&D as a Business[J].Engineering Management Journal,2015,13(03):9-14.
[34] Dongsik Jang,Giuseppe Ioppolo,Jaehyun Choi,et al.A Predictive Model of Technology Transfer Using Patent Analysis[J].Sustainabili ty,2015,7(12):16175-16195.
[35] MARCO A C,SARNOFF J D,DEGRAZIA C.Patent Claims and Patent Scope[J].Research Policy,2019,48(09):1-17.
[36] 马翔,张春博,杨阳,等.专利代理机构对专利质量的影响研究:基于对1997年发明专利整个保护期的追踪[J].情报杂志,2019,38 (2):84-90+171.
[37] 李春燕,石荣.专利质量指标评价探索[J].现代情报,2008(2): 146-149.
[38] Dietmar Harhoff,Frederic M Scherer,Katrin Vopel.Citations, Family Size,Opposition and the Value of Patent Rights[J].Research Policy,2003,32(08):1343-1363.
[39] 万小丽,朱雪忠.专利价值的评估指标体系及模糊综合评价[J].科研管理,2008(2):185-191.
[40] 李雨浓,王博,张永忠,等.校企专利合作网络的结构特征及其演化分析:以“985高校”为例[J].科研管理,2018,39(03):132-140.
[41] 宋爽,陈向东.区域技术差异对专利价值的影响[J].科研管理, 2016,37(09):68-77.
[42] 邓恒,王含.高校科技成果转化的现实困境及解决路径:基于专利质量的实证分析与考察[J].中国高校科技,2021(Z1):124-128.
[43] 谷宇峰,张道勇,鲍志东,等.GBDT识别致密砂岩储层岩性[J].地球物理学进展,2021,36(5):1956-1965.
[44] 徐婷,张香,张亚坤,等.基于AdaBoost算法的货车驾驶人安全倾向性分类[J].安全与环境学报,2019,19(4):1273-1281.
[45] 周政.BP神经网络的发展现状综述[J].山西电子技术,2008 (2):90-92.