专利寿命视角下的核心专利识别模型构建*
2023-01-10付振康柳炳祥鄢春根
付振康,柳炳祥,鄢春根,王 翔
在激烈的竞争环境中,企业能否在行业中保持竞争优势,关键在于是否掌握核心技术,而核心技术的标志为“核心专利”。随着技术革新加快,专利数量呈现急剧上升态势,从海量专利中识别出核心专利对推动经济高质量发展、破解卡脖子技术难题、明确产业发展方向以及助推企业开展核心专利布局具有重要意义。面对海量的专利信息,如何寻找核心专利?这是亟待解决的问题。为此,本文基于专利寿命视角,对核心专利识别方法和模型进行探讨,并以数字通信技术领域为例进行实证研究,以期为核心专利识别以及专利情报分析工作提供新的研究视角及模型。
1 文献综述
对于核心专利,目前没有统一的定义。一般认为高质量专利或高价值专利等同于核心专利,已有学者通过高质量(高价值)专利或专利组合视角开展核心专利识别[1-2]。核心专利应是企业进行专利布局时无法通过技术规避的方式绕开的专利技术[3],该技术在本产业或技术领域内具有绝对的垄断地位[4]。此外,核心专利应在本领域内具有经济上的核心地位[5],同时具备较强的创新性和影响力,以及重要的技术价值、经济价值和战略价值[6]。
核心专利识别主要有4类方法。(1)专家智慧法,借助专家在本技术领域的学识及经验,通过阅读专利文献筛选核心专利[7],优点是准确率较高,适合少量专利的筛选。(2)单一指标频次统计法,常用单一指标,一是专利引文指标[8],一般采用引证次数[9]、引文滞后期[10]、引文耦合网络[11]、多级引文网络[12]进行核心专利识别;二是同族专利识别方法,同族专利数越多,成为核心专利的概率越大[13],而根据专利优先权网络也可以对企业核心专利进行识别[14];三是基于权利要求数量的识别方法,权利要求数量越多,专利法律保护范围越大,成为核心专利的可能性越大,但权利要求数量的阈值需要依据技术领域进行设定[15]。(3)指标体系法,通过构建多维度核心专利评价指标体系,采用不同方法进行指标赋权并得出专利评分,进而筛选核心专利。比如,根据价值捕获理论构建包括法律、技术、市场以及企业4个维度的核心技术价值评估体系,通过三角模糊理论为不同维度进行赋权[16];从技术、经济和法律维度建立核心专利评价体系,采用TOPSIS法赋权[17];从行为效果和动机目的角度构建核心专利识别指标体系,采用熵权法和灰色关联法进行指标赋权,筛选核心专利[18]。(4)基于诉讼视角识别核心专利。一般认为,发生侵权诉讼的专利在本技术领域往往占据核心竞争地位,具有较高价值[19]。
上述研究成果对核心专利识别具有借鉴意义,但有改进空间。专家智慧法在专利大数据背景下的可操作性不高;单一指标频次统计法的缺点在于,各指标的数据特征差异大,反映的信息较为片面,具有较强的指标滞后性;指标体系法虽然能较全面地反映核心专利的各项指标特征,但指标赋权往往依赖单一的主观赋权法或客观赋权法,造成部分指标的权重过于主观,抑或囿于数据特征差异出现低估指标实际作用的情况;基于诉讼专利筛选核心技术,不能够全面反映该技术对后续技术发展方向的控制和引导作用。
《专利法》规定,维持专利权有效需要定期向国家知识产权局缴纳年费,根据理性经济人假设,在缴纳年费前,专利权人会对专利的市场价值以及技术价值进行评估,只有具有较好市场前景以及较高技术价值的专利才会继续得以维持,而价值较低的一般专利,专利权人往往会选择放弃。因此,专利寿命能够全方位表征专利技术的法律地位、技术地位以及经济地位,此外,即使专利无法继续为企业带来收益,作为核心专利丛林中的一员继续进行续展,也可以起到遏制竞争对手的作用[20]。因此,本文从专利寿命视角出发,基于专利文献选取专利寿命的影响因素,并采用深度学习模型预测专利未来的生存概率,进而进行核心专利的识别。
2 研究设计及研究方法
2.1 研究设计
根据研究目标,本文设计图1所示的研究框架。首先,从专利数据库中收集所研究领域内的专利文献信息并基于专利文献选取影响专利寿命的计量指标。然后,采用深度学习生存预测算法构建专利寿命预测模型,并采用不同的评价方式进行模型参数寻优进而选出最优模型。根据最优模型进行专利生存概率预测,得到生存概率后,根据专利年费的缴纳标准设定生存概率阈值。为验证本文所设阈值的可靠性,采用综合指标体系法进行核心专利筛选,将筛选结果与本文所构建模型的筛选结果取交集,进一步验证本文所构建模型的有效性及可靠性。最后,采用训练好的模型及确定的阈值对新数据集进行核心专利筛选并对筛选结果进行分析。
图1 研究框架图
2.2 专利寿命影响因素选取
为避免影响因素滞后性,考虑到专利文献的相关计量指标在专利申请公开或专利授权以后便可获得,具有时效性,故基于专利文献进行影响因素的选取。在选取过程中,一是关注指标是否易获得,二是考虑选取的指标是否能影响专利寿命,三是关注选取的指标能否反映核心专利的寿命特征。为保证指标选取的科学性、准确性、全面性,在咨询专家意见,结合前人研究的基础上选取24个专利寿命影响因素,结果如表1所示。
表1 专利寿命影响因素
2.3 专利寿命视角下核心专利识别算法
虽然专利寿命能够全面反映专利的价值及其地位,但采用专利寿命进行筛选最主要的缺陷在于,刚获得授权的专利,无法进行准确评价。为避免这一缺陷,引入医学领域的生存预测算法,通过预测专利的生存概率估计专利未来的生存年限,进而达到准确识别核心专利的目的。生存预测常用来估计患者预后生存情况,近年来国内部分学者将生存预测引入管理学领域,常用于科技创新评价等方面[27]。原理是根据给定的协变量和生存期,估计从某起点事件开始到终点事件为止所经历的时间及其在具体时间点发生终点事件的概率。本文将起点事件定义为专利申请,终点事件定义为专利未缴纳年费失效,其他事件如期限届满以及被宣告无效,按照生存分析常用的方式定义为删失数据。本文选择多任务逻辑回归算法(MTLR)、Nnet-survival算法、PMF算法、DeepSurv算法 和DeepHit算法[28-32]5种深度学习生存预测算法构建专利寿命预测模型,通过模型评估筛选最优模型进行专利寿命预测。选择深度学习生存预测算法的主要原因包括:一是在生存预测领域,深度学习生存预测算法无论是在模型的鲁棒性还是预测的准确性方面,均优于传统的生存分析模型以及机器学习生存分析模型;二是相较于机器学习回归预测算法和分类算法而言,生存预测模型可以很好地处理删失数据,因此采用深度学习生存预测算法进行专利寿命预测具有一定的优势。
2.4 模型评估方法
(1)一致性指数。由于数据样本中存在删失数据,生存分析预测模型不适合采用均方误差等进行评价,故本文选择一致性度量(Concordance Index,CI)对预测模型的精度进行评价。一致性度量的思想为将所有数据样本两两配对,在配对样本中,若预测出的生存概率高的样本,其实际专利寿命也高于配对样本中的另一样本,则可称为预测结果与实际结果一致,函数如公式(1)所示。
其中,n为样本数量,K为预测结果与实际结果一致的配对样本数量,M为全部配对样本数量。由公式(1)可知,CI值越趋近于1,则证明预测效果越好,若一致性度量结果小于0.5,则证明模型预测结果较差。
(2)综合Brier评分(Integrated Brier Score,IBS)。Brier Score(BS)是对一组概率预测的度量,也可称为“成本函数”。由于在生存分析数据中常常包括右删失数据,故在生存分析预测模型的评价中,需要采用带有逆概率删失加权的Brier Score进行评价,其函数如公式(2)所示。
其中,n为数据集中样本数量,为基于训练集得到的专利i的生存函数,Ti代表专利的维持时间,δ i表示目标专利为因未缴年费而失效的专利,δ i=1表示右删失数据,G为删失时间的生存函数估计,删失时间的生存函数采用Kaplan-Meier进行估计。由公式(2)可知,BS仅能够对连续时间模型进行评估,对离散时间模型其估计会存在偏差。IBS可由连续时间扩展到时间区间,通过计算时间区间内BS的积分得到综合评分,其函数如公式(3)所示。IBS趋近于0,说明模型预测效果越好。
(3)负二项对数似然。负二项对数似然(Negative Binomial Log-Likelihood,NBLL)常用于二分类模型的判别和校准,在生存分析模型的评价中,采用和Brier Score相同的概率删失加权方法计算NBLL,可用于评价存在删失数据的生存预测模型,函数见公式(4)。
同IBS相似,NBLL也可拓展到离散时间的生存预测模型中,其函数如公式(5)所示。
3 实证分析
3.1 数据来源及变量共线性诊断
本文采用数字通信技术领域的专利文献作为实证分析对象,根据世界知识产权组织出版的技术领域与IPC分类对照表,数字通信技术领域的IPC分类号为H04L、H04B以及H04W。由于已失效的专利基本已完成整个寿命周期的维护,为保证观测数据的完整性及模型的鲁棒性,本文选择已全部失效的数字通信技术领域的专利数据作为研究样本。由于不同国家的专利保护期限具有一定差别,本文选择在中国国家知识产权局申请并获得授权的专利作为最终的研究样本。本文根据上述检索策略,在incoPat商业数据库构建检索式(AD=[19850101 TO 20211231])AND(EXPIRY-DATE=[19850101 TO 20211231]AND IPC-MAIN=(H04L OR H04N21 OR H04W)AND PNC=(CN)),去除噪声数据后共得到47,019项专利文献数据。根据上文选取的计量指标,本文对二元变量采用0-1赋值,多类型变量进行标签化处理,变量的描述性统计结果见表2。为避免变量之间存在多重共线性,采用容差(TOL)以及方差膨胀因子(VIF)检验变量之间的多重共线性。由表2可知,自变量之间的TOL均大于0.2,VIF均小于5,说明变量之间不存在多重共线性,可以采用生存分析方法进行数据分析。
表2 变量描述性统计及共线性诊断结果
3.2 模型构建及评估
为保证构建的专利寿命预测模型能够准确识别核心专利,将数据集按照6∶2∶2比例划分为训练集、验证集和测试集。训练集包含28,212个样本,验证集和测试集分别包含9,404和9,403个样本。训练集用于模型的训练,验证集用于测试最优训练模型不同迭代次数下的模型损失,测试集用于评价模型的最终预测性能,由此可以充分保障模型的训练和测试效果。采用Python语言编程调用pycox工程包进行试验,深度学习网络的搭建采用MLPVanilla方法,构建多层感知机深度神经网络。通过上述方式,构建包括MTLR、Nnet-survival、PMF、DeepSurv以及DeepHit 5种深度学习模型,参数设置见表3。
表3 不同模型的参数设置
在模型训练过程中,将迭代期(epoch)上限设置为100,采用交叉熵损失绘制模型的学习曲线,其中横坐标为迭代期数,纵坐标为模型的交叉熵损失值。当模型的损失函数值不再下降时,说明此时模型的鲁棒性较好,5种深度学习模型在训练集和验证集上的损失函数学习曲线见图2。在5种深度学习模型中,DeepHit模型的损失函数值最小,其次是MTLR模型,说明这两个模型的鲁棒性与其他模型相比较好。
图2 不同模型的损失函数学习曲线
在模型训练好后,采用上述3个评估方法对模型的性能进行评价。CI值、IBS值和INBLL值结果见表4。5种模型CI值均大于0.7,IBS值均趋近于0,INBLL值均小于0.5,说明5种模型的预测精度均较好。MTLR模型的CI值最大,说明MTLR模型的预测精度最好,其次是DeepHit模型。
表4 模型整体性能评估结果
为进一步观测每个模型在每个时间点的预测性能,绘制随时间变化的Brier评分和NBLL评分见图3。5种深度学习模型的Brier评分和NBLL评分结果随生存时间的变化呈现“倒V型”曲线,说明5种深度学习模型在整个专利寿命周期初期(1-5年)和末期(12-20年)的预测性能最好,模型在中期的表现略低于初期和末期。除DeepHit模型和PMF模型略低于其余模型外,其他3种模型在各时间点的预测性能并无显著差异。因此,本文选择MTLR模型作为最优预测模型。
图3 综合Brier评分和NBLL评分结果
3.3 专利生存概率阈值确定
根据孙涛涛、马永涛等对核心专利的定义[5,33],核心专利可以认为是高价值专利的子集。在中国国家知识产权局高价值专利标准中,专利寿命大于10年的发明专利可以认定为高价值专利,故根据模糊集理论,结合我国数字通信技术领域已失效专利的寿命分布,本文将寿命最高5%(专利寿命≥16年)作为完全隶属于核心专利集合的锚点。根据我国发明专利年费缴纳标准,当专利维持时间超过16年后每年需要缴纳8,000元的专利维持年费,此时累计年费缴纳金额高于5万元。根据理性经济人假设,若此时专利无法为专利权人带来经济效益或者起到遏制竞争对手的作用,专利权人往往会放弃缴纳年费。综上,本文将核心专利的专利寿命阈值设置为16年,将专利维持时间至16年时生存概率在50%以上的专利定义为核心专利。为验证所设置阈值的可靠性,本文采用测试集数据进行验证。根据杨大飞等[34]基于5G通信技术领域设置的核心专利指标评价体系及指标权重进行核心专利筛选,将筛选结果与本文的筛选结果取交集,查看重合专利的比例,进而验证本文模型及阈值设定的有效性及可靠性。根据MTLR模型进行筛选得到维持至16年时生存概率大于50%的专利共108件,通过文献[34]的方法共筛选出97件核心专利,二者交集见图4。由图4可知两种方法的筛选结果共有80件重复专利,占比为64%,由此说明本文方法具有较高的可靠性。
图4 不同方法筛选结果韦恩图
3.4 5G关键技术领域核心专利筛选及结果分析
上文仅通过本文构建的数字通信领域已失效专利的测试集进行分析,无法体现未失效专利或者整个技术领域的核心专利情况。本节采用5G关键技术领域的专利作为样本数据,通过MTLR模型筛选该技术领域的核心专利。根据郭思月等构建的5G关键技术检索策略[35],在incoPat数据库中进行检索,共检索到在中国国家知识产权局申请的5G关键技术领域专利6,912项。在提取相应的专利指标数据后,根据MTLR模型和阈值,对5G关键技术领域核心专利进行筛选,共得到141项核心专利,结果见表5。
表5 5G关键技术领域核心专利筛选结果(部分)
根据筛选出的141项核心专利,绘制图5所示的5G关键技术领域核心专利布局热点图。由图5可知,5G关键技术领域核心专利的布局热点集中在毫米波、天线阵列、通信链路以及无线接入技术等方面。此外,光传送网络、光通信、软件定义网络(SDN)以及设备到设备通信技术(D2D)等相关的网络技术也是5G关键技术领域的核心专利布局点。
图5 5G关键技术领域核心专利布局热点
为进一步分析核心专利的文献计量特征,根据筛选结果按照核心专利和非核心专利进行分组,统计权利要求总数量、首权项字数、申请人数量、发明人数量等主要计量指标的均值,结果见表6。在8个主要计量指标方面,核心专利和非核心专利具有显著差异。核心专利的平均权利要求总数量为20.8865项,高于非核心专利的11.4043,平均首权项字数为388.9574,低于非核心专利的655.5857,由此可知,核心专利的保护范围相较于非核心专利而言更大;核心专利的平均同族国家数量为5.8085,非核心专利为1.8587,说明核心专利的海外布局更广泛。
表6 主要计量指标平均值统计
4 结论与展望
本文从专利寿命角度出发,基于专利文献筛选出24个影响专利寿命的指标,构建5种基于深度生存分析算法的专利寿命预测模型,通过多种评估方法选取出最优预测模型,并对5G关键技术领域进行核心专利筛选及结果分析。通过对研究结果的解读,本文得到3点结论。
(1)在核心专利识别模型构建方面,通过CI值、综合Brier评分和NBLL评分3个指标对构建的5种模型进行性能评估,发现MTLR模型在专利寿命预测方面性能较优,故最终选择该模型进行核心专利筛选。在核心专利划分方面,本文将专利维持至16年时生存概率在50%以上的专利定义为核心专利,通过与综合指标法筛选的结果进行对比,发现本文构建的模型和设定的阈值具有一定的可靠性和有效性。相较于传统的核心专利识别方法,本文构建的核心专利识别模型能够全面反映核心专利的核心特性。
(2)在5G关键技术领域核心专利方面,通过构建的核心专利识别模型,共筛选出该领域内的核心专利141项,对其进行聚类分析发现,5G关键技术领域近年来的核心专利布局集中在毫米波、天线阵列、通信链路、无线接入技术、光通信、软件定义网络(SDN)以及设备到设备通信技术(D2D)等方面。
(3)通过对筛选出的核心专利主要计量指标进行分析后发现,核心专利的保护范围更大,专利权更稳定;在进行核心专利布局时,专利权人更倾向于采用优先权的方式;在同族国家方面,核心专利的布局国家更多,说明其市场较为广泛;通过前向引证次数可看出,核心专利相较于非核心专利而言,技术影响力更强。
基于专利寿命视角构建核心专利识别模型,可以从大量专利数据中筛选出技术领域内的核心专利,适用于复杂多变的场景,与传统的识别方法相比,具有一定的优越性,可以为企业寻找核心专利,把握未来的研发重点及研发方向提供技术支撑。本文构建的核心专利识别模型也具有一定的局限性:在专利寿命的影响因素选取方面,仅仅从专利文献的角度进行选取,没有考虑到技术领域内的市场竞争环境以及知识产权保护制度等外部环境因素;仅采用数字通信技术领域进行模型构建和实证分析,模型在其他领域的适用性有待进一步验证。在后续研究中,将探索采用全领域的数据样本,扩充专利寿命影响因素指标,以期实现对不同技术领域进行核心专利识别。