多特征融合的专利价值预测
——以5G技术为例
2022-11-28孙冉安璐,2*李纲,2
孙 冉 安 璐,2* 李 纲,2
(1.武汉大学信息管理学院,湖北 武汉 430072;2.武汉大学信息资源研究中心,湖北 武汉 430072)
科技创新是衡量企业和国家(地区)实力的重要指标,专利数据中包含大量的前沿技术信息,企业所拥有的专利可以用来衡量企业的技术创新能力。“十四五”规划和2035年远景目标纲要明确提出:优化专利资助奖励政策和考核评价机制,更好保护和激励高价值专利,培育专利密集型产业[1]。近来,国家知识产权局明确将战略性新兴产业、在海外有同族专利权、维持年限超过10年、实现较高质押融资金额、获得国家科学技术奖或中国专利奖的有效发明专利看成高价值发明专利。
在以往的研究中,有关专利价值的界定较为模糊,多将其划分为经济价值、技术价值、市场价值、法律价值、使用价值、战略价值等,基于价值分类的基础上,不同学者在自身学科背景视角下,结合不同的理论和方法构建专利价值评价指标体系,探讨不同的影响因素和专利价值之间的相关性,而缺少对专利价值进行前瞻性的预测,现有的专利价值预测研究多以已经获奖的国内专利为研究对象,预测模型不适用于对大规模专利数据进行价值预测,并且不同领域中指标的适用性并不一致。本文拟解决以下几个研究问题:①如何抽取海量专利信息中的特征,构建多特征融合的专利价值预测模型,快速有效地进行专利价值预测;②不同指标在专利价值预测中的重要性。
根据IPlystics发布的报告《Who is Leading the 5G Patent Race?》显示,各国(地区)向欧洲电信标准协会(ETSI)申报的5G专利达到95 526项,其中,中国企业声明的5G专利占比32.97%,拥有5G同族专利数最高的公司分别为华为(中国)、高通(美国)、中兴(中国)、三星(韩国)、诺基亚(芬兰),属于5G技术的重要支柱[2]。随着我国移动通信技术从2G发展到第五代移动通信技术(5G),准确识别国内外5G专利价值的需求与日俱增。
以5G专利为例,深入研究专利价值预测对企业、国家(地区)实施专利战略布局具有重要意义。因此,本文取国内外的5G专利作为数据样本,利用Logistic模型来分析国内外5G技术的生命周期,基于BERT模型对专利标题的文本语义信息进行特征提取,构建基于技术特征、法律特征、市场特征、专利权人特征、专利标题的文本语义特征的专利价值预测特征体系,采用传统机器学习模型(如随机森林、决策树、XGBoost等)和深度学习模型(如CNN、RNN等)构建专利价值预测模型,并探究技术特征、法律特征、市场特征、专利权人特征、专利标题的文本语义特征在专利价值预测上的表现。
1 相关研究
目前,有关专利价值前瞻性预测的研究较少,不同学者多从各自的学科视角出发,围绕专利价值指标体系、方法对专利价值展开研究。由于专利价值具有模糊性、多维性、未知性,不同学者基于不同的背景对专利价值进行界定,比如从市场应用情况、专利申请规模、专利占有率、政策实用性等评价专利创造的经济价值[3];从专利技术本身的特点出发,可将其划分为内在价值和外在价值[4-5];现多从专利需求出发,将其划分为技术价值、法律价值和经济价值[6-7]。有学者提出可用专利引文信息来衡量专利技术的价值[8],由于可能会存在专利“睡美人”现象,不能通过引文信息全面准确地判断专利价值。
随后,学者不断从市场价值、经济价值、法律价值、商业价值等方面对专利价值指标体系进行补充完善,Reitzig M[9]基于价值决定理论提出专利价值的影响因素包括专利生命周期、新颖性和创造性、技术宽度、专利功能性、排他权利、讨价还价等。除此之外,专利价值的影响因素还包括专利的长度、技术生命周期、专利诉讼、专利族、权利要求数、专利权人特征[10-11],不同行业领域的专利价值指标也有所不同[6]。专利权人可以通过转让、质押、许可等方式,实现显性知识转移,而知识水平的提升则是促进经济发展的主要因素,即拥有更多知识的公司在企业竞争优势上胜过其他公司,能有效开发利用其知识资产的地区表现更好[12]。有关专利转让的研究多围绕专利转让模式、专利转让网络结构分析、专利技术转移等视角进行展开。国内多将专利转让作为专利价值指标体系中的一部分,刘勤等[10]基于“四位一体”的高价值专利分析理念,将专利转让作为一个指标来构建专利价值预测模型。
有关专利价值评估方法主要可分为3类:①市场基准方法,Wu M C[13]基于实物期权框架探索专利价值的影响因素,发现降低成本、提高专利数量和提高创新效率能为公司增加专利价值;②综合评价法,以往学者多利用专家法对专利技术覆盖范围、产品市场价值、专利运营等方面进行基于主观经验的发展评估[14],现在多结合层次分析法、模糊评价法等进行综合评价[15]。Hsieh C H[16]提出一种基于因子分析来评估专利价值和确定商业化初期战略的混合方法。但不论是市场基准法还是综合评价法,都具有一定的主观性,没有统一的评判标准;③机器学习技术,为了更好地理解不同指标对专利价值的影响,可用机器学习技术筛选出专利价值预测的关键指标[17]。杨冠灿等[18]基于矩阵转化方法,提出一种专利综合引用网络构建方法来进行专利价值评价。张杰等[19]采用AdaBoost算法构建基于法律、技术和市场质量的专利质量评价模型,能识别出大部分转让专利为高质量专利。Trappey A J C等[20]利用主成分分析方法从专利数据集中识别重要的专利价值指标,再构建基于PCA预处理的深度神经网络模型进行专利价值的智能估算。结合货币价值和专利价值的随机森林方法来预测技术价值,比传统的神经网络和支持向量机算法具有更高的性能[21]。
综上所述,学界对专利价值预测还处于探索阶段,大部分学者提出的专利价值预测指标体系中的指标较为零散,同时,不同领域下的价值指标体系应该有所不同,尤其是针对5G这样的高新技术,标准必要专利更强调专利的技术属性。本研究拟将专利生命周期相关理论和方法应用到价值预测中,分别从外部因素和内部因素将专利价值划分为市场价值和法律价值、技术价值、专利权人价值和专利文本语义特征,构建包含技术特征、法律特征、市场特征、专利权人特征和专利文本语义特征的专利价值预测模型,有助于高新企业、科研机构和知识产权管理部门识别价值较高的专利。
2 研究方法
2.1 专利价值预测的特征体系构建
2.1.1 技术特征
专利的引证次数、专利被引证次数、专利对科技文献的引证与专利价值显著相关[22],但也有研究表明专利被引频次与专利价值基本无关[23]。最早Lerner J[24]研究发现了公司的市场价值与公司所拥有专利的IPC分类号数量之间的相关性,但后续有研究表明,IPC分类号的数量对专利的价值没有显著影响[25]。本文将继续评估IPC分类号的数量在预测5G专利价值中的重要性,并将专利技术宽度定义为专利所包含的IPC分类号的数量。在高新技术领域内,专利权人为了通过标准的实施获取更多的许可利润以及占据市场竞争优势,往往会将关键专利纳入标准中,因此形成了标准必要专利(SEP),可用其来衡量国家(地区)或企业在5G专利中的竞争力。5G标准是由标准化组织3GPP统一制定。本研究将专利是否符合5G标准和专利符合的ETSI标准数作为指标考虑在内,其中,ETSI认定的5G标准主要包括5G、3GPP 5G NR、3GPP-Release-15等,对于不符合5G标准的专利,若其符合3G或者4G标准,则表明该项专利也具有较高的价值,因此将专利符合的ETSI标准数也考虑在内。在不同的技术领域内,专利处在不同技术生命周期发展阶段会对专利价值造成不同程度的影响[26]。同时有学者研究发现,发明人特征也能显著影响到专利生产力[27]。
2.1.2 法律特征
本文从专利权利保护范围、地域保护范围、时间保护范围等角度来衡量专利价值。其中,专利的权利要求数能确定专利的保护范围,而保护范围越大,专利价值越大[28]。权利要求数、专利的寿命、同族专利数对专利价值评估具有显著影响力[21-22]。专利寿命也是评估专利价值的维度之一[29]。在专利生命周期的各个阶段中,专利代理人会为委托人撰写高质量的申请文件,从而更好地保护专利权人的法律权益,因此,本文将专利是否委托代理机构纳入特征体系中。专利权人通过在不同国家(地区)申请专利权来获得更大地域范围的法律保护,专利同族国家(地区)范围越大,专利的法律价值越高[19]。
2.1.3 市场特征
以往的研究多从专利同族成员数量、同族总被引数量、同族国家(地区)数、国民经济分类方面考察专利的市场价值。专利族的规模越大,表示其应用范围越宽,市场占有能力越强。与专利被引证数类似,同族专利的总被引数越多,则表明专利价值越高。同时,专利合作条约(PCT)是为了方便申请人同时在国际上对其发明寻求国际专利保护,本文将专利是否申请PCT作为评估专利价值的市场特征之一。国民经济分类号可以体现专利技术在国民经济的分布情况,从而在一定程度上反映专利质量的高低。
2.1.4 专利权人特征
专利等知识产权的状况可以衡量企业竞争力[30],相比高校、研究所等科研机构,企业专利权人有快速实现专利转化的条件,并且收益快、回报高,而国内私营企业和外国企业、大企业和小企业的专利发明价值之间也存在较大的差异[31]。同时,专利价值在一定程度上具有内生性,专利权人在专利研发、起草和实施阶段投入不同的精力会影响专利权的强度,进而增加专利的总价值,而且与大公司相比,专利为个人赚取的回报较少[32]。对于高校专利而言,专利价值可以通过被许可或出售给企事业单位来实现。因此,本文将专利权人分为个人、企业、科研单位、大专院校、机关团体、合作团体(由两种不同的专利权人组成),并将专利权人的地域位置按照国家(地区)进行划分。
2.1.5 专利标题的文本语义特征
本文应用BERT模型[33]来提取专利标题的文本语义特征,如图1所示。采用预训练BERT模型中的汉语版本“bert-base-chinese”,其网络结构为12层、隐藏层中有768个神经单元、12个头模式和110M参数。BERT模型的输入为每条专利的标题,进行向量化表示并用于BERT模型的训练,最终得到每条专利的特征向量与分类标签共同组成分类器的输入进行最终的分类。
图1 基于BERT模型的文本语义特征向量提取
基于此,本文构建的专利价值预测指标体系包含专利技术特征、法律特征、市场特征、专利权人特征、文本语义特征,如表1所示。
表1 专利价值预测的指标体系
2.2 数据来源
本研究中使用的专利数据来源于Incopat专利数据库(https://www.incopat.com)。该数据库收录了全球120个国家/组织/地区1亿余件专利信息,专利数据字段全面,更新及时。本文在选择样本数据时,参考中国信通院权威发布的5G概念白皮书[34],设置检索式为TIABC=(5G OR the fifth generation OR the 5th generation OR Missive Mimo OR Ultra Dense Network OR PDMA OR Pattern Division Multiple Access OR NOMA OR Non Orthogonal Multiple Access OR SCMA OR Sparse Code Multiple Access PR MUSA OR Multi-User Shared Access OR Full Spectrum Access OR Software Defined Network OR SDN OR Network Function Virtualization OR NFV OR Device-to-Device OR D2D OR Filtered-OFDM OR F-OFDM OR FBMC OR Millimeter Wave OR Q-ary LDPC OR Cloud Computing)AND IPC=H04*,设置专利检索时间范围为1997—2019年,分别获得国内、国外专利数13 288件、25 539件,获取的数据包括专利基本信息、专利家族信息、专利引文信息、专利权人信息等。
通过实施、许可、质押、转让方式获取经济利益是专利价值实现的主要途径,是否为转让专利可作为专利价值的代理变量[19]。其中,专利转让、许可或质押状态是指专利权人是否将专利转让、许可或质押给他人使用。本文将至少满足以下3个要求的有效专利标记为高价值专利:①在海外有同族专利权;②曾经发生转让(个人或者科研机构转让给企业)/许可/质押;③符合战略性新兴产业分类;④维持年限超过10年。其余的专利标记为非高价值专利。标记后数据集中包含高价值的有效专利样本2 664个,非高价值的有效专利样本14 921个。本文采用SMOTE算法[35]均衡正负样本数量。
2.3 S型曲线模型
Foster R N[36]提出,用S曲线模型来表征技术发展阶段,并且将其分为萌芽期、成长期、成熟期以及衰退期,国内外学者广泛采用Logistic模型来呈现技术的生命周期[37],预测技术发展趋势和技术成熟度。模型的计算公式如式(1)所示:
(1)
2.4 XGBoost模型
(2)
其中,m代表模型生成的CART树棵数。F表示所有可能的CART树,fm(xi)表示CART树m的分类结果。
2.5 基于SHAP解释方法的特征重要性排序
特征重要性是一种为预测模型的输入特征进行评分的方法,可以揭示进行预测时每个特征的相对重要性。SHapley Additive exPlanation(SHAP)[39]解释方法的基本原理是计算每个特征对模型的边际贡献,然后计算该特征在所有特征序列中不同的边界贡献,最后该特征所有边际贡献的均值即为SHAP值。SHAP解释方法可以反映出专利样本的特征的正负影响力。
假设模型基准分(所有样本的目标变量的均值)为ybase,第i个样本为xi,第i个样本的第j个特征为xij,特征的边际共现为msij,边的权重为wk,模型对该样本的预测值为yi,则第i个样本的第1个特征的SHAP值f(xi1)如式(3)所示,同时SHAP值要服从式(4)。
(3)
(4)
3 实验过程
3.1 基于S型曲线的5G技术生命周期划分
本文使用Loglet Lab 4软件对5G技术的国内外专利增长数据按照S型曲线进行拟合,得到模型参数的拟合统计结果如表2所示。各国(地区)5G技术S曲线拟合优度R2值分均大于0.92,表示5个模型的拟合效果均较好。
表2 5G技术拟合结果统计表
S曲线拟合如图2(a)所示。从表2和图2可以看出,各国5G技术的萌芽期为2006—2013年,随后在2013年逐渐步入成长期,到2025年开始步入成熟期,预计在2032年进入衰退期。模型预测中国、美国、韩国、日本的5G技术的最大累计申请量分别为32 652件、20 121件、18 411件、5 250件。5G专利申请量增长速度如图2(b)所示,中国和其他国家(地区)申请5G专利的增长速度分别在2016年和2015年达到峰值,随后增长速度逐渐下降。
注:(a)图中的横坐标为年份,纵坐标为累计申请专利数量;(b)图中的横坐标为年份,纵坐标为技术成熟度,其计算来源于k值。
3.2 多特征融合的专利价值预测模型及其评估
本文基于BERT模型对专利标题的文本信息进行特征提取,将输出的特征向量分别输入到深度学习(CNN、RNN、DPCNN、RCNN)模型。同时,将专利文本语义特征向量融合技术特征、专利权人特征、法律特征、市场特征,分别训练并构建随机森林、决策树、SVM、XGBoost预测模型,采用精确率(precision)、召回率(recall)、F1值和准确度(accuracy)来评估模型的分类效果,如式(5)~(8)所示。
(5)
(6)
(7)
(8)
其中,TP表示高价值专利样本被预测为高价值的个数,FP表示低价值专利样本被预测为高价值的个数,FN表示高价值专利样本被预测为低价值的个数,TN表示低价值专利样本被预测为低价值的个数。
实验数据中训练集、测试集和验证集的比例为6∶2∶2。深度学习模型设置参数学习率为5e-5、随机失活率为0.1、最大文本长度为32、批大小为64。采取Adam优化器,通过设置早停法来避免模型过拟合的问题。实验环境为2*Intel(R)Xeon(R)E5-2640 v4 x86_64,2.4GHz,20核心,Nvidia Tesla V100,内存16G。采用十折交叉验证和GridSearchCV(网格搜索)算法进行分类器的参数优化。各模型分类结果如表3所示,基于多特征融合的XGBoost模型在精确率、F1值和准确度上效果最佳。
表3 模型的评估结果
3.3 专利价值预测的特征重要性排序
为了分析特征对数据样本的影响范围,本文基于SHAP解释方法对专利价值预测结果进行解释性分析,如图3所示。其中,红色和蓝色的样本点分别代表该样本在该特征上取值的高和低,SHAP值为负的样本点代表特征对该样本点取对应颜色值时的高价值专利概率有负向贡献。SHAP值为正的样本点代表特征对该样本点取对应颜色值时的高价值专利概率有正向贡献。同族国家(地区)数、公开国别、被引证次数、简单同族个数、是否委托代理、技术生命周期、同族被引证次数、优先权国家(地区)、引证专利数等特征对模型影响效果较为显著,被引证次数、引证专利数、同族被引证次数、权利要求数量越高,会增加样本为高价值专利的概率。同族国家(地区)数较高时,样本为高价值专利的概率较高,大部分同族国家(地区)数较低的专利样本为高价值专利的概率较低。V442、V328、V182等表征专利标题文本语义特征的向量维度,文本语义特征的重要性因向量的多维性而较高。
图3 基于SHAP解释方法的特征重要性排序(左图)和特征分析(右图)
随后,本文分别选取同族国家(地区)数、简单同族个数、技术生命周期、同族被引证次数、IPC分类号数和国名经济分类这6个特征绘制SHAP特征依赖图,如图4所示。从图4中可以发现,同族国家(地区)数和简单同族个数较低时,专利为高价值专利的概率越低。简单同族个数低于20或者同族国家(地区)数大于2时,没有委托代理的样本为高价值专利的概率越高。处于成熟期的样本经过委托代理为高价值专利的概率较高。随着同族被引证次数的增加,样本为高价值专利的概率增加,当同族被引证次数增加到一定值后,经过委托代理为高价值专利的概率比没有经过委托代理的概率高。当IPC分类号的个数为不大于2时,样本更倾向于为高价值专利,IPC分类号的个数大于2时,没有经过委托代理的样本更倾向于为非高价值专利。国民经济分类为C39(计算机、通信和其他电子设备制造业)的样本经过委托代理为高价值专利的概率比没有经过委托代理的高。
图4 SHAP特征依赖图
4 结 论
本文针对专利价值预测问题,以高新技术5G专利为数据样本,采用S曲线模型方法分析各国5G技术生命周期。本研究的主要贡献在于从影响专利价值的内部因素和外部因素着手,结合5G专利的技术领域特点,基于多种机器学习算法构建和评估多特征融合的专利价值预测模型。随后,采用SHAP方法评估市场特征、技术特征、法律特征、专利权人特征和文本语义特征在专利价值预测问题中的重要性。
研究发现,各国5G技术萌芽于2006年,在2013年步入成长期,到2025年开始步入成熟期,预计在2032年进入衰退期。基于XGBoost算法的多特征融合专利价值预测模型的F1值达到了0.894,高于其他基线模型,能较为准确的预测专利价值,为专利价值预测领域中指标设计和模型构建提供了尝试。从二级指标来看,本文所构建的基于同族国家(地区)数、公开国别、被引证次数、简单同族个数、是否委托代理、技术生命周期等特征对专利价值预测显示出了较强的解释能力。本文所构建的多特征融合的专利价值预测模型可帮助投资者较为准确地选择被预测为高价值的专利进行投资,有效规避专利价值预测不准确所产生的损失。未来可探索该专利价值预测方法在其他技术领域的有效性。
致谢:感谢图书情报国家级实验教学示范中心为本研究提供的实验支持!