基于图卷积网络的高质量专利自动识别方案研究*
2022-01-28吴洁桂亮刘鹏
吴 洁 桂 亮 刘 鹏
(江苏科技大学经济管理学院 镇江 212003)
0 引 言
自创新驱动发展战略实施以来,国家知识产权局受理的发明专利申请数量逐年激增,目前我国发明专利申请数量已连续9年超越美国居于世界首位,仅2020年我国发明专利申请数量就已超过150万件,由此可见,我国创新驱动发展战略促进了专利的量变。但是“专利量变”无法消除我国产业结构核心技术受制于人现状,随着关键技术“卡脖子”问题频繁出现,注重产业技术创新、实现产业链中上游转型,已成为我国各界产业发展的当务之急。相应地,为更好地适应产业发展需要、促进产业高质量发展,未来专利发展战略须从触发“专利量变”向促进“专利质变”转变。
从专利量变到专利质变的专利战略转变需求使得政府对专利政策的制定从促进数量增长转移到质量提升。2014年12月国务院转发知识产权局等单位《深入实施国家知识产权战略行动计划》,明确提出培育一批核心专利、加强国际知识产权布局、提高知识产权创造水平;2015年12月国务院印发《关于新形势下加快知识产权强国建设的若干意见》,要求深化知识产权战略实施,提升知识产权质量,加快知识产权强国建设;2016年年底国务院再次印发的《“十三五”国家知识产权保护和运用规划》指出实施专利质量提升工程,提高知识产权质量效益。在政策布局与产业发展指导下,明确高质量专利在产业发展与竞争中核心地位,培育、识别、转化高质量专利正成为实现“专利质变”发展战略的现实途径。
高质量专利具备较高技术价值、市场竞争优势以及较强进攻和防御战略价值,是专利管理与运营的基石,能够客观度量产业的创新能力和产出绩效,准确评价产业在全球创新竞争格局中的位置和水平,对企业或产业进行专利资产评估、许可转让、专利战略布局、投资融资以及专利维权诉讼尤为重要。已有大量申请专利达到国家知识产权局的授权要求,但其中只有极小比例高质量专利对相关产业发展起到关键促进作用、蕴含巨大经济效益与战略价值,这部分专利对技术追踪、促进专利转化、寻求建立最佳专利战略布局的各种产业十分重要[1]。识别和筛选出这部分高质量专利成为开展后续技术追踪、专利转化、产业转型等专利工作的基础铺垫。
学者们对高质量专利识别问题进行了深入研究,通过挖掘表征专利质量的专利指标,构建专利质量评价指标体系完成专利质量评估工作[2-3],进而筛选或识别出高质量专利。从现有研究来看,专利质量评价指标体系框架下高质量专利识别问题大多依靠专家定性分析,依靠人工使用统计学方法和计量模型定量完成。随着授权专利基数不断增大,在海量专利中筛选具有较强影响力的高质量专利需要的人力成本与时间成本将难以估量,专家主导的专利质量评估研究将面临巨大挑战。因此,实现专利质量识别自动化、探索高质量专利自动识别方案具有极高实践价值。在上述背景下,学者们应用数据驱动理论和机器学习算法提出专利质量自动识别方案,主要开展专利质量预测[4-5]、专利价值评估[6-7]、专利质量分类[8]等问题研究。本文统称为高质量专利自动识别,涉及专利质量标签标注、专利特征提取与专利质量自动评估模型构建。
从所检索文献来看,目前国内外研究在专利质量标签标注阶段主要使用单项质量评价指标、聚类方法[8]或Innography中“专利强度”指标[4]确定专利质量标签,相较于专家标注专利质量标签,此类方案存在无法全面综合确定专利质量的局限,利用专家标注的少量专利质量标签完成专利质量自动识别的研究值得探索。此外,国内外研究在专利特征提取阶段大多关注于丰富专利数字特征提升专利质量自动评估准确性,对专利文本特征进行提取的研究较为缺乏,利用多项专利数字特征发挥机器学习算法处理高维特征数据优势的同时提取专利文本中专利质量相关特征的研究亟待深化。
本文基于数据驱动理论,利用文献计量学中共现分析方法,从大数据视角识别专利文本中核心词汇完成专利-核心词汇共现网络构建;其次从专利质量评价指标维度提取专利数字特征,将专利数字特征嵌入表征专利文本特征的专利-核心词汇共现网络。并在标注少量专利节点质量标签情况下通过图卷积网络进行半监督学习,确定专利-核心词汇共现网络中专利节点的质量标签,达到高质量专利自动识别或筛选目的,为专利质量自动评估问题提供新解答思路与实现方案,为基于高质量专利的技术追踪、专利转化、战略布局工作提供支撑。
1 相关研究
从所检索文献来看,专利质量评估研究主要分为专利质量相关指标挖掘、专利质量评价指标构建、基于机器学习的专利质量自动评估。关于表征专利质量的指标挖掘方面,蒋仁爱等[9]研究发现相比于不合作,专利发明人合作能有效提高专利质量,但专利发明人的国际合作对专利质量的提升作用显著高于国内合作,因此专利发明人数量指标可表征专利质量。李睿等[10]指出专利的寿命长短在根本上取决于专利价值的高低。Ferrucci等[11]研究发现专利发明人团队中成员国籍情况与专利质量相关联,专利发明人国别数量表征专利质量。关于专利质量评价指标体系构建方面,谷丽等[12]从专利申请质量的内涵入手,借鉴国内外学者对专利申请质量指标的研究,系统性构建专利申请质量评价指标体系。张杰等[13]对专利质量评价方法作了系统梳理,提出基于诉讼专利数据建立的专利质量评价模型。
当前专利质量自动评估研究主要从专利质量标签标注阶段与专利特征提取阶段出发提出优化思路,通过使用不同专利质量标签标注方案自动评估不同角度下专利质量,通过挖掘更多专利数字特征发挥机器学习算法处理高维数据优势进而提高专利质量自动识别准确率。
在专利质量标签标注阶段,现有研究主要使用单项专利质量评价指标、聚类算法或专利检索平台中界定专利质量的指标,确定专利质量等级,自动评估该专利质量标签标注方案下的专利质量。诸如李欣等使用专利后引次数标注专利质量标签[14],自动评估专利的技术价值;谢祥等使用诉讼与转让次数确定专利质量标签[15],自动评估专利的经济价值;Wu等使用SOM聚类算法标注专利质量[8];王思培等使用Innography专利检索平台中“专利强度”指标[4]确定专利质量。
在专利特征提取阶段,研究人员提取现有专利质量评价指标体系[16-18]使用的多项专利指标,诸如专利前引次数、权利要求数量、专利授权状态等。同时引入挖掘到的另一部分评价专利质量涉及的其他指标,将两类专利指标合并后扩充专利数字特征,利用丰富的专利数字特征,发挥机器学习算法处理高维特征数据的优势,进而提升专利质量自动评估的准确性。例如刘夏等引入引证专利授权个数、引证专利后引次数等前引专利包含的指标作为补充的专利数字特征[19],Choi等引入专利所在技术领域中授权专利数量等专利外部技术环境指标作为挖掘的专利数字补充特征[20]。
2 研究方案
本文构建包含词汇节点和专利节点的大型异构图并提取专利质量相关指标生成专利数字特征矩阵,然后提出基于图卷积网络的高质量专利自动识别框架,使专利自动评估任务显式地转换为节点分类任务且很容易适用于图卷积工作模式。如图1所示,从专利文档中提取专利指标和专利摘要,构造专利数字特征和专利文本特征,专利数字特征中P表示专利,专利文本特征中P表示专利、W表示核心词汇。然后基于输入的专利数字特征和专利文本特征训练图卷积网络,输出节点分类结果,节点分类结果中C代表专利质量类别。将专利文本特征异构图中的所有专利节点的分类结果筛选出后,得到专利自动评估结果。
图1 模型框架
2.1图卷积网络概述图卷积网络(Graph Convolutional networks,GCN)[21]是可以处理图结构数据的多层卷积神经网络,已被大量研究[22-24]证明具有以往机器学习算法不具备的分类性能优势。图卷积网络通过学习领域节点特征和图的拓扑结构生成节点的表征向量,完成图结构中节点的半监督学习任务。图卷积网络通过以下方式更新节点嵌入向量(本文以两次图卷积为例):构建一个图G=(V, E),图中V代表节点,G代表边。设置一个包含所有节点特征向量的矩阵X∈Rn×m,矩阵中每一行Xi∈Rn×m代表节点i的特征向量。接着图G的邻接矩阵A按照图结构生成,邻接矩阵的对角元素设置为1因为图卷积网络中每个节点都是自循环节点。在图卷积网络中,相邻节点的特征信息可以被图卷积网络的卷积层捕获,更远距离节点的特征信息也能被学习当图卷积网络的卷积层增加后。在第一层图卷积过程中,节点特征矩阵按照式(1)更新为T(1)∈Rn×p:
(1)
(2)
式(2)中W1=Rp×q表示第二层图卷积的超参数矩阵。当卷积层增加到3或者更高时,更高阶领域节点的特征信息可以被图卷积网络学习,但现有研究表明,卷积层超过2时模型效果提升并不明显,所以本文选用2层图卷积网络。然后将T(2)输入softmax分类器。
Z=softmax(T(2))
(3)
图2图卷积网络
然后根据每个节点的Z值得到节点标签。图卷积网络工作原理如图2所示。图2中,(a)表示专利-词汇网络中专利节点,GCNlayers表示图卷积层,(b)表示经图卷积后专利节点的标签类别。两次图卷积之后模型为专利节点赋予两类标签,得到专利所属质量类别。
2.2专利数字特征提取本文从专利价值、专利保护范围、前引(backward citation)专利的价值三个维度选取15项专利质量评价指标,并将这些指标作为专利的数字指标,如表1所示。本文选取的专利质量评价指标是专利申请之时可直接提取出来的指标,并非滞后性指标。这表明本文提出的高质量专利自动识别方案可在专利提出早期自动识别高质量专利,在专利申请早期开始针对性的采取培育措施,拓展深化专利价值。
表1 专利数字特征
a.专利价值。该类别包含5项专利数字指标,分别为专利首项权利包含的字数、专利要求权利数量、专利申请人数量、专利发明人数量、专利发明人国别数量。专利首项权利要求包含专利申请人对专利包含的科技价值、商业价值的自我认可,专利首权包含的字数与专利价值之间具有相关性,选取首权字数作为专利数字特征具有一定合理性。专利包含的权利要求数量越多,专利具有的技术价值越大[25];专利权利要求数量很大程度能反应专利的质量或价值[26];受法律保护的权利要求数量与专利质量之间成正比关系[27];Ferrucci研究专利发明人中成员国籍情况与专利质量的关系,结果表明二者具有强相关性[11];专利发明人数量越多的专利具有的价值越大[28],因此上述专利指标作为专利数字特征较为合理。
b.专利保护范围。该类别中包含6项专利数字指标,分别为IPC个数、简单同族个数、扩展同族个数、同族国家个数、优先权专利个数、优先权专利包含国别个数。申请专利的IPC个数可表征专利中包含的技术范围[29],IPC个数与专利质量之间存在正相关关系[30-31],故其被一些研究用作专利质量的代表。专利简单同族个数、扩展同族个数作为专利家族规模的衡量尺度,可反应专利申请人对专利被保护国家或地区范围增强的需求。专利被保护区域越多,专利蕴含的价值越高,专利家族规模与专利质量、专利价值之间有很强的相关性[32-33]。专利家族规模同样可用专利家族包含的申请地区或国家表征,故本文选取同族专利国家个数为专利质量相关指标。优先权专利数量与优先权国别数量越多,专利家族可发挥的专利权利要求越大,专利权利要求带来的经济收益越大。
c.前引专利的价值。该类别中包含4项专利数字指标,分别为前引次数、引证科技文献个数、引证国家个数、前引专利申请人数量。专利前引次数作为专利质量衡量指标不同研究有不同意见,但仍有大量研究将专利前引次数作为专利技术性的代表[34]。申请专利中包含的非科学知识越多,其包含的有价值技术越多[35],且专利中包含的科技知识可通过非专利文献引用次数表现[36]。专利中非专利文献引用数量和专利技术价值之间存在相关性[37]。引证外国专利与专利技术价值有一定关联[38],故本文选用引证国家数量专利指标。引证专利申请人数量与引证专利价值有相关性,而引证专利包含的技术性高低与申请专利的技术价值相关,故本文选用引证专利申请人数量指标。
2.3专利-核心词汇共现网络构建与节点特征嵌入本文以专利摘要为专利文本特征来源。提取专利文本特征时,考虑到专利中技术领域特征词因不同技术融合与发展而不固定、技术领域特征词不断更新等事实,本文未采用识别技术领域固有特征词的专利文本特征提取方案。而是将大量专利摘要转换成语料库,以数据驱动方式识别专利摘要中的“核心词汇”,以核心词汇为专利文本特征。同时,部分技术领域固有特征词也会成为核心词汇的一部分。本文构建的专利质量自动评估模型通过学习不同质量专利摘要中核心词汇的分布情况,可以依据专利摘要中出现的核心词汇提高专利质量自动评估的准确率。
核心词汇识别过程:将专利摘要分词后进行词频统计分析,以专利摘要中高频词为基本词汇进行共现分析生成高频词共现网络,如图3所示。图3中节点代表高频词,边代表词汇之间同时出现在专利摘要中的次数。然后以共现网络中度值较大的节点为核心词汇。
图3 高频词共现网络(部分)
通过共现网络分析识别专利摘要中核心词汇后,以核心词汇为基础词汇,生成专利-核心词汇共现网络,如图4(a)所示。专利-核心词汇共现网络中节点代表专利文档与专利摘要中包含词汇,圆形节点代表专利文档,椭圆形节点代表专利摘要中包含的词汇。词汇之间的边代表词汇在专利摘要中的共现次数,词汇与专利文档之间的边代表词汇在专利摘要中出现次数。专利文本特征识别完成后将其与专利数字特征提取阶段识别的专利数字特征合并,共同作为专利解释变量。专利数字特征如图4(b)所示,将专利数字特征向量嵌入专利文档节点作为专利文档节点特征。接着生成与专利数字特征同维度的随机向量嵌入词汇节点,作为词汇节点特征,完成专利文本特征与专利数字特征合并过程。至此,网络构建与节点嵌入阶段完成,为图卷积模型工作提供原始数据。
(a) (b)
3 实证检验
3.1数据选取本文所用数据来自incopat全球专利数据库,该专利数据库收纳全球范围内的专利文本数据、专利的法律状态及专利数据扩展信息。选用15项专利质量评价指标作为专利数字特征,其中有专利权利要求、专利家族、引证专利等专利指标,选用专利摘要数据为专利文本特征来源。因表征申请专利质量等级的专利维持年限指标需较长时间沉淀才能显示,故本文选取2008年incopat全球专利数据库中IPC分类号为H04L的“数字信息传输”领域申请专利为样本数据,共获得专利数据2 000份,以此数据为基础展开本文研究。
实现专利质量正确评估的前提是正确识别专利质量等级,结合2021年3月底国家知识产权局对高价值发明专利的首次定义:战略性新型产业的发明专利、在海外有同族专利权的发明专利、维持年限超过10年的发明专利、实现较高质押融资金额的发明专利、获得国家科学技术奖或中国专利将的发明专利。本文使用专利质量评价指标体系中频繁出现用于表征专利质量的专利维持年限确定样本专利质量等级,表2提供了样本数据的专利维持年限的具体分布。
表2 样本专利的维持年限分布描述
本文使用专利维持年限划分本文所用专利数据的质量等级,将样本数据分为高质量专利与低质量专利,2 000份专利样本划分质量等级后,共有926份高质量专利和1 074份低质量专利。其中,高质量专利与低质量专利分别对应维持年限大于等于10的专利与维持年限小于10的专利。
3.2专利数字特征提取本文以首权字数、IPC个数、前引次数等15项专利质量评价指标为专利数字特征,选取数据库中专利数据后进行预处理操作,得到专利数字特征矩阵,部分专利数字特征矩阵如表3所示。
表3 专利数字特征矩阵(部分)
表4为本文所选样本专利的数字特征变量的统计描述,包括总样本专利、高质量专利子样本,低质量专利子样本的均值、方差,以及T检验结果。从表 4 中的数据可以看出,大部分专利数字特征变量都显示出显著的差异,并且维持年限超过10年的高质量专利样本的均值高于维持年限低于10年的低质量专利样本,如IPC个数、发明人国别个数等,充分说明了所选专利数字特征变量与专利质量的高度相关性。值得注意的是,虽然高质量专利子样本显示出较高的平均值,但对应的方差波动也较大,显示出高质量专利样本中存在较大的质量差异。从 T 检验结果来看,两组专利样本的均值基本都呈现出显著的差异性。
表4 专利数字特征统计描述
3.3专利-核心词汇网络构建与节点特征嵌入专利数字特征矩阵生成后进行专利-核心词汇网络构建与节点特征嵌入过程,提取专利摘要中核心词汇作为专利文本特征。将专利摘要分词后进行词频统计分析,以专利摘要中高频词为基本词汇进行共现分析生成高频词共现矩阵。用共现矩阵生成高频词共现网络,以共现网络中节点度值排名前2 000个节点为核心词汇,部分节点度值排名如表5所示。
表5 节点度值排名(部分)
专利摘要中核心词汇识别完成后,以核心词汇为基础词汇对专利摘要进行词汇共现分析,生成专利-核心词汇网络。然后将专利数字特征与随机向量构成的特征向量矩阵嵌入专利-核心词汇网络中文档节点与词汇节点,作为节点特征。至此,网络构建与节点特征嵌入阶段完成,为图卷积网络完成高质量专利自动识别做好数据准备。
3.4实证结果专利-核心词汇网络构建与节点特征嵌入完成后,进行高质量专利自动识别过程。将构建的图数据输入图卷积网络模型,隐藏所有专利节点质量等级标签,随机挑选少量专利节点分配质量等级标签,卷积层设为2层,然后训练图卷积网络模型,得到所有专利节点的质量等级标签类别。将专利节点的预测标签类别与其真实标签类别做对比,得出模型的高质量专利识别性能。
本文另外应用支持向量机、随机森林、神经网络三种算法依据专利数字特征完成高质量专利自动识别任务,并将结果与本文所提模型的性能进行对比。支持向量机(Support Vector Model,SVM)、随机森林(Random forest,RF)和神经网络(Artificial Neural Networks,ANN)是三种传统的机器学习算法,被广泛用于完成分类任务。支持向量机模型通过寻找两类数据的支持向量建立最优分类超平面,解决了二值分类问题。随机森林是一种基于树的机器学习算法,它利用群体决策思维生成多棵决策树来完成分类任务。神经网络是由输入层神经元、隐藏层神经元、输出层神经元组成的网格结构,在训练阶段,输入层神经元接受特征值,通过训练不断迭代调整输入层、隐藏层、输出层间的连接权重矩阵,利用输出层产生类别值来完成分类任务。上述三种模型基于Python环境完成,图卷积网络模型基于Pytorch框架中DGL库实现。对比实验完成后,用精确率P(式4)、召回率R(式5)、F1(式6)衡量各模型的自动评估性能,精确率指识别为高质量专利的样本数据中实际的高质量专利数量占所有识别为高质量专利样本数的比例、召回率指识别为高质量专利的样本数据中实际的高质量专利数量占所有高质量专利样本数的比例、F1值是精确率和召回率的调和值。
(4)
(5)
(6)
式中,tp表示自动评估为高质量专利中真实标签为高质量专利的专利数量、tn表示自动评估为低质量专利中真实标签为低质量专利的专利数量、fp表示自动评估为高质量专利中真实标签为低质量专利的专利数量、fn表示自动评估为低质量专利中真实标签为高质量专利的专利数量。
(a)P(精确度)
(b)R(召回率)
(c)F1值
为了评估模型训练阶段专利质量标签标注比例对高质量专利识别结果的影响,本文使用不同比例训练数据测试模型的表现。图5显示了训练数据集为2%、4%、6%、8%和10%情况下各模型对2 000份样本数据中包含的高质量专利识别结果。从图5(a)可知,当训练数据集在2%~10%范围内时,随机森林、支持向量机、神经网络的P值均小于60%,图卷积的P值均大于60%且在训练数据集为6%时达到峰值76.2%。从图5(b)可知,当训练数据集在2%~10%范围内时,随机森林、支持向量机、神经网络的R值均小于60%,图卷积的R值均大于60%且在训练数据集为6%时达到峰值80.2%。F1值调和了P值与R值,通常能较准确反映模型性能,故本文对图5(c)进行深入分析。从图5(c)可知,当训练数据集从2%增长到10%时,随机森林模型的高质量专利自动识别精确度从32.2%上升到53.8%;神经网络模型的精确度从28.3%上升到43.6%;支持向量机模型的精确度从22.6%上升到41.2%;图神经网络模型的精确度从61.1%上升到78.1%后下降到77.1%。同时,随机森林、支持向量机、神经网络模型的精确度随训练数据集的增长而增加,符合传统机器学习模型依托大量训练数据集提高模型性能的常识;图卷积网络在少量训练数据集情况下拥有较好性能且训练集增加后性能未有较大提高,说明图卷积网络模型可以用有限的标记文档实现更高的测试精度。比如,图卷积网络在仅有6%的训练数据上的F1值为78.1%,在仅有2%的训练文档下的测试精度甚至比一些带有大量训练文档的基线模型更优。整体上,基于本文的专利样本数据,标注6%专利节点的图卷积网络模型是最优结果,模型F1值为78.1%。本文第4节将对进一步提高图卷积网络自动评估专利质量模型提出具体意见。
图卷积模型在拥有少量专利文档质量标签情况下的表现超过现有模型,此结果表明高质量专利自动识别任务在拥有少量专利质量标签情况下即可完成。对于专利质量自动评估研究中使用专利指标标注专利质量标签或其他专利质量标签标注方案无法全面综合确定专利质量问题,图卷积网络可有效解决此问题。图卷积模型可依据专家经验人工确定少量专利文档质量标签,然后训练专利文本异构图将少量标签信息传播到整个图中,完成专利文档节点质量标签的预测,进而完成高质量专利自动识别任务。由于采用专家标注专利质量标签方案,图卷积模型所识别高质量专利相较于以往专利指标标注专利质量方案下识别的高质量专利,更具有说服力。
4 研究结论与讨论
在专利大数据背景下,如何自动评估专利质量、筛选高质量专利,为开展后续技术追踪、专利转化、战略布局等专利工作铺垫,成为当前重点研究问题。对此,本文选用专利维持年限指标确定专利质量,以多项专利质量评价指标为专利数字指标特征,以专利摘要中的文本信息为专利文本特征,将专利数字特征嵌入表征专利文本特征的专利-核心词汇共现网络中,构建图卷积网络模型自动识别或筛选高质量专利。
本文所提高质量专利自动识别方案创新之处在于:
(1)多维度提取专利特征,拓宽专利质量研究中专利特征选择维度。本文在专利特征提取阶段使用专利摘要文本和专利指标信息共同作为专利解释变量。从所检索文献可知,现有专利质量研究大多使用专利指标信息作为专利特征向量,缺乏文本信息维度专利特征提取。本文从专利文本与专利指标两个维度提取专利特征,丰富专利特征表示,对现有研究做出补充。
(2)少量标注专利文档情况下即可完成专利质量识别任务。 从当前文献来看,现有研究采用机器学习算法训练专利质量自动识别模型时,需标注大量专利文档的质量标签,专利指标标注专利质量标签或其他专利质量标注方案具有无法全面识别专利质量的局限性,专家标注海量专利文档质量缺乏可行性。相较于以往研究使用具有局限性的专利质量标注方案确定专利质量标签,本文所提方案可在专家标注少量专利文档质量标签情况下完成专利质量识别任务,通过图卷积算法学习专家先验知识,将少量标签信息传播到整个专利文本异构图中,完成海量专利质量自动识别过程。对于专利质量自动识别研究中现有专利质量标注方案无法同专家标注专利质量方案一样精确识别专利质量问题,本文所提方案可通过实施专家标注少量专利文档质量标签方案有效解决,这是以往研究所提模型无法做到的。
不过,本文的专利质量自动评估方案也存在一定的局限:在专利数字特征提取阶段引入15项专利质量评价指标时未能引入更多专利质量评价指标,未能充分发挥机器学习算法相较于传统专利质量识别方案的优势,未来可在该方面进行改进。进一步研究将考虑专利侵权自动评估方面与技术发展趋势研究方面。