基于特征融合的高校可转移专利识别研究*

2022-09-24高道斌李剑飞

情报杂志 2022年9期

张彪吴红高道斌李剑飞崔哲

(山东理工大学信息管理研究院淄博 255049)

0 引言

高校是国家创新体系的重要组成部分，承担着突破原创性基础研究、攻克关键核心技术、破解创新发展难题的重任，每年有大量的科技成果产出，且多以专利的形式存在，专利转移是高校技术创新成果转化为现实生产力的主要途径。然而现实中，高校专利与市场经济的融合并不理想，2020年专利产业化率仅为3%[1]，远低于美国等西方发达国家，科研资源浪费严重。高校专利只有落在产业上，才能真正发挥其价值。近年来，我国为促进高校专利转移，已经相继推出众多法律政策，如教科技〔2020〕1号文件《提升高等学校专利质量促进转化运用的若干意见》就明确指出，要树立高校专利等科技成果只有转移才能实现创新价值、不转移是最大损失的理念；《知识产权强国建设纲要(2021—2035年)》明确指出，要打通知识产权创造、运用、保护、管理和服务全链条，加大创新成效转化力度。由于不是所有高校专利都具有转移潜力，所以如何快速而准确地从高校专利中识别出具有转移潜力的技术成果，就成为高校合理进行专利运营、推动科技成果与市场对接迫切解决的严峻问题。

1 相关研究

目前国内外学者就如何识别可转移专利已经进行了广泛研究，取得了丰富成果。虽然成果的称谓有所差异，如潜在技术转移专利识别、专利技术转移价值评估等，但就其目的而言大同小异，研究内容主要分为指标评价方法和专利分析方法[2]。

1.1 指标评价方法

此类研究多是在选取评估指标的基础上，通过定量分析或机器学习模型进行识别。a.定量分析。Marco等[3]提出可以通过专利的独立权利要求数量及其字数判断专利价值，专利权力范围越大，其转移的可能性越高。Zhang等[4]采用信息熵对发明人数量、IPC数量等指标进行加权，并使用协同过滤技术排除创造性低的专利，进而识别可转移专利。李振亚等[5]选取科技文献引用数、专利引证量、诉讼次数等评估指标，通过专家讨论和AHP等方法对指标赋权、计算专利综合价值，进而筛选可转移专利。b.机器学习模型。Kim[6]选取了相似专利数、简单同族数量、权利人专利历史被引数、权利人专利历史转让数等指标，使用随机森林、逻辑回归等方法构建了可转移专利识别模型。武玉英等[7]分别构建了用于专利可转移性评价的说明书页数、申请人数量等内部指标和专利权人类型、专利权人拥有的IPC个数等外部指标，结合高阶神经元将深度神经网络方法应用于可转移专利识别。冉从敬等[8]利用LDA主题模型对专利文本进行聚类，将专利主题融入专利评估指标，利用AdaBoost算法构建了高校可转移专利识别模型。上述研究选取的指标较为多样，但数据多是源自专利文献自身，没有考虑技术供给方、行业环境等其他专利转移影响因素。另外，虽有学者使用技术主题代表专利文本语义特征，并基于机器学习构建了可转移专利识别模型，但技术主题的粗粒度降低了语义特征的完整性，更遑论专利文本蕴含的深层次语义特征，识别结果的准确度仍有待于进一步提高。

1.2 专利分析方法

该类研究主要以引文分析法、社会网络分析法、TRIZ分析法为主[9]。a.引文分析法。Park等[10]基于美国专利商标局的韩国航空产业专利数据，从知识流动和流出的视角出发，使用专利引文对相关指标进行量化测度专利转移的可能性。杨冠灿等[11]基于矩阵转化方法对直接引用、间接引用、耦合、共引4种单一专利引用关系进行合并、重组，筛选高价值专利。b.社会网络分析法。刘雯等[12]基于中国高校专利出售数据和合作专利信息，通过社会网络节点、密度、最大连通度等变量探究了高校科研人的社会网络对专利转移的影响。崔斌等[13]基于科研院所的专利数据构造了合作网络，分析了校企合作对专利转移的主要影响因素及其作用路径。c.TRIZ分析法。Park等[14]提出采用TRIZ演化趋势作为专利价值评估的标准，并分析专利文本中的SAO结构确定可转移专利。詹文青等[15]基于TRIZ方法标注专利文献和技术需求的技术问题、技术功能、技术效果三种技术特征词组，计算专利文献和技术需求的相似性，根据相似度排序识别潜在的可转移专利。上述研究使用方法较为多样，但仍存在以下不足：引文分析法侧重对已发生转移的回顾总结，预见性不强；社会网络分析法多是就高校专利转移的影响因素进行研究，无法准确测度专利的具体转移潜力；TRIZ分析法采用文本挖掘技术，从专利文献内容与市场需求的相似度出发识别可转移专利，但识别过于理想简单，未能考虑到专利转移的复杂性，研究还有待进一步完善。

基于此，本研究拟提出一种基于特征融合的高校可转移专利识别方法，旨在通过改进机器学习训练的特征质量从而提高识别准确率。为保证专利文本信息的完整性，研究采用Word2vec自然语言处理技术细粒度抽取专利文本的内部语义特征，并且基于多源数据选取外围评估指标，将内部语义特征和外围评估指标进行融合处理，筛除冗余信息，创建内容全面、综合的新特征，在此基础上构建高校可转移专利识别模型，以期更全面、客观、准确地识别高校可转移专利。

2 研究设计

专利转移作为将发明引入市场并作用于经济增长的商业行为，涉及需求、开发、推广等众多要素。能否成功转移除了技术内容自身(内部语义特征)，还要受到专利质量、高校研发实力和社会信誉等外围特征的影响。一方面，《专利法》规定专利说明书要对技术方案作出清楚完整的描述，与专利摘要、权利要求书等文本内容相比，专利说明书包括技术领域、背景技术、发明内容、具体实施方式等内容，具有更丰富的语义信息，通过自然语言处理技术深层次挖掘得到的语义特征，是判断专利能否转移的关键内部特征。另一方面，高校的研发实力及社会信誉(如专利产出数量、科学文献数量、基金数量)、存在于专利著录项目中的多维信息、领域企业数据、行业发展前景等，都是判断专利能否转移的重要外围信息，它们能够从不同维度、多个视角对专利的转移潜力进行判断[16]，是本研究用于展示外围特征的重要评估指标。将两者进行融合与集成，可以在增加信息量的同时排除各类信息带来的不确定性影响，筛除冗余、消除数据噪音，生成内容全面、综合的新特征[17]，更有利于提高模型训练的特征质量，实现对高校专利转移潜力进行全方位科学判断。

特征融合的前提是数据类型的统一，自然语言处理中的Word2Vec可以将文本型的专利语义信息转化为数值型的向量来表征语义特征，这为特征融合提供了必要的技术支持。因此，本研究的设计如下：首先，基于Word2Vec进行专利文本内部语义特征的提取；其次，综合考虑各类信息从多个数据源获取外围评估指标；然后，借助主成分分析方法将内外特征降维融合重组，提取数据的主要特征分量，得到凝练的新特征；最后，借助机器学习构建可转移专利识别模型验证本方法的有效性。

2.1 内部语义特征抽取

a.词语向量化处理。获取专利文本语义特征，首先需要考虑词语在计算机中的表示。在自然语言处理中，词语的表示已经从最初的离散表示发展为常见的分布式表示，Word2Vec[18]是常用的单词分布式表示模型，其思想是将单词从原先所属的空间嵌入到一个新的多维空间中，使得语义上相似的单词在该空间内呈现较近的距离。通过学习文本可以把语义信息的处理简化为多维向量空间中的向量运算，相比于One-hot等高维、稀疏的表示法，Word2Vec训练出的词向量是低维、稠密的，而且利用词的上下文信息，语义信息更加丰富，解决了向量稀疏和语义联系两个问题。本研究在实际操作中使用Li[19]等在Github公开的300维中文预训练词向量模型进行专利文本的词语转化，该模型基于中文维基百科语料进行训练，能够满足专利文本中各种词汇的向量化表示。

b.语义特征提取。在词语向量化的基础上进行语义特征的提取，本研究采用Arora等[20]提出的SIF(smooth inverse frequency，平滑倒词频)加权平均词向量，该方法与平均词向量、TF-IDF加权平均词向量等相比能够在文本表示上取得更优的效果，计算过程分为两步：

第1步，通过公式(1)(2)对句子中的所有词向量进行加权求和取平均得到句向量vs。

(1)

(2)

式中，a是参数，本研究设置为0.001，p(w)是单词在文本中出现的频率，对于词频率越小的词语w，SIF权值bw越大，即频率越低的词语在当前文本的重要性越大，n代表文本s中的词语数。

第2步，计算vs向量矩阵的第一个主成分u，用每个句向量vs减去其在u上的投影即为最终的专利文本内部语义特征。

2.2 外围评估指标选取

高校专利能否转移受多种外围特征的影响，具体可以从专利著录项目、高校研发实力、区域行业发展状况三个方面得以体现。从专利著录项目选取的专利文献特征能够在一定程度上表征专利质量[21]，专利质量越高，其转移的潜力越大；研发实力强的高校其专利质量通常会更高，更容易获得企业的青睐；就具体行业而言，某一区域的行业发展越成熟，意味着该区域在行业内整体技术研发水平越高，区域内与该行业相关的高校专利更容易获得企业的认可。对于专利著录项目，指标选取参考《专利价值分析指标体系操作手册》及文献[9]，注重指标的易获取性和可量化性，排除被引数量、存活寿命等时滞性指标，数据源自智慧芽。对于高校研发实力，用高校在领域内的基金数目、基金金额、期刊文献数量表征，数据源自LetPub国家自然科学基金数据库和中国知网期刊数据库。对于区域行业成熟度，用地区产业竞争力指数和区域相关企业数量表征高校所在地的产业竞争力、技术市场化水平，数据来源于行业报告和天眼查企业查询系统(具体见表1)。

2.3 特征融合

特征融合的目的是将内外特征进行压缩、凝练，去除噪音，生成内容丰富、质量优异的新特征，从而提高模型的性能，在进行特征融合之前需要先对内部语义特征与外围评估指标的数据类型进行统一。研究采用300维的特征向量表示抽取的内部语义特征；使用12维的特征向量表示每项专利的外围评估指标，即[X11,X12,X13,X14,X15,X16,X17,X21,X22,X23,X31,X32]。

特征融合的常规做法是将所有特征向量拼接，但这样会使得整个特征矩阵过于庞大、增加冗余信息对模型性能的干扰，而且不同的特征之间可能会存在某种相关性，导致后续构建模型消耗时间过长且难以获得最优的参数，降低模型性能。主成分分析(Principal Component Analysis,PCA)是一种常用的降维融合方法[22]，其目的是以最少的信息丢失将原始高位矩阵的多变量转换为少数几个综合变量，从而将数据投射到一个低维空间，达到降低特征空间维度、获取新特征的效果，实现提升特征质量的目的。本研究的特征融合架构如图1所示，首先将内部语义特征与外围评估指标进行横向拼接作为原始特征，然后通过PCA对原始特征进行降维融合处理，最终得到凝练、内容全面的新特征。

表1 外围评估指标

图1 特征融合架构

设Xm×n是一个由m条专利数据和n个特征组成的矩阵，其中n=a+b，a代表内部语义特征的维度，b代表外围评估指标的数量，用PCA对矩阵Xm×n的降维融合计算过程可用如下步骤表示：

第1步，对矩阵Xm×n进行特征归一化处理得到矩阵Am×n，计算协方差矩阵Rn×n；

第2步，求出协方差矩阵Rn×n的特征向量e1,e2,…,en和对应的特征值λ1,λ2,…,λn，将特征值从大到小排序；

第3步，根据特征值的大小计算协方差矩阵第p列的方差贡献率θp和前p列矩阵的累计方差贡献率Τp，计算方法分别为公式(3)(4)；

(3)

(4)

第4步，根据累计方差贡献率Τp的大小确定降维矩阵的维数r，其中r≤n；

第5步，将前r个特征值对应的特征向量作为投影矩阵Sn×r，最后将需要降维的矩阵Xm×n与Sn×r相乘即可得到降维后的矩阵Zm×r，即由m条专利数据和r个新特征组成的矩阵。

2.4 可转移专利识别模型

本研究基于机器学习构建可转移专利识别模型。机器学习是人工智能的关键技术，通过对当前数据的特征进行学习，寻找出最优的目标函数用以预测数据的类别或趋势，可以提升解决问题的效率。在众多机器学习算法中，人工神经网络(Artificial Neural Networks，ANN)[23]优秀的性能受到普遍重视，它是对人脑神经网络若干基本特性的抽象和模拟，学习过程包括信号的正向传播和误差的反向传播两个过程，具有较强的容错、非线性映射能力。因此，本研究使用ANN验证所提方法的有效性。基于人工神经网络构建的可转移专利识别模型架构如图2所示，包括输入层、若干个隐藏层、输出层，输入为特征融合处理后的新特征[Z1,Z2,… ,Zr]，输出层神经元个数为2，即专利可转移与专利难以转移两种情况。

图2 可转移专利识别模型架构图

2.5 模型评估

采用准确率Accuracy、查准率Precision、查全率Recall和调和平均值F1对模型的性能进行评估，计算方法如公式(5)—公式(8)所示。式中M表示测试集中预测正确的数目，N表示测试集总数目，TP表示测试集中实际发生转移且被预测正确的数目，PN表示测试集中预测可能发生转移的数目，TN表示测试集中实际发生转移的数目。

(5)

(6)

(7)

(8)

3 实证研究

3.1 数据收集

本研究以石墨烯领域进行实证分析。以智慧芽数据库中的中国发明专利和实用新型专利为专利数据源，以“TA:(石墨烯 OR graphene*) AND ANS:(大学 OR 学院)”为检索式，检索时间为2021年7月13日。剔除存在缺失信息的专利后共得到10 539项专利。以LetPub国家自然科学基金数据库、中国知网期刊数据库为高校研发实力信息源，通过爬虫手段根据高校专利权人信息获取高校在石墨烯领域的基金、期刊数据；在天眼查企业查询系统按照省份收集区域的企业数据，在中国电子信息产业发展研究院和国家新材料资源共享平台收集到《2020年中国石墨烯产业发展竞争力指数》报告。

3.2 数据处理

3.2.1数据集划分

对收集到的10 539项高校专利数据依据法律状态和法律事件抽取模型构建所需要的数据集。类别一：发生过权力转移或许可的专利1 008项，代表可转移专利；类别二：失效且没发生过权力专利或许可的专利2 040项，代表难以转移的专利。为避免数据类别分布不平衡降低模型效果，对类别二的专利进行欠采样，随机去掉部分样本，得到1 008项。将类别一和类别二的专利合并，按照7：3的比例随机划分模型构建的训练集和测试集。

3.2.2特征提取

a.内部语义特征抽取。

首先使用Python语言的jieba分词工具包对专利说明书进行分词、去停用词等预处理操作，获得以词语为单位的文本信息；然后调用Gensim库加载预训练的词向量，根据2.1的方法使用编程语言将每项专利的说明书转化为一个300维的特征向量用以表征专利内部语义特征。

b.外围评估指标计算。

分别从专利著录项目、高校研发实力、区域行业成熟度3个维度计算外围评估指标。对于专利著录项目的相关指标，可从专利文献中直接计算得到X11～X17；对于高校研发实力的相关指标，先通过收集到的期刊、基金信息计算X21～X23，然后依据专利权人名称、基金单位名称、期刊第一作者单位名称将X21～X23与各项专利对应；对于区域行业成熟度，先通过行业报告、企业信息计算X31～X32，然后根据智慧芽专利数据库提供的专利权人地址确定专利所属区域，将相关指标依据区域位置进行对应。最后统一将每项专利的外围评估指标转化为12维的特征向量。

3.2.3特征融合

将内部语义特征和外围评估指标横向拼接后得到特征矩阵。在使用PCA算法进行降维融合之前需要进行KMO检验和Bartlett球形检验，将训练集和测试集的数据分别导入到SPSS中，检验结果如表2所示。

表2 KMO检验和Bartlett球形检验结果

根据检验结果，训练集和测试集的KMO检验系数都大于0.9，且Bartlett球形检验显著性都小于0.05，非常适合做主成分分析。使用Python语言调用PCA算法对特征矩阵进行融合重组，计算累计方差贡献率与特征数的关系，结果如图3所示。

图3 累计方差贡献率-特征数目关系图

3.3 模型构建与评估

使用Scikit-learn机器学习库，基于人工神经网络(ANN)构建可转移专利识别模型，在具体构建过程中，由于训练集数据样本较少，因此采用五折交叉验证进行模型训练，即将训练集分成5份，轮流将其中4份作为训练数据，1份作为验证数据，进行试验，最后求5次实验的平均准确率评估模型的性能。为验证融合后获得的新特征以及由其构建的模型的有效性，研究将其与特征1和特征2进行对比，其中特征1是借鉴文献[8]、以技术主题代表专利文本的语义信息，即在外围评估指标的基础上加上专利技术主题类别，并进行归一化，特征2为归一化的外围评估指标。同时，使用现有研究常用的逻辑回归(LR)、高斯朴素贝叶斯(GaussianNB)、支持向量机(SVM)3种机器学习算法与ANN的性能进行对比，验证ANN在本研究中的性能优异性。

基于新特征构建模型，首先需要确定降维融合最适合模型的特征数，本研究在参数未调优的情况下计算累计方差贡献率对机器学习算法准确率的影响，选取使得测试集准确率最高的特征数，经计算得，基于ANN、LR、GaussianNB、SVM建模的最优特征数分别为99、99、52、52，结合图3可以看出，以上特征数分别能反映原始数据95%、95%、90%、90%的信息，在此基础上进行模型的参数调优。基于特征1构建模型，首先需要采用LDA主题模型确定各项专利所属的主题类别，为避免因使用的专利文本差异带来的实验误差，此处与新特征保持一致，使用专利说明书进行主题建模，主题数目的确定参考图4的困惑度变化曲线，可以看到当主题数目为21时曲线趋于平缓，因此最终主题数目定为21。

图5 困惑度—主题数目变化

将新特征、特征1、特征2分别作为机器学习算法的输入构建模型，各模型的最优参数如表3所示。

表3 机器学习算法相关参数设置

以Accuracy值作为评估指标，对比使用新特征与使用特征1、特征2的模型性能，结果如图5所示。新特征与特征1相比，ANN算法提升3.96%、LR算法提升3.465%、GaussinaNB算法提升2.228%、SVM算法提升3.713%，这说明本研究对专利文本语义特征的挖掘比现有的主题方法粒度更细，新特征能够包含更多的语义信息；新特征与特征2相比，ANN算法提升9.158%、LR算法提升4.455%、GaussinaNB算法提升0.743%、SVM算法提升5.445%，这说明使用新特征会比常规仅使用外围评估指标构建的模型分类性能更强，专利文本中的语义特征对识别可转移专利具有不可忽视的重要作用。综上，本方法能够有效改进机器学习训练的特征质量，具有很好的可行性和科学性。

图5 特征融合对分类算法性能的影响

使用Precision、Recall、F1对使用新特征的模型进行评估，结果如表4所示。可以看出，基于人工神经网络构建的高校可转移专利识别模型查准率、查全率、调和平均值全部为73.430%，相比于其他模型都能够取得最优的效果，能够证明人工神经网络算法在本研究的有效性。

表4 各模型评估结果 %

4 结语

高校在国家的创新驱动发展中发挥着重要的技术供给作用，准确识别高校可转移专利，对于促进高校科研与市场对接具有积极意义。本研究为改进机器学习训练的特征质量，提高识别结果的准确率，提出一种基于特征融合的高校可转移专利识别方法。实证结果表明，本研究将专利内部语义特征与外围评估指标融合，生成内容更为全面、综合的新特征，能有效改进机器学习训练的特征质量，可以从更深、更广、更全面、综合的角度挖掘专利转移潜力，能够精准、快速定位高校专利中具有转移潜力的技术成果，提高了高校可转移专利识别结果的准确性和科学性，为高校可转移专利识别提供了新的研究思路。