融合多层异构网络链路预测的产学研专利合作关系挖掘
2023-04-25王骞敏鄢春根闵超
王骞敏 鄢春根 闵超
关键词: 产学研; 专利合作; R-GCN; 多层异构网络; 技术相似度
DOI:10.3969 / j.issn.1008-0821.2023.05.006
〔中图分类号〕G306 〔文献标识码〕A 〔文章编号〕1008-0821 (2023) 05-0054-12
随着中国社会经济发展, “产学研深度融合”成为新的发展趋势。十九大报告中强调, 建立以企业为主体、市场为导向、产学研深度融合的技术创新体系。打造系统创新链, 丰富融合形式, 拓展融合范围, 提升融合层次, 实现产学研深度融合, 需要有效发挥高校、科研院所和企业的互补作用, 从而真正实现创新驱动发展。目前, 产学研融合仍存在广度与深度欠缺, 问题在于各方信息不对称等问题导致的高校、院所和企业之间存在脱节[1] 。在产学研的合作研究中, 多从机构合作角度出发, 推荐企业与顶尖院校合作[2-4] , 忽略了普通院校与研究机构具有发明实力的学者。因此, 本研究分析了企业与高校及科研单位学者的特征, 在技术相似度的基础上, 引入R-GCN 多层异构网络算法, 挖掘合作规律, 并为企业与学者提供合作参考, 使企业与高校或研究机构部分杰出学者建立直接联系, 对普通院校与研究机构有实力的学者予以关注, 有利于提高产学研合作效率, 深化产学研合作。
1专利合作研究现状
1.1产学研专利合作研究现状
专利合作是产学研合作的重要方式之一, 而社会网络分析法是专利合作分析中的重要研究方法。近年与之相关的研究可分为以下两类: 一是对合作网络进行分析, 指出产学研合作进一步发展的方向,如Yan H Y 等[5] 基于社会网络, 发现化工领域产学研合作具有无标度和小世界特性, 进一步提出促进合作者互动等建议, Paulo A F 等[6] 通过动态网络松弛DEA 模型, 静态角度分析产学研合作的动态变化, 李文静[7] 通过分析校企专利合作网络,指出中小企业自主创新能力不足和高校科研成果转化率偏低的问题等; 二是通过复杂算法, 对技术潜在合作对象的识别, 如许海云等[3] 通过扩展多模数据, 引入产学研机构的技术关联分析、机构间竞争地位分析、合作网络中机构间核心边缘分析以及机构类型等变量, 王超等[4] 则引入机构能力差异性, 丰富了社会网络分析方法, 提升了潜在合作对象识别准确性。但目前产学研专利合作研究集中于企业与机构, 对企业与学者之间合作的研究较少,忽略了普通院校与研究机构具有发明实力的学者。
产学研的合作, 本质是企业与高校或研究机构部分杰出发明团队、发明人的合作。专利合作研究中机构合作较多, 头部研究机构、双一流高校关注度更高, 忽略了部分院校与研究机构杰出的学者,错失合作机会。因此, 在产学研融合需求下, 企业真正的合作需求在于寻找合适的学者。
1.2合作关系的链路预测
链路预测在潜在合作机会的研究中已有所应用。Chen W 等[8] 、王菲菲等[2] 、汪志兵等[9] 利用专利申请合作网络, 基于共同邻居的相似性指标对申请者合作网络进行链路预测, 证明了网络链路的可预测性, 并对其进行关系挖掘。在此基础上进行的链路预测, 对合作对象自身特征缺乏深入挖掘,导致预测效果有限。除了基于传统的网络拓扑结构的链路预测外, 部分学者进行了进一步的探索。这些探索共有两个方向: 一是提出新的链路预测算法, 如Li L X 等[10] 提出了基于非平衡协同效应的链路预测方法, 即异质网络, 李冰等[11] 亦将企业—专利异质性网络引入合作关系预测, 此类算法经数据集验证, 预测效果有所提升, 但仅包含已有连接、已在网络中的对象, 忽略了未曾连接、但有潜在连接可能的节点; 二是将链路预测与其他算法相结合,如丁敬达等[12] 将作者研究内容相似度与合作网络结构相似性结合, 秦红武等[13] 将K-means 算法与链路预测算法中的Katz 指标相结合, 综合考虑多个维度, 进行科研合作推荐, 此类算法对网络结构挖掘有限, 多为单层网络, 尚未引入其他網络特征。随着R-GCN 等复杂网络链路预测算法的改进与成熟,将合作对象自身特征与其他网络特征纳入预测影响因素, 提高链路预测的效果成为可能。
对于产学研技术合作专利的研究, 已有前人将链路预测应用于专利合作中。但链路预测以研究网络结构为主, 忽略了专利合作节点间的发明领域的相似性。企业与学者技术主题存在关联, 是两者实现合作的基础。技术相似度测算为此提供了解决方法。Cassi L 等[14] 、吕源等[15] 已证明技术接近能够促进专利合作。因此, 本文将RGN 算法与技术相似度杰卡德相似系数(Jaccard Similarity)、余弦相似度与欧氏距离(Euclidean Metric)3 个指标相融合, 考虑不同实体的发明领域耦合度, 为多层异构网络链路预测提供了发明内容的补充。
因此, 本文引入多层异构网络, 包含学者合作网络与企业—学者合作网络, 通过深入挖掘企业特征与学者特征, 将节点属性特征与网络拓扑信息相结合, 基于关系图卷积网络(R-GCN)算法, 发现合作网络规律, 预测与企业进行合作的潜在发明人, 并筛选具有技术实力与合作可能性的学者, 为企业合作提供参考。
2研究方法
本研究的主要目的是认识企业和学者的合作特征与规律, 预测企业与学者合作可能性, 为企业推荐合适的合作学者。而许海云等[3] 在研究中采用的假设为合作方技术主题关联性越大, 则合作潜力越大。学者在合作网络中, 既可为发明者, 也可为中介者, 为企业与其他学者的合作提供桥梁。另外, 企业选择合作的学者, 必然存在一定特征。因此, 本研究选择将多层异构网络链接预测与技术相似度相结合, 选取杰卡德相似系数(集合相似度)、余弦相似度(相对距离)与欧氏距离(绝对距离)3个指标计算企业与学者的IPC 主题的技术相似度,并构建了学者—学者、企业—学者两层网络, 将企业—学者作为目标网络, 结合多层节点特征与网络结构特征, 预测两者链接可能性, 最后将链接得分与技术相似度结合, 得到最终的合作预测结果, 研究框架如图1所示。
2.1技术相似度
目前, 技术相似度测算有3 种方法, 分别为基于专利引文、专利文本与专利分类组合的相似度测算。由于IPC 分类号作为唯一的国际通用的专利文献分类方法, 由专利审查员根据专利文本内容进行标注, 具有客观性与权威性, 因此, 本文主要采用基于专利IPC 分类组合进行技术相似度的测算。
通过计算企业与各发明人涉及的专利IPC 领域的杰卡德相似系数(Jaccard Similarity)、余弦相似度与欧氏距离(Euclidean Metric)3 个指标, 综合考虑集合相似度、相对距离与绝对距离, 并将其作为合作预测的特征。这3 个指标作为衡量相似度广泛使用的指标, 杰卡德相似系数考虑集合相似性, 仅判断相互之间的共同特征一致性问题; 余弦相似度反映了两者的相对距离, 强调向量方向关系; 欧氏距离表达了两者的绝对距离, 受到集合元素出现频率的影响。3 个指标有各自注重的方面, 又存在一定缺陷, 因此, 本研究将其作为RNG 算法的补充,与RNG 算法相融合的方式, 既从合作网络, 又通过两者的相似度, 预测企业和学者合作可能性。
2.2R -GCN( Relational Graph Convolutional Net?works)
R-GCN 最先由Schlichtkrull M 等[16] 在GCN 的基础上提出, 通过在关系图的多个推理步骤中使用编码器模型来积累信息, 改进链路预测的模型。本研究使用R-GCN 模型, 主要由于R-GCN 包容性强, 能构建不同类型节点与关系的多层网络, 通过整合各层信息, 节点所积累的信息既包含了自身属性信息, 也承载了其他层的网络结构信息。多层网络相对于单层网络, 网络节点数得到了极大的扩展。企业与学者单层合作网络包含节点为: 事实存在合作的企业与学者, 不包含从未与企业合作的学者。而加入了学者合作网络后, 所有相互合作过的学者都在网络中。将未与企业合作的学者加入到潜在合作对象中是本研究的主要目的之一。
本研究构建两层网络, 第一层为学者与学者合作的同构无向网络, 第二层为企业与学者合作的异构有向网络, 是目标层网络, 其中企业为源节点,学者为目标节点。在本文场景下, 企业与学者的合作网络, 除企业自身属性与发明者属性外, 模型还整合学者合作网络的结构特征, 如企业A 与学者a合作, 学者a与学者b合作, 企业A 虽与学者b 未直接合作, 但在网络中链接的概率高于其他节点。R-GCN 模型对企业与学者链路预测时, 能将多层网络信息与节点信息整合入模型, 提升模型预测效果。
本研究R-GCN 算法节点更新计算如图2所示。节点表示是R-GCN 算法的主体, R-GCN 中目标节点的表示有3 个来源: 一是为保留自身的属性与结构信息, 节点进行SELF LOOP; 二是对节点的邻居节点特征与自身特征聚合, 得到节点表示结果; 三是从其他层邻居节点特征和节点的关系得到, 聚合为节点表示结果。计算过程如下: ①输入与节点实体相关的特征, 并映射到隐层空间; ②遍历每一种关系下, 叠加每一个点的邻居点的特征进行聚合; ③加上一层的中心节点特征, 经过一个激活函数输出作为中心节点的输出特征。
对两个节点的特征向量执行逐元素点乘来计算二者距离, 将得到的值作为预测分数。本研究选择Hinge Loss 作为损失函数, 用于计算二分类问题的损失, 适用于两个节点间链接与否。迭代终止条件为两次迭代之间Loss 值变化小于0 0001。最后使用Sigmoid 函数对得到的分数进行归一化, 得到链路预测结果。
2.3特征变量选择
本研究分别从企业与学者两方面构建节点特征, 其中企业特征主要来源于企业发布的年报, 分为经营状况与企业规模、技术吸收能力、研发投入与专利成果4 个维度; 学者(发明者)特征主要来源于专利数据, 分为技术能力和合作倾向2 个维度。具体指标及其解释如表1 所示。
在以往对产学研合作的影响因素的研究中, 企业的经营状况与规模对产学研合作存在影响已被证明[17-18] 。本研究将企业的经营状况与规模维度作为产学研合作的影响因素加入模型, 由模型进行训练, 其指标涵盖企业营收、成本、利润、资产、成立时长等各方面。
技术吸收能力[18-19] 指企业对新技术认识及吸收并应用于商业的能力。企业技术吸收能力越强,就越有动力与外部研发能力合作。本研究将企业的技术人员、研发人员、核心技术人员和高学历员工的数量及其占比作为衡量企业技术吸收能力的指标。
企业的研发投入是产学研合作的基础, 是企业对技术重视程度的直接体现。企业的研发投入与产学研合作顺利进行为正向相关[20] 。本研究选择研发费用、研发投入总额与资本化研发投入作为对企业的研发投入情况的3 个指标。
对于科技型企业, 专利成果是其研发能力的直接体现, 也能侧面表现企业对技术的重视程度。專利分3 种类型: 一是发明专利, 指对产品、方法或者其改进所提出的新的技术方案, 需申请后经过实质审查授权生效, 因此, 发明专利分为申请的发明专利与已授权的发明专利; 二是实用新型专利, 对产品的形状、构造或者其结合所提出的适于实用的新的技术方案, 无需经过实质审查; 三是外观设计专利, 指对产品的形状与图案、色彩与形状等作出的富有美感并适于工业应用的新设计, 无需实质审查。本研究将专利总量及各类专利数量作为衡量企业专利成果的指标。
学者的技术实力与合作倾向是产学研中企业选择合作时考虑的重要因素[21] 。本研究综合考虑了学者作为参与者与第一发明人两种角色时, 对发明做出的不同贡献。技术实力包含学者发明数量、质量、覆盖面, 本研究将发明涉及IPC 数、发明专利数、发明权利要求总量、发明转让总次数、发明被引证总次数5 类指标衡量学者技术实力。另外, 参考学者历史与其他发明人和其他申请人合作情况,用专利申请人总量、专利发明人总量和与企业合作次数作为衡量合作倾向的指标。
2.4模型评估
本研究使用技术相似度与链路预测模型得出最终合作预测结果, 为企业推荐合适的合作学者。RGCN模型的企业—学者层作为目标层, 最终产出全连接层, 即企业与所有学者相连接, 并产出链接概率。考虑到模型实际应用只需选择链接概率较高的节点进行推荐, 因此, 选择企业节点链接概率前150的节点进行模型评估。本研究采用准确率(Accura?cy)、召回率(Recall)、AUC(Area Under Curve)、均方误差(MSE)、F-Score、平均倒数排名(MRR)6 个指标评估模型性能。其中F-Score 作为用于精确度(Precision)与召回率(Recall)调和平均, 综合反映了预测结果的精确度与召回率, 本研究为企业推荐合作学者, 更注重召回率, 因此取β 为2, 计算公式如式(2):
3实证分析
3.1数据来源与分析工具
本文专利合作数据与发明者特征数据来源于INCOPAT 专利数据平台, 样本选取了江浙沪医药生物领域2017—2021 年的发明专利, 分别从企业端与学者端构建了检索式, 其中学者端选取了IN?COPAT 专利数据中申请人类型为“大专院校” “科研单位” “机关团体” 的专利; 企业端选取了同花顺数据库中江浙沪生物医药沪深两市上市公司, 与INCOPAT 上“工商上市代码” 相对应, 检索各企业涉及专利。由于检索式较为复杂, 篇幅所限, 暂不展示。对企业端与学者端检索后, 经过进一步人工筛选、去重与处理, 最终得到23387条专利数据。江浙沪上市企业数据来源于同花顺数据库, 共103 家企业数据。
为处理研究发明人中重名与合作专利发明人单位归属问题, 确认发明人身份, 本研究将发明人及申请人相对应, 即发明人隶属于申请单位。对于多个单位的同一发明人, 根据发明人与其他发明人、其他申请单位的关系, 以及研究主题相关性等因素, 进行修正标引。最终无法识别部分选择第一申请人作为发明人的单位。
本研究共构建了两层网络, 第一层为学者之间的合作网络, 第二层为企业与学者合作的网络, 其中第二层为目标网络。网络节点数与链接数如表2所示。
3.2产学研合作网络描述
本研究合作网络共有两层, 企业—学者合作网络为目标层。企业—学者合作网络如图3 所示, 企业—学者合作网络整体上较为稀疏, 37 家企业与222 名学者实现了合作。度中心度作为衡量节点中心度的指标, 表示节点与其他节点的联系多少[19] 。学者多与一家企业进行合作, 平均度中心度仅为1.05, 而企业的合作学者较多, 平均度中心度为6.12。
合作上市企业中新和成、康缘药业在网络中度中心度最高, 是网络中的核心节点。企业—学者网络中企业度中心度如表3所示。节点度中心度越高, 在网络内连接的节点越多, 其影响力越大。
上市企业选择合作的学者多为顶尖大学或优秀医院。其中浙江大学学者最多, 为60 人, 浙江工业大学、中国人民解放军海军军医大学、上海中医药大学附属龙华医院分列2、3、4 名。
3.3产学研合作链路预测
3.3.1模型构建
本研究将R-GCN 链路预测模型与技术相似度相结合, 分别计算企业与学者的R-GCN 链接概率与杰卡德相似系数、余弦相似度、欧氏距离, 通过逻辑回归模型将四者融合, 得到最终合作概率。
企业—学者合作的整体样本是企业与学者的全连接层, 即每一个企业都与所有学者相连, 得到其合作的可能性。将企业与学者存在合作关系作为正样本, 未发生合作关系视为负样本。在正樣本中根据企业节点划分2∶1的训练集与测试集。
在R-GCN 模型实际建模过程中, 由于R-GCN适用于有向网络, 为方便赋予节点特征, 在实践阶段, 将上述学者—学者、企业—学者两层无向网络分割3 层, 分别为学者合作网络与企业—学者有向合作网络、学者—企业有向合作网络, 分别使用GCN 卷积模块生成单层节点向量表示。完成后对三层网络堆叠, 进行信息传递, 构建一个多层的图神经网络来生成节点的向量表示, 生成异构图网络中发生链接的节点与边的模式, 至此构成了模型的输入层。其中节点特征经过max、min、first、last、av?erage、sum、std 等扩展处理后, 输入层中学者特征为112 维, 企业特征为88 维。之后构建了两个隐藏层, 一个输出层。由于本研究为企业—学者链接与否的二分类问题, 因此输出层神经元设置为2。
经过实验, 隐藏层层数为2 时, 模型收敛速度较快, 效果较好。结合实验与考虑到模型过拟合问题, 将模型隐藏层数设置为2。在确定隐藏层层数为2 层后, 神经元个数设置初始节点为20, 迭代次数为40 次, 而后逐10 个增加神经元个数, 确定最佳收敛区间。本研究进行了多遍训练, 取Loss均值作为结果。实验结果如图4 所示, 在神经元为30个时, 模型可以经过多次迭代收敛, 且神经元为最小个数。
多次迭代训练结果如图4 所示, 可以看出当模型迭代37次后, 测试集与训练集的模型损失变化较小, 直至不变, 完成R-GCN 模型训练。
得到R-GCN 模型预测结果与技术相似度指标后, 将两者进行逻辑回归拟合。为提高模型稳定性, 对各指标进行WOE转化, 再进行模型训练。选择使用L2正则约束, 步长设置为0.01, 最大迭代次数设为100,最终得到逻辑回归模型如式(4):
Pred = sigmod ( 0.6774 + 0.2171 .Jaccard +0.2170?Cosine +1.3139?Euclidean +0.4683.sig?mod(R-GCN)) (4)
3.3.2模型评估
采用准确率(Accuracy)、召回率(Recall)、AUC(Area Under Curve)、均方误差(MSE)、F-Score、平均倒数排名(MRR) 6 个指标, 将构建的R-GCN链路预测模型与各个技术相似度指标在训练集与测试集上的表现进行对比, 结果如表4 所示。R-GCN链路预测模型表现如图5所示。
由图6 与表4 可知, R-GCN 链路预测模型整体TOP150 正样本占比最高, 达到94.76%, AUC、召回率、F2-score 表现高于杰卡德相似系数、余弦相似度、欧氏距离3 个指标, 但MRR 指标低于10%, 说明排序效果不佳。杰卡德相似系数、余弦相似度、欧氏距离3 个指标的TOP150 正样本占比、AUC、召回率与F2-score 表现不佳, 但准确率较高, MRR 指标表现较好。因此, 将4 个指标通过逻辑回归模型进行拟合训练后, 形成新的模型, 其表现得到了大幅提升。
模型评估结果如表4 所示。R-GCN 與3 个技术相似度指标的组合模型, 前150 为正样本的占比仍维持在较高水平, 达到89.96%, 准确率、AUC、召回率与R-GCN 链路预测模型都有小幅提升, 且MRR 指标大幅提升, 说明结合后的模型预测准确性、覆盖面等性能更好, 排序性更优。图7 为RGCN与3 个技术相似度指标相结合的模型表现, 亦验证了训练集与测试集预测概率分布、正负类别概率分布、概率累计分布基本一致, 模型较为稳定。
3.3.3预测结果
根据各企业与各学者合作预测结果进行排名,排名结果如表5 所示, R-GCN 与3 个技术相似度指标的组合模型排名效果远优于其他四者。实际合作的学者在组合模型中普遍排名靠前, 验证了算法的有效性。
选取参与发明总专利数大于2, 第一发明专利数大于1, 且具有一定发明实力的学者作为推荐企业合作学者。表6 为各企业与各学者合作预测部分结果, 结果去除已合作的学者。本研究推荐了部分普通院校的杰出学者, 如杭州师范大学的章鹏飞、温州医科大学的张宏宇、浙江中医药大学的丁兴红等, 实现了在产学研中关注普通院校杰出学者的研究目标。
在预测结果中, 以新和成为例, 本研究推荐了江南大学东为富(前22名都已与新和成实现合作), 他于2020—2021年申请了4项由他为第一发明人的专利, 主要研究方向为高分子材料共混改性、聚合物纳米符合材料等研究, 与新和成企业高分子复合新材料的产业方向相符。且新和成有丰富的产学研合作经验, 与浙江大学、宁波工程学院等学校均有合作, 对学者发明具备市场化能力。
4结论
基于产学研合作关系挖掘的实践, 本研究在技术相似度的基础上, 引入了多层异构网络链路预测算法, 融合学者合作网络与企业—学者合作网络,在产学研合作的链路预测算法中综合考虑了合作网络结构与合作技术内容。对不同类型的节点构建了不同的特征变量, 其中企业分为经营状况与规模、技术吸收能力、研发投入与专利成果4 个维度15个指标, 学者分为2 个维度8个指标。对生物医药领域专利数据集中分别评估了技术相似度、多层异构网络链路算法与技术相似度与多层异构网络链路预测相结合算法的精确度、覆盖率以及排序性多项指标, 证明了技术相似度与多层异构网络链路预测相结合算法在各项指标中均表现较优。因此, 本文构建的融合多层异构网络链路预测与技术相似度的算法是有效且具可行性的, 指导企业寻找合适的合作学者, 在产学研合作关系的预测和合作学者的推荐中具有理论意义与实践价值。后续研究应加入学者在论文等理论上的研究维度特征, 全方面评估学者的发明潜力, 挖掘学者研究特征对产学研合作的作用机制; 本研究以静态网络为主, 后续可考虑加入动态合作网络, 结合企业关注领域的变化, 实现动态推荐。