考虑技术因素的技术创新合作关系预测研究
2023-05-27孙竹梅汪志兵
孙竹梅 汪志兵
关键词: 技术创新; 合作关系; 链路预测; 技术相似性; 技术互补性; 海工装备
DOI:10.3969 / j.issn.1008-0821.2023.06.009
〔中图分类号〕G306 〔文献标识码〕A 〔文章编号〕1008-0821 (2023) 06-0088-11
技术创新的不确定性、资源的稀缺性以及内部技术创新能力有限性之间的矛盾日益突出, 任何单一组织都很难拥有创新所需的全部资源和技术要素,只有通过与其他组织的交流与合作, 才能获取更多的互补性资源, 从而拥有更强的创新能力[1-3] 。合作成为技术创新的主旋律, 各行各业的技术主体都在积极寻找合作伙伴开展技术创新合作[4-5] 。国家统计局数据显示, 2020 年度国家技术发明奖和国家科学技术进步奖(通用项目)合作率分别达95.45%和94.21%。然而在技术创新合作数量迅速增长的同时, 合作失败率却始终居高不下[6-7] , 不恰当的合作伙伴选择正是合作高失败率的最重要原因之一[8-9] , 技术主体一直都处在“与谁合作” 的困境中徘徊, 如何选择合适的技术创新合作伙伴成为提高技术主体竞争优势的战略性决策[10] 。
传统的基于评价方法的[11-12] 、基于优化算法的[13-14] 和基于文本挖掘的[15-16] 技术创新合作伙伴选择方法, 虽然为合作伙伴的选择提供了依据, 但在实际应用中也存在一定的局限性, 如计算复杂、可操作性差、过度依赖主观判断和经验、只能在小范围内进行粗略选择等。随着技术的发展进步和技术主体数量的快速增长, 传统方法往往会遭遇效率低下、精确度不高等困境, 容易造成错选和漏选等不良后果, 进而影响到预期技术创新绩效的达成。复杂网络链路预测作为关系发现的重要手段, 在很多领域中得到了广泛的应用[17-20] , 成为预测和指导连边关系生成的重要“指挥棒”[21] , 目前也逐渐被应用到技术创新领域, 主要集中在两个方面: 一是技术融合关系的发现, 如Lee W S 等[22] 将关联规则和链路预测结合, 通过1955—2011 年的三方同族专利对技术融合的模式进行预测, 并在此基础上预测技术融合新兴领域。Park I 等[23] 提出通过链路预测方法预测异质技术领域间的潜在技术知识流, 从而实现生物技术领域和信息技术领域的技术融合机会识别。王宏起等[24] 基于Katz 指标实现了对电动汽车产业技术融合关系的预测。二是技术创新合作关系的预测, Chen Y W 等[25] 研究发现工业生物技术领域的专利合作网络的演化具有优先链接特征, 这一特征为技术创新合作关系的预测奠定了基础, Qi Y 等[26] 开发了一个依赖于主题分析和链接预测的系统框架, 基于论文和专利数据实现了技术创新合作伙伴的选择, 王菲菲等[27] 通过链路预测和熵权法对石墨烯领域相关机构间的未来合作关系进行了预测, 庄伟华[28] 利用网络表示学习方法对基于发明专利的中国大陆海洋工程装备领域的产学研合作进行了预测, 石安杰等[29] 基于网络结构相似性方法, 通过熵权法融合RA、CN、AA 等8个指标, 对京津冀科技主体间的专利合作进行了预测, 李冰等[30] 采用基于随机游走的SimRank 指标的链路预测方法识别了燃料电池技术领域企业潜在的技术合作伙伴。
从已有研究来看, 链路预测在技术创新领域的应用尚处于起步阶段, 研究多基于一些通用的经典链路预测指标展开, 且绝大多数都是仅给出了合作关系的预测结果, 却未对预测方法的优劣性进行检验, 使得预测结果的可信度存疑。也有较少的研究采用AUC 指标讨论了预测方法的优劣, 该指标是从预测结果整体来衡量链路预测方法的准确程度[31] 。然而, 技术创新合作关系的预测是为了以最有可能出现的合作关系进行推荐, 此时对链路预测方法优劣的判断更侧重于另一种评价指标Precision, 该指标关注的是预测结果中得分排名靠前的边是否预测正确[32] , 该指标越高, 说明预测结果的可信度越高, 基于该预测结果的合作关系推荐也越精准。结合链路预测方法在其他领域的应用可知, 尽管大多数的链路预测指标都显著优于随机预测, 但并不存在单一明确的最优指标[33-34] , 因此近年来学者开始关注和探索融合指标的构建, 希望通过多来源信息的汇聚来进一步提高链路预测的准确程度, 取得了一定的研究成果[35-38] 。故而本文也将基于这种融合思维, 考虑与技术创新合作关系形成密切相关的因素, 探索构建适用于技术创新网络的链路预测指标, 实现技术创新合作伙伴的精准推荐。
1研究设计
1.1研究对象的选择
作为典型的知识、技术密集型战略性新兴产业, 海工装备产业的技术创新不仅具备高科技、高投入、高风险、高收益和高关联的特点, 还具备突破性创新和集成创新的特点[39] , 这些特点都决定了该领域的发展需要多元化主体的共同合作, 恰当的合作伙伴选择与推荐对于领域内主体技术创新绩效的顺利达成具有重要的意义, 因此本文选择依托海工装备领域展开技术创新合作关系的预测研究。海工装备领域的技术创新多属开发性的应用类研究,其研究成果多表现为专利的形式, 而通过合作形式进行技术创新的主体通常会以共同专利权人的身份申请专利, 专利数据中的合作关系在一定程度上反映了技术主体之间的创新合作关系。同时, 专利数据作为技術创新活动监测和预测的重要工具[40] , 是学术界最常用的技术创新衡量指标[41] , 最早见于美国著名的经济学家Schmookler J[42] 发表的文章中。尽管专利信息也存在不容忽视的“噪声” 和误差,但现有大多数相关文献的研究都表明, 在谨慎使用的前提下, 专利数据仍是目前不可多得的技术创新衡量指标[43] , 故而本文将基于海工装备领域的专利数据构建技术创新网络作为具体的研究对象。
1.2预测指标的构建方法
如前所述, 本文主要通过构建融合性的预测指标来提高技术创新合作关系预测的精确度, 结合现有相关研究, 提出基于网络拓扑结构指标和技术主体属性特征指标的融合预测指标构建方法。
1.2.1指标来源的选取
网络拓扑结构指标主要用于反映网络结构特征客观视角下技术主体之间产生合作关系的可能性。在复杂网络的链路预测研究中, 学者们从不同角度提出了多种预测指标, 目前使用最广泛的是基于结构相似性的指标, 根据相似性信息来源的不同又可分为3 种类型。本文从每种类型中各选择两种具有代表性的指标进行研究, 分别为基于局部信息相似性的CN 指標和RA 指标、基于路径相似性的Lo?calPath 指标(LP)和Katz 指标, 以及基于随机游走相似性的LRW 指标和SRW 指标。为便于表述, 将网络拓扑结构指标统称为struc 指标。
技术主体属性特征指标主要用于反映主观视角下技术主体自身属性对技术主体之间合作关系建立的促进程度。技术因素作为技术创新合作关系是否能够建立的重要前提, 一直以来都是技术主体在选择创新合作伙伴时必然要考虑的重点因素[44-45] , 因此, 为确保融合指标在技术创新网络链路预测中的有效性, 本文主要考虑从技术因素方面提取技术主体的属性特征。从技术角度来看, 在具有技术关联性的技术主体之间开展技术创新合作, 对于解决“卡脖子” 技术问题无疑是更为有效的。技术关联性又包括技术相似性和技术互补性两个方面, 前者反映的是技术之间的替代性、交叉性和继承性, 后者反映的是技术之间的差异性和协同性[46] , 故而本文选择从这两个方面分别进行技术主体属性特征指标的构造, 其中, 基于技术相似性的记作sim 指标, 基于技术互补性的记作com 指标。
1.2.2sim 指标的计算方法
技术相似性的概念最早由Griliches Z[47] 提出,虽然之后学者们相继对其进行了不同的定义[46,48] ,但基本都是围绕两者在技术研发领域的共同性程度, 即是两者的技术相似性这一中心思想展开的。对单个主体所涉及技术领域分布的描述是测度主体之间技术相似性的前提。主体所申请专利的技术领域归属状况在一定程度上反映了主体的技术领域关注, 一方面技术发展的交叉融合趋势决定了技术主体申请的专利往往会分布在多个不同的技术领域;另一方面由于研发资金、人才等因素的制约, 技术主体在不同技术领域上拥有的专利数量存在区别,从而形成差异化的重点技术领域。结合现有关于技术相似性的测度方法, 本文关于sim 指标计算的主要步骤如下:
1) 构造技术领域分布矩阵
一个完整的IPC 分类号包含5 个层级, 依次为部、大类、小类、大组和小组, 每个层级都有各自的类别号、类别名称和知识架构。考虑技术领域分析粒度的合适性, 部、大类和小类3 个层级的技术领域划分较为宽泛, 对技术相似性分析的精细程度不高, 而小组的技术领域范围又过窄, 故而选择在大组范围下进行主体的技术相似性测度, 以大组层级的IPC 分类号作为一个独立技术领域的标识, 记作IPC6。
1.2.3 com 指标的计算方法
关于技术互补性的定义, 目前普遍使用的是Makri M 等[46] 提出的: 在相同广义范围的知识领域内, 两个主体解决的技术问题集中在不同狭义知识领域的程度。主体之间的技术互补性既有利于不同狭义知识领域的技术融合, 凸显跨领域技术带来的优势, 也能够拓宽创新思维方式, 增强主体识别和利用外部异质性知识和技术的能力, 进而提高创新活动成功的可能性[50] 。从技术互补性的定义可以看出其中包含两个要素: 相关性和差异性, 只有在相关前提下的差异才能称之为互补, 因此技术互补性的测度需要在一定的技术领域范畴下进行。结合现有关于技术互补性的测度方法, 本文关于com 指标计算的主要步骤如下:
1) 技术互补性的测度
在基于IPC分类号的技术互补性测度方法中,使用较为普遍的是Makri M 等[46] 提出的计算方法,该方法通过属于同一技术领域下的不同子技术领域中的专利数量的占比来衡量潜在并购目标对主并购方的技术互补性, 具体的计算公式如式(8) 所示:
1.2.4指标的融合
研究表明, 技术主体之间的知识体系越接近,越有利于两者合作创新绩效的达成[51-52] , 在技术创新合作伙伴的选择上也存在技术相似性的选择倾向[53] , 同时也有研究发现, 技术互补性能够增强合作创新的绩效[54-55] 。由此可见, 技术相似性和技术互补性对技术创新合作关系的形成具有潜在的积极影响。因此, 在本文提出的融合预测指标中,网络拓扑结构指标被视为基础性指标, 而技术主体属性特征指标则被视为调节性指标, 即以技术因素对合作关系是否产生影响来修正网络结构特征所反映出来的合作关系形成可能性的大小, 并以此修正后的结果作为技术创新合作关系预测的依据。技术相似性和技术互补性反映的是技术因素视角下两个不同侧面的技术主体属性特征, 为明晰两种不同技术因素及其组合对技术创新合作关系预测的影响,本文构建了3 类共18 个融合指标, 即将网络拓扑结构指标分别与sim、com 指标以及这两个指标的组合指标进行融合, 具体的融合方式如表1 所示。
1.3评价指标
链路预测方法常用的评价指标有AUC 和Preci?sion, 其中前者考量的是预测结果的整体精确度,后者考量的是排名靠前的预测结果的精确度, 即按照边出现的可能性值从大到小排列,
在排名前l 的边中预测准确的边所占的比例[32] 。技术创新合作关系预测的目的是为了以精准的合作关系为技术主体推荐匹配的合作对象, 预测结果中排名靠前的合作关系被视为出现可能性最高的, 这些合作关系的预测精确度越高, 越有利于合作伙伴的推荐, 故而本文选择Precision 指标作为基于融合指标的预测方法的评价指标。假设有m条预测准确的边, 则Precision 指标的计算公式如式(12) 所示。
2研究过程与结果
2.1数据的采集与预处理
2.1.1数据的采集
由于海工装备产业涉及的学科门类错综复杂,其专利不仅呈现出多学科领域的技术交叉性, 同时也呈现出技术领域分布的宽泛性。如果通过领域相关关键词的组合进行专利数据的检索, 不能保证错检和漏检发生的概率。故而为保证研究所采集数据的准确性和权威性, 结合本文的研究对象, 选择由国家知识产权局牵头建设的国家重点产业专利信息服务平台作为数据采集的主要来源, 该平台涵盖了包括船舶产业、汽车产业、有色金属产业等在内的我国十大重点产业领域的国内外相关技术专利, 具体的采集路径为: 船舶产业→特殊用途船舶→海洋工程设备, 数据采集时间为2021年2月28日, 采集范围为对应类目中的所有中国专利。由于本文主要关注技术主体间的合作关系, 故而不做专利类型的筛除, 同时为保证数据的完整性, 剔除申请年份为2021 年专利数据, 最终共采集到22 193条专利数据, 时间跨度为1985—2020 年, 其中包含两个及以上的机构作为共同专利权人的合作专利2 711条, 时间跨度为1987—2020年。
2.1.2数据的预处理
本文选择以合作专利中的专利权人为节点构建海工装备技术创新网络。由于专利数据中专利权人的著录存在不一致、不规范等问题, 使得同一专利权人的名称存在差异, 故而需要在构建技术创新网络前对其进行统一化、规范化处理。数据的预处理主要从以下4 个方面进行:
1) 机构名称不完整导致的差异。如“中国海洋石油集团公司” 和“中国海洋石油集团有限公司”, 处理方式为统一以标准名称“中国海洋石油集团有限公司” 进行著录。
2) 同一机构的不同称法导致的差异。如“中国船舶科学研究中心” 和“中国船舶重工集团公司第七0二研究所” 指的是同一所机构, 处理方式为统一以“中国船舶重工集团公司第七0二研究所” 进行著录。
3) 机构名称变化导致的差异。如“衡水橡胶股份有限公司” 更名为“衡橡科技股份有限公司”,处理方式为统一以现用名称“衡橡科技股份有限公司” 进行著录。
4) 名称中各类符号使用不一致导致的差异。
如中英文括号、引号的使用, 以及“0” 的表示方式等, 处理方式为将其统一规范成同一种符号。
2.2技术创新网络的构建
在数据预处理的基础上, 以每条合作专利数据为分析单元, 首先从每条合作专利数据中提取出共同专利权人, 形成专利权人集合; 其次对专利权人集合进行拆分并去重, 得到以单个技术主体为单位的专利权人构成的节点集合; 第三从每条合作专利数据中抽取出共同专利权人关系, 以此为基础建立专利權人之间的合作关系, 即如果两个或两个以上的专利权人共同拥有一项专利, 则表示他们之间有合作关系; 最后对抽取出的全部专利权人合作关系进行合并去重, 保留互不相同的专利权人合作关系形成边集合。根据本文采集的专利数据, 该技术创新网络共包含1 162个节点和1 298条边。
2.3sim 指标的计算
根据1.2 节中提出的sim 指标计算方法, 首先对1 162个技术主体申请的全部专利所涉及的IPC6进行统计, 其次按年度分别统计每个技术主体每年在各IPC6 申请的专利数量, 通过标准化和合并处理, 得到各技术主体的技术领域分布矩阵, 再引入时间参数, 构造对应的时间—技术领域向量, 最后依据该向量对技术主体间的simij进行计算, 计算结果示例如表2 所示。
2.4com 指标的计算
根据1.2 节中提出的com 指标计算方法, 按式(9) 计算1 162个技术主体相互之间的技术互补性,并基于此对海工装备技术领域中技术互补性差异对技术主体间合作关系的影响进行分析。首先根据2 711条专利的年度分布情况分别构建相应的合作关系集合, 由于1987—2011 年各年的合作专利数量均低于100, 故而将该时间跨度进行合并, 之后采用逐年滚动累积的方式进行构建; 其次分别计算各集合中所有技术主体间的differij; 最后以技术主体之间是否已经建立合作关系为划分依据, 将dif?ferij的分布情况划分成两类, 根据两类情况中differij最大值的变化趋势如图1 所示。
从图1 中可以看出, 两类情况的最大differij之间存在明显差距, 同时, 尽管无合作关系的技术主体之间的最大differij表现出先大幅增长继而平稳的趋势, 但是有合作关系的技术主体之间的最大dif?ferij却基本保持在0.33~0.38 之间, 说明在海工装备领域的技术创新合作中, differij在0. 0 ~ 0.38 之间的两个技术主体会建立合作关系的可能性是显著高于differij超过0.38 的两个技术主体, 即技术互补程度差距较大的技术主体之间不倾向于建立合作关系。为进一步明确不同技术互补程度差距与合作关系形成之间的关联性, 根据各网络中已经建立合作关系的技术主体之间的differij分布如图2 所示。
从图2 中可以看出, differij的分布主要都集中在0~0.2 区间内, 其中以0 ~ 0.1 区间更为突出,其次是在0.2~0.4 区间内, 说明在海工装备技术领域的技术创新合作中, differij 越小的两个技术主体越倾向于建立合作关系。但是结合differij= 0 处的数据分布来看, 虽然differij小有利于合作关系的建立, 但是完全对等的技术互补性对合作关系的形成并没有更大的促进作用。
根据上述分析结果, 按照不同水平的differij与是否存在合作关系之间可能存在的关联性, 将dif?ferij的分布范围划分为5 个区间, 并为各区间内的技术主体i和j 之间形成合作关系的可能性赋予不同的权值, 作为技术主体i 和j 之间的comij, 具体的赋值规则如下:
2.5研究结果
按链路预测方法常用的划分比例, 将研究构建的海工装备技术创新网络的边集按照9 ∶1 的比例划分成训练边集和测试边集, 再根据上述计算结果,提取出训练边集构成的合作网络中所有不存在连边的节点对间的技术主体属性特征指标值, 并按照表1列出的融合方式分别与不同的网络拓扑结构指标进行融合, 进而依据融合预测指标的值进行技术创新合作关系的预测, 最后结合测试边集检验各融合预测指标的预测精确度, 结果如表4 所示, 表中同时列出了仅基于网络拓扑结构指标的预测精确度。
3结果分析与讨论
1) 从3类融合指标的整体预测效果来看, 相较于原网络拓扑结构指标的预测精确度而言, 各融合指标的预测精确度均有所提高, 其中最低提升幅度為1.66%, 最高提升幅度为29.23%, 平均提升幅度为14.99%。由此可见, 无论是技术相似性, 还是技术互补性, 都对技术创新合作关系具备一定的预测力, 这一结果与已有研究发现相吻合, 一方面印证了在技术创新合作伙伴选择上的确存在技术相似性选择倾向; 另一方面也反映了技术互补性对合作创新绩效的提升作用, 在一定程度上促成了技术主体选择合作伙伴时的技术互补性倾向的形成。因此, 本文提出的考虑技术因素构建技术创新合作关系预测的融合指标的方法是可行且有效的。
2) 从Ⅰ类和Ⅱ类融合指标的预测效果对比来看, 技术相似性和技术互补性虽然都有助于技术创新合作关系的预测, 但是两者之间也存在较为显著的差异。在与基于路径相似性指标融合时, Ⅰ类融合指标的预测精确度较原网络拓扑结构指标的提升幅度均高于Ⅱ类融合指标, 说明对于两个在合作网络中具有相似路径结构的技术主体而言, 技术相似性更容易成为两者合作的基础; 在与基于随机游走相似性指标融合时, Ⅱ类融合指标的预测精确度较原网络拓扑结构指标的提升幅度均高于Ⅰ类融合指标, 说明当网络中两个技术主体在随机状态下均拥有较短的可达路径时, 技术互补性对两者合作关系的形成更具有促进作用。
3) 从Ⅲ类融合指标与Ⅰ类、Ⅱ类融合指标的预测效果对比来看, 综合考虑技术相似性和技术互补性的技术主体属性特征指标更有利于发现潜在的合作关系。Ⅰ类和Ⅱ类融合指标预测精确度较原网络拓扑结构指标的平均提升幅度均在10%左右,最高提升幅度均低于20%, 而Ⅲ类融合指标的平均提升幅度为24.12%, 且各指标的提升幅度基本都在20%以上, 说明同时考虑技术相似性和技术互补性因素进行技术创新合作关系的预测, 能够达到“1+1>2” 的预测效果。由此可见, 主体在选择技术创新合作伙伴时往往是兼顾技术相似性和技术互补性的, 因此在进行技术创新合作关系的预测时, 应该同时考虑两方面的因素, 从而实现为主体推荐精准的技术创新合作伙伴, 促进技术创新活动预期效益的顺利达成。
4结语
技术创新合作关系的准确预测, 能够为主体的技术创新合作伙伴推荐提供有力支持。本文选择以对技术创新合作关系形成具有重要影响的技术因素为切入点, 探讨构建了基于网络拓扑结构指标和技术主体属性特征指标的融合预测指标, 研究结果显示, 考虑技术因素的融合指标对于技术创新合作关系的预测是有效的, 特别是同时考虑技术相似性和技术互补性两方面因素的融合指标的预测效果最佳, 证实了本文提出的技术创新合作关系预测的融合指标构建思路和方法是科学合理且有效的, 对技术创新合作伙伴推荐的实际开展具有指导价值。但受研究规模限制, 本文仅以海工装备产业领域为例展开了研究, 后续可以进一步拓展应用到更多的技术领域中, 对融合指标的普适性进行检验。