专利分类序列和文本语义表示视角下的技术融合预测研究
2022-07-02张金柱李溢峰
张金柱,李溢峰
(南京理工大学经济管理学院信息管理系,南京 210094)
1 引 言
信息化、数字化、网络化技术快速发展,科学技术变革速度不断加快,市场需求日新月异,行业间的竞争已逐渐由资金、规模、劳动力等转变为技术间的竞争。为了提高行业竞争力,企业通过联盟、合并、共同研发生产等活动实现了不同技术领域之间的相互渗透,推动了新技术的产生[1]。技术融合是新技术产生的重要来源,提前预测潜在的技术融合成为企业获取竞争优势、提高竞争能力,甚至是颠覆现有市场的最有效和最重要的技术手段之一。技术融合一般是指两种或多种技术通过互相借鉴、完全利用或重组的方式形成新技术的过程[2]。而技术融合预测则是通过历史数据计算尚未发生融合的技术之间的相似性或相关性,并以此来表示未来发生技术融合的可能性。新的技术融合可能诱发新的技术机会产生,进而引发技术变革或技术创新,为企业带来新颖的产品和服务[3-6]。因此,技术融合预测不仅是技术机会的重要来源,也是技术创新的基础和前提,为技术创新提供了契机和可能,被认为是企业保持市场地位、持续发展、避免被其他企业颠覆的关键影响因素。
技术融合形成原因多样且复杂,在定量分析中主要以专利分类号代表某一技术或功能,并以多个专利分类号在同一专利中出现作为技术融合的外在表现,进而研究特定形式下的技术融合预测。目前,技术融合预测的定量分析和研究主要从三个角度展开,包括基于专利引用的技术融合预测、基于专利分类号共现的技术融合预测以及基于专利文本的技术融合预测。基于专利引用的技术融合预测利用专利间的引用关系构建专利引用网络,通过共被引、引用频次等信息建立衡量技术融合的指标,评估不同技术领域在未来产生融合的可能性。然而,同族专利之间常常存在自引现象,使引用网络变得复杂冗余;尤为重要的是,专利引用需要一定的时间积累,具有一定的时间滞后性,因此多是对已有技术融合的验证,不利于技术融合预测。基于专利分类号共现的技术融合预测通过获取每篇专利文献下对应的专利分类序列,依据分类号之间两两形成的共现关系构建共现网络,之后利用节点中心度、中介中心度等网络指标,或结合标题、摘要等外部语义特征计算分类号之间的相似度来预测可能的技术融合。由于专利分类号共现网络通过共现关系构建,往往不能体现专利分类号在序列中的位置特征和上下文语义,由此得到的专利分类语义表示可能存在信息丢失的问题。基于专利文本的技术融合预测主要通过外部语义特征赋予专利分类号以文本信息,辅助专利分类共现网络进行技术融合发现时,现有研究一般平等对待序列中的每个专利分类号,进而赋予同样的文本信息[7],导致多个专利分类号之间文本信息冗余,形成的专利分类号文本表示相似度高,区分度较低,对于技术融合的作用难以体现;尤为重要的是,专利分类号的网络表示与文本表示在融合过程中,多采用直接拼接、点乘等方式进行,而不同领域中,网络和文本中的每一维特征的贡献程度可能并不相同,需要针对不同领域数据进行针对性学习,自动调整特征的权重和贡献。
为了解决上述问题,本文提出了一种基于专利分类序列和文本语义融合的技术融合预测方法。首先,直接对专利分类序列进行语义表示,减少生成共现网络时的信息丢失,研究基于专利分类序列语义表示的技术融合预测;其次,通过分析专利分类序列中不同位置专利分类号的重要性,设计专利分类文本分配方法,并结合文本表示学习方法,研究基于专利分类文本语义表示的技术融合预测;最后,设计特征融合方法,基于机器学习方法自动学习专利分类序列和专利文本两种语义表示中每维语义特征的贡献度和权重,研究基于序列结构和文本语义融合下的技术融合预测。
2 相关研究
本节先介绍国内外技术融合预测研究中的常用指标和方法,发现共现网络中专利分类语义表示能力需要加强、专利分类文本赋予方式需要改进、不同来源的多维特征需要更有效融合是目前需要解决的重要问题;接着介绍表示学习的原理和常用方法,发现表示学习的理论和方法可以借鉴用于技术融合预测任务。
2.1 技术融合预测相关研究
研究技术融合预测首先必须明晰技术融合的基本概念、内涵和特征,并在此基础上利用多种相似性指标计算技术特征间的相似性来判断技术融合在未来发生的可能性。技术融合一开始是指生产过程中不同产业间的相互依赖关系,并在产品、服务、技术等多个方面体现。Roco 等[8]将技术融合定义为来自至少两个不同领域的技术通过组合产生一个新的技术方案,从而为研发机构的技术创新提供帮助。Lind[9]将技术融合定义为由两个不同的工业部门共享知识和技术的过程。娄岩等[10]认为技术融合包括专利分类号的跨领域和跨部融合。技术融合具有多种表现形式,研究者多从某一侧面或角度开展研究[11];在定量分析中,技术融合通常体现在一个专利同时具有多个专利分类号或者专利分类号间发生了引用,而预测则主要通过设计指标计算专利分类号间的相似性或相关性来实现[7,11-12]。由此形成了三类主要方法,分别为基于专利引用的技术融合预测、基于专利分类号共现的技术融合预测以及基于专利文本的技术融合预测。
2.1.1 基于专利引用的技术融合预测
基于专利引用的技术融合预测方法多从专利之间的相互引用来表示技术之间的相互引用,而新的引用预示着新的技术融合,并据此进行预测。由于专利之间的引用错综复杂,处理难度较大,Batagelj[13]通过改进主路径算法处理百万节点级别的大型网络,并将其应用于专利引文网络,预测可能产生链接的专利,并抽取技术主题发现技术融合;Verspa‐gen[14]、Martinelli[15]使用该算法分析燃料电池和电信交换器行业的专利引文网络,得到清晰的技术发展交融轨迹,根据已有的轨迹发现未来可能产生的新轨迹,以此预测未来的技术融合方向。Kim 等[16]通过构建不同年份的专利引用矩阵,通过利用神经网络技术预测新的引用来预测新技术的融合。Park等[17]以专利有向引用网络表示专利的技术知识流走向,通过文献计量、边缘中心性等指标来预测技术知识流的未来走向,并据此预测技术融合。
以专利引用为基础,一些学者据此得到专利分类号间的引用关系,并通过专利分类号引用来预测技术融合。翟东升等[2]将专利引文分析与国际专利分类号(international patent classification,IPC) 分析相结合,构建IPC 引用网络描述不同领域之间的知识流动,进而通过链接预测的方式挖掘技术融合发展趋势。Rodriguez 等[18]根据专利分类号之间的直接引用和间接引用构建专利引用网络,通过计算专利间产生新链接的可能性来预测新的技术融合。No等[19]基于专利分类代码之间的引用关系,以融合度指标来确定技术融合的轨迹模式,通过可视化技术展现专利间的前向和后向引用关系,观察轨迹的变化进而预测可能的技术融合。Ko 等[20]使用专利分类号之间的引文分析构建知识流矩阵,通过计算特定技术领域的技术融合评价指标,展现技术融合趋势可视化地图,根据融合趋势预测整个行业技术融合的趋势。Han 等[21]基于熵和引力的概念提出专利分类号引用网络中的技术融合度指标,进而发现与目标领域相关联的多个潜在技术领域,为后续的技术融合预测提供指导。Nesta 等[22]提出幸存者相关性测度(survivor measure of relatedness) 的专利分类分析方法,使用概率方法来测度技术领域融合。Pennings 等[23]将专利引文网络中的专利节点替换为相应的专利分类号,依据专利分类号间引用次数来识别技术融合,并根据引用频次的变化预测未来的技术融合热点。
基于专利引用形成的技术融合识别指标和方法在多个领域中取得了较好的效果,但同族专利自引现象层出不穷,导致一些相互引用的专利之间技术内容可能大体相似,导致引用网络出现重复和冗余信息,影响预测结果的准确性;与此同时,专利引用需要一定的时间累积,造成引用网络的形成具有一定的时间滞后性,不利于技术融合的预测。
2.1.2 基于专利分类号共现的技术融合预测
基于专利分类号共现的技术融合预测方法多根据专利分类号之间的共现关系进行判断,这些共现关系在一定程度上代表了不同技术间的依赖关系,是定量测量技术融合的外在表现,有助于预测技术融合。陈悦等[24]把两个或多个IPC 的共现关系视为一种技术融合,并根据IPC 组合的共现频次变化来预测该技术融合能否成为未来的研究热点。Cavig‐gioli[25]认为新IPC 共现关系的出现标志着新技术融合的诞生,并将IPC 组合中不同IPC 之间的交叉引用次数作为技术融合预测指标。Lee 等[26]根据四位IPC 号的共现关系,通过关联规则研究了技术融合的模式,并根据节点之间的相似性预测了新的融合。李丫丫等[27]以全球生物芯片产业为例提出基于专利的技术融合分析方法框架,运用IPC 与35 个技术分类对照体系分析生物芯片领域产业技术融合的结构,建立技术融合矩阵并评估技术融合紧密程度,最后基于多样性指数揭示产业技术融合动态,通过判别发展趋势预测未来的技术融合走向。吴晓燕等[28]基于专利分类号共现信息,利用文献计量指标(共现频次、中介中心性和突发指数)把握技术融合发展态势,分析演化轨迹并预测未来的技术融合。王宏起等[29]构建专利IPC 共现网络,根据产业技术融合态势分析,综合考虑多技术领域之间相互作用对技术融合的影响,设计基于链路预测的Katz指标来预测技术融合方向。Feng 等[30]获取电动汽车领域的专利文献,根据专利分类共现关系构建技术共现网络并根据节点间的多种维度预测新的技术融合。
目前,利用IPC 号的组合研究技术融合的学者大多从四位IPC 号的组合开展研究,而四位IPC 号包含的技术信息较为宏观,往往更倾向于高层次的领域之间的技术融合,技术细节展示不足,尚需从更加细粒度的技术分类微观角度出发,挖掘关注技术细节的技术分类融合,补充和完善已有技术融合。此外,专利分类号共现网络较难体现专利分类序列中专利分类号的位置和上下文语义信息,需要借鉴和改进表示学习方法实现更为全面的语义表示。
2.1.3 基于专利文本的技术融合预测
为了丰富专利分类号的语义特征,一些学者通过引入文本信息来提高技术融合预测的效果和可解释性。Preschitschek 等[31]借助专利分类号划分多个技术领域,接着将专利分类号对应的专利文本合并为一个文件作为技术领域的文本,之后通过计算一个技术领域中单个专利文件与另一个技术领域的整体文件之间的相似度,根据时间推移通过标准化统计技术预测技术领域是否产生技术融合。与此类似,Eilers 等[32]先划分多个技术领域,接着根据技术领域中的所有专利文件提取技术词作为该技术领域的代表技术词,之后通过计算一个技术领域中的单个专利技术词与另一个领域中的整体技术词之间的语义相似度,根据时间推移监测技术轨迹,为技术融合预测提供指导。
Kim 等[7]将文本信息作为一个特征融入技术融合预测中,对于同一篇专利文献下的多个专利分类号,无差别地赋予每个专利分类号以文本信息。实际上,当一篇专利文献中包含多个专利分类号时,排序越靠前的专利分类号往往越重要,越能代表专利的核心技术[33-34]。当平等对待同一篇专利文献下的专利分类号时,即只要该专利包含该专利分类号就把该专利的文本分配给该专利分类号,容易造成分类号的文本信息出现大量重复,难以区分不同专利分类号间的区别,导致对技术融合预测的贡献降低。尤为重要的是,专利分类的网络关系和文本特征均对技术融合产生作用,但每一维特征对技术融合预测的贡献程度却有区别,需要针对特定领域学习不同特征对技术融合预测的贡献,综合利用网络和文本特征,提高预测效果。
2.2 表示学习相关研究
表示学习通过多层神经网络将原始数据通过非线性模型转变为更高层次的特征表示,将原来由人工设定的特征工程转换为机器的自我学习过程,把研究对象的语义信息映射为低维度的、连续的语义向量,作为多种分类、聚类、推荐任务的输入[35]。目前的表示学习方法根据研究对象不同主要分为三种:文本表示学习、网络表示学习以及文本和网络融合的表示学习[36]。
2.2.1 文本表示学习
文本表示是将文本中的信息转换成计算机能够处理的向量表示,传统文本表示方法有向量空间模型、统计语言模型和主题模型等[37]。近年来随着深度学习的兴起,文本表示学习逐步成为深度学习的一个新兴分支,由此形成了多种文本表示方法与模型。Mikolov 等[38]提出的word2vec 模型开启了文本表示学习的热潮,其基本思想是通过神经网络模型训练语料,结合每个词语的上下文信息,将语料中每个词映射成K 维实值向量,解决后续多种任务中的数据稀疏与维度灾难问题。
相比于词向量,篇章级别向量表示的难点在于文章篇幅较长、语义过于复杂。Le 等[39]借鉴word2vec的基本思想,提出了一种无监督的、将长文本转化为固定长度向量的doc2vec 模型,在训练过程中将长文本作为一个特殊段落ID(identity document)引入语料中,同时结合了上下文、单词顺序和段落特征,在链路预测以及情感分类等方面表现出不错的效果。Tang 等[40]使用CNN(convolutional neural net‐work)、LSTM(long short-term memory)建模句子,再使用Bi-RNN(bidirectional recurrent neural network)建模整个篇章,在文档级情感分类任务上具有更好的效果。Yang 等[41]在Tang 等[40]提出的模型基础上,在句子、文档层面分别加入注意力机制,对文档中的单词、句子的重要性建模,进行加权计算生成文档向量。后续研究者们对关键词、句子、上下文内容等不同层次的文本表示学习方法进行了改进,形成了key2vec[42]、senten2vec[43]、con-s2vec[44]等模型,针对不同特定领域数据类型形成了paper2vec[45]、query2vec[46]、hyperdoc2vec[47]等模型,提升了特定任务下的语义表示效果,并扩展应用在信息检索、知识图谱、自动问答和自然语言处理等领域。
2.2.2 网络表示学习
网络表示学习是复杂网络与深度学习的交叉融合,可以将网络节点转化为低维稠密实数向量[48],为大规模复杂网络的特征语义表示提供了解决方案。受word2vec 算法的启发,Perozzi 等[49]先通过随机游走的方式生成有序的节点序列,随后将网络节点类比成词,将word2vec 应用在随机游走序列上,学习节点表示。node2vec[50]与DeepWalk 类似,主要区别在于随机游走算法的设计不同,使生成的节点序列存在差异。Tang 等[51]针对网络结构没有一个明确的目标函数的问题,提出了LINE(large-scale in‐formation network embedding)模型,该模型能够处理任意类型的大规模网络,包括有向和无向,以及有权重和无权重;该算法保留了网络中节点的一阶相似性和二阶相似性,可以同时利用连边关系和共同邻居来学习节点表示。SDNE(structural deep net‐work embedding)算法[52]利用深度神经网络采用半监督的方式进行网络表示学习,模型主要分为两部分:一部分为无监督深层自编码器,用于获取节点的二阶相似度;另一部分用于有监督地建模节点的一阶相似度。Hamilton 等[53]提出一种适用于大规模网络的归纳式学习方法GraphSAGE (graph sample and aggregate),该算法通过聚集采样得到的邻居节点表示来更新当前节点的特征表示,而不是直接将每个节点单独进行训练。
早期的网络表示学习主要针对节点和连边类型单一的同构网络,并不能真实反映现实世界中节点和连边类型多样的异构信息网络,需要构建更复杂的网络表示学习方法捕获更丰富的语义信息[54]。其中,Tang 等[55]认为网络中有多种类型的节点和边,因此将LINE 扩展到异构网络中,针对文本标签预测任务提出了半监督的PTE(predictive text embed‐ding)模型;该模型将部分标签已知的文档集合数据转换为一个包含文档、词语和标签三类节点的异构网络,然后学习不同类型节点的向量表示。Dong等[56]受同构网络中node2vec 算法的启发,提出了metapath2vec 算法,该方法通过在异构信息网络中进行随机游走来获取节点的邻居节点集合。Shi 等[57]提出 的HERec (heterogeneous network embedding for recommendation)模型基于元路径从异质信息网络中抽取出同类节点序列,相当于从异质信息网络中抽取出多个同质信息网络,提高了推荐效果。
2.2.3 融合网络结构和文本内容的表示学习
在文本表示学习与网络表示学习的基础上,近年来开始了将这两者相融合的表示学习研究,即利用网络的结构信息以及节点的文本信息共同学习节点的低维向量表示。Yang 等[58]提出了TADW(textassociated DeepWalk) 模型,通过矩阵分解将网络结构特征和节点的文本特征进行联合训练,实现这两种特征的融合。在TADW 模型的基础上,Zhang等[59]从不同的网络结构与节点内容相互作用的角度构建了HSCA (homophily, structure and content aug‐mented)模型,认为网络信息有三个来源,分别是同质、拓扑结构和节点内容,并将三种信息源增加至一个目标函数中,共同学习网络表示。Sun 等[60]提出一种新的CENE(content-enhanced network em‐bedding)算法,将节点内容视为一种特殊的节点来扩展到网络中,该算法使用逻辑回归函数学习扩展的网络,并通过负采样的方法优化目标函数,使得到的网络表示不仅可以保留网络结构特征,还可以保留节点和内容之间的语义信息。Li 等[61]提出了PPNE (post-processing network embedding) 模 型 来有效地融合不同类型的节点属性信息,将表示向量的学习过程转化为联合优化的问题,并通过使用有效的随机梯度下降算法解决联合优化问题;在多个数据集上进行的节点分类和链路预测任务证明了PPNE 的有效性。Ganguly 等[62]通过文本向量得到每个节点的N 个最近邻居,并将其增加到网络关系中,利用DeepWalk 算法的原理生成每个节点的向量表示,在节点分类和链路预测任务中证明了此方法的有效性。Pan 等[63]提出结合网络结构、节点内容和节点标签的深度学习模型TriDNR (tri-party deep network representation),该模型通过随机游走生成节点序列并学习节点语义表示来保留节点结构信息,然后用另一个神经网络学习节点上下文的相关性,同时,将节点标签作为输入,直接在标签和上下文之间建模来学习标签向量和单词向量。
3 模型构建
首先基于专利文献获取专利分类序列,设计表示学习方法获取专利分类在序列中的位置特征和上下文语义特征,形成专利分类序列语义表示,通过计算尚未产生融合的专利分类号间的相似度来预测技术融合;接着基于专利分类号在序列中的排序重要性形成专利文本内容分配方法,利用文本表示学习方法实现专利分类文本语义表示,通过计算尚未产生融合的专利分类号间的相似度来预测技术融合;之后研究两类特征的融合方法,利用机器学习方法自动学习每维特征的最优权重,形成基于机器学习的特征融合模型,通过模型计算尚未产生融合的专利分类号间产生链接的概率来预测技术融合;最后基于链路预测的理论和方法设计技术融合预测评测指标和方法,对不同方法进行定量比较。
3.1 基于专利分类序列语义表示的技术融合预测
为了有效抓取专利分类号在序列中的位置信息和周围上下文语义特征,不同于通过序列构建共现网络进而基于网络表示学习来实现,本文直接对专利分类序列进行建模获得专利分类的语义表示,最大限度保留真实的位置信息和语义信息。借鉴word2vec 模型的思路,本文将专利分类号类比于“word”,将专利分类序列类比于“word”的序列,即句子,通过学习专利分类号在序列中的上下文语境,得到每个专利分类号的语义向量表示。按照训练方式不同,训练模型可分为CBOW(continuous bag-of-words) 与Skip-Gram 两 种。 一 般 而 言,CBOW 模型在处理小型语料时有更好的效果,而Skip-Gram 模型更适合于大型语料[64-65]。根据本文数据规模,选取CBOW 模型进行训练。在CBOW 模型中,利用专利分类号前后的各c 个专利分类号来预测当前的专利分类号,据此形成专利分类序列表示学习模型,具体原理如图1[38]所示。
图1 专利分类序列的表示学习模型[38]
专利分类序列的训练模型的优化函数[38]为
其中,Wt表示专利分类号序列中的任意一个专利分类号;Wt-2和Wt-1分别表示排序在Wt之前的两个专利分类号;Wt+1和Wt+2分别表示排序在Wt之后的两个专利分类号。这些共同构成了当前专利分类号的上下文语境信息。
利用专利分类序列表示学习模型可以将序列中的每个专利分类号映射到多维向量空间中,且每一维向量都表示一定的语义信息,从而实现基于序列结构的专利分类语义表示。对于任意两个专利分类号,其向量可以分别表示为xi=(x1,x2,x3,…,xn)和yi=(y1,y2,y3,…,yn)。在此基础上通过余弦相似度、欧几里得距离等多种指标计算向量之间的语义相似性来表示尚未产生关联的专利分类号之间的语义相似度,进而根据相似度排序来预测是否产生技术融合。本文选取余弦相似度指标进行语义相似度计算,具体计算方法为
3.2 基于专利分类文本语义表示的技术融合预测
为了提高专利分类号区分度,考虑专利分类号在序列中的排序重要性信息,本文提出了两种专利分类号文本分配方式。第一种方式是只对排序第一的专利分类号赋予对应的专利文本(标题和摘要)。第二种方式是在第一种方式的基础上,继续对处于其他排序位置的专利分类号赋予文本,主要包括以下步骤:首先对排序第一的专利分类号赋予文本;然后赋予排序第二的专利分类号以文本,若该专利分类号在前一步骤中已分配文本,则不进行新的文本赋予,否则,把该专利文本赋予此专利分类号;依此类推,赋予其他所有专利分类号以文本。在分配文本过程中,如果某一专利分类号在多个专利分类序列中的同一排序位置多次出现,只要其在之前步骤中未被分配文本,就将多个专利中的文本内容都赋予给该专利分类号,如图2 中排序第一的分类号1 和排序第二的分类号3。这样可以保证在不同的处理顺序下,专利分类号的文本内容保持一致。
在图2 中,以三个专利文献及其对应的专利文本和多个专利分类号为例进行说明,如图2a 所示。首先考虑所有专利中排序第一的分类号,如图2b所示,由于“分类号1”在“专利1”中排序第一,因此将“专利文本1”分配给“分类号1”,同样将“专利文本2”分配给“分类号2”,将“专利文本3”分配给“分类号1”。接着考虑排序第二的专利分类号,如图2c 所示,由于“专利1”中的“分类号2”在上一步中已分配过文本,所以这一步中不将“专利文本1”分配给“分类号2”,而“专利2”中的“分类号3”在上一步中未分配文本,因此将“专利文本2”分配给“分类号3”,同样地,将“专利文本3”分配给“分类号3”。依此类推,考虑排序第三的分类号,如图2d 所示,由于“专利1”中的“分类号4”在之前步骤中未分配文本,所以将“专利文本1”分配给“分类号4”,而“专利2”和“专利3”中排序第三的专利分类号在之前的步骤中均已分配文本,所以这一步不再分配其文本。
我们在初中数学课堂教学中想要提高课堂质效的最终目的是培养学生的学习能力,因此我们的课堂教学方式在创新的基础之上还不能忽视对学生学习能力的培养。学生是数学课堂的主体,我们在课堂教学当中可以适当的将舞台移交给学生,让学生充分展示自己,这样学生学习数学的兴趣也会更浓厚。
在专利文本分配后,为了获取每个专利分类号的文本语义表示,本文借鉴doc2vec 模型的思路,将专利分类号类比于模型中的文本ID,专利文本中的每个词类比于“word”序列。每次训练时,模型选取专利文本中一定长度的句子,将句子中的每个词以及专利文本对应的专利分类号(文本ID)作为输入一起训练。训练结束后,既可以得到每个词的词向量表征,又可以得到整个文本的向量表示,即专利分类号的语义表示。依据训练方式不同,可分为DM (distributed memory) 和DBOW (distributed bag of words)模型。DM 模型在处理小型语料时有更好的效果,而DBOW 模型更适合大型语料,根据本文数据规模,选择DM 模型作为训练方式。专利分类文本语义表示模型的具体原理如图3[39]所示,其中,ID 代表每个专利分类号,w1、w2、w3 代表专利分类号对应的专利文本中的词,w4 指一定长度句子中需要预测的词。
图2 专利分类的文本分配方式示例
图3 专利分类文本的语义表示模型[39]
利用专利分类文本语义表示模型可以在训练文本中每个词的同时,实现整个文本的向量化表示,从而实现基于文本内容的专利分类语义表示。在此基础上,通过余弦相似度、欧几里得距离等多种指标计算向量之间的语义相似性来表示尚未产生关联的专利分类号之间的语义相似度,进而根据相似度来预测是否产生技术融合,本文选取余弦相似度指标进行语义相似度计算。
3.3 基于专利分类序列结构和文本内容语义融合的技术融合预测
序列信息与文本信息有着较大的区别,但两者的每一维特征对技术融合预测都可能有贡献。因此,本文通过机器学习模型来自动学习每一维特征的最优权重,对多维度特征进行有效融合,实现融合序列结构和文本内容的专利分类语义表示,进而把技术融合预测转化为尚未产生连接的专利分类号是否会产生链接的分类问题。SVM(support vector machine)作为常用的分类模型在多个领域具有优异的表现,因此本文选择SVM 模型作为本文的机器学习分类模型。
基于SVM 的专利分类序列结构和文本内容语义融合的第一步在于确认专利分类间是否产生技术融合,进而分别得到训练集和测试集的正样本和反样本,进行模型训练。为此,本文将处于同一序列中的专利分类号进行两两组合,赋予正分类标签生成训练集正样本,然后根据没有产生链接的专利分类号对来生成相同数据量的训练集负样本。同样地,将上述方式应用于测试集中,生成测试集正样本和测试集负样本。
该模型的第二个关键步骤是实现每个专利分类号组合对的向量表示。之前通过表示学习方法已经得到了每个专利分类号单独的向量表示,因此需要对单独的专利分类号向量进行合并,从而实现专利分类号对的语义表示。不同的合并方式对于最终结果可能有着不同的影响,本文设计了三种向量合并表示方法,分别为基于哈达玛积的向量合并、基于平均向量法的向量合并和基于余弦相似度的向量合并。
(1)基于哈达玛积的向量合并方式,即通过哈达玛积的运算方式实现两个专利分类号的语义向量合并,其基本思想是把两个向量中每个维度的元素相乘得到一个新的向量。具体地,对于专利分类号组合中的两个专利分类号,首先以拼接的方式连接每个专利分类号的序列向量X1=(x1,x2,x3,…,xn)和文本向量X2=(xn+1,xn+2,xn+3,…,x2n),得到拼接后的 分 类 号 向 量X =(x1,x2,x3,…,xn,xn+1,xn+2,xn+3,…,x2n);同样地,另一个分类号的向量通过拼接表示为Y =(y1,y2,y3,…,yn,yn+1,yn+2,yn+3,…,y2n),接 着 通过哈达玛积的向量合并方式得到专利分类号组合的向量Z,具体计算公式为
(2)基于平均向量法的向量合并方式,即通过加权平均的运算方式实现两个专利分类号的语义向量合并,其基本思想是把两个向量中每个维度的元素取均值得到一个新的向量。具体地,对于上述专利分类号组合中的两个分类号向量X 和Y,通过公式
得到专利分类号组合的向量Z。
(3)基于余弦相似度的向量合并方式,其基本思想是把序列向量和文本向量作为一个整体进行相似度计算来形成新的特征。一般而言,若两个分类号的序列向量的相似度越高,该分类号组合产生技术融合的概率越大;同样地,若两个分类号的文本向量的相似度越高,该分类号组合产生技术融合概率越大。但是这两种不同的相似度对于技术融合的贡献度可能不同,如果把这两种相似度作为新的特征并通过SVM 学习权重,有可能更好地实现技术融合预测。据此形成了基于余弦相似度的向量合并方式,在序列相似度计算中,两个分类号的序列向量分别 为X1=(x1,x2,x3,…,xn)和Y1=(y1,y2,y3,…,yn),通过余弦相似度计算专利分类号的相似度值为z1,同理得到专利分类号的文本相似度值z2,以序列向量与文本向量的余弦相似度的值作为专利分类号组合的两个特征,进而得到专利分类号组合的向量Z =(z1,z2)。
对于以上三种合并方式得到的专利分类号组合向量,通过SVM 模型自动学习每维特征的最优权重,形成基于SVM 的特征融合模型,通过模型计算专利分类号间产生链接的概率来预测技术融合。
3.4 基于链路预测的技术融合预测定量评估方法
本文将两个专利分类号是否产生融合视为二分类问题。具体地,对于上文得到的训练集正样本和测试集正样本,认为样本中的每个专利分类号组合已产生技术融合;相反,对于训练集负样本和测试集负样本,样本中的每个专利分类号组合均未产生技术融合。本文根据训练集中的正样本与负样本得到的模型计算专利分类号组合产生链接的概率,并与测试集中的实际结果进行比较,利用AUC(area under curve)、MAP(macro average precision)以及准确率对技术融合预测结果进行定量评价。
AUC 从整体上衡量融合预测的准确性,将正样本中IPC 号之间的相似度得分与负样本中IPC 号之间的相似度得分进行比较。这个比较会独立进行n次。如果有n'次正样本中IPC 号之间的相似度得分高于负样本中IPC 号之间的相似度得分,并且有n″次它们之间的得分相同,那么AUC 的值可计算为
MAP 指宏平均准确率,通过设定一组阈值,计算不同阈值下准确率和召回率的变化,据此描绘准确率和召回率曲线,计算曲线下的面积即为MAP值,用于评价预测算法的整体性能,具体计算公式为
其中,k 代表正确识别出技术融合专利分类号组合数;p(k)表示识别出k 个专利分类号组合时的准确率;Δr(k) 表示随着k 值的调整,召回率的变化情况。
准确率指被分类器正确分类的样本所占的百分比,反映分类器对各类样本的正确识别情况[66-67]。一般通过Top-n 准确率来计算,即可能性最大的前n个预测结果中,正确预测数所占的比值。首先把预测结果按照相似度或概率大小进行降序排列,并取排序靠前的n 个专利分类号组合对;然后计算真正预测对的组合对数n'占总个数n 的比值,用来表示该种情况下的准确率,即
最后通过改变n 的值,得到不同情况下准确率变化情况,判断模型的预测效果。
4 实证研究
无人机具有成本低、操作灵活、能够避免出现人员伤亡等特点,备受军事和民用领域的关注。2015 年国务院印发《中国制造2025》战略文件,无人机产业被列入我国十大重点领域之中;无人机产业包括从人工智能到核心软件和硬件工程的各种知识领域,是典型的多学科融合、跨领域集成的新兴产业[68],技术融合已然成为无人机产业创新发展的主要来源之一。因此,本文以无人机领域专利数据为基础,对无人机的技术融合趋势进行预测,把握无人机产业未来的发展方向。
4.1 数据来源
本文选择德温特专利索引(Derwent Innovations Index,DII)数据库作为数据来源,确定专利检索表达式为TI=(((unmanned OR automatic OR autono‐mous OR remotely poloted OR nonhuman) AND (air‐craft OR“aerial vehicle”OR airship* OR drone OR plane OR aerocraft* OR airplane OR aerobat* OR aero‐stat*)) OR“UAV”),时间区间为2011 年到2020 年,获取专利的标题、摘要和IPC 号等特征项。原始数据共计52602 条,经过初步筛选,剔除无摘要数据557 条,最终有效数据52045 条。根据每年的专利数目对时间窗口进行划分得到训练集和测试集。其中,训练集来源于2011 年到2019 年的数据,共计38362 条;测试集来源于2020 年的数据,共计13683 条。
对无人机专利数据进行整理和统计,如表1 所示,发现近十年以来无人机相关专利数量持续增长,尤其自2015 年以来,增长更为迅速。从产生了技术融合的专利数量来看,2015 年较2014 年几乎翻了一倍,之后保持着高速增长的趋势,到2020 年无人机领域技术融合专利数量达到了顶峰,共计10393 条。从产生融合的专利数量所占比例来看,早期融合比例缓慢波动,2015 年后融合比例逐步提高,其中,2011 年技术融合专利占比0.628,到2020 年达到了0.760。综合分析可见,目前无人机领域需要多个技术共同协作完成,技术融合对无人机技术的发展起到了至关重要的作用。未来,无人机领域仍然是国家和企业的重点研究对象,对无人机的技术融合趋势进行预测,有利于企业及时把握无人机产业的技术研究方向,推进无人机产业进一步发展。
4.2 基于专利分类序列语义表示的技术融合预测结果
通过对专利分类序列表示学习模型的主要参数进行不断调整,选取预测效果最优的参数组合,即dimension=128,window_size=2。为了验证该方法的有效性,本文选取网络表示学习中常用的代表性模型DeepWalk、LINE、node2vec、SDNE、HOPE(highorder proximity preserved embedding)进行对比分析,由于这些模型的基本原理都是序列表示学习,因此将这些网络表示学习模型进行相同的参数设置,并通过链路预测的方法定量评估模型效果。对应的评测指标AUC、MAP 值如表2 所示,准确率评测如表3 所示。
从表2 可以看到,在同等条件下,专利分类序列表示实现的技术融合预测具有最好的效果,AUC和MAP 以及准确率较其他方法均有所提高,说明该方法适用于技术融合预测。在综合考虑AUC 和MAP 的情况下,DeepWalk 模型和HOPE 模型表现次优,专利分类序列表示学习方法的AUC 和MAP 较DeepWalk 分别提高了0.046 和0.081,较HOPE 提高了0.044 和0.121。此外,SDNE 和node2vec 表现较差,SDNE 的AUC 和MAP 仅达到了0.362 和0.397,本文方法的AUC 和MAP 较之分别提高了0.495 和0.480,较node2vec 模型分别提高了0.294 和0.303。表3 的准确率对比结果与上述结果一致,专利分类序列表示方法的准确率是所有模型中最高的,并且所有的Top-n 预测准确率均为1.000,再次验证了该方法的有效性。由此可见,专利分类序列中体现的真实位置信息对技术融合预测具有一定的补充和完善作用,相较于专利分类号共现提供了更多的语义信息,能够实现更有效的技术融合预测,验证了该方法的有效性,可以扩展应用于专利分类号聚类等相关研究中。
表1 无人机领域发生技术融合的专利数量统计
表2 专利分类序列表示学习方法与其他网络表示学习方法的AUC和MAP对比
表3 专利分类序列表示学习方法与其他网络表示学习方法的准确率对比
4.3 基于专利分类文本语义表示的技术融合预测结果
根据专利分类号排序,依次赋予序列中的每一位IPC 号文本内容,获得文本的IPC 个数随之不断增加。当赋予到前5 位IPC 时,获得文本的IPC 个数达到9610 个,占IPC 总个数10520 的91.3%,几乎覆盖了全部的IPC 号。因此,对于排序第5 位之后的IPC 号,本文不再赋予文本。具体的IPC 文本分配统计信息如表4 所示。
表4 IPC文本分配统计
分配完文本后,通过专利分类文本语义表示模型实现IPC 号的文本语义表示,并通过余弦相似度计算IPC 号的语义相似度。为了对不同的专利分类文本赋予方式进行比较,本文分别对每一种专利分类文本赋予方式进行实验和比较。通过对专利分类文本表示模型的主要参数进行调优,得到最优参数设置为dimension=128,window_size=15,并用链路预测的方法定量评估模型效果。同时,为了验证方法有效性,与之前平均分配文本方式进行对比实验。具体实验结果如表5 和表6 所示。
从表5 可以看到,在同等条件下,从赋予前1位IPC 文本到赋予前5 位IPC 文本,所有方式下的效果较平均分配的方式均有所提高。综合考虑AUC、MAP 值的情况下,平均分配方式的AUC、MAP 值分别仅达到了0.563 和0.582,而本文最好的文本赋予方式的AUC、MAP 值分别达到了0.722 和0.726,较平均分配方式提高了0.159 和0.144;最差的文本赋予方式的AUC、MAP 值也分别达到了0.669 和0.642,较平均分配方式分别提高了0.106 和0.060。表6 的准确率对比结果与上述结果一致,赋予前1 位IPC 文本的Top-n 预测准确率均高于其他文本赋予方式,且最低的准确率也达到了0.915,验证了本文提出的专利文本赋予方式能有效地提高不同IPC 之间的区分度,进而实现更准确的技术融合预测。
表5 不同IPC文本赋予方式下技术融合预测的AUC和MAP对比
表6 不同IPC文本赋予方式下技术融合预测的准确率对比
当赋予的专利分类号数量逐渐增多时,技术融合预测效果却逐渐下降。综合考虑AUC、MAP 的情况下,赋予前1 位专利分类号文本的效果最好,AUC、MAP 值分别达到了0.722 和0.726,较赋予前5 位的方式分别提高了0.053 和0.084。说明在每篇专利文献中,专利中包含的文本信息与排序靠前的专利分类号相关性更高,尤其是排序第一位的专利分类号。表6 的准确率对比结果同样证实了该结论,即随着对更多排序位置的专利分类号赋予文本时,准确率会呈现一定的下降趋势。由此可见,仅赋予排序第一位的专利分类号文本,既能够有效解决平均分配方式下分类号的文本信息冗余问题,又能够将专利文本分配给最具代表性的专利分类号。因此,接下来本文将融合第一位IPC 号的文本语义表示与基于序列结构的文本语义表示,进而预测技术融合。
4.4 融合专利分类序列与文本语义表示的技术融合预测结果
本文将上文中表现最好的IPC 序列向量与仅赋予第一位IPC 号的文本向量应用于SVM 模型,并以三种向量合并方式作为IPC 组合的语义表示,具体包括基于哈达玛积的向量合并、基于平均融合的向量合并、基于余弦相似度的向量合并。其中,除了基于余弦相似度的合并方式特征维度为2,其余两种方式均为256 维特征。
为了证明本文方法的有效性,将本文方法与两种基准模型进行比较。基准的融合方法包括向量拼接法和点乘相加法[69]。应用这两种基准方法融合分类号序列表示和文本语义表示,与本文基于SVM的特征融合方式进行对比,结果如表7 和表8 所示。
在表7 中,从融合方式来看,三种基于SVM 的特征融合模型效果均优于两种基准模型。其中,拼接方式的效果最差,点乘方式相较于拼接方式效果有明显提高,但仍低于本文提出的所有融合模型,说明本文的方式更适用于技术融合预测任务。在综合考虑AUC 和MAP 的情况下,拼接方式的AUC、MAP 值分别为0.631 和0.621,点乘方式的AUC、MAP 值分别为0.827 和0.835,而本文方式中效果最好的为“SVM+哈达玛积”融合模型,AUC、MAP值分别为0.913 和0.923,较拼接模型效果分别提高了0.282 和0.302,较点乘模型效果分别提高了0.086和0.088。本文方式中的“SVM+余弦相似度”,AUC、MAP 值分别为0.856 和0.875,虽然较其他两种SVM 融合模型效果较差,但仍高于两种基准融合模型。表8 的准确率对比结果与上述结果一致,“SVM+哈达玛积”的准确率仍然是所有模型中最高的,并且所有的Top-n 预测准确率均为1.000,再次验证了该方法的有效性。由此可见,拼接方式由于简单地将序列特征与文本特征进行连接,未能考虑序列特征和文本特征的权重,平等地看待每一维特征,导致预测的效果最差。点乘融合方式通过设置权重,不断调整得到较优结果,效果明显优于拼接方式,但点乘融合方式多通过人工设置权重,未必能够得到最优的结果。而本文的方法,即通过SVM 的特征融合模型能够避免以上弊端,自动学习最优权重,使技术融合预测任务效果最好。
表7 不同融合方式下的AUC和MAP对比
表8 不同融合方式下的准确率对比
从不同的SVM 融合模型来看,通过哈达玛积合并方式融合序列与文本特征,在三种模型中效果最优,“SVM+平均向量”模型效果次优,“SVM+余弦相似度”模型效果较差。从AUC 和MAP 的情况来看,“SVM+平均向量”模型的AUC、MAP 值分别为0.902 和0.898,“SVM+哈达玛积”模型较之分别提高了0.011 和0.025;相较于“SVM+余弦相似度”模型,“SVM+哈达玛积”模型分别提高了0.057 和0.048。表8 的准确率对比结果同样证实了该结论,其中“SVM+哈达玛积”的准确率稳定保持为1.000,且SVM 相关的其他两种方法同样表现优异,说明SVM 模型能高效学习不同特征的权重,进而提高技术融合预测效果;也说明在不同的向量合并方式下,基于SVM 的哈达玛积融合方式更适用于技术融合预测任务。值得一提的是,“SVM+余弦相似度”模型在效果上虽然不如其他两种模型,但在实验过程中该方式训练速度最快,因此该融合模型对于大规模数据有一定的应用价值。
综合以上分析发现,“SVM+哈达玛积”模型的表现最优,在效果和稳定性上优于网络模型和文本模型。“SVM+哈达玛积”模型的AUC 和MAP 值较专利分类序列表示学习模型分别提高了0.056 和0.046,较专利文本表示学习模型分别提高了0.191和0.197。此外,“SVM+哈达玛积”模型的Top-n 准确率均为1.000,与专利分类序列表示学习模型一致,大幅度优于专利文本表示学习模型。当扩展实验使n 增大到300 以上时,专利分类序列表示学习模型的准确率开始下降,而“SVM+哈达玛积”模型的准确率仍能保持为1.000。这些都充分说明融合特征模型通过自动学习序列和文本特征的每一维权重,充分有效地利用了专利分类的多种上下文语义信息,从而得到了最好的效果。
4.5 技术融合预测示例
本文选取在所有评测指标中表现最好的语义表示模型“SVM+哈达玛积”模型来进行示例展示和分析。与上文实验一致,示例分析中历史数据来源于无人机领域2011 年到2019 年的数据,通过该数据集来计算之前未产生过关联的IPC 对在未来发生融合的可能性,并在2020 年的测试集数据中进行验证。通过这些预测结果,能够对无人机的技术融合趋势进行预测,及时把握无人机领域未来的发展方向并提供决策支持建议。
在通过“SVM+哈达玛积”模型计算IPC 组合产生链接的概率并进行降序排列时,发现有较多组合链接概率均达到了0.9999999,且都在测试集中出现,准确率达到1.000。因此,本文根据专利数据中IPC 的已有顺序,选取排序前10 位的IPC 组合对进行具体分析,如表9 所示。
表9 “SVM+哈达玛积”模型预测出的排序前10位的IPC组合对
如表9 所示,对于链接概率排序第一的IPC 组合,B64C-027/08 表示“飞行器有两个或多个旋翼的”,H04B-007/06 表示“无线电传输系统”,该IPC组合在专利号为JP2020196355-A 的专利文献中出现。从摘要中发现,该文献主要提及“将多个天线安装在无人机的多个旋翼中,并通过地面站发射无线电信号对无人机进行实时调整”,可以看出该专利将无人机的多旋翼技术与无线电传输技术进行了有效的结合,实现了对多旋翼无人机的实时监控。对于排序第二的IPC 组合,B64D-033/10 表示“飞机的散热器配置”,H01Q-001/28 表示“适合于飞机、导弹、卫星或气球上或其内使用的天线零部件”,该组合在专利号为WO2020251-216-A1 的专利文献中出现,该专利将两个不同的技术模块通过一定的方式进行组合,推动了无人机技术的发展。此外,B64C-039/02 表示“特殊用途的飞行器”,该专利分类与G01S-019/12(“远程通信基站与接收器之间进行交互或通信”)、C25B-001/04(“电解水法”)、B66C-015/06 (“警告装置的布置或应用”)、B64C-005/14 (“改变后掠角的”) 等IPC 发生了融合,说明B64C-039/02 具备较强的技术融合特性。通过示例可以看到,融合专利分类序列和文本的语义信息进行技术融合预测具有较好的效果,可以提前预测可能的技术融合,为技术布局、技术研发提供借鉴和参考。
5 结 语
为了提升专利分类语义表示能力,提高技术融合预测效果,本文提出了基于专利分类序列和文本语义表示的技术融合预测方法。首先直接对专利分类序列进行表示学习,设计专利分类序列表示学习方法,得到每一个专利分类号的位置信息及上下文语义信息,相较于其他网络表示学习模型,取得了最好的效果;为体现不同专利分类号在一篇专利文献中的重要程度,本文逐步赋予每位专利分类号以文本信息,最大限度地提高不同专利分类号的区分度,实验结果证明,本文方法优于以往平均分配文本的方式,且发现赋予第一位专利分类号以文本时技术融合预测效果最好;为了有效融合序列向量与文本语义向量,充分利用每一维特征的贡献,本文设计了三种向量合并方式,利用SVM 模型自动学习权重实现技术融合预测,该融合方法在所有方法中表现最优,且其中最好的融合方式为“SVM+哈达玛积”。
本文从专利分类序列和文本语义融合的视角对技术融合预测进行了探索性研究,提出的方法较之前均有了较大提高,但未来仍需从多个方面展开深入研究。首先,本文只使用了专利的标题、摘要来表示专利文本,实际上,专利声明和专利全文中蕴含着更丰富的文本信息,可能有益于专利文本表示,未来需要进行尝试和对比。其次,在专利文本赋予方式的比较过程中发现,仅对专利分类号序列中的第一位专利分类号赋予文本时技术融合预测效果最优,但是这种方式会导致部分专利分类号不存在对应文本的情况,后续可以尝试引入专利特征项中其他文本内容或者外部信息来赋予每一位专利分类号以文本,更好地进行专利分类文本赋予。最后,本文仅从专利分析视角研究了技术融合的某一特定类型,实际上,技术融合的表现形式多种多样,尚需结合市场、产品、主题等进行综合评判,未来可以综合利用专利数据、商标数据、研究报告和市场信息综合研究技术融合预测的指标、方法和评测框架,实现更准确的技术融合预测,提升决策支持效果。