基于多视角注意力机制的专利匹配方法
2022-09-05殷亚珏高晓雅王晶晶李寿山徐邵洋曾雨豪
殷亚珏,高晓雅,王晶晶,李寿山,徐邵洋,曾雨豪
(苏州大学 自然语言处理实验室,江苏 苏州 215006)
0 引言
随着科技不断发展,人们对知识产权保护越来越重视。专利审核是知识产权保护的一个重要环节。审核过程中为了保证申请专利产权的唯一性,需要对申请专利进行人工审查。
专利检索是一项具有重要意义的技术,能够协助审查员高效完成专利审核任务,而专利匹配是专利检索技术中的一项基本环节。如何高效快速地审核当前申请专利有无相似的已申请专利,已经受到业界的广泛关注。同时,专利匹配属于文档级语义匹配任务,该任务是自然语言处理领域的基础任务,具有广泛的应用场景,如网页检索、医疗案例检索等[1]。因此,该任务也受到学术界的广泛关注。传统的文档级语义匹配任务,一部分使用TF-IDF等技术构建特征结合余弦相似性[2]的度量方法, 然而,这种技术没有考虑到文字本身的实际语义,单纯以词频衡量词的重要性,显得不够全面。近些年来,神经网络[3]等深度学习的方法在文档级语义匹配任务上扮演了重要的角色。该方法能考虑句子的时序关系,并结合语义,明显提升语义匹配任务的性能。然而,已有的神经网络方法仅考虑计算两个句子之间两两的匹配度,忽略了文档的整体信息。例如,在表1中,专利A和专利B是审查员判断出来的两个相似专利。在算法实现中,如果我们仅仅使用标题信息,例如,“切片装置”“冲孔机构”等关键词来判断两个专利的相似度,算法可能会把两个专利判断为不相似专利,从而得到错误的结论。因此,一个更好的专利匹配方法需要能够利用整个专利里面不同的文本信息(如标题、摘要、声明等)。如何使用专利不同字段的多文本信息是专利匹配面临的一项挑战。
表1 专利各个关键字段特征的描述
此外,不同字段的文本信息对于最终的匹配具有不一样的重要性。如图1所示,虽然根据专利摘要和声明信息可以判断专利是匹配的,但是模型可能还是会倾向于关注标题信息,最终将其预测为不匹配。因此,如何在模型中充分考虑不同信息对于计算匹配的重要程度是专利匹配的面临另一项挑战[4]。
图1 基于注意力感知的多视角学习方法框架图
为了应对以上挑战,本文设计了一个基于注意力感知的多视角学习模型(Multi-View Attentive Network,MVAN)。具体而言,首先,利用BERT[5]模型作为编码层,对每个待匹配专利对各个视角的匹配特征进行提取(标题、摘要、声明)。其次,针对如何体现不同字段文本信息的重要性的挑战,使用多头注意力[6]机制融合多个单视角匹配特征,从而得到多视角匹配特征。最后,针对如何使用专利不同字段的多文本信息的挑战,本文设计了一种多视角学习机制,联合学习单视角和多视角的匹配特征,来优化融合后的多视角匹配结果。总体而言,本文的主要贡献为: ①首次使用深度学习方法进行专利匹配任务; ②利用多头注意力机制融合专利不同字段信息; ③设计了一个多视角学习机制,使模型可以充分利用所有信息。
本文的组织结构为: 第1节介绍专利匹配的相关工作;第2节介绍注意力感知的多视角学习模型的具体实现方法;第3节介绍实验结果数据并对结果进行分析;最后一节总结全文并对未来进行展望。
1 相关工作
1.1 专利匹配
专利匹配是专利检索的重要环节,传统的专利匹配大多基于规则模板或特征构建的方式,例如,布尔检索[7]将文本匹配转化成词组间的相互匹配;BM25[8]计算查询和文档之间的相关性,对查询的分词进行语素分析,通过语素权重判定进一步获得语素与文档的相关性判定;向量空间模型[9]采用TF-IDF框架计算词语权重后计算文档和查询的相似度作为查询和文档间的相关性度量;互信息[10]作为特征词和类别之间的测度,利用互信息理论进行特征抽取,度量文本间的相互语义关系,结合统计信息的计算实现文本间的语义关系的衡量。以上特征提取方法几乎都是基于统计学的,其中一个主要缺陷就是需要用一个很庞大的训练集才能获得近乎所有的对分类起关键作用的特征,这将使得现实应用中特征提取的效率非常低,也会直接影响整个文本匹配任务的效率。
不同于以上的所有研究,本文致力于使用深度学习方法解决匹配任务,从语义角度去学习匹配,同时本文也是应用深度学习的方法解决专利匹配任务的首次尝试。
1.2 文档级语义匹配
文档级语义匹配(即专利匹配)是自然语言领域的基础任务,一直受到广泛的关注,有一些研究者致力于研究机器学习方法,例如,Yang利用SVM[11]算法构建分类器对样本所属类别进行决策分类;Adwait首次将最大熵模型应用于文本分类,并且使用了MEDEFAULT和MEIFS两种方法对基于最大熵[12]模型和基于决策树[13]的分类方法进行比较。这些方法均使用了局部的信息,或者仅对文本表征学习进行改进,其使用的特征对于句子层面或许是足够的,而对于专利这种基于文档层面的语料是很难捕获到充足的信息的。
不同于以上的所有研究,本文提出了一个基于注意力感知[14]的多视角学习模型(Multi-View Attentive Network,MVAN),旨在使用多视角学习方法,使模型捕捉专利文本所有视角的匹配特征。
2 方法
本文提出了一个基于注意力感知的多视角学习模型MVAN。如图1所示,MVAN模型主要由3个部分组成: ①编码层: 利用BERT模型得到三种单视角匹配特征(标题、摘要、声明); ②注意力感知融合层: 输入单视角匹配特征,通过多头注意力机制得到多视角匹配特征; ③解码预测层: 输入单视角特征及融合后的多视角特征,分别解码后预测得到对应的匹配结果,最后通过多视角学习机制,利用单视角结果优化多视角结果,并将多视角优化结果视为最终的匹配结果。
2.1 多视角编码层
由于BERT是目前自然语言处理领域中学习文本表示性能最好的模型之一,本文中,我们使用专利语料预训练后的BERT模型(1)在实验中,我们使用100万条专利语料在BERT-base模型的基础上利用预测遮蔽词和预测下一句两个上游任务重新预训练。得到专利文本的单视角匹配特征表示。
具体而言,对于给定待匹配专利对的标题序列xT1、xT2,摘要序列xA1、xA2,声明序列xC1、xC2,根据BERT中的语义匹配任务构建输入,即在句子的开头插入“[CLS]”标签,句子对之间和句子末尾分别插入“[SEP]”标签,如式(1)~式(4)所示。
(1)
(2)
(3)
(4)
其中,qT、qA、qC分别是待匹配专利对的标题、摘要及声明的输入词序列。
其中,μ∈{T,A,C},T表示标题,A表示摘要,C表示声明。
2.2 注意力感知融合层
其中,stack(:)表示将三个单视角匹配特征在时间维度上做拼接操作,MA(:)为多头注意力方法,多头注意力机制中多头个数H=8,权重矩阵WO∈Hd×d用于融合多头结果。
2.3 解码预测层
输入单视角特征及融合后的多视角特征,各自经过线性变换后使用sigmoid函数[15]得到对应的匹配结果,如式(10)、式(11)所示。
(10)
(11)
其中,yxi是专利样本xi匹配的真实结果,Wμ∈d,WM∈d,bμ∈,bM∈是解码层权重矩阵和偏置。在模型的预测过程中,我们仅使用多视角特征得到的匹配结果pM(yxi|xi)作为最终的结果。
2.4 训练与优化策略
在训练过程中,模型可能会逐渐倾向于选择一部分特征进行学习,而利用多视角学习方法,可以帮助模型充分利用所有的特征信息[16]。因此,本文模型的目标函数由基于单视角匹配特征得到的代价函数和基于多视角匹配特征得到的代价函数组成。函数定义如式(12)、式(13)所示。
其中,LT,LA,LC是单视角匹配特征得到的代价函数,LM是多视角匹配特征得到的代价函数,权重α,β,γ,δ用来调节各视角结果的平衡。
3 实验
本节着重介绍本文方法在专利语料数据集上的实验结果。
3.1 实验设置
本文中所使用的数据集是来自专利局的数据。该数据集包含了超过5 000条专利匹配的样本,其中待匹配专利对的正负样本数目是相同的。专利匹配的正样本是由专利审查员通过审查给出的,专利考题和待匹配专利如果是匹配的,那么将会被专利审查员标记为一条正样本;专利匹配的负样本是从海量的专利语料库中随机抽取出的任意一条与考题不匹配的专利。每一对待匹配的专利样本由专利的标题、摘要、权利声明构成,最后附加上考题和待匹配专利是否匹配这一标签。语料数据集中将专利样本按标签分成两类,实验中标签“0”代表负样本,标签“1”代表正样本。
我们首先使用BERT模型作为文本的编码层,向量维度为768。其次,在对比实验中,我们使用随机向量初始化词向量,向量维度为512。模型中所有层的权重由Glorot正则化[17]初始化,Dropout比例为0.3,Batch大小为32,其余超参根据验证集结果调整优化。另外,我们采用学习率为0.000 02的Adam优化器优化任务中基于专利匹配的自定义损失函数,其内部用来调节各视角结果的平衡权重α,β,γ,δ分别根据对比实验结果进行调参优化。
实验中,我们采用准确率和F1值作为衡量专利匹配性能的评价指标。一般来说,当深度学习的模型过于复杂时,会导致其专注于解释训练数据,从而牺牲对未来数据的解释能力。也是说训练数据效果非常好,但测试数据效果大打折扣,即过拟合现象[18]。考虑到深层神经网络因为其结构相较传统模型有很强的表达能力,本文统计了250对、500对和2 500对匹配样本在进行匹配任务时的准确率及F1值进行更全面的对比,表2为本文实验的专利语料数据分布情况。
表2 本文处理后的专利数据分布
3.2 实验结果
为了验证本文MVAN方法对于专利匹配语料任务的有效性,我们对比了几种常见的文本匹配基线方法:
Siamese-LSTM[19]: 一个基于LSTM模型的文本表示模型,分别利用LSTM对待比较的句对中的句子进行建模,然后计算两个隐层向量的曼哈顿距离来评价句子相似度。由于LSTM建模过程一致,因此可以用全部句子训练LSTM的参数,然后把参数共享给左右两个LSTM网络。其中,①Siamese-LSTM(标题): 仅用标题单视角特征作为输入进行专利匹配任务; ②Siamese-LSTM(摘要): 仅把摘要单视角特征作为输入进行专利匹配任务; ③Siamese-LSTM(声明): 仅把声明单视角特征作为输入进行专利匹配任务; ④Siamese-LSTM(全字段): 使用标题、摘要、声明三个特征拼接作为输入进行专利匹配任务; ⑤Siamese-LSTM(融合方法): 由Siamese-LSTM直接拼接获取专利多视角的匹配特征进行专利匹配任务; ⑥Siamese-LSTM(权重方法): 使用多头注意力机制融合由Siamese-LSTM拼接得到的专利多视角的匹配特征进行专利匹配任务。
BERT: 自然语言处理领域中比较常用、性能较好且使用方便的文本编码模型,模型基于注意力网络和Transformer层,Transformer作为算法的主要框架,能更彻底地捕捉语句中的双向关系;模型通过遮蔽词预测和下一句预测两个自监督学习任务学习文本的表示,用于下游具体的自然语言处理任务。在本实验中,我们通过加载BERT预训练好的模型进行专利匹配任务。①BERT(标题): 仅用标题单视角特征作为输入进行专利匹配任务; ②BERT(摘要): 仅用摘要单视角特征作为输入进行专利匹配任务; ③BERT (声明): 仅用声明单视角特征作为输入进行专利匹配任务; ④BERT(全字段): 使用标题、摘要、声明三个特征拼接作为输入进行专利匹配任务。
MVAN w/o MA: 本文方法,但是并未使用多头注意力机制融合多个视角的特征,直接拼接BERT得到多视角匹配特征。
MVAN w/o MVL: 本文方法,但是并未采用多视角学习机制,而是直接使用单个损失函数优化多头注意力机制融合得到的多视角匹配特征。
3.3 实验例子分析
表3给出了本文方法同基准方法的比较实验结果。
表3 本文方法与基准方法的性能比较
从表3可以看出,与一系列基准方法的性能相比,本文采用的模型明显效果更好。首先,通过对比表3基线方法中的BERT模型和Siamese-LSTM结果,不难发现大规模数据预训练的BERT模型在性能上明显优于Siamese-LSTM的基准方法,因此在本文实验中使用BERT模型作为文本的编码层,以此提取待匹配专利样本的特征[20]。此外,使用单个特征(标题,摘要,声明)进行匹配时,模型关注的内容趋向单一化,很难把握到专利样本的整体信息,在仅选择一部分信息作为匹配判断依据的情况下,专利匹配的效果不如结合专利多个匹配特征的方法好。其中,结合专利多个匹配特征的方法有拼接专利的各个字段作为专利匹配任务的输入与融合专利各个字段的匹配特征进行专利匹配两种。仅仅拼接专利的各个字段作为输入难以让模型很好地关注到专利各个字段的匹配信息,从而存在一定的局限性。因此,采用融合单视角匹配特征得到多视角匹配特征的方法进行专利匹配任务具有更好的表现。
MVAN模型是基于BERT模型进行改进的,首先由于当预训练模型作用于相似度匹配任务时,其性能与一般基线模型相比达到了新的高度。因此,MVAN模型利用BERT模型对于专利语料进行编码,对其进行更好的表示,然后将三个特征进行融合,共享一套参数进行优化。
其次,通过对比我们的多视角学习方法和仅仅使用BERT模型利用专利的单个特征进行匹配的实验结果,我们可以看出: 由于同时利用了专利的多个特征进行匹配任务,能够让模型学习到专利语料多方面的信息,这使得在大部分情况下我们的模型都能够比仅使用单个特征进行匹配任务的结果更好。
我们的MVAN模型在性能上明显优于所有基线模型,在500条专利数据集上的准确率相较于最好的基准方法BERT提高了2.6%,1 000条数据集上提高了5.6%,5 000条提高了2.1%,这表明我们的方法适用于大规模语料上的专利匹配任务。
最后,本文进行了消融实验,实验结果如表4、表5所示。可以看出:
表4 实验结果样例分析1
表5 实验结果样例分析2
(1) 本文提出的MVAN模型相较于MVAN w/o MA方法在性能上有明显提升,其中250对专利样本上的准确率提高了1.1%,500对专利样本上准确率提高了1.6%,2 500对专利样本上准确率提高了0.7%。这验证了多头注意力机制能够更好地捕获对于专利多视角特征的表示。
(2) 本文提出的MVAN模型相较于MVAN w/o MVL方法在性能上有明显的提升,其中250对专利样本上的准确率提高了6.1%,500对专利样本上准确率提高了2.1%,2 500对专利样本上准确率提高了1.3%。这验证了多视角学习的方法能够适用于专利匹配任务。
因此,本文提出的多视角学习思想在作用于专利这种具有多个关键字段信息语料的匹配任务上是非常有意义的。
4 总结
本文提出了一种基于注意力感知的多视角学习模型(MVAN),用于解决基于多字段文本信息的专利匹配任务。具体而言,首先,使用BERT模型提取待匹配专利对的单视角匹配特征;其次,使用多头注意力机制融合单视角匹配特征,得到多视角匹配特征;最后,基于多视角学习方法,在模型训练过程中联合学习单视角匹配特征和多视角匹配特征得到的结果,对多视角匹配特征的结果进行优化,并将其视为最终的结果。实验结果表明,本文提出的MVAN模型在专利匹配任务中性能明显优于其他基准方法。
未来工作中,我们拟探索利用专利的正文信息进一步提升专利匹配的性能。此外,还将尝试将本文的模型应用到其他文档级匹配任务中,如法律文档匹配等。