APP下载

综合词位置和语义信息的专利文本相似度计算

2018-10-24李宝安吕学强

计算机工程与设计 2018年10期
关键词:特征词分类号计算方法

夏 冰,李宝安,吕学强

(北京信息科技大学 网络文化与数字传播北京市重点实验室,北京 100101)

0 引 言

专利文献具有相对固定的组织结构,其组织结构主要包括IPC分类号、标题、摘要、说明书、权利要求书等。其中IPC分类号是国际通用分类号,根据IPC分类号可以判定专利类别,权利要求书是发明或者实用新型专利要求保护的内容,是申请专利的核心。专利文献为保持其新颖性以及避开专利雷区,在用词方面一般使用独特或不常用的词或短语来表达一些常见性的语义,例如用“一种盛水的容器”来表达“水杯”的含义,再例如用“没有固定停放地点的单车”替代“共享单车”的概念在专利文献中使用。因此专利文献相似度计算的准确与否很大程度上取决于词语间语义相似度的计算。

根据研究方法的不同,词语间的语义相似度的研究大体上可以分为两大类:基于知识的词语语义分析和基于统计的词语语义分析。基于知识的词语语义分析需要一个庞大而丰富的知识库[1,2],库中包含了词语概念、上下位等逻辑关系,通过计算不同词语在知识库中的语义距离来表示词语间的相似程度。基于统计[3,4]的词语语义分析主要是在概率论,统计论等数学理论的基础上,对大规模语料进行统计,通过判断词语的上下文语境是否相似来判断词语之间的相似程度。

文本相似度的计算方法主要包括基于统计、基于语义信息、基于句法结构、基于编辑距离的方法。词匹配法[5]是基于统计的文本相似度计算方法中最具有代表性的一种方法,此方法简单的统计了词语出现重复率而忽略了词语间的语义信息。基于语义信息的文本相似度计算方法是通过领域知识库[6]计算词之间的语义距离进而得到文本间的距离,或者将文本表示成词向量[7]的形式,利用向量空间距离计算公式计算文本间的空间距离。基于句法结构[8,9]的文本相似度计算方法主要是通过对文本中句子结构和句子中词语语法进行分析。基于编辑距离[10]的文本相似度计算方法是计算待检文本转变为目标文本所花费的代价。

本文在总结前人研究成果的基础上,提出了根据专利文献独特的结构特点,对IPC分类号、标题、摘要、权利要求书分别赋予不同的权重,并利用word2vec将词语表示成词向量的形式,通过词向量计算词语间语义相关性,进而用改进的余弦相似度公式计算文本相似度。

1 相关知识

向量空间模型(VSM)作为最常用的一种文本表示方式,是由Salton等提出,并将此模型成功应用于SMART文本检索系统。向量空间模型是将文本内容的处理转化为空间向量的运算,通过空间向量的距离表示文本内容的相似程度,直观易懂。在构建向量空间模型的过程中,词频-逆文档频率(TF-IDF)是使用最广泛的计算权重方法。词汇的TF-IDF值可以用来衡量词汇在文本中的重要程度,一个词在某一文本中出现的次数越多也就是TF值越大(为了降低文本长短不同对TF值的影响一般在计算TF值时需要做归一化处理),并且在同一语料库下的其它文本中包含该词的文本数越小即IDF值越大,则该词越能反映该文本的主题。余弦相似度是计算文本相似度的一种重要方法,其宗旨是将文本通过向量空间模型向量化后,计算向量之间的夹角,夹角余弦值越大表示两个向量夹角越小则两个文本间相似度越高,当两个向量夹角余弦值为1即两个向量重合,此时可以粗略认为两个向量表示的文本内容是一样的。通过上述TF-IDF的介绍可知,以TF-IDF值作为权重计算文本相似度的方法,仅仅是把文本间出现的相同词汇作为参考指标,并没有把词汇语义信息考虑在内。在实际中,只对词频进行统计而忽略词汇间语义信息的文本相似度计算方法是远远不够的。例如一篇描述苹果的文本和一篇描述香蕉的文本,基于词频统计的方式可能就会认为这是两篇完全不相关的文本。

Word2vec是由Google开发的一款将词表示成实数值向量的高效工具,其中采用的模型有CBOW(连续词袋)模型和Skip-Gram模型(通过输入一个词向量来预测相邻的词向量)。Word2vec通过训练,可以将文本内容的处理简化成n维空间向量的运算,而向量空间上的相似度又可以表示文本内容语义上的相似度。Word2vec的高效性是被研究者广为称赞的,一个优化的单机版本一天可以训练上千亿词,并且整个训练过程是无监督的。Word2vec输出的词向量可以用来做许多NLP的相关工作。Santos等[11]通过word2vec训练得到词向量,然后通过词向量串联的方式表示文本并最终对文本进行情感分析,Lai S等[12]用word2vec训练的词向量表示出来的文本用于深度学习模型来进行文本分类任务。虽然上述工作都取得了良好的效果,但是在用词向量表示文本时,没有考虑文本本身的结构特点以及在文本不同位置词本身的重要性不同的问题。

2 专利文本相似度计算模型

针对上述方法中的不足,本文提出了综合词位置和词汇语义信息的专利文本相似度计算方法。该方法一方面考虑了专利文本独特的结构特点,将IPC分类号、标题、摘要、权利要求书作为主要研究对象,当词汇处在不同位置时,该词汇表现出来的重要程度应该有所不同。另一方面,将词表示成向量的形式来替代传统的词袋模型,传统的词袋模型仅仅是根据该词是否在词袋中出现来将文本表示成向量的形式,词向量则可以通过计算向量空间距离得到词汇之间的语义信息,弥补了传统词袋模型的不足。利用词向量间的语义相似度作为权重改进了余弦相似度公式,并最终通过改进的余弦相似度公式计算专利文本相似度。图1显示了本文提出的计算专利文本相似度方法的整个流程,从图中可以看出该方法主要包括数据采集、专利文本预处理、词权重的计算、词汇间语义信息计算、文本相似度计算5个模块。

图1 专利文本相似度计算流程

2.1 文本处理和词权重的计算

本文用来训练和测试的专利文本是通过ftp接口从国家知识产权局批量下载得到的,得到专利文本后需要去除xml标签,提取其中的专利数据,然后对专利数据进行分词、词性标注、去除停用词、命名实体识别、新发现词等预处理操作。经过对专利数据的研究发现,专利文本中关键技术的描述和核心词汇一般都是名词、动词或名词性短语,其中W(名词)>W(名词性短语)>W(动词),W代表词权重。因此为避免噪音数据对改进专利文本相似度计算方法的影响,本文对专利数据进行处理时去除了其它词性的词汇。

IPC分类号是国际通用专利分类号,如果两篇专利IPC分类号不一致则两篇专利隶属于不同的类别,那么就可假设它们之间的相似程度极低。权利要求书揭示了专利文本中需要受到法律保护的范围,也是申请人在撰写中篇幅最大描述最多的部分,是专利文本的核心。专利摘要是专利说明书内容的概述,它指出了发明或实用新型名称、主要技术特征和用途,描述了此专利所属的技术领域、需要解决的技术问题等,因此在重要性上仅次于权利要求书。专利标题是对整篇专利文本的高度概括,它一般仅说明了该专利发明的名称,因此在本文介绍的专利文本相似度计算方法上给予较小的权重。综上所述,词汇在专利文本中不同部分出现其权重大小依次是:W(权利要求书)>W(摘要)>W(标题),虽然IPC分类号中不包含词汇,但是考虑IPC分类号的特殊性和重要性,在设置权重时给IPC分类号设置最大的权重。

词权重的不同可以通过设置不同的词频基数来体现,例如词性为动词的词汇词频数等于该词汇出现的实际次数,而词性为名词性短语的词汇词频数等于该词汇出现的实际次数的3倍,同理,根据词所在位置的不同在计算词权重时也采用相同的计算方法。通过词性和词位置得到词权重后需要再融入TF-IDF算法计算出最终的词权重。

2.2 词汇语义信息和改进的文本相似度计算方法

分布式词向量最早是由Hinton提出的,其基本思想是:通过训练将文本中的每一个词表示成固定长度的向量形式,将所有这些向量放在一起就组成一个词向量空间,每一个词即是该空间上的一个点,在空间上引入“距离”的概念,通过计算距离就可得到两个词之间的语义关系。Word2vec是将词表示成分布式词向量的一种常用工具,因此本文也是利用word2vec将专利数据和其它训练语料进行训练,最后得到维度为50的词向量文件。在得到词向量之后,通过余弦相似度公式计算词向量x和y之间夹角,计算方法如式(1)

(1)

余弦值越大夹角越小,两个词向量语义信息越接近。

经过以上操作,原始的专利文本数据P被转化为向量空间中点的集合(k1,k2,k3,…,kn)T,其中ki为专利文本P的特征词,n为专利文本P中含有的特征词个数。经过word2vec模型训练,每个特征词对应向量空间上的一个点,向量空间上的每个点可以表示成一个维度为50的向量形式(d1,d2,d3,…,d50)。虽然每个特征词可由固定的50维的词向量表示,但是不同的专利文本包含的特征词个数不同,而且特征词之间没有明显对应关系,为解决这两个问题,本文提出了改进的文本相似度计算方法

C(x,y)=cos(x,y)*W(x)*W(y)

(2)

(3)

其中,C(x,y)为两个词汇x和y语义信息计算公式,W(x)代表结合词性、词位置和TF-IDF算法得到的词汇x的词权重,S为两个专利文本P1,P2的相似度计算公式,IPC1,IPC2分别代表专利文本P1,P2的IPC分类号,K1,K2分别代表专利文本P1,P2的特征词集合,m,n分别代表特征词集合K1,K2中的特征词。根据式(3)得到的专利文本相似度大于某个阈值t时,则认为两篇专利相似,阈值t需要根据具体实验进行设定。

从式(3)中可以看出如果两篇专利文本IPC分类号不一致,则它们的相似度可以忽略不计。如果两篇专利文本属于同一IPC分类号,则式(3)中分子是由专利文本P1的特征词分别和专利文本P2中的每个特征词计算词汇相似度,分母则是专利文本P1和P2的特征词和其本身特征词集合中的每个特征词进行词汇相似度的计算。通过公式可以看出无论两篇专利文本特征词数量是否一样,最终都是将两篇专利文本特征词集合中的所有特征词计算一遍词汇相似度,而且这种计算方法也避免了一篇专利文本中的所有特征词只与另外一篇文本中的某个或者少数特征词有对应关系。

3 实验结果及分析

3.1 实验数据

本文所使用的专利文本是从国家知识产权局提供的ftp接口下载得到的,由于word2vec训练词向量需要大量的语料,因此本文在训练过程中主要使用了118 931篇经过预处理的专利文本和维基百科作为语料,并且最终得到281 345条维度为50的词向量。

鉴于专利文本数量较大而且实验中的专利文本都是经过国家知识产权局审核且授权过的,因此可以大致认为这些专利文本之间的相似度较低。本文在实验开始前预先选好待比对的专利文本,通过人工修改(上下位关系词替换,同义词替换等)构造相似专利文本。在选择待比对的专利文本时,选择IPC分类号为H04(电通信技术)领域下面的5个小类,具体见表1,其中主题相关专利为同一IPC小类下面的专利数量。

表1 相关实验数据

3.2 实验评价标准

本文使用了自然语言处理领域常用的评价指标准确率和召回率作为评价标准,结合表1中的数据,计算准确率和召回率时分别计算每一个IPC小类的准确率Pi和召回率Ri,i∈(1,5),最后得到平均准确率P和平均召回率R。准确率Pi和召回率Ri的具体计算公式如式(4)和式(5)

(4)

(5)

3.3 实验结果分析

在实验过程中,利用本文提出的方法与其它两种文本相似度计算方法作对比来验证本文提出方法的有效性,第一种方法是只利用词向量而不考虑专利文本结构特点计算文本相似度,第二种方法是只考虑专利文本结构特点而不使用词向量计算文本相似度。针对表1中的5组实验数据得到的文本相似度计算结果见表2。

表2 本文方法与该方法单独特征项对比实验结果

从计算结果可以看出,本文提出的方法从整体尤其是准确率要远优于只使用词向量或只考虑专利文本结构特点的方法,而且不同方法不同实验数据判定两篇专利文本是否相似的阈值t也有所不同,这也说明了,判断两篇专利文本是否相似不能只取决于相似度值的大小,而是应该通过相对值的大小来决定的。表2实验结果是从本文提出的方法与该方法中单独特征项做对比得到的,表3是本文提出的方法与传统文本相似度计算方法的比较结果。

本文提出的方法综合考虑专利文本的结构特征和词汇间的语义信息,表3中用于对比的两种方法虽然都考虑了词汇间语义关联的问题,但是由于专利文本中含有一些生僻词和专业术语,知网知识库中包含大多是常用词汇,因此相似度计算结果准确率欠佳,而基于LDA模型的方法没有考虑专利文本的特殊结构特征。从表3可以看出,本文提出的方法要优于基于LDA模型的方法和基于知网的方法,在与基于知网的方法作对比时,只有第二组数据的准确率和召回率稍稍偏低,但从5组数据的平均准确率召回率分析本文提出的方法略优于基于知网的方法。综上所述,本文提出的方法是有效可行的。

表3 本文方法与传统方法对比实验结果

4 结束语

本文提出了一种综合考虑专利结构特点和词汇间语义关系的专利文本相似度计算方法。该方法将IPC分类号、摘要、权利要求书等专利文本特有的结构融合到文本相似度计算方法当中,与一般文本相似度计算方法相比更加具有针对性。本文通过word2vec计算词汇间的语义关系,不仅能够节省构建领域知识库所需花费的大量时间,而且还能保证较高的准确率和召回率,同时又克服了传统词匹配方法中文本相似度大小主要取决于词汇重复率的缺陷。实验结果表明,本文提出的方法与传统方法相比,在准确率上有较大的提升。

专利文本中生僻词较多而且通过word2vec计算词汇间语义关系需要庞大的语料库作为支持,因此在今后的工作中还需要继续扩充训练语料来提高语义相似度的准确率,此外,特征词的准确与否对于专利文本相似度计算具有至关重要的作用,因此下一步将以特征词抽取方法的改进作为研究重点。

猜你喜欢

特征词分类号计算方法
浮力计算方法汇集
基于改进TFIDF算法的邮件分类技术
产品评论文本中特征词提取及其关联模型构建与应用
A Study of Chinese College Athletes’ English Learning
随机振动试验包络计算方法
不同应变率比值计算方法在甲状腺恶性肿瘤诊断中的应用
面向文本分类的特征词选取方法研究与改进
一种伺服机构刚度计算方法
关于“方言特征词”理论的回顾及思考