APP下载

基于Sentence-BERT的专利技术主题聚类研究
——以人工智能领域为例

2024-03-01阮光册周萌葳

情报杂志 2024年2期
关键词:专利技术文档专利

阮光册 周萌葳

(华东师范大学经济与管理学部信息管理系 上海 200241)

0 引 言

专利是技术创新的最大信息来源,囊括了全球90%以上的最新技术情报[1]。专利技术主题聚类,可以有效剖析领域发展现状和共性技术,把握技术发展脉络、定位技术前沿热点和关键技术的研究趋势,从而为科研工作者和政府决策部门提供重要的参考依据。为此,如何针对专利文献的特征来完成高时效、高质量的专利技术主题识别,是当下情报学领域所需要探索和解决的重要难题。

目前,专利技术主题聚类最简单的方式是通过IPC分类,但由于IPC分类号所代表的专利技术含义较为宽泛,相同IPC分类号所包含的技术信息也存在较大差异,为此,使用IPC分类号进行专利技术分类,无法实现技术主题的细化,不利于领域技术主题的深度探究。此外,专利分类重新修订后,不再对已分类专利进行重新分类,因此将会产生“过档文献”[2],这意味着当IPC分类号被修改后,使用旧版分类号的部分专利无法被检索出来;随着文本挖掘技术的广泛应用,借助信息技术对专利文献进行技术主题特征识别成为可能。一方面,以主题词作为辅助,可以获得更详尽的IPC分类之间的关联关系[3]。另一方面,采用文本挖掘方法,获得专利文献摘要或全文中的核心词[4],能够挖掘隐含在专利文献中的大量非结构化信息,实现专利技术主题聚类。然而,由于专利文献为了保持其新颖性以及避开专利雷区[5],会使用独特或不常用的词或短语进行技术描述,这也增加了采用文本挖掘方法进行专利技术主题聚类的难度。

针对以上问题,本文将Sentence-Bert算法引入专利技术主题识别研究,通过对专利摘要的句子进行相似性判断,将语义相似的专利文献进行聚类,并提取聚类后的主题,通过文本分析挖掘出领域专利技术主题的研究热点。最后,本文以2015-2019年长三角地区的人工智能专利数据作为研究对象,识别人工智能领域的研究热点,并将结果对比LDA主题模型、K-means、doc2vec等方法,得出相应的结论。

1 相关研究

专利技术主题识别的分析方式主要包括专家分析法、专利引证法[6-8]、文献计量法[9-11]和内容分析法等。

专家分析法主要是通过德尔菲调查或技术路线图法从专利数据中中获取关键技术信息。由于该方法存在一定的主观性,往往被用于分析对象无法通过客观方式收集时使用[12]。专利引证法和文献计量法更多的是通过对专利的外部特征进行测度,以达到把握科技演变情况和探索科技关联规律的目标,而专利的内容分析法是对专利的内部特征进行可再观的、有效的推断[13],从而达到评估专利质量、预测专利分类、挖掘研究热点、展望前沿趋势等目的。

近年来,采用文本挖掘技术对专利技术主题的探究和分析成为研究热点,通过对专利文本的内容进行分析,可以有效挖掘专利研究热点、识别专利技术主题。现有研究中,专利技术主题识别大致可划分为四种技术路线:一是基于专利技术主题词和主题词关联表征,对专利文本的主题进行研究,如王莎莎等[14]通过建立技术之间的关联关系,实现在行业视角下的技术关联趋势探索;二是基于共词分析和共现网络对专利文献进行建模,获取专利文本的主题,如张振刚等[15]以关键词共现的思想绘制了人工智能领域的专利共现知识图谱,从而发现人工智能的关键技术和热点分布;三是采用聚类算法,以关键词共现矩阵[16-17]或专利IPC分类号[18-19]为基础,通过聚类分析来确定领域热点情况;四是基于主题模型的方式对专利文献进行特征提取、语义提取等操作,从而发现文献潜在的知识结构和主题关联。罗建等[20]提出采用LDA主题模型来对专利全文进行聚类,从而实现对专利文本内容更细粒度的主题表征。

然而,由于专利文本的特殊性,采用上述方法对专利文献进行技术主题识别时,会存在着以下几个问题:一是专利文献普遍缺少关键词标签,无法将其视作为类似于科技文献的普通文本数据来进行处理[21]。在专利文本挖掘技术中,主题词也无法完全囊括专利所包含的全部内容[22],为此,采用常规的文本处理技术无法达到良好的技术主题识别效果;二是若仅用IPC、CPC等分类号等来对专利进行主题识别,无法精确识别专利技术融合交叉程度[23],并且会导致专利在分类过程中的粒度过粗问题;三是专利文献存在着语言表达晦涩难懂、文本词汇专业性强且技术语境较为复杂[24]等特点,而LDA主题模型更倾向于高频词之间的共现关系[25],使得采用主题模型进行专利技术主题识别时存在着语义信息有限、主题辨识度低等问题。

随着深度学习在自然语言处理研究上取得突破性进展,一些学者们开始尝试采用深度学习算法挖掘专利文献中深层次的主题信息。徐红姣等[26]采用word2vec来生成领域的关键词向量,通过词向量的计算来获取主题的语义相似度,构建论文-专利主题关联演化图谱。曹祺等[27]采用doc2vec模型计算专利文献的语义相似度,论证了doc2vec优于传统的相似度检测模型,为专利技术主题识别的挖掘奠定了坚实的基础。

目前,采用深度学习算法对专利文献进行主题识别的研究仍存在一定的进步空间。受doc2vec模型将文档表示为向量的启发,本文提出了一种新的专利文献主题识别方法,在探索特定领域专利的研究热点时引入了深度学习方法,以专利的摘要作为专利热点研究的识别对象,将Sentence-BERT算法运用到专利摘要向量化模型当中,并将处理结果与聚类分析、主题词提取等方法相结合,共同探究专利热点主题的语义描述。

2 基于Sentence-BERT的专利文本分析模型构建

2.1 实验设计

专利文献包含有结构化信息和非结构化信息。结构化信息包括专利的申请号、发明人、所属国、IPC分类号以及申请日和授权日等信息,非结构化信息则主要包括专利摘要、全文和权利要求等。相对于专利的结构化数据,非结构化信息中摘要和全文包含了更多与专利技术主题有关的描述,而专利摘要信息不仅包含了专利技术主题的概括性描述,也涵盖了专利的主要技术范畴,在专利技术主题挖掘中具有重要的意义。为此,本文的实验选择专利文献的摘要作为数据源进行技术主题识别。

本文设计的对专利技术主题聚类和识别过程由四个部分组成:首先,采用Sentence-BERT算法对专利文献摘要文本进行向量化表示,实现文本基于句向量的篇章语义表示。由于Sentence-BERT 可以能够获得在语义上有足够意义的句向量,实现专利文献的相似度计算,有效解决专利摘要文献语义特征稀疏的问题;其次,采用UMAP算法对文本向量化矩阵进行数据降维,UMAP是一种非常有效的可伸缩降维算法,算法在保留了摘要文本更多全局结构信息的同时,将高维概率分布映射到低维空间;随后本文利用HDBSCAN方式寻找原始数据中的高密度簇专利文献的聚类操作;最后,识别类簇文本集合中的主题特征,并完成主题呈现。具体步骤如图1所示:

图1 基于Sentence-BERT的专利主题识别研究框架

2.2 基于Sentence-BERT的文本向量化

专利文献主题识别的首要任务是将文本转换为机器可以识别的向量。由于专利文献为保持其新颖性,往往使用独特或不常用的词或短语来表达常见性语义,致使语言表达晦涩[5],使得采用简单的文本分词,对词汇进行向量化处理,很难有效地获得专利主题的识别。目前,解决文本聚类和语义搜索一种常用的方法是将文本中的句子映射到一个向量空间中,识别语义相似的句子。Sentence-BERT(简称SBERT)是Reimers N.等人在2019年提出的句子向量计算模型,通过生成句子的Embedding向量,找出语义相似的句子[28]。

Sentence-BERT是对BERT语言模型的一种改进,主要是解决Bert模型进行文本语义相似度计算需要巨大的时间开销[28]。模型使用Siamese and Triplet Network(孪生网络和三重态网络),获取句子对的向量表示,然后进行相似度模型的预训练,Sentence-BERT模型能够获得在语义上有足够意义的篇章向量。

Sentence-BERT采用孪生网络的结构,对于两个句子(或短文本)的Sentence Encoder使用同一个BERT,并在其后加入了一个池化(pooling)操作来实现输出相同大小的句向量。对于句子(或短文本)的相似度任务,直接计算并输出余弦相似度。下图显示了Sentence-BERT针对句子(文本)相似度计算的流程。

图2中,将句子对输入到参数共享的两个BERT模型中,然后BERT输出句子的所有字向量传入Pooling层进行平均池化(既是在句子长度这个维度上对所有字向量求均值)获取到每个句子的句向量表示。Sentence-BERT能够很好的捕捉句子之间的关系,使用余弦相似度来衡量两个句向量之间的相似性,提升了推理的速度。

图2 Sentence-BERT完成文本相似度任务流程图

Sentence-BERT扩展了预训练的BERT模型,模型使用Sentence Transformer,可通过加载预训练模型,实现从一组文档中创建文档嵌入。目前,预先训练好的模型应用于下游任务主要有基于特征和基于微调这两种方式,该两种方式均使用单向的语言模型来学习一般的语言表征[29]。实验中,本文采用distiluse-base-multilingual-cased-v1包( 下载地址:https://public.ukp.informatik.tu-darmstadt.de/reimers/sentence-transformers/v0.2/。distilbert-base-nli-mean-tokens是以预训练DistilBERT-base模型在NLI数据集上进行微调的SBERT模型,该模型使用均值池化策略计算句子表示。)作为预训练模型,该模型在嵌入句子和段落与嵌入搜索查询方面的质量得到了广泛的评估。为了更好的将预训练模型应用于本文方法,实验中,对预训练模型进行微调(fine-tune)操作。具体步骤为:随机抽取原始数据集中的4000条数据采用余弦相似度计算,并对计算结果进行人工判定,将结果作为训练数据输入到初始模型当中,设置迭代次数为20,完成预训练模型的微调。

2.3 数据降维、文本聚类

Sentence-BERT语言模型首先采用BERT进行文本预训练,由于BERT的中文模型通常采用512个字符的长度限制,为此预训练后的文档将变成N*512(N为文件数)的向量矩阵,随着N的增加,将形成高维数据集。为达到去除冗余特征,提高文本的聚类效果,需要对向量矩阵进行数据降维操作。为此,本文提出了使用UMAP (Uniform Manifold Approximation and Projection)进行降维的方式。UMAP是L McInnes等人[30]于2018年提出的一种新的降维技术,其理论基础黎曼几何和代数拓扑,主要利用局部流形逼近和局部模糊单纯形集表示来构造高维数据的拓扑表示,即对于高维数据来说,给定一些数据的低维表示,就可以使用类似的过程来构造等价的低维拓扑表示。目前,UMAP是文本向量降维效果最好的一个方法。在数据降维的过程中采用UMAP方式,既可以减少计算复杂度和内存使用量,又可以最大程度地保留原始数据的特征[31],相对于T-SNE降维[32],UMAP的优点有三:一是其能够尽可能多的保留全局结构,二是其耗时更短,三是其对嵌入维数没有限制,故可以扩展到更大的维度的数据集。

为了能更好的抽取专利文献中的主题信息,本文首先对获得的文本向量矩阵进行聚类。在聚类时本文选择了由 Campello、Moulavi 和 Sander 共同开发的HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)聚类算法[33],和传统DBSCAN最大的不同之处在于,HDBSCAN可以处理不同密度的集群聚类问题,并且在参数选择方面表现出更加稳健的优点。HDBSCAN算法引入层次聚类思想,对最小生成树剪枝的最小子树做了限制,控制生成的类簇不会过小。此外,算法对参数敏感度较低,不需要自行设置阈值,只需定义最小簇的数量。

2.4 抽取主题词

对聚类类簇的主题词抽取,本文采用TF-IDF算法。TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)是一种能根据词语在语料库中出现的频次来判断其重要性程度的统计方法。TF表示一个词在文档中出现的频率,频率越高,则代表该词出现的次数越多;IDF表示一个词在所有文档中的重要性程度,包含该词的文档越少,则该词更能体现文档的主题。TF和IDF的具体计算公式如下

(1)

公式(1)反映了关键词w在文档Di中出现的频率;Di为第i个文档中所有词的总数

(2)

公式(2),表示词w在文档集合中的普遍程度,N为文档总数,I表示关键词w是否出现在Di文档中,一个词w越普遍,其IDF值越低。

TF-IDF的公式为TF*IDF。TF-IDF算法认为,如果某个词在一篇文章中出现的频次高,且在其他文章中很少出现,那么这个词就具有很好的类别区分能力。因此,采用TF-IDF可以用以评估一个词对于一篇文章的重要性。

运用这个思想,可以将一个主题簇群中的所有文档视为一个单一文档C来应用TF-IDF方法,可以得到一个主题簇群中的词的重要性得分C-TF-IDF。在一个聚类簇群中,词汇越重要越能代表该主题。用此方法来即可挖掘出各个簇群中的主题词,从而对不同主题进行描述和刻画。

3 实验过程及结果分析

本文运用上文提出的研究思路,以人工智能领域专利数据进行实验。具体的研究流程为:

a.获取专利文献的摘要数据,采用基于BERT的Sentence Transformer模型对专利摘要数据进行向量化表示,在预训练包distiluse-base-multilingual-cased-v1的基础上进行模型微调操作,使用二次训练模型完成文档集的嵌入;

b.采用UMAP算法对文档集嵌入后生成的向量化矩阵数据进行流式降维,将高维数据数据映射到低维空间;

c.采用HDBSCAN寻找低维空间数据中的高密簇,形成具有主题意义的类簇,并可视化聚类结果。

d.采用TF-IDF的方式对聚类类簇中的核心关键词进行提取,通过人工主题归并方式识别人工智能领域专利的主题特征。

e.以上述实验对比采用共词分析、LDA主题模型、K-means、doc2vec等方式来对专利文档进行的主题挖掘,验证本文提出的方法的实用性。

3.1 数据来源及数据处理

本文选取了incoPat科技创新情报检索平台上长三角地区有关人工智能领域的专利数据,检索时间为2020年11月10日,检索时间范围为2015—2019年,检索主题词为“人工智能”or“模式识别”or“自然语言处理”or“ 语音识别”or“图像识别”or“视频识别”or“虹膜识别”or“智能处理器”or“智能机器人”or“专家系统”or“智能搜索”or“智能驾驶”or“机器学习”or“深度学习”or“神经网络”or“计算机视觉”or“认知计算”,专利申请地址包含江浙沪皖3省1市,同时过滤掉检索报告、译文、和短期专利。检索后的数据集见图3。

图3 获取的专利数据(部分)

对于获取的数据,为了便于分析,本文首先按照专利申请号进行合并,优先保留授权专利记录,随后,选取发明专利作为研究对象,最后,对专利数据进行去重操作。经过数据筛选,本文最终得到22370条专利数据。

3.2 文本向量化

BERT的中文模型通常由512个字符的长度限制,为此,实验前,本文对摘要数据的长度进行了统计,统计结果如下:

表1 摘要字数统计

从结果来看,数据集中每篇专利摘要的字符均低于512,因此不需要做切割或补齐操作,考虑到文本的平均长度为259,采用Sentence-BERT用对文档数据进行句子向量化计算。经过上述预处理,最终形成实验基础数据。

实验中,本文载入经过fine-tune操作的多语言模型distiluse-base-multilingual-cased-v1包作为文档数据的预训练模型,采用 Sentence-BERT对22370条专利摘要数据进行文档向量化表示,最终得到22370行*512列的向量化矩阵。

3.3 数据降维并聚类

在UMAP对文本向量进行非线性降维的过程中,考虑到降低计算复杂度及内存使用率,主要的参数设定为:n_neighbors=15,n_components=2,并采用余弦相似度的方式来构建向量相似度矩阵。

为了便于向量可视化,本文采用降维后的二维向量来描述每一篇人工智能专利摘要,经过HDBSCAN来对文档进行聚类。在聚类结果上发现的高密度簇,可以认为是人工智能领域的研究热点。HDBSCAN的重要参数主要有最小生成簇类大小min_cluster_size。当min_cluster_size数值增大时,最小簇中所聚类的文档数越多,挖掘得到的主题数量越少,主题分类越不明显。当min_cluster_size数值越小,聚类所需文档的数目越少,则更可以挖掘出更精细化的主题。本文经过实验发现,当min_cluster_size=100时,簇与簇之间区别较为明显,且主题精细化程度较高,为此将100作为最小生成簇的值。文档向量经过聚类计算后,共形成30个高密度簇。

3.4 人工智能领域主题的构建及主题词的提取

TF-IDF方法对文本集进行核心关键词提取过程中,较依赖与数据的预处理结果,为此,文本构建人工智能专利的停用词表,对专利摘要数据进行分词、去停用词等操作,对于专利文献中出现的专有名词,本文借助了人工识别和并参考了《汉语主题词表》( 《汉语主题词表》,网址:https://ct.istic.ac.cn/site/organize/word),通过实验结果的不断修正,最终构建了领域词典,以便于高效的完成分词,并为后续主题词识别提供高质量的语料库。

对于30个聚类结果,本文将每一个簇里的所有文档数据进行汇总,视为一个单一文档来应用TF-IDF,得到每一个簇内(即每一个主题内)的重要性词汇。根据对重要性词汇进行排序,可以发现,出现次数越多的词汇,越能代表该主题,其为主题词。将该主题内排名靠前的重要词汇进行语义分析,可以挖掘出该主题领域下的研究内容。将所有研究内容进行汇总,即可得到长三角地区人工智能领域的研究热点。

表2展示了30个类簇的技术主题识别结果,每个类簇采用5个主题词进行描述,根据这些主题词,通过人工的方式对主题进行命名,共可分为30个技术主题小类。通过对这30个小类进行观察和分析,可将其汇总为9个技术主题大类。

在表2中,编号0,2,4,5,11,14,18,21可共同命名为智能监控,每一个子主题可分别命名为电梯监测、灯具控制、雷达监测、农业监测、火灾警报、水下作业监测、硬件设施、电力监测;编号7,9,13,16,17可共同命名为智能医疗,每一个子主题可分别命名为智能影像、医疗成像、心电图诊断、癌细胞分析、病例共享;编号3,8,10可共同命名为智能驾驶,每一个子主题可分别命名为智能汽车、电动汽车、无人机;编号19,20可共同命名为智能机械,其中包含了电机和硬件设施两个子主题;编号22,26,29可共同命名为卷积神经网络,其中包含了神经网络、卷积权重和网络分割三个子主题;编号6,23可共同命名主题为数据平台,其中包含云端服务和数据库两个子主题;编号1,15可共同命名主题为人脸识别,其中包含人脸检测和人脸特征提取两个子主题;编号12,25,27,28可共同命名为图像识别主题,其中又可命名四个子主题为语音识别、视频识别、硬件设备和图像校正。编号24可命名为自然语言处理。

从表2的结果可以看到,基于Sentence-BERT模型来对专利摘要数据进行技术主题聚类,可以挖掘出更细粒度、更高质量、更深层次的主题,有助于分析探讨技术主题中的细分特征,显著提升技术主题的多样性和可解释性。

为进一步分析获得的9个技术主题之间的相似性,本文采用JS散度算法[34]对获得的9个技术主题间概率分布的相似度进行计算,并采用gephi来画图。其中,节点的大小代表着专利数量的多少,节点越大表示专利数量越多;边颜色的深浅表示了主题之间的相关程度,颜色越深、线条代表着两个主题相似度越高,相关性越强。具体如图4所示。

图4 专利技术主题相似度关系图

从图中可以看出,音图识别、智能驾驶、智能监控、卷积神经网络等技术在人工智能领域的专利数量较大,而人脸识别、自然语言处理等技术的专利申请量较少。此外,智能监控与智能医疗的技术主题相似度比较高,而卷积神经网络与数据平台、音图识别与智能驾驶、智能机械与智能驾驶、以及智能监控与数据平台等技术之间均存在一定的技术主题相似度。值得注意的是,人脸识别技术从连线的颜色和粗细上可以发现,与其他8个技术主题的JS散度分布的相似度比较低,说明该技术的相对“独立性”。

针对主题相似度判断结果,本文对专利摘要进行分析。对于智能监控、智能医疗和人脸识别三个技术主题,通过人工提取、整理和分析三类主题的技术分布,可以发现,这三类主题均使用了深度学习、机器学习、图像识别等人工智能技术,在使用的技术上存在一定的相似性;同时,智能监控和智能医疗主题的专利,除了使用上述技术之外,大多专利均采用了物联网、人机交互、模式识别、传感器检测等技术,使得这两个技术主题的相似度较高;而人脸识别主题涉及到虹膜识别、眼球追踪、生物指纹等技术,这使得该专利技术主题与其他主题差别较大,这也是人脸识别主题与其他主题的相似程度较低的重要原因。

3.5 对比分析

为验证该方法在文本向量化上的有效性,本文采用LDA主题模型、k-means聚类、doc2vec三种方法的实验结果作为对照组来进行比较。

采用LDA主题模型来推测专利技术主题分布,根据困惑度指标来确定最佳主题个数为74个;采用K-means来对专利摘要文档进行聚类,通过手肘法确定最佳聚类数为8个;采用doc2vec[35]对每篇专利摘要进行向量化表示,在数据降维、文本聚类过程中采用的参数均与Sentence-BERT实验一致,最终一共得到了7个主题。

本文采用主题一致性指标来衡量不同算法获得的主题效果。主题一致性通过衡量主题之间高频词汇的语义相似程度来为单个主题打分,表示了主题内部有意义联系的程度,其数值越大表明模型越佳[36]。本文分别选择“u_mass”和“c_v”两种方式计算主题的一致性,通过实验对比,计算Sentence-BERT、 LDA、k-means和doc2vec四种方式的主题一致性,具体结果详见表3。

表3 主题一致性和主题数量的对比实验

从表3可见,采用Sentence-BERT模型对文档进行向量化,得到的u_mass和c_v值均最高,说明本文方法的主题一致性效果最好。从实验数据对比来看,LDA模型获得的主题一致性是几种方法中最低的,这也说明专利文献存在技术术语多样化的特点,使得依据词汇之间的共现关系识别专利技术主题会造成结果的不稳定。从主题聚类的数量来看,本文获的30个类簇,可以较好的细分专利文献集的主题信息,提升了挖掘的效果。通过比较四种方式的主题建模结果,本文认为,采用Sentence-BERT模型来对专利摘要进行向量化表示,能够使得文档在向量空间中得到更好的表示,从而愈发丰富文档的语义描述,最终在主题的精细化挖掘中起到较好的效果。

4 结束语

采用文本挖掘的方法对专利技术主题进行聚类,可以有效挖掘专利的共性技术。本文采用深度学习的思想,结合向量降维、相似度计算、聚类分析、主题词提取等方法,对2015-2019年的长三角地区人工智能领域进行分析。研究表明,采用Sentence-BERT模型能够在文本向量化过程中更多地考虑上下文之间的语义联系,使得文档更好地在向量空间中被表示,从而可以挖掘出更细粒度、更精细化、更高质量、更深层次的主题,有助于分析探讨主题中的细分特征,显著提升主题的多样性和可解释性。

本文研究方法的采用Sentence-BERT对句子向量化的方法,解决了专利文献为突出新颖性,而常使用独特或不常用的词或短语所造成的词汇向量语义特征稀疏问题。但是,基于Sentence-BERT模型对专利文献的主题识别分析仍有一些需要进一步提高的地方,今后,我们将继续探索在聚类处理时如何平衡粗细粒度之间的关系,以及如何合理的使用fine-tune(微调)策略,完善预训练语料库,提高文本向量化处理准确度,以及如何利用迁移学习实现跨领域专利文献的主题识别问题,是未来该方法进一步深入探索的方向。

猜你喜欢

专利技术文档专利
专利
浅谈Matlab与Word文档的应用接口
全新充电专利技术实现车队充电
有人一声不吭向你扔了个文档
镁冶炼专利技术研究
发明与专利
基于RI码计算的Word复制文档鉴别
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
重复数据删除专利技术综述
专利技术