APP下载

基于密度峰值聚类的专利地图制作方法

2020-06-15黄柏如周志平赵卫东

科技管理研究 2020年10期
关键词:结构化聚类专利

黄柏如,周志平,王 利,赵卫东

(同济大学电子与信息工程学院,上海 201804)

1 研究综述

1.1 专利地图简介

国际上尚未对专利地图的概念进行统一、标准的定义。通常专利地图泛指利用可视化方法对搜集到的专利信息进行整理归纳,以直观的图表形式呈现的方法。通过对专利资料以及与专利资料相关的其他资料的统计分析,得到专利某些属性的分布情况或专利间的关联信息,以图表的方式呈现,从而直观地反映出搜集到的大量专利资料中的信息,使得文本数量多、篇幅长、内容复杂的专利资料以更明晰的形式呈现,为企业或国家的专利战略决策提供支持[1]。

专利地图的概念十分宽泛,视专利地图分析者与使用者的目的和使用的技术不同,专利地图的表现形式和内容多变。根据分析对象与分析方法的不同,专利地图一般可分为3 类:定量专利地图、定性专利地图、定性定量结合专利地图[2]。专利地图功能主要包括行业技术分析管理、技术预见、企业技术预警、竞争情报挖掘、企业战略制定等方面[3]。

1.2 专利地图研究现状

最早的专利地图在20 世纪60 年代诞生于日本,彼时日本由于战争原因,科技水平十分落后,而同时期欧美许多国家已经积累了大量的先进技术,因此,日本需要大量引进国外的先进技术,同时又需要注重自身的科技发展。在这样的情况下,专利地图作为一种实用的专利分析工具逐渐在工业界得到了应用,帮助日本企业突破了欧美国家的技术垄断,乃至如今使日本成为世界上最大的技术输出国之一。

目前专利地图在国外已经得到了广泛的应用,除日本外,韩国与美国在专利地图的研究方面也有所发展,制作了很多不同领域的专利地图。与此同时,对于专利地图制作方法的基础研究亦在不断地更迭,如日本特许厅提出的FI 分类方法以及更为精细的F-term 分类方法能够更高效地根据专利文献内容对专利文献进行分类[4]。

此外,随着专利数据的迅速膨胀,仍采用人工抽取信息、整理信息、绘制专利地图的方式过于费时费力甚至于无法完成,而随着机器学习技术的兴起,对于专利数据的智能化分析也随之开始发展,如Lamirel 等人[5]使用MultiSOM 算法,根据专利文献材料自动化地生成了多种不同专利地图;Chang等人[6]提取了专利文献中的关键词与关键短语来构建专利地图,以此监测碳纳米管场发射显示器的技术趋势。

我国目前对专利地图的研究仍较少,在中国知网数据库中检索“专利地图”关键词,统计2003—2018 年间专利地图相关中文文献数量,结果如图1所示。国内最早对专利地图进行研究的是吴新银等人[7-9],他们通过研究国外的专利地图文献及具体的应用实例,引入了专利地图的基本概念,并整理了其分类与功能等,探讨了专利地图的制作方法。自2009 年以来,国内关于专利地图的文献发表量相较之前大幅增加,国内学者对于专利地图的研究重视有所提升;然而就绝对值而言,有关专利地图的中文文献数量仍处于较低的水平,与此同时,其中大部分文献注重的是专利地图的应用或基于专利地图对某一领域的研究[10-11],而针对专利地图制作方法、表示方式等基础理论的研究较少。

图1 国内专利地图相关研究的文献量与增长率年度分布

1.3 目前研究存在的问题

制作专利地图的基础是数据,即大量的专利文献。专利文献包含结构化项目,即语义格式统一的项目,如专利申请号、申请日期等,以及非结构化项目,即无固定格式的项目,如权利要求、摘要、发明的说明书等。通常定量分析专利地图只利用结构化项目,而对非结构化项目利用较少,得到一系列诸如柱状图、折线图形式的图表。而定性分析如技术路线图,对非结构化项目的利用主要通过人工分析,依赖于专家的主观判断,也并未完全利用结构化项目,仅在结果中进行标注而已[2]。邱洪华等人[12]基于K-Means 聚类方法,从专利间关键词的语义关联出发,提出了一种新颖的专利地图制作方法,将专利申请时间与专利内容结合呈现出来,但对非结构化信息的利用仍依赖于人工筛选。专利文献通常含有大量技术术语,人工解读分析十分困难,因此在专利地图的制作中对专利技术特征的智能提取与利用十分重要。

综合以上分析发现,我国对专利地图的研究更多的仍是应用方面,而对其制作的基础理论研究较少,目前仍存在一定的问题:(1)专利地图的可视化表现形式局限,多为简单的图表,表达的信息量有限;(2)专利地图制作过程中没有充分利用结构化项目与非结构化项目,只通过其中一种信息制作专利地图,没有使用另一种或只在完成的专利地图上添注另一种信息;(3)对专利地图非结构化项目信息的利用依赖人工分析,缺少智能化分析手段。

2 研究方法

本文提出一种新的专利地图制作与表达方法,将采用文本挖掘的方法利用专利文本信息构建专利向量空间模型,通过密度峰值快速搜索聚类(clustering by fast search and find of density peaks,CFSFDP)算法得到具有相似关键词组成的一系列专利,并通过分析同一聚类内的专利关键词异同,结合非结构化项目构建以有向图表示的专利地图。具体制作方法流程如图2 所示。这样的专利地图充分地利用了专利的多种信息,能够清晰地表达目标技术领域中的关键技术与创新方向的发展过程,同时也更具可信度。

图2 基于密度峰值快速搜索聚类的专利地图制作流程

2.1 专利文献特征提取与距离定义

2.1.1 专利文献关键词提取

在确定研究目标后,即某个特定的专业领域,需要拟定选择一系列关键词进行专利文献的检索。为更全面、充分地对检索得到的专利文本进行分析,检索时仅使用关键词是远远不够的,需要从各文本中提取更多的关键字,为此通过计算TF-IDF(term frequency-inverse document frequency)提取关键词。

逆文本频率的具体计算公式为:

这样得到的TF-IDF 值一方面考虑到了专利文本中词汇与其主题的关联性,亦考虑到了词汇在整个专利文本库中对于这一文本的代表性,能够较为准确地衡量每个词的价值。

2.1.2 专利向量空间模型与距离定义

其次,定义两篇专利文本间的距离为其向量表示的欧氏距离。在考虑文本间的距离关系时,只考虑文本中各关键词的分布情况,因此需先将其归一化,具体方法如下:

至此完成了专利向量空间模型与距离的定义。

2.2 基于聚类的专利地图制作

2.2.1 使用CFSFDP 算法聚类

经典的聚类方法K-Means 的核心思想是指定聚类中心,随后每次迭代时根据现有的聚类中心将每个点归类为最近的聚类中心的聚类,再根据这样的聚类计算更合理的聚类中心。K-Means 方法思想简单易于实现,但对非凸的类簇效果较差。而基于密度的聚类方法如DBSCAN(density-based spatial clustering of applications with noise)相较K-means而言,虽对类簇的形状无限制,对非凸形状的类簇效果较好,但是需要给定一个密度阈值,且聚类结果对于这个阈值十分敏感。此外还有基于分布的聚类,则需要预先给定分布,通过参数化的方式聚类。

从技术发展的角度来看,在技术的推陈出新过程中,新技术专利文献与旧技术专利文献间存在若干共同的技术关键词,而新专利文献中必然会存在旧技术文献中没有的技术关键词,而旧技术文献中的旧技术或因不再使用或因成为默认程序而不再出现。基于以上考虑,根据式(4)所定义的专利向量的分布通常是不规则的,呈现出类树状的聚类分布结构,真实的聚类结果通常不会是球面甚至是非凸的,亦难以找到合适的分布模型或其他密度聚类算法中的阈值。聚类算法CFSFDP 对任意形状的类簇均可达到聚类目的,算法中的阈值可根据数据自动指定,且对此阈值不敏感[13]。

本文根据CFSFDP 算法以及式(7)中所定义的距离,对于每个专利文本向量计算其两个数值特征:局部密度和到最近的更高局部密度的点的距离构建专利地图所使用的专利文本数量巨大,因此通过高斯核函数将专利文本向量映射至高维空间。给定距离阈值的两个特征计算分别如下:

使用CFSFDP 算法进行聚类后,所有专利文本被分为若干类则每类内的专利文本具有相似的关键词,即相似的专利技术、创新方向等等,结合专利资料的其他信息,能够进一步挖掘各专利间的关联。

2.2.2 构建以有向图表示的专利地图

根据各个聚类内的关键词信息的异同,构建初始语义网络,以有向图表示专利地图。初始的专利地图包括n个节点,即提取的关键词两个节点间存在边当且仅当:

即当同一聚类中的两篇专利文献具有至少K个相同关键词且其中1 篇专利文献中存在独有的关键词那么可以认为从关键技术t发展出了关键技术即由引一有向边。

2.2.3 结构化信息的结合

上述步骤根据专利文本间的语义关联构建了初始的专利地图,在语义网络的基础上,利用结构化项目能够生成更为准确、含有更多信息量的专利地图。同样的n个节点,两个节点间存在边当且仅当:

图3 根据同一聚类中的专利文本建立有向边

至此,专利地图的构建充分利用了结构化信息与非结构化信息,并通过有向图中的点与边结合表达了两方面的信息。

3 结论与展望

本文提出了一种新颖的专利地图制作与表达方法,其主要特点包括:(1)使用文本挖掘方法智能化地从非结构化的专利文本中提取关键词信息;(2)针对专利文本在所构建向量空间中的分布特点,选取了适合的CFSFDP 聚类算法进行聚类;(3)制作过程中同时利用了专利文本间的语义关联与结构化信息;(4)对专利地图表达方式进行了创新,以不同于传统图表的,更为自由、包含更多信息的形式呈现。

本文主要利用的是专利文本与专利申请日信息进行专利地图的构建,得到的专利地图以关键技术或创新方向为节点,能够展现目标领域专利技术的发展过程。未来对于专利地图制作的基础研究在以下两个方面仍需深入:一是在不依赖专家分析的智能化专利地图制作过程中,如何充分考虑更多方面的专利信息以提高专利地图的准确度和可信度;二是针对传统专利地图表达信息单一的问题,如何在专利地图中以直观的方式呈现出更多有价值的信息。

猜你喜欢

结构化聚类专利
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
面向WSN的聚类头选举与维护协议的研究综述
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法
2007年上半年专利授权状况统计