APP下载

基于专利分析的技术树构建

2020-09-16李健博张丽玮

科学与信息化 2020年14期
关键词:文本挖掘自然语言处理

李健博 张丽玮

摘要:技术树是用来表示某一领域中产品组成,技术和技术功能之间关系的树形图。本研究的目的是使用计算机相关技术,多维度地、快速地构建产业技术树。本研究主要使用自然语言处理技术提取专利文本中的主体一动作一客体结构(SAO),然后使用数据挖掘技术对上述结构分类、处理、标注,最终构建技术树。本文使用“捕获碳(吸附和溶剂)”专利数据集构建了产业技术树,并从产品、技术和功能的视角分别展示了技术树的特征。

关键词:文本挖掘;自然语言处理;技术树;SAO结构

引言

技术树是用来表示特定技术领域或单体组织中技术特征及技术间关系的树结构图,通常包含某特定技术领域的产品组件、技术以及技术的功能及其使用效果之间关系的树形结构图,是技术规划的重要决策工具。通过技术树的构建,用于帮助技术管理人员梳理并展示企业的技术体系架构,助力于企业技术战略决策的制定。

目前,对于技术树的构建常用的主要有两种方法,分别是基于TRIZ理论中的技术进化树理论进行构建和通过提取技术、产品等相关信息,根据原始信息的逻辑结构进行技术树的构建。上述研究成果已经取得了一定的成果,但由于技术树构建很大程度上依赖专家和构建者的知识和经验,从而存在人为主观性强、自动化差等问题。

针对上述问题,本研究使用文本挖掘和自然语言处理技术对专利进行,实现自动化技术树构建研究,从而对企业技术结构进行多维度展示。其中,具体流程框架如图1所示:

1技术树构建

本文使用文本挖掘和自然语言处理技术对专利文献进行深入解读和分析,提取SAO结构,并对A0结构分类、标注等,最终构建技术树。

1.1提取SA0结构

提取SAO结构的步骤包括:筛选专利数据,抽取SAO结构。

①选择专利语料。针对需要研究的企业,确定检索式,检索获取其相关专利文献。为确保研究的有效性,本文选取“摘要”和“权利要求书”作为分析语料,进行SAO结构的抽取。

②抽取SAO结构

提取SAO结构主要依赖自然语言处理技术,在此之前需要先对文本进行预处理,包括分句、分词、去除停用词、词性标注、依存句法分析等操作,从而提取SAO结构,如图2所示。

1.2深度标注SA0结构

在提取和分类SAO的基础上,对s和AO进行标注。词组包括产品、技术、技术属性和材料类型,AO包括从属类型、功效类型和属性优化。

(1)衡量SAO结构相似度

提取的SAO结构数量众多,其中包含很多意思相似的词组和短语,例如“二氧化碳的回收”、“分离C02”、“除去二氧化碳”,因此需要将他们聚类,并且用更具代表性的词语标记他们。

本文使用机器学习中第三方模块sklearn(Scikit-learn)中的TfidfVectorizer将文本转化为向量,然后用向量的余弦值表示SAO相似度。

提取的SAO结构具有以下特征:可能有很多无效数据,而且无法提前获知聚类的簇的数量。基于密度的聚类算法不需要指定簇的数目,而且能够识别噪声数据,所以本文使用DBSCAN聚类算法对短语和AO分类。

(2)s和0的类型标注

根据聚类的结果将s和0标注为四种类型,包括产品、技术、技术属性和材料(表1)。

(3)A0类型标注

根據聚类的结果将AO标注为三种类型,包括从属类型,功效类型和属性优化。(表3)

1.3构造技术树

技术树的类型及构造方法

相应的,技术树可以分成“产品”技术树、“技术”技术树和“功效”技术树。

“产品”技术树表示产品和组成产品的部件之间的关系,技术树的节点是被标记为产品的词组,例如“吸收剂”由“循环流化床反应器”、“埋管式换热器”等组成,如图3示。

“技术”技术树表示产品和组成产品的部件之间的技术关系,技术树的节点可以是被标记为技术类型的词组或者是描述技术属性的AO结构。

“功能”技术树表示产品或技术的功能和功能之间的关系,技术树的节点是描述产品或技术功能的AO结构。

2实证研究

为确保上述研究结果的准确性和有效性,本文应用“碳捕获”领域的专利数据构建技术树,验证本文提出方法的可行性。

2.1SAO结构抽取和标注

本研究使用哈工大自然语言处理工具ltp进行语义依存分析,结合语法规则,使用Python~言编写程序提取SAO结构。程序处理“中国石油化工股份有限公司”的数据集得到331个SAO结构,部分数据见表3

然后,使用基于向量空间模型的TF-IDF将SAO结构转换成向量,使用DBSCAN聚类算法对短语和AO分类并标注类型。

2.2技术树构建与分析

本实验构建了一个程序,其使用了Python的Pandas库从SQL Server取出标记好的SAO结构,然后使用Python的绘图库Matplotlib将技术书画出来,保存成图片。该程序生成了三种类型的技术树图,包括“产品”技术树、“技术”技术树和“功能”技术树,分别如图6、图7和图8所示。

(1)“产品”技术树

一种脱除混合气体中H2s、CO2和有机硫的固体吸附剂”的“产品”技术树。(图6)

(2)“技术”技术树

“一种聚对苯二胺/石墨烯基氮掺杂多孔碳材料制备方法”构建的“技术”技术树。

(P代表产品节点、T代表技术节点)

(3)“功能”技术树

“离子液体的二氧化碳吸收剂”构建的“功能”技术树。(图11)

(F代表功能节点)

3结束语

本研究弥补了传统方法构建专利技术树的不足,如提高技术树构建速度,降低对专家知识的依赖,减少工作量,多视角展示技术树等。本研究以“碳捕获”专利数据集为例,构建并分析了不同种类的技术树。

猜你喜欢

文本挖掘自然语言处理
数据挖掘技术在电站设备故障分析中的应用
基于组合分类算法的源代码注释质量评估方法
基于LDA模型的95598热点业务工单挖掘分析
文本数据挖掘在电子商务网站个性化推荐中的应用
从《远程教育》35年载文看远程教育研究趋势
面向机器人导航的汉语路径自然语言组块分析方法研究
慧眼识璞玉,妙手炼浑金
词向量的语义学规范化
文本观点挖掘和情感分析的研究
汉哈机器翻译中的文字转换技术研究