基于领域本体的专利技术—功效文本挖掘方法
2018-01-15陆佳伟慎金花张更平杨锋
陆佳伟+慎金花+张更平+杨锋
摘要:专利技术-功效图是专利地图的一种。通过制作专利技术-功效图,可以有效识别相关技术空白点和突破点,有助于加强专利战略部署。本文以MOCVD(金属有机化合物化学气相沉淀)技术为例,首先通过技术骨架的搭建确定技术-功效词,构建了一个技术-功效导向的基于叙词表的领域本体。进而借助文本挖掘技术通过专利摘要分析初步实现了对文本语义的理解,完成了技术-功效图的半自动制作。通过将研究结果与某公司人工制作的技术-功效图进行对比,验证了此方法的准确性和有效性,并对二者的差异进行了解释。
Abstract: Patent technology-function diagram is a kind of patent map. Through the production of patent technology-function diagram, we can effectively identify the relevant technical gaps and breakthrough points, help strengthen the patent strategy deployment. This paper takes MOCVD(Metal-organic Chemical Vapor Deposition) technology as an example, first to establish the technical words and efficacy words based technical backbone structures in order to build a technology and function-oriented domain ontology on the basis of thesaurus. And then by means of text mining patent abstract analysis, this method realizes text semantic understanding initially as well as figures out the technology-function diagram semi-automatically. By comparing with a company with its artificial production of technology-function diagram, the accuracy and effectiveness of this method is verified and the difference between the two is explained.
关键词:领域本体;专利摘要分析;技术-功效图
Key words: domain ontology;patent abstract analysis;technology-function diagram
中图分类号:G350.7 文献标识码:A 文章編号:1006-4311(2018)02-0245-04
0 引言
专利文献是世界上最大的技术信息源,包含了世界科技技术信息的90%-95%[1]。通过对专利文献进行挖掘,可以制作成专利地图,从而获取专利中蕴含的行业动态、技术发展趋势等有价值的信息。专利技术-功效图是专利地图的一种,通过分解专利技术手段与达成功效,制成矩阵型的统计表或图。从专利技术-功效图的研究中可以一目了然地掌握“专利雷区”和“专利空白区”分布情况,可有效加强“专利部署”,在了解技术现状、分析竞争对手和协助制定技术发展战略等方面具有重要作用。
传统技术-功效图的制作过程一般分三个阶段,即技术-功效的确定、人工标引及技术-功效图的制作。这种方法制作的专利技术-功效图,准确性较高,但要求研究人员具备相当扎实和丰富的专业知识,且通常耗时较长,花费不菲,方法通用性不强。基于上述限制,专利技术-功效图的制作并未得到广泛的应用。本文采用技术骨架法构建领域本体,通过本体寻找技术词和功效词,再利用文本挖掘工具TDA对专利摘要进行分析,得出技术词和功效词共现矩阵,达到半自动化制作专利技术-功效图的目的。采用此种方法不仅可以减少对专家的依赖,还能大大缩短专利-技术功效图的制作时间,得到的结果也更为客观、准确。
1 文献综述
随着计算机技术和信息技术的不断发展,一些新的方法逐渐被引入到专利技术-功效分析过程中。现有研究主要从文本挖掘技术运用的角度出发,一部分提出了理论模型和方法。Yuen-Hsien Tseng(2005)[2]等以“碳纳米管”技术为例,证明了对于大部分有明确分类的特征词,机器抽取能达到和人工标引相似的效果,为文本挖掘在专利地图制作中的运用提供了理论依据。陈颖,张晓林(2011,2012)[3,4]综合考虑了专利结构、语法和线索词三种特征因素,提出了一种基于专利结构-语法-线索词特征的技术词、功效词识别方法,使技术词和功效词识别更具有效性和科学性。翟东升,蔡万江等(2013)[5]通过引入MapReduce分布式计算的概念,采用集群系统解决了传统方法处理海量数据低效的问题,提高了专利技术-功效图的制作效率。张博培(2015)[6]将技术-功效构建分为功效词提取系统、技术词提取系统和技术-功效矩阵的构建等三个部分,运用自然语言处理、机器学习以及文本挖掘等技术进行中文专利数据技术-功效矩阵的半自动构建,为专利技术-功效图的制作提供了技术支持。
另一部分则产生了现实成果和实例。王丽,张冬荣(2013)[7]等设计并实现了一种标引功效矩阵自动化工具Patent-TEM,该工具通过词库构建、主题标引、功效矩阵、文本提取等步骤对专利文本进行挖掘和分析,自动生成专利功效矩阵图,能够大幅度提高传统功效矩阵分析的工作效率,实现专利微观分析工作的自动化与工具化,但其并未涉及对技术词和功效词选取的研究。霍翠婷等(2013)[8]利用日本FI/F-term分类体系进行数据分类标引预处理,并以实例验证了基于FI/F-term分类构建专利技术/功效矩阵的应用流程与方法,然而该方法一般针对公开信息较多的技术,通用性有所不足。翟东升,蔡力伟等(2015)[9]以3D打印技术为例,通过清洗专利结构化信息与抽取非结构化信息特征词,结合数据仓库技术,实现了技术-功效图的构建与多维分析。endprint
已有的研究大多关注的是技术功效词的选取以及共现矩阵的实现,对于前者,若缺乏对所选取技术-功效词的深入理解和分析,将导致制作的技术-功效图难以得到实际应用。对于后者,自然语言处理等技术尚不成熟,其对词语的识别停留在语形层面,对语义的理解不够深入,易遗漏关键技术-功效词,从而造成技术-功效图精度不足的结果。除此之外,现有的研究成果鲜有与人工制作的专利技术-功效图进行对比,其准确性也无从考证。为了对技术-功效词进行科学的选取,本文引入本体的概念,即“概念模型的明确的规范说明”[10]。作为特定领域的知识集合,本体较全面地包含了本领域的相关技术、结构、功能等重要信息,具有覆盖面广、代表性强、专家依赖性低等优点,可为技术-功效词的确定提供依据。本文以MOCVD技术为研究对象,采用骨架法和叙词表法结合的方法快速构建了一个基于叙词表的领域本体,对技术-功效词进行规范选取、异形合并、同义合并、下位词扩展,结合文本挖掘技术对专利信息进行技术-功效挖掘,提高了半自动化制作专利技术-功效图的准确性,弥补了现有研究的不足之处。为了检验方法的有效性和科学性,本文将研究成果与某公司人工制作的MOCVD技术专利技术-功效图进行对比,分析了误差产生的原因,并阐明了今后的改进方向。
2 MOCVD技术本体构建
MOCVD(Metal organic chemical vapor Deposition)即有机金属化学汽相淀积,它是在 1968年由美国洛克威尔公司的Manasevit[11,12]等人提出来的制备化合物半导体薄片单晶的一项新技术。由MOCVD技术产生的白光LED半导体照明,更具有十分诱人的发展前景,是照明领域中一场革命,被列为各国的发展战略之一[13]。由于种种原因,我国MOCVD技术发展严重滞后,设备制造主要集中在欧美及日本等极少数国家。快速有效地识别MOCVD技术的核心要点、研发热点及技术突破点,有利于尽早掌握技术优势,通过专利布局构建专利壁垒,建立市场竞争优势,规避专利雷区,从而加快我国LED产业的发展。
由于MOCVD技术复杂,若直接对其技术-功效进行分析,容易造成“一叶障目,不见泰山”的局面,影响结果的准确性和全面性,构建领域本体能够打破这种局限。目前常用的本体构建方法包括叙词表法、骨架法等。技术骨架是技术的轮廓和基本框架,搭建它可以快速地获取技术的核心方法等。叙词表又称为主题词表,它是一种语义词典,由术语及术语之间的各种关系组成,能反映某学科领域的语义有关概念[14],它拥有丰富的词汇及词间关系,所以重用叙词表可以极大地提高本体构建效率并降低成本[15]。因此,本文采取骨架法和叙词表法结合的方法,加快MOCVD技术本体构建的速度,更客观地获取信息。
2.1 MOCVD技术骨架的确定
MOCVD技术由反应室(reactor)、加热系统(heating system)、冷却系統(cooling system)、气体运输系统(gas delivery system)、控制系统(controlling system)等五个主要部分构成。MOCVD的功效大致可分为实物装置类和效果类两种,实物装置类通过技术能够形成一定的装置以辅助性能提升,效果类通过技术能够使相应部位装置的性能得到改进,实现更好的效果。本文从这两类出发分析功效词的层次关系。
2.2 技术词、功效词的确定
技术词、功效词作为技术-功效图制作的直接依据,必须具备足够的准确性和代表性。
以MOCVD技术骨架为基础,对各个技术和功效涉及的专业术语进行查找与分析,得到结果如下:
技术术语:
①反应室部分:gas inlet(进气口)、substrate(基片)、susceptor(衬底托盘)、injector head(注射头)、rotating disk(旋转盘)、reaction gas(反应气)、precursor(前驱体)、regulator(校准器)、protective layer(保护层)。
②加热系统部分:Infrared radiation(红外辐射)、induction heating(感应加热)、heat treatment(热处理)。
③冷却系统部分:cooler(冷却器)。
④气体运输系统部分:carrier gas(载气)、partition board(分隔板)、run line(管道)、Purge gas(吹扫气)、exhaust duct(排气管)。
⑤控制系统部分:sensor(传感器)、Valve(阀门)。
功效术语:
①物质设备:wafer(晶圆)、optics(光学器件)、circuit(电路)、laser(激光)、transistor(晶体管)、solar battery(太阳能电池)。
②性能:storage(存储)、flowability(流动性)、flow control(流量控制)、temperature control(温度控制)、gas separation(气体分流)、pressure control(压力控制)、heat resistance(抗热性)、corrosion preventive(防腐蚀)、cleanliness(纯化)。
以上术语是MOCVD技术涉及的核心内容,涵盖了此项技术的重要材料、关键设备及主要功能,能充分体现其技术概貌,可以作为制作技术-功效图的重要参考。然而,这些词汇仅仅是针对技术本身的表达,要得到高分析价值的技术词和功效词,还需要结合分析目的及技术特点对所得术语进行进一步处理:
①重要性筛选,排除非MOCVD技术研究的主要方向或研究价值不大的术语。如susceptor、valve等虽然都是MOCVD设备的组成部分,通过查阅《中国专利分析报告2016》,发现它们多数应用于材料科学领域,而非MOCVD技术研究重点,故将其移出技术词列表。endprint
②下位类合并,合并过于关注细分领域而不便对技术进行宏观分析的术语。如,Infrared radiation、induction heating、heat treatment都是加热方法,在技术领域均通过heater(加热器)实现,用heater作为技术词更能体现加热系统整体在MOCVD技术中的重要地位。
③模糊词细化,具体化抽象宽泛或实际不存在的术语。如cooler是对冷却设备的总称,它包括的具体设备有air conditioner(空调)和nozzle(喷头)等,其中与MOCVD技术有关的是nozzle,抽象词具体化有助于分析技术各个部分的研究现状。
经过调整、验证,本文最终确定了13个技术词和14个功效词。
2.3 MOCVD技术本体的构建
传统的基于叙词表的领域本体构建过程主要分为根据叙词表确定领域中核心概念集、添加概念属性、确定概念之间关系、添加概念实例等四个步骤[16]。由于在技术-功效图制作中,只须对技术词(功效词)及其下位词进行标引,不需要明确概念之间的关系和对本体添加实例,因此,本文中以2.2节提出的技术-功效词为MOCVD技术的核心概念集,通过添加概念属性寻找各词的下位词,构建基于技术-功效词语义解释的本体。
数据来源:
为了便于与第三方公司人工制作的MOCVD专利技术-功效图进行对比,验证本文提出的方法的有效性。本文采用的数据源为该公司所提供的原始专利数据共1598条,删除摘要为空的专利,最终得到样本数据1488条。
2.4 专利摘要挖掘
说明书摘要应当写明发明或者实用新型专利申请所公开内容的概要,即写明发明或者实用新型的名称和所属技术领域,并清楚地反映所要解决的技术问题、解决该问题的技术方案的要点以及主要用途[17]。因此,对专利进行技术-功效分析的最佳方法就是对专利摘要進行文本挖掘,寻找摘要中隐含的重要信息。对于制作专利技术-功效图而言,需要通过专利摘要挖掘获取技术词和功效词的共现矩阵。
本文采用Thomson Reuters公司开发的TDA,利用其在专利信息处理领域的强大功能及支持对大量数据进行文本挖掘的特点,达到获取技术-功效共现矩阵的目的。
对专利摘要进行文本挖掘主要内容是在TDA中建立技术-功效词叙词表,具体分为技术-功效词集的建立以及技术-功效词范式的设计两个步骤。
①技术-功效词集的建立。
由于自然语言表达中同义词和异形词的存在,造成对技术词、功效词及其下位词的识别困难,容易遗漏。为了减小误差,必须将这些关键词的形式和内容规范起来,使其归类为相应的技术词或功效词,统一计数。因此,需要在TDA中以2.3节中构建的本体为依据建立技术-功效词叙词表,为使用叙词表清理专利摘要,从而生成技术-功效词共现矩阵打下基础。
②技术-功效词范式的设计。
对于各词集来说,一般词组数目较多。倘若将所有词均逐个添加入叙词表,不仅工作量大,而且还可能造成大量词集未包含的同义词、异形词等的丢失。鉴于同一个技术-功效词包含的词形较相似,可设计一些技术-功效词范式,对形似词语进行批量匹配,缩小叙词表规模。如rotating disc、rotating disk、rotating discs和rotating disks仅有末位字母不同,在无其他无关词语干扰的情况下,设计范式rotating dis对这些词进行匹配。
为了缩小技术-功效矩阵的大小,基于技术词叙词表建立组technology,基于功效词叙词表建立组function,依次经过模糊清理、NLP词组清理及技术词叙词表和功效词叙词表清理后,以technology和function两组分别作为横纵坐标,生成技术-功效共现矩阵,进一步生成MOCVD技术的专利技术-功效图如图1所示。
2.5 对比验证,误差分析
为了验证半自动化方法制作专利技术-功效图的准确性和可行性,本文对比分析了第三方某公司人工制作的MOCVD技术的专利技术-功效矩阵和技术-功效图。
为了定量地评价本研究结果的准确性,此处引入矩阵相似度[18]的概念,即用本文制作的技术-功效矩阵与该公司人工制作的专利技术-功效矩阵进行相似度计算,得到相似度r=0.8513,说明二者相似度较高。从技术运用角度分析,基片和加热器等被广泛应用于实现各种功效,而保护层和分隔板的应用较少。从功效达成角度分析,研究热点集中在晶圆制作、温度控制以及流量控制等方面,对流动性、防腐性的关注相对较少。从技术-功效结合角度分析,加热器和基片不仅在晶圆制作领域发挥着重要的作用,还是防腐性的主要技术来源。这些与该公司报告中的技术-功效图的结论一致,而该公司的MOCVD专利技术-功效图是由各种领域专家人工阅读花费近3个月完成的,表明该技术-功效图构建方案很大程度地减轻了人力负担,能够作为辅助决策的工具。
3 总结与展望
技术-功效图是对专利技术内容进行深层次分析的有效方法,能够有效辅助企业技术决策,有利于企业获取技术竞争优势。本研究通过借鉴前人的研究成果,综合利用本体构建与文本挖掘技术实现了技术-功效图的半自动化制作,减少了对人力的需求,缩短了制作时间,降低了制作成本。本方法相对于以往的技术-功效图制作方法具有如下优点:
①技术-功效词的选取更全面准确。
通过技术骨架的搭建,明确了技术的总体轮廓,有利于提高技术-功效词选取的全面性。对技术骨架各部位进行技术-功效词挖掘、筛选与归纳,使所选取的词汇更具普遍性和代表性,提高了专利技术-功效分析的质量。
②灵活构建本体,加深了对专利的语义理解。
领域本体的构建,从语义的角度对技术-功效词的内涵进行了解释。通过技术-功效词下位词的提取,可以将每个技术-功效词所包含的具体本质特征、细分技术、特色工艺等表示出来,将下位词作为对该词的补充描述,提高文本挖掘的语义识别准确率。endprint
③通过对比,验证了方法的可行性。
根据归纳的基于领域本体的专利技术-功效图挖掘方法,实现了基于MOCVD技术的技术-功效图制作,通过对比,发现该方案实现的技术-功效图与第三方某公司运用人工方法制作的专利技术-功效图相似,但本方案的制作效率更高,充分证明了该方案的可行性和有效性。
MOCVD技术是一项错综复杂且专业性极强的技术,本研究实现了在较短时间内实现了其专利技术-功效图的制作,且准确性较高,充分说明了基于领域本体的专利技术图挖掘方法的可行性和有效性。鉴于MOCVD技术的代表性和本方法的通用性,可尝试将其应用于其他领域,在进行其他研究时应注意以下几点:
1)数据源要准确,检索式要精确。对专利摘要进行文本挖掘的第一步是获取专利摘要,首先需要保证摘要的来源可靠且包含需要的重要信息,在检索式的制定过程中要结合具体研究领域的特点,保证数据的查准率,减少需要处理的数据量,排除无关干扰,得到最准确的专利数据。
2)寻求专家建议。本文的目的是提出一种基于文本挖掘的快速制作专利技术-功效图的方法,降低对专家的依赖,减少其工作量,而并非完全脱离专家的帮助。通常需要研究的技术都具备非常强的专业性,非专业人士难以短时间内掌握全部技术信息,因此有必要在一些关键环节,如本体构建上,寻求专家建议,如此有助于快速抓住技术核心,缩短研究时间。但是在对专利的阅读和分析上,采用文本挖掘技术,将专家从繁重的阅读任务中解放出来,既可以缩减研究成本,又能使专家的作用得到更高效的发挥。
3)以技术-功效词为核心概念集构建领域本体。领域本体的构成非常复杂,包含大量对技术-功效图制作无用的信息,因此,本体的构建要具备足够的针对性。本方法中,以技术-功效词为核心概念集,以技术-功效分析为导向进行领域概念扩充,寻找其下位词,快速寻找技术-功效词的语义解释,而不必拘泥于本体实例的建立和概念間关系的确定,有效缩短了本体构建时间,并排除了无关信息对技术-功效图制作的干扰。
4)技术-功效词叙词表的建立要全面。技术-功效图制作的直接依据是技术-功效词的共现频数,完整的技术-功效叙词表应尽可能多包括下位词、同义词、异形词,以提高技术-功效词的识别率,进而提高技术-功效图制作的准确度。
参考文献:
[1]陈燕,黄迎燕,万建国,等.专利信息采集与分析[M].北京:清华大学出版社,2006:19-24.
[2] Yuen-Hsien Tseng, Chi-Jen Lin, Yu-I Lin. TEXT MINING FOR PATENT MAP ANALYSIS[C]. //IACIS Pacific 2005 Conference Proceedings. Taipei: Information Processing & Management,2005,43(5):1216-1247.
[3]陈颖,张晓林.专利技术-功效矩阵构建研究进展[J].现代图书情报技术,2011(12):1-8.
[4]陈颖,张晓林.专利技术-功效矩阵构建词汇模型研究[J].情报科学,2012,30(11):1704-1708.
[5]翟东升,蔡万江,陈晨,等.基于MapReduce构建专利技术-功效图的研究[J].情报杂志,2013,32(6):28-46.
[6]张博培.面向专利的术语识别与技术-功效矩阵构建技术[D].北京:北京工业大学,2015.
[7]王丽,张冬荣,张晓辉,等.利用主题自动标引生成技术-功效矩阵[J].现代图书情报技术,2013(5):80-86.
[8]霍翠婷, 蒋勇青, 凌锋, 等. 日本 FI/F-term 分类体系在专利技术/功效矩阵中的应用研究[J].情报杂志,2013,32(11):140-144.
[9]翟东升,蔡力伟,张杰,等.基于专利数据仓库的技术-功效图挖掘方法研究——以3D打印技术为例[J].现代图书情报技术,2015(7):131-138.
[10]N Guarino,R Poli. Proceedings of the International Workshop on Formal Ontology in Conceptual Analysis and Knowledge Representation[J]. Analytic Phenomenology,1993: 907-928.
[11]Manasevit H M. Single Crystal Galluim Aresenide on Insulating Substrates[J]. Appl phys Lett, 1968(12):156.
[12]Manasevit H M. The Use of Metalorganils in the preparation of Semicondutor Materials [J]. J Cryst Growth, 1972, 13/14:306.
[13]袁章其,伍波,龚杰洪.我国MOCVD技术发展战略思考[C]//全国电子束、离子束、光子束学术年会,2005.
[14]李景.散词表与本体的区别与联系[J].中国图书馆学报,2004,30(1):36-39.
[15]段瑞龙,宋文.国内外叙词表转换本体方法研究综述[J].情报杂志,2012,31(7):66-71.
[16]孙倩.基于叙词表的领域本体建模方法研究[D].济南:山东大学,2007.
[17]中华人民共和国国务院.中华人民共和国专利法实施细则[Z].2010-01-09.
[18]翟东海,李同亮,段维夏,等.基于矩阵相似度的最佳样本块匹配算法及其在图像修复中的应用[J].计算机科学,2014,41(1):307-310.endprint