APP下载

中文领域知识半自动化OWL本体构建方法研究

2016-06-08董洋溢李伟华陈世亮

计算机应用与软件 2016年5期
关键词:分词本体文档

董洋溢 李伟华 陈世亮

1(西北工业大学计算机学院 陕西 西安 710072)2(西北工业大学明德学院 陕西 西安 710124)



中文领域知识半自动化OWL本体构建方法研究

董洋溢1李伟华1陈世亮2

1(西北工业大学计算机学院陕西 西安 710072)2(西北工业大学明德学院陕西 西安 710124)

摘要传统中文领域本体构建多采用手工构建的方法,这种方法费时费力且重用率不高。针对这种情况,提出一种把中文领域知识文档半自动化地转化为OWL(Web Ontology Language)本体的方法。该方法以武器装备领域为例,先使用分词工具ICTCLAS5.0对中文文档进行分词等预处理,然后使用TF-IDF算法、基于模板匹配算法挖掘领域核心概念、聚类概念等级关系,再使用Jena将聚类后的三元组文档形式化为OWL本体,最后使用 Protégé工具对OWL本体进行可视化管理。实验结果表明,该方法可以有效地节省中文本体构建的时间和人力成本,为全面解决中文领域本体的自动化构建提供了一个新的思路和尝试。

关键词OWL本体本体构建JenaProtégé

0引言

本体用于形式化地保存某一领域的知识,创建本体的过程可以被视为将人类所掌握的知识转换为一种计算机可获取的形式的过程。显然,有不少可能的知识源需要被形式化。知识源可能存放在领域专家的大脑中、互联网中、数据库中或者书本及文档中[1]。本文主要讨论如何将非结构化的中文文档中的领域知识转化为计算机所能处理的本体。国内外主要的本体构建方法有TOVE法、骨架法、IDEF5法、METHONTOLOGY法、SENSUS法、KACTUS工程法、七步法等综合性方法[2]。文献[3-5]分别对这些方法进行了比较研究。通过这些分析比较,可以看出[6]:1) 目前还没有一套完善的工程方法,很大程度上依赖于具体的项目;2) 本体的构建应以具体的项目领域和任务作为起点,以便于进行本体功能的描述和知识的获取;3) 没有专门针对中文文档知识的本体构建的成熟方法,可参考现有软件开发标准,结合项目和实际任务的需求,探索和完善构建本体的标准方法论;4) 大部分构建过程都需要人工构建,自动化程度不高,效率低下。

OWL[7]是W3C目前推荐的本体表示语言,被设计用于供计算机进行信息处理,采用XML语言编写。考虑到中文语义的复杂性,研究中文领域知识的半自动本体构建方法是一个可行且很有意义的研究方向。为了便于研究和说明,本文以武器装备(如武警)领域为例,提出一种将中文领域文档半自动地转化为OWL本体的方法。

1武器装备领域中文本体半自动构建流程设计

参照Uschold的“骨架法”[8],武器装备领域中文本体半自动构建方法可以分为五个步骤。即确定研究领域、中文知识文档预处理、挖掘核心概念、概念间关系抽取及聚类以及OWL本体结构化。如图1所示。

图1 武器装备领域本体构建流程

1.1确定研究领域

在信息化战争的背景下,武器装备领域的信息化已成为一个研究的热点。考虑到武器装备领域的相关词汇量相对集中,概念层次分类清晰,有利于研究和分析。本实验选取了武器装备领域来建立本体,以期为今后的武器装备信息化提供一定的借鉴。

1.2中文知识文档预处理

大量的领域知识永久化地保存在各种中文文档中,中文文档语料属于非结构化知识结构,在计算机进行处理前要先进行预处理。对中文知识文档的预处理包括分词、词性标注及去掉干扰项等工作。

1.3挖掘核心概念

使用预处理过的中文语料来半自动地构建领域本体,最为关键的一步就是要确定该领域的核心概念。可以根据词频或特定参数设计特定的算法来最终确定核心概念,在自动化初步建模后再由领域专家进行完善和修正。

1.4概念间关系抽取及聚类

武器装备领域中概念之间的关系很复杂,包括等级关系(上下位关系)、等价关系、传递关系及不相交关系等。为了便于研究,这里主要讨论等级关系的抽取及聚类。

1.5OWL本体结构化

在武器装备领域概念及概念之间的关系确定后,就需要把这些概念及关系结构化为OWL本体。OWL本体结构化可以采用Jena推理机进行自动构建[9],领域专家最后可以使用Protégé工具进行编辑和查看构建好的OWL本体,进行手工完善和修正,从而完成本体的半自动化构建。OWL本体方便计算机进行管理,也为知识的逻辑推理和形式化奠定的基础。

2武器装备领域中文本体半自动构建的实现

武器装备领域中文本体半自动构建的实现过程主要包括中文知识文档预处理、挖掘核心概念、概念间关系的抽取和聚类及OWL本体结构化。如图2所示。

图2 武器装备领域本体半自动构建的实现

2.1中文知识文档预处理

中文知识文档预处理主要包括对原始语料的分词、词性标注及去干扰处理。中文原始语料的分词及词性标注采用中科院计算所分词工具ICTCLAS5.0,该工具的分词准确率一般可达90%以上,在分词的同时标注出词性。对于特定的领域词汇,也可以加入自定义的用户词典,以确保专有词汇的准确切分。

例如,图3所示的中文领域文档[10]。

图3 中文领域文档

经过ICTCLAS5.0工具进行分词及词性标注后的结果如图4所示。

图4 经过标注后的结果

将一些领域专用词汇(比如:歼7、歼8、歼8-2、歼9、歼10、歼11、苏30)加入用户词典后,分词结果如图5所示。

图5 加入专用词汇后的分词结果

去干扰处理主要包括去掉语气词、介词、量词、形容词及连词等。这些词对提取本体需要的核心概念没有多大帮助,反而会产生干扰。

2.2核心概念挖掘

在对武器装备领域原始中文文档语料进行预处理后,得到了许多与该领域相关的概念(词汇或词条)。接下来就要从这些概念中提取和挖掘出该领域的核心概念。

核心概念的挖掘算法采用统计学习中比较成熟的TF-IDF算法[11]。特征项频率TF(Term Frequency),是指特征项(概念)在文档中出现的次数。反文档频率IDF(Inverse Document Frequency),是指特征项在文档集分布情况的量化。TF-IDF的主要思想是:如果某个词或短语,在一个文档中出现的频率TF高,并且在其他文档中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来进行分类。

TF-IDF计算公式如下[12]:

TFIDFi,j=TFi,j×IDFi

(1)

使用TF-IDF提取领域核心概念的流程如下:

S1:输入预处理过的中文领域文档集D={di,i=1,2,…,N}。

S2:按照式(1)计算出每个概念的领域权重,即TF-IDF值。

S3:遍历每个概念的TF-IDF值,若其TF-IDF值>设定阈值,则提取出该概念。

为了便于研究和分析,本次实验选取了100篇武器装备领域相关的中文文档进行实验[13]。在分词及去干扰后对概念的TF-IDF权值进行了计算,表1给出了其中部分概念的TF-IDF值。

表1 部分领域概念的TFIDF值

比如:若阈值设为0.008的话,则表1中的概念都可以被提取出来。

2.3概念层次聚类

抽取领域核心概念后,为了便于研究,接下来就要确定这些概念之间最重要的关系,即等级关系。确定等级关系也就是对这些概念进行层次聚类。概念的层次聚原理如图6所示。

图6 概念层次聚类示例

基于改进的模板匹配层次聚类算法如下:

输入:若干个概念

输出:包含等级关系的树形的概念图

S1:逐个扫描待处理的概念,查询是否存在于叙词表或航空名词大典航空中,若存在,则把概念标记为1,转向S2;若不存在,则标记为0,转向S3;

S2:查看概念在叙词表或航空名词大典航空中的层次关系概念,再查看这些层次关系概念是否存在于待处理的概念中,若存在则构建等级关系概念树。转向S4;

S3:逐个扫描标记为0的待处理概念,根据自定义的模板匹配等级关系,构建等级关系概念树;

S4:遍历概念标记为1的概念树,根据自定义模板匹配判定是否有和标记为0的概念树中的概念存在等级关系的概念,若存在,则将两棵概念树合并;

S5:输出一棵完整的概念树。

以三元组的形式保存概念树,比如:“歼7歼击机”,“isSubOf”,歼击机,将这些三元组写入到一个txt文件中。

2.4形式化为OWL本体

读取保存等级关系概念树的txt文件,通过Jena提供的Java API将txt文件转化为OWL本体文件。Jena是HP公司开发的开源工具[14],可由http://jena.apache.org/上直接下载,本文使用的是Jena2.12.0。

下面给出了Jena形式化OWL本体的算法示例。

输入:保存概念及其等级关系的三元组形式的txt文件

输出:OWL格式的本体文件

File toONTO(File txtFile)

{

//调用Jena API,建立本体模型,该模型使用OWL语言

OntModel m = ModelFactory.createOntologyModel( );

String URI="http:// owl/KJOntologies#";

//本体命名空间URI

//按行读出txt文件record

while ((record=readLine(txtFile ))!=EOF)

{//将三元组的三个词条保存在fields数组中

String fields[]=record.split(“ ”);

OntClass C1 = m.createClass( URI + fields[0]);

//第一个词条转化为Class

OntClass C3= m.createClass( URI + fields[2]);

//第三个词条转化为Class

if(fields[1]是对象)

//第二个词条转化为ObjectProperty

{

//创建对象属性

ObjectProperty op= m.createObjectProperty(URI+ fields[1] );

C1.addProperty(op,C3);

//添加对象属性

}else

//第二个词条转化为DataProperty

{

DataProperty dp=m.createDataProperty(URI+ fields[1]);

C1.addProperty(op,C3);

//添加数据属性

}

}

owlFile. write(m);

//将内存本体写入OWL文件中

return owlFile;

//返回OWL文件

}

若需要创建实例,Jena也提供了相应的方法。比如:Individual inst = m.createIndividual(URI + “歼8”,歼击机 );//创建了“歼8”作为“歼击机”类的实例。

2.5使用Protégé对OWL本体进行可视化管理

得到OWL本体后,可以使用Protégé4.0工具打开OWL文件,对半自动化构建的OWL本体进行可视化管理,进一步通过

领域专家来完善和修正武器装备领域本体,完成对半自动构建本体微调和扩展。部分界面如图7所示。

图7 使用Protégé4.0工具可视化管理本体

3实验和推广

3.1实验

本次实验选取了100篇武器装备领域相关txt类型的中文文档,经过预处理及TF-IDF算法共挖掘出核心概念78个,概念间等级关系24个。在使用Jena工具自动化生成OWL本体后,采用Protégé可视化工具管理本体,此时加入领域专家人工参与本体的完善和排错,图形化的界面便于人工进行管理。在此实验中,人工修正概念12个,关系6个,即概念的正确率约为85%,关系的正确率可达75%。

3.2推广

中文武器装备领域知识的半自动OWL本体构建方法可以推广到其他中文领域。该方法的基本步骤用在其他领域也是类似的,如图2所示。不同的是,在文档预处理阶段,需要添加特定领域的用户词典。在挖掘特定领域概念时需要查看相关领域的叙词表或领域专用词汇表,这样可以确保半自动化本体构建的准确性更高。

由于领域词汇和知识的不断更新,本体的构建无论是人工进行,还是采用自动化的方法,都应该是一个反复迭代和完善的过程。在本体的初始版本建立后,还要反复地将其应用到实际系统中或与领域专家交流,来评价和修正,直至满意。这个反复迭代的过程将贯穿于本体的整个生命周期[15]。

4结语

传统的中文领域本体构建的方法多采用手工构建,但会耗费大量时间及人力成本。国内外针对中文文档半自动化地构建为OWL本体的方法尚无成熟的方法及应用可供参考,需要在摸索中前进。本文所提出的中文知识文档半自动化地构建为OWL本体的方法对解决这一问题提供了一个参考。可以把人类能直接理解的中文文档语义半自动地转换为计算机可以解释的OWL本体,实现了从人类对中文文字、符号的理解到机器自动进行处理的转化。该方法在小规模的特定文档实验中可以获得较为理想的结果,实验结果表明,该方法可以有效地缩短本体构建的时间,节省人力成本,为全面解决中文本体自动化构建方法提供一个新的思路和尝试。

参考文献

[1] Pascal Hitzler,Markus Krotszsch,Sebastian Rudolph,等.语义Web技术基础[M].俞勇,等译.北京:清华大学出版,2012.

[2] 董慧,聂曼曼.中文本体的半自动构建研究[J].情报杂志,2009,28(11):145-149.

[3] 刘萍,胡月红.领域本体学习方法和技术研究综述[J].现代图书情报技术,2012,125(1):17-22.

[4] 张佳.基于ontology的领域知识库的构建与集成实现[D].贵州:贵州大学,2006.

[5] 何海芸,袁春风.基于Ontology的领域知识构建技术综述[J].计算机应用研究,2005(3):14-18.

[6] 王超,李书琴,肖红.基于文献的农业领域本体自动构建方法研究[J].计算机应用与软件,2014,31(8):71-74.

[7] OWL简介[EB/OL].2014.http://www.w3school.com.cn/rdf/rdf_owl.asp.

[8] Uschold M,King M,Moralee S,et al.The Enterprise Ontology[J].The Knowledge Engineering Review,1998,13(1):31-89.

[9] 王雪.中文领域本体构建方法研究[D].武汉:华中科技大学,2011.

[10] 中国武器大全[EB/OL].2014-08-12.http://www.zgjunshi.com/Article/Class38/Class60/Index.html.

[11] 彭时名.中文文本分类中特征提取算法研究[D].重庆:重庆大学,2006.

[12] TF-IDF[EB/OL].2014-07-18.http://baike.baidu.com/view/1228847. htm? fr=aladdin#2.

[13] 中国空军实力[EB/OL].2014-08-11.http://www.leiting001.com/huati/zhonguokongjun/.

[14] 向阳,王敏.马强.基于Jena的本体构建方法研究[J].计算机工程,2007,33(14):59-61.

[15] 熊大红,方逵,戴小鹏,等.农业本体构建方法研究[J].农机化研究,2012(11):48-55.

RESEARCH ON SEMI-AUTOMATIC CONSTRUCTION APPROACH FOR OWL ONTOLOGY OF CHINESE DOMAIN KNOWLEDGE

Dong Yangyi1Li Weihua1Chen Shiliang2

1(SchoolofComputerScience,NorthwesternPolytechnicalUniversity,Xi’an710072,Shaanxi,China)2(NorthwesternPolytechnicalUniversityMingDeCollege,Xi’an710124,Shaanxi,China)

AbstractTraditional Chinese domain ontology constructions are usually by manual, such method is time-consuming and lower in reuse rate. Aiming at the problem, we put forward a method that can semi-automatically convert Chinese domain knowledge documents into OWL ontology. Taking weapon equipment domain as an example, first the method used the word segmentation tool ICTCLAS5.0 to carry out pretreatment of segmentation on Chinese documents, then used TF-IDF algorithm and the template-based matching algorithm to mine the core concepts and clustering concept hierarchy relationship, and after that it formalised the clustered triple documents to OWL ontology using Jena, and finally conducted visualisation management on OWL ontology by Protégé tools. Experimental results showed that, this method could effectively save the time and manpower costs of Chinese ontology construction, and provided a new thought and attempt to fully solving the automatic construction of Chinese domain ontology.

KeywordsOWL ontologyOntology constructionJenaProtégé

收稿日期:2014-11-05。陕西省教育厅2014年科学研究专项项目(14JK2150)。董洋溢,讲师,主研领域:本体技术,智能信息处理。李伟华,教授。陈世亮,副教授。

中图分类号TP311

文献标识码A

DOI:10.3969/j.issn.1000-386x.2016.05.005

猜你喜欢

分词本体文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
分词在英语教学中的妙用
眼睛是“本体”
结巴分词在词云中的应用
结巴分词在词云中的应用
基于本体的机械产品工艺知识表示
基于RI码计算的Word复制文档鉴别
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
专题