面向知识与信息管理的领域本体自动构建算法的探究
2015-07-18张骞
张 骞
(陕西职业技术学院,陕西 西安 710100)
面向知识与信息管理的领域本体自动构建算法的探究
张 骞
(陕西职业技术学院,陕西 西安 710100)
本体作为一种描述信息系统概念模型的建模方法,被广泛应用于信息管理、图书馆信息化建设、自然语言处理和知识工程等诸多领域。结合知识和信息管理,研究在该领域内如何构建领域本体及其相关算法。
领域本体;知识工程;信息管理;构建算法
有关本体的概念最早来源于哲学,亚里士多德通过对哲学的研究,提出存在论的观点,这就是本体论的前身。本体就是对世界上客观存在物体的一种哲学描述,牛津词典的解释是ontology是现实存在的科学或者研究,Webster中解释ontology意为本体是一种形而上学的观点,与存在论相关联[1]。许多学者对本体论提出了不同的定义和概念,可以使用本体的复数形式,代表所有本体的集合。信息系统和知识工程的本体研究同哲学本体论是相互联系的,本体论虽是哲学理论中的概念,也适合于信息系统的推理和建模。学者利用本体来描述世界的知识,用于表示特定知识领域的形式化语言,并广泛应用在人工智能、信息系统和知识工程等领域。Neches认为本体是对特定领域词汇的术语和关系规则的定义。Gruber认为本体论是概念模型的具体化实现过程。D. Fensel认为本体是重要概念的形式化表述,主要包括4个方面:从客观事物中抽象出概念模型,精确定义领域本体联系,数据化概念模型和确认领域本体知识是被认可的。
1 领域本体理论和构建方法
1.1 领域本体理论
Guarino对领域本体理论做了大量研究,分析了概念、概念特性和概念之间的邻接关系,从元特性出发,提出了一整套本体理论概念[2]。概念间的差别除了定义外,还有概念的相关特性,这些最突出的特征被归纳为元特性,利用数学方法将元特性表达出来。
通过统计学的相关分析,提炼出了领域本体的7个特点:1)持久性,在知识和信息系统管理中,一些实例会永远属于该概念,例如一些实意词汇;2)非持久性,一些实例不会属于某些概念,例如非实意词汇会在领域本体构建中剔除出去;3)反持久性,隶属于某个概念的所有实例都不属于该概念;4)半持久性,半持久性是差集表示,即求出某个概念中不属于该概念的某些词汇单元;5)概念差别,即概念之间的差别性;6)标识性,隶属于某个概念的实例可以相互区别[3];7)概念之间的相互依赖关系。
本体可以根据使用的语言、表示方法和描述形式等划分成完全非形式化和半非形式化等,形式化程度决定着计算机自动处理的难度,一般包含实例的特征表达,例如知识工程中,要包含某些词汇和词性表示,用概念定义来表示整个文档,利用文档概念图等结构表达文档。按照应用领域的不同,本体又可以分为概念之间的通信操作、本体格式的互操作和系统工程建设等。本体还可以分为元级本体、通用本体、领域本体和应用本体[4]。其中,元级本体描述的是知识语言所用的互联本体,例如OKBC本体;通用本体描述的是一些特定的概念,例如自然语言词汇和时间等对象,这些本体的开发案例有机器可读词典等;领域本体是高级本体建构方法,用于描述一些普通工作相关的词汇,专门用于信息管理和知识工程的相关本体开发[5]。
1.2 领域本体创建流程
本体创建流程示意图如图1所示。本体创建流程应先确定应用范围,然后再进行本体分析、本体表示和本体的检验,一切都合格后才能建立适合的本体。文中主要研究知识和信息管理领域,因此主要对象是中英文参考文献,领域本体对象规模不是很大,但是要求比较高的准确率。本体分析过程中,主要弄清楚领域构建的要素,信息管理的特征要素是词汇,包括关键词和词性等内容,需要充分提取重要关键词作为领域本体描述的参数[6]。而语义模型采用概念图模型,更有利于表达文档中特征词汇的重要性。本体评价模型可以通过一些标准评价算法评价,例如相似度和距离函数等。文中利用查全率和查准率构建的综合评价指标评价所构建模型的准确性,以免单一评价函数带来错误的评价结果,具体方法为:
(1)
式中,recall为查全率,recall=(检索出的相关信息量/系统中的相关信息总量)×100%;precision为查准率,precision=(检索出的相关信息量/检索出的信息总量)×100%。FM指标会综合地评价领域本体建模构建算法的准确性,可以手动调节λ,使其尽量<0.5,以加大查准率的比例。
图1 本体创建流程示意图
2 基于知识与信息管理的领域本体构建算法分析
2.1 文档前置处理
构建面向知识与信息管理的领域本体需要将领域本体文档映射成概念图,利用概念图的特点构建领域本体。首先要进行文档前置处理,即初步对语料库提取文档信息,包括中文和英文的领域文档,处理过程如下:首先,语音识别所有中英文文献,移除没有实际意义的词汇,将英文单词整理成词根形式,方便统计和查询;然后,要标记单词的词性,例如副词、形容词和代词等,并统计词组和单词出现的频率和词汇邻接信息。频率信息和邻接信息将作为概念图的初始值,频率信息会初始化概念图顶点值,邻接信息会初始化概念图边值[7]。
2.2 文档概念图的生成
概念图是由节点和边组成的代表概念,连线表示概念之间的关系,利用概念图表示词汇或者词组的频率信息,映射出文档的整体结构。概念图由顶点、连接顶点的边、顶点间的标记映射和边间的标记映射组成[8],反应出词汇组之间的邻接关系。顶点即为词汇,文档中同样的词汇只能表示为1个顶点,边即为词汇间的组合,代表了文档中2个词汇的相邻关系。顶点和边初始化为词汇间的频率值和邻接值,顶点值表示某个词汇出现的次数,边值表示2个词汇连接在一起的次数。这种方法将文档表示为1组词汇和词汇组的连接次数,数据化文档内容以利于建立领域本体。顶点的权值是其在所有权值中的比重,边权值也采用同种计算方式,标准化所有的输入数据。
2.3 概念提取
概念提取主要任务是分类所有类型词汇,从重要性评价词汇,将顶点加权之后,利用马尔科夫聚类算法对定点簇进行聚类,其中的关键算法就是马尔科夫聚类算法。该算法是由马尔科夫提出,将权值图转化成概率矩阵,将每个节点为0的数值都加1,避免奇异矩阵的产生,通过修正随机过程增加类之间的距离。马尔科夫链更容易出现在顶点密集的区域,类中边权值会更高,类间的边权值更低,列权值的分布和类的分布有一一对应关系,因此马尔科夫聚类更适应于图模型。马尔科夫聚类算法会让权值大的顶点更大,权值小的顶点地位更低,权值采用下式计算:
MCL算法输入值是一个无向图,利用权值和扩展参数建立关系矩阵,给每个节点加入自循环,标准化矩阵,采用指数扩展矩阵,再用扩展参数进一步放大矩阵,不断重复这个过程直到不再变化为止。最终将具有相似性的词汇聚成一类,消除了语义之间的歧义性。每个类都会产生一个特征概念,马尔科夫算法在概念图中随机游走(Random Walks),不断重复放大,最终形成一个稳定的顶点值,顶点权值就代表了特征词汇在文档中的地位。
2.4 关系提取
在提取文档概念图的关系算法中,TF-IWF算法的主要作用是提取多次出现的关键词汇作为候选关键词,其是一种简单、快捷的文本提取算法。该算法利用TF权值最大值作为关键词,由于概念结构无法反应词汇的重要程度和代表词汇的分布和邻接关系,也不具备权值调整功能,因此该算法精度较低。基于统计词汇的方法需要词长和词性等先验信息,利用领域本体词典提高关键词提取准确度,该算法的时间复杂度是O(n),提取精准度高于TF-IWF算法。SKE算法加入语义部分,其根本方法还是利用词频的统计特征。该算法提取的关键词汇能够体现整个文档的特征。利用朴素贝叶斯方法的算法通过先验信息的训练获取初始化参数,然后再提取关键词,该算法只能用于小规模文档,高维聚类技术具有更高的提取效率,更加稳定,且适用于大规模文档的关键词提取。除了这些算法之外,还可以使用频繁子图挖掘算法,该算法流程如下:读取生成的概念图数据,按照顶点权值和边权值进行排序,剔除不符合最小支持度阈值的顶点和边集合,将剩下的边和顶点重新排序,将符合频繁一边的保存在G1集合中,按照标准词典顺序,对G1集合重新排序,将排序之后的集合保存在G集合中,遍历G1中的所有边集,用初始边权值初始化所有集合的图,再次使用子图挖掘算法,在所有图集合中删除初始边权值,如果图的个数少于最小子图数目,则停止算法,如果不满足条件则继续运行。
2.5 本体评价
本体评价方法主要通过测试文档进行检验,分析领域本体是否能够完成新文档的检测,如果没有利用领域本体的文档和使用领域本体的文档相同,则说明所建立的领域本体是合格的;如果不同,则说明本体需要重新修改参数和重构,对于其中不一样的地方要做重点改进,在原文档中增加测试语料库,直到检测没有错误产生为止。文中采用的是FM评价指标,FM评价指标由查全率(recall)和查准率(precision)构成,计算公式为:
式中,P+是检索出的相关信息量;N是系统中的相关信息总量;P是检索出的信息总量。
查准率是表示文献中关键词或关系提取成功的占全部文献的百分比,而查全率即为检测出的文档与源文档的百分比。查准率与文档数量没有直接的相关关系,随着文档数量的增加或者减少,查准率可能会减少、增大或者不变。而查全率会因为文档数量的增加而增大;因此,单一函数无法评价本体领域建模的准确性,可以采用权值分配,调节查准率和查全率的关系。相关研究表明,随着文档数目的增加,查准率和查全率在多数评价过程中表现相反的作用,查全率要依赖于查准率;因此,提高查准率在整个评价函数中的权重,有利于提高本体领域构建算法的准确性。
3 结语
领域本体已经广泛应用在知识工程和人工智能等诸多领域,并深受学者关注。本文分析了本体和领域本体的发展现状和相关方法,从文档前置处理、概念图生成、概念提取、关系提取和本体评价5个方面,论述了面向知识和信息管理领域的领域本体自动构建方法。
[1] 李曼,王大治,杜小勇,等. 基于领域本体的Web服务动态组合[J]. 计算机学报, 2005, 28(4): 644-650.
[2] 陈刚,陆汝钤,金芝,等. 基于领域知识重用的虚拟领域本体构造[J]. 软件学报, 2003, 14(3): 350-355.
[3] 刘紫玉,黄磊. 基于领域本体模型的概念语义相似度计算研究[J]. 铁道学报, 2011, 33(1): 52-57.
[4] 张维明,宋峻峰. 面向语义Web的领域本体表示、推理与集成研究[J]. 计算机研究与发展, 2006, 43(1): 101-108.
[5] 王海涛,曹存根,高颖,等. 基于领域本体的半结构化文本知识自动获取方法的设计和实现[J]. 计算机学报, 2005, 28(12): 2010-2018.
[6] 韩春华,易思蓉,吕希奎,等. 基于GIS的铁路选线智能环境及领域本体建模方法[J]. 中国铁道科学, 2006, 27(6): 84-90.
[7] 王超,李书琴,肖红,等. 基于文献的农业领域本体自动构建方法研究[J]. 计算机应用与软件, 2014, 31(8): 71-74.
[8] 滕广青,毕强. 领域本体与社群分类法结构中心性的比较研究[J]. 情报学报, 2013, 32(10): 1037-1045.
责任编辑郑练
AutomaticConstructionofDomainOntologyOrientedtoKnowledgeandInformationManagement
ZHANG Qian
(Shaanxi Vocational & Technical College, Xi′an 710100, China)
Domain ontology is a modeling method to describe the concept model of information system, which is widely used in the area knowledge and information management, NLP, knowledge engineering and so on. This paper mentions how to construct domain ontology and related algorithms in the field of knowledge and information management.
domain ontology, knowledge engineering, information management, algorithm
TP 182
:A
张骞(1984-),男,硕士,研究生,主要从事情报学和信息管理等方面的研究。
2015-01-21