APP下载

基于综合评价语义描述的领域本体构建

2013-08-16吴正洋

关键词:本体指标体系对象

吴正洋,汤 庸

(华南师范大学计算机学院,广东广州510631)

本体[1]和本体论工程[2]作为目前智能 web 的研究热点,已经应用于语义Web、信息搜索、数据挖掘、社会计算[3]等领域.本体构建涉及到本体描述语言、本体的构建方法和构建工具3方面的问题[4].本体构建方法包括骨架法、企业建模法、循环获取法、METHONTOLOGY、IDEF-5、Berneras等方法、基于领域知识重用的虚拟领域本体构建方法[5]、以及基于形式概念分析的本体构建方法[6].

本文以“Science teachev”为例,主要研究从特定的文档(综合评价指标体系)中自动提取知识,并对知识进行加工处理后生成本体的方法.领域的综合评价体系是由相关领域的专家定义形成的,具有较高的权威性和科学性,能够避免本体构建过程中,对属性及其关系定义的随意性,并且减少重复定义工作的繁琐.

1 综合评价体系中的语义描述

综合评价指标体系的构建是一项复杂的系统工程.通常采用Delphi专家咨询法选取评价的各项指标,使用ISM(解释结构模型)来确定指标体系的层次结构,再使用AHP(层次分析法)来确定指标权重,其构建的思路是探索对象的属性及理顺属性之间逻辑关系的过程.

在综合评价体系中,评价指标是对象的一系列属性,也是其评价对象的一种语义描述.指标是按层级进行划分的,指标之间具有逻辑关系.通常用树状结构形式表现.

图1 对“Science teacher”进行评价的指标体系结构Figure 1 The evaluation indicators system of“Science teacher”

“Science teacher”的评价指标体系如图1所示.由高到低存在一定的逻辑关系.第1层评价指标“Teach”、“Research”、“Social service”、“Moral”表现了“Science teacher”的行为属性,如果在第1层评价指标与“Science teacher”之间增加1个“Work”的属性,则第一层评价指标与它之间是“Part-of”的关系.第2层评价指标与第1层评价指标之间,如“Project”、“Thesis”2 个指标,与“Research”之间则是“Subclass-of”的关系.这种在评价体系中已有的语义描述是本体构建的知识素材.

2 基于综合评价指标体系的领域本体构建过程

通过半自动方式从结构化的数据或文本中抽取或学习知识,是本体构建的研究热点.本文是将领域已有的评价指标体系作为构建本体概念的获取源,生成基础本体,并对基础本体的概念描述进行完善,最终构建领域本体.

2.1 综合评价体系预处理

对于对象的全面评价指标而言,其词性可能具有多样性.即使在同一级别的评价指标群,也可能由多种词性的指标构成.例如,评价“Science teacher”这个对象时,二级指标中有“Teach undergraduate”、“Professional ethics”等不同词性的单词或词组.在构建领域本体时,需考虑属性的选取以及属性之间逻辑关系的确定,如果将评价指标作为选取属性的参考,则需要先调整指标词性,使其能够充分体现属性间的逻辑关系,因此,需要先对评价体系进行指标词性识别和转换的预处理.

2.1.1 指标词性识别与转换

定义1 设元组E=(I,L,Re)表示一个综合评价指标体系,I是指标内容的集合,L表示指标所属层级,LN.Re是自然语言描述下指标与其上级指标间的基本关系集合,Re={“Subclass-of”,“Partof”, “Compased-of”, “A-Member-of”, “Have”,“Is”,…}.eE,表示综合评价指标体系中的一个实例.

为描述方便,本文以“Science teacher”的3层评价指标体系为例.针对这个评价体系,其指标词性的转换是按3级进行的.一级指标转换为动词,二级指标转换为名词,三级指标转换为量词或形容词.

定义2 设 D(x)是指标词性判定函数;设T(x,y)是词性转换函数,x为指标变量,y为拟转换的词性,y{verb,noun,adjective,quantifier}.对 3层评价指标体系而言,先做如下处理:(e.l=1)∩(D(e)≠verb)→T(e,verb)(e.l=2)∩(D(e)≠noun)→T(e,noun)(e.l=3)∩(D(e)≠adjective)and(D(e)≠quantifier)→T(e,adjective)∪T(e,quantifier)

上述形式化描述的含义:如果x是一级指标,则转换为动词;如果x是二级指标,则转换为名词;如果x是三级指标,则转换为量词或形容词.

2.1.2 根据词性筛选指标 在评价体系指标所构成的树形结构中,通常终端节点直接反映评价的分值或等次.例中的三级指标反映了评价的分值或等次.在评价体系的指标词性转换完成后,第3级指标的词性包含了形容词和量词.例如,在表现“The time of class teaching”、“The score of teaching effect”、“The number of papers”时需用到量词,如180 hours,90 points,10papers 等,而表现“Moral standards”时则通常使用形容词,如“good”、“bad”、“normal”等.对评价系统的二级指标而言,如果其下属三级指标为量词时,该二级指标能较高辨识度地表现评价对象的特有基本属性;而下属三级指标如果为形容词时,则该二级指标不是评价对象的特有基本属性.如“Teach for graduate”是“Science teacher”的特有基本属性,区别于其他的“Teacher”,其下属的三级指标为量词;如“Academic morality”就不一定是“Science teacher”的特有基本属性,可从其父类“Teacher”继承得到.

在例中,进行本体构建之前,先对二级指标进行筛选.其策略是:三级指标为量词的二级指标作为构建本体的属性进行保留;而三级指标全为形容词的二级指标不作为构建本体的属性.其形式化表示如下:

(D(e.ki)=adjective)∩(e.l=2)→Delete(e)Delete(e)为e指标删除函数.

2.2 领域本体的构建

使用预处理后的评价指标构建领域本体大致要经过3个步骤:(1)获取评价体系所表达的概念,生成基础本体;(2)使用Wordnet进一步完善和规范化概念描述,生成概念格;(3)由概念格映射生成领域本体[7-8].

2.2.1 获取概念,构建基础本体 评价体系所表达的概念包括2个方面的内容:(1)指标所表示的属性;(2)属性之间的关系.对于能综合评价某对象的评价体系而言,其所包含的指标应该是能反映评价对象所在的同一类型事物的大部分或共同特点,这样才能体现出可比性.评价体系在构建过程中已经过层次化处理,在之前的预处理过程中,已经将指标的词性进行了识别,并转换成了本体的概念.

定义3 设元组O={C,is_a,R,Q}表示1个本体[9].C表示概念集合,is_a表示C集合中的概念是偏序关系,R是概念间的关系集合,rI,Q 是一个函数,分配给每个关系不同的元数(函数中可变参数的个数).

根据预处理后的评价体系,先构建基础本体Oc.设元组 Oc={Cc,is_a,Rc,Q},其中:Cc=I;Rc=Re.

以“Science teacher”为例构建基本本体(图2).

图2 根据评价指标体系构造的“Science teacher”基础本体Figure 2 The basic ontology of“Science teacher”constructed by it’s evaluation indicators system

2.2.2 完善并规范概念描述,生成概念格 由于指标主要用于对象评价,如果直接用于描述对象可能不够完全.除了评价指标所反映的属性外,还需在词性转换之后进一步丰富.如“Science teacher”是“Teacher”类下的1 个子类,此外,“Science teacher”还应具备“Research disciplines”的属性.

利用 Wordnet[10]对基础本体进一步完善.Wordnet中有关“Science teacher”的概念描述片段如图3所示.其描述有了进一步补充,基础本体可与之合并,从而生成更完善的领域本体.利用Wordnet对领域本体进行完善可参考CHEN等[11]提出的方法.其基本思想是:首先将基础本体转换为概念格1,再提取Wordnet中关于“Science teacher”的概念描述,形成Wordnet描述的概念格2,将二者合并成新概念格3.

图3 Wordnet中有关“Science teacher”的概念描述片段Figure 3 The concept description clips of“Science teacher”in the Wordnet

2.2.3 基于概念格生成领域本体 目前基于FCA(Formal Concept Analysis,形式概念分析)构建领域本体的方法和工具,包括CIMIANO的方法[8]和GU的方法[12]等.本文参考CIMIANO方法中由概念格映射领域本体的步骤,并做一些调整以适合实际应用.其思想是:通过直接删除概念格最底层元素,将其转换成偏序关系,再将生成的形式概念作为本体的概念(以其内涵命名),从而构成领域本体.由于评价体系的层次结构已较清晰,生成的概念格基本上是一个偏序关系,所以在处理过程中,要保留来源于评价指标的概念,具体过程如下:

(1)引入本体,标识每个本体节点的概念源头;

(2)如果概念节点的最底元素非来源于评价指标,则直接删除;

(3)为移走最底元素的概念节点添加子节点.

3 算法流程及实现

根据综合评价描述的语义,提出本体构建的组成属性.对综合评价文档的处理是实现的关键.具体算法流程如图4所示.

图4 算法流程Figure 4 Algorithm overflow

以“Science teacher”为实验对象,采用综合评价指标是来自于高校的教学科研人员考核评价体系.评价的对象可细分为Arts teachers、Science and engi-neering teachers、Teaching-oriented teachers、Researchbased teachers,得到的属性有:Classroom teaching、Thesiswriting、Research and development projects、Discipline construction、Guide the experiment.生成形式背景Hasse图(图5),其概念格可根据2.2.3中的方法转化为领域本体.

图5 “science teacher”的 Hasse图Figure 5 The Hasse diagram of“science teacher”

4 小结

随着近年来各类人才项目的颁布和实施,特别是面向协同创新人才团队的“2011计划”的实施,利用互联网进行学术团队组建、科研人才推荐等需求越来越多,因此,对于这些类似于各类协作团队、创新人才等学术人才工程中的“新生事物”,都有了构建语义本体,从而更好地满足互联网的智能应用的需求.而这些“新生事物”的申报评审需要构建评价指标体系,并经过了系统的分析和研究.通过本文的研究,利用现有的评价指标体系,构建对应的领域本体,从而使该本体更加科学并且能够随政策同步更新.

[1]FENSEL D.Ontologies:A silver bullet for Knowledge Management and Electronic-Commerce[M].Berlin:Springer,2001.

[2]冯志勇,李文杰,李晓红.本体论工程及其应用[M].北京:清华大学出版社,2007.

[3]WANG FY,CARLEY K M,ZENG D,etal.Social computing:From social informatics to social intelligence[J].IEEE Intell Syst,2007,22(2):79-83.

[4]韩婕,向阳.本体构建研究综述[J].计算机应用与软件,2007,24(9):21-23.

[5]陈刚,陆汝钤,金芝.基于领域知识重用的虚拟领域本体构造[J].软件学报,2003,14(3):350-355.

[6]黄美丽,刘宗田.基于形式概念分析的领域本体构建方法研究[J].计算机科学,2006,33(1):210-212.

[7]CIMIANO P,STUMME G,HOTHO A,et al.Conceptual knowledge processing with formal concept analysis and ontologies[C]//The Second Int’l.Conf.on Formal Concept Analysis(ICFCA 04),Springer,2004:189-207.

[8]CIMIANO P,STAAB S,TANE J.Automatic acquisition of taxonomies from text:FCA meets NLP[C]//The Int’l.Workshop on Adaptive Text Extraction and Mining,2003:10-17.

[9]STUMME G,MAEDCHE A.FCA-Merge:Bottom-up merging of ontologies[C]∥International joint conference on artificial intelligence.Lawrence Erlbaum Associates Ltd,2001,17(1):225-234.

[10]Wordnet 3.1[DB/OL].http://wordnetweb.princeton.edu/perl/webwn.

[11]CHEN R C,BAU C T,YEH C J.Merging domain ontologies based on the Wordnet system and Fuzzy Formal Concept Analysis techniques[J].Appl Soft Comput,2011,11(2):1908-1923.

[12]GU T.Using formal concept analysis for ontology structuring and building[C]∥ICIS,Nanyang Technological University,2003.

猜你喜欢

本体指标体系对象
涉税刑事诉讼中的举证责任——以纳税人举证责任为考察对象
攻略对象的心思好难猜
层次分析法在生态系统健康评价指标体系中的应用
供给侧改革指标体系初探
基于本体的机械产品工艺知识表示
基于熵的快速扫描法的FNEA初始对象的生成方法
《我应该感到自豪才对》的本体性教学内容及启示
区间对象族的可镇定性分析
专题
Care about the virtue moral education