一种本体驱动的地理空间事件相关信息自动检索方法
2011-01-31刘纪平石丽红王振峰陶坤旺
刘纪平,栗 斌,2,石丽红,王振峰,陶坤旺
1.中国测绘科学研究院政府GIS研究中心,北京100830;2.武汉大学资源与环境学院,湖北武汉430079;3.温州医学院环境与公共卫生学院,浙江温州325035
1 引 言
据统计,重大突发事件中,97%与空间位置直接或间接相关[1]。对这些事件检索时,传统地理信息检索方法遵循以关键词词形匹配方式实现地理信息检索,忽略关键词的语义信息,导致检索系统难以正确理解用户查询需求。不同类型地理信息难以按地理空间事件组织,无法为用户主动提供与事件处理相关的地理信息,信息获取过程繁琐,检索效率低,个性化支持能力弱,查准率不高。因此,研究地理信息的自动检索技术,从海量地理信息数据库中智能提取与地理空间事件相关的信息,变被动检索为按事件主动服务[1],不仅是当前地理信息服务的前沿和热点,更可广泛应用于政府应急管理、地理信息搜索服务等多个领域。
为克服传统地理信息检索方法由于关键词词形匹配带来的缺陷,引入本体的概念,即“本体是共享概念模型的明确的形式化规范说明”[2]。由于本体可以对知识的概念和相互间的关系进行较为精确的定义,具有良好的概念层次结构和对逻辑推理的支持,能在不同的建模方法、范式、语言和软件之间进行翻译和映射,以实现不同系统之间的互操作和继承[1,3]。因此,在信息检索特别是基于知识的智能检索中可以充分发挥其优势,有效提高检索效率[4]。
本体在地理信息领域的延伸和应用形成地理空间事件本体,它是地理本体的一种类型,是把与地理空间事件相关的知识、信息和数据抽象成若干个具有共识的地理对象,并按照一定的逻辑关系组成体系,同时进行概念化处理和明确的定义,以形式化的方式进行表达,最终服务于地理信息智能检索。这里,地理空间事件指发生在地表空间的各种自然和社会现象,由时间、位置和事件现象等部分组成。地理空间事件本体以地理空间事件相关信息组织为核心[1],基于本体的检索既可以有效地解决传统检索方式中处理地理空间事件空间位置时的不明确性,又可以实现地理空间事件相关信息的自动组织以及针对不同用户的个性化服务。
目前,本体用于智能信息检索的前沿研究主要包括:
(1)Ontobroker[5]:用来处理HTML、XML和RDF格式的信息源和语义描述的系统,提供信息检索、查询和维护支持服务。核心是用形式化本体描述背景知识,并明确化Web文档的语义,以便综合利用本体论的表达能力和推理机制。
(2)OntoSeek[5]:基于内容从在线黄页和产品目录中进行检索的系统。把本体用作有语义信息的领域词汇表,将本体驱动的内容匹配机制与一个表示形式化的系统相结合,试图将本体论和大词典库相互集成,以便提供一个可以用领域内任意词汇进行交互式语义查询的系统[6]。
本文区别于传统的地理信息检索仅利用关键词进行匹配和查询的机制,以地理空间事件(任务)为纽带,通过研究地理空间事件相关本体的创建方法,利用本体构建领域概念模型,对与地理空间事件相关的语义、空间等信息进行关联分析和推理,从语义层次理解用户需求[7],按照特定地理空间事件特征,组织查询任务,创建事件驱动的智能化地理信息检索方法,实现用户仅需要了解事件发生的基本信息(如名称、地点、类型等)就可以从海量地理信息库中智能提取与事件相关的信息,并提供检索的个性化支持,简化检索过程,最终提高检索效率。
2 地理空间事件本体构建
本体驱动的地理空间事件相关信息检索成功的前提是要构建一个地理空间事件本体,该本体包含地理空间事件的基本概念及概念间语义关系的明确定义。
2.1 地理空间事件本体构成
面向用户检索,地理空间事件本体可以划分为地理对象本体、自然灾害本体及基于用户个性化需求的用户本体等子类型,不同本体间的逻辑关系如下图1所示。
图1 本体间逻辑关系图Fig.1 Logic diagram among ontologies
其中,地理对象本体和自然灾害本体构成地理空间事件本体的主要部分,描述地理空间事件相关信息。前者用于描述地理空间事件的位置、空间关系、时间等信息[1];后者用于说明地理空间事件的名称、类型、属性、组织方式等信息[5]。这两种本体可以相互引用。用户本体则面对终端用户建模,包括用户喜好、检索方式、兴趣、级别、业务等属性,以便检索出感兴趣的信息,过滤掉不相关的信息,体现用户个性化需求。
(1)地理对象本体由六元组构成,即地理概念、关系、函数、属性、公理、实例等,用于表示地理空间领域中的各种不同地理对象或实体,这些具有相同属性的地理实体的集合被表示为“地理概念”或“类”,一个本体概念(类)由一系列性质和行为相同的地理对象组成。本体的概念构成层次结构,后者来源于地理领域已有的概念分类体系,本体的概念由属性描述[8]。关系指地理领域中不同的概念之间某种性质的联系,包括语义、空间关系。函数是一类特殊的关系。属性与类相对应,包括对象属性、数据属性。确定概念的属性和识别领域概念的过程是相互交叉的,通常都是在识别概念的同时,确定其属性及与其他概念的关系。公理指地理学领域中公认的规律、知识及施加于概念之上的一些规则或约束条件,以便推理,并保证本体的一致性和完整性[1-2]。实例是指地理对象本体中概念或类的具体例子,也称为个体。
(2)灾害事件本体的构成与地理对象本体类似,但在结构上比后者要简化,由四元组构成,即灾害概念、关系、属性、实例等。两个概念之间通常存在一定的关系。
(3)构建用户本体的目的是用于实现个性化信息内容定制[1,5]。通过对用户使用习惯、知识背景的处理及对用户查询计划、意图、兴趣方向的推理和预测,完成信息过滤,提取用户需要的信息。以电子政务用户为例,其结构为一个四元组,表示为O=〈C,Ac,R,I〉,其中C表示概念的集合;Ac表示多个属性集合组成的集合;R代表关系,表示用户领域中各用户概念之间的关系;I表示实例。
2.2 地理空间事件本体构建方法
当前国内外对地理本体的研究主要有:美国国家地理信息和分析中心对地理信息的认知类型和地理目标的本体特征的研究[9];美国西北大学对地理尺度和不确定性本体论的研究;希腊雅典国家技术大学开展“地理本体研究组ONTOGEO”项目研究[5];中科院计算所在重点项目“国家知识基础设施”中对知识的形式化本体理论研究;武汉大学对地理本体的构建及其在异构系统的信息共享中的应用进行的研究。以上这些研究提出相应的本体构建方法,但基本是传统的方式,在信息检索时对地理空间事件的空间位置和个性化处理较弱。
构建本体的方法是将确定的领域知识转换成本体模型。领域知识既可直接来自领域专家,也可来自领域资料或具体数据库模型[10]。但由于领域知识与本体模型之间存在极大差异,完成这个转换过程仍需要许多额外的工作。一般,本体构建需要经过以下几个步骤:① 从领域知识中提取关键领域概念、关系及公理;② 利用提取的关键领域概念、关系及公理创建领域概念模型;③ 根据领域概念模型编辑本体模型;④ 根据领域知识更新的需要重复上述步骤以更新本体模型。其中,从领域知识中提取领域概念、关系、公理的过程最难以实施。因为领域知识是开放性的,在没有明确的任务之前,无法确定哪些概念、关系和公理需要提取[1,5]。
鉴于从领域知识直接构建本体的缺点,本文参考现有本体构建方法,提出以任务为中心的本体构建方法(图2),通过任务来约束本体构建的整个过程,此处的任务是指构建本体的目的。任务中待处理的数据本身是要构建本体的概念模型具体化的一部分,因此任务参与本体构建的整个过程。以任务为中心的本体构建方法仍从领域知识构建地理空间事件本体,但将本体所应用的数据库作为约束[11],通过数据库内容确定地理空间事件本体的领域界限。此时本体中的主要内容来自数据库,而数据库中存在的数据是固定的,即数据库所表示的语义信息存在领域界限[12]。所以,将数据库模型转换成本体模型基本无需考虑领域界限问题。这种方法的优点是在从领域知识构建本体的过程中可以快速确定本体的领域界限。此外,在确定领域界限进行地理空间事件相关信息检索时无需检索多个数据库。试验所用的数据库是一个整合了空间数据、属性数据和专题数据于一体的数据库,相关数据表建立了映射关系,可以保障信息检索的完备性。
图2 以任务为中心的本体构建方法Fig.2 Ontology construction method centered by the task
3 本体驱动的地理信息检索机制
3.1 地理空间事件本体检索流程
本体信息检索一般有两种用户输入方式:一是在用户输入查询语句前让用户从已建本体中选择合适的概念作为查询关键词,再利用这些关键词进行检索;二是用户输入查询语句后对其进行自动概念匹配,以查找其在本体中对应的概念,再利用此概念作为条件实施查询[5]。这两种方法都存在缺点,结合这两种方法,在用户输入查询条件后首先对其进行自动匹配,以获得与条件相似的本体概念;再将这些概念作为概念匹配的候选项供用户选择。由于缩小了匹配概念的范围,用户更容易选择满足其查询意图的概念,将其作为最终的语义查询条件。基于地理空间事件本体的检索流程如下:
(1)用户输入查询关键词后,将其与本体中概念进行匹配以确定关键词的语义信息。这里概念为本体中的类和实例。匹配结果有三种情况,即精确匹配、无结果、相似匹配。无论哪种情况,都必须由用户最终确定匹配结果。
(2)一旦用户选择了确切的本体概念,则这些概念作为最终查询条件与目标本体进行匹配。
(3)如果不存在符合条件的本体信息,则需要对查询条件进行扩展。扩展的结果可能是通过本体推理获得的相等概念或上位概念等。扩展查询可能需要重复进行,直到获取本体信息或无法扩展为止。
(4)获取本体中资源信息后,根据数据库与本体的映射情况或用户查询要求,可以提取相应的空间或专题数据。
(5)将最终查询结果显示给用户。
3.2 地理空间事件本体概念匹配
本体概念匹配是为了将用户输入条件转换成本体中已定义的标准概念,使得查询条件具有语义信息[1,5]。在此基础上系统才能执行准确的语义信息查询。概念匹配的原理如下:假设用户输入关键词为K,在本体中定义的概念集合为CO={Ci|i∈N};函数M(x)为某个词汇x所表达的语义信息;对于Ci(i∈N),如果M(K)⊆M(Ci),那么概念Ci与关键词K匹配;对于与关键词K匹配的概念集合CM={Ck|k∈N}(CM⊆CO),如果存在min(M(C))(C∈CM),那么概念C为关键词K的最终匹配。
在概念匹配中,难以确定的是某个关键词所表达的语义信息,即函数M(x)。但无论采取哪种方法,仍需要由人来做最终评价[5]。因此,采取以用户为中心的概念匹配方式。当用户输入关键词后,首先以词形匹配方式从本体概念中提取相关概念供用户选择;用户查看相应概念的描述信息后决定哪个概念最符合其输入关键词所表达的语义信息,从而完成概念匹配过程。
3.3 地理空间事件本体常规检索
在此模式下,不再使用已构建的本体概念对目标信息进行语义标注[13],而是将目标信息创建为本体实例,也称实例检索。当用户使用关键词检索信息时,先用本体中相应的概念替换输入条件,再通过替换后形成的概念条件与使用本体概念标注过的目标信息进行匹配,即可完成语义层次的信息匹配。其中,使用本体概念替换输入条件即为检索系统理解用户输入语义信息的过程,将目标信息创建成本体实例则为检索系统理解目标信息的语义信息的过程,如图3所示。
图3 本体信息检索方法Fig.3 Retrieval method of ontology information
3.4 地理空间事件本体扩展检索
相对本体常规检索,本体扩展检索(推理)可认为是对前者的扩展,即按照推理规则对查询条件进行扩展,以获得隐含信息。该功能常应用于本体的语义查询、一致性检查、概念自动分类等方面。这些应用的一个共同特点是需要利用本体推理捕获隐含信息,即在部分已知信息的前提下得出其所隐含的部分信息。本体的推理功能视其所描述的领域知识而定,如果本体中描述了空间关系及规则,那么就可以实施空间推理;否则,无法进行空间推理[5,14]。
在扩展查询方式下,主要是对概念在某个或多个关系上进行扩展,以得到其扩展概念。再以由该概念和扩展概念形成的概念集合代替该概念作为检索条件进行检索。最终得到的即为扩展查询的结果,即推理结果。原理如下:
假设,用户输入关键词对应的本体概念集合C={Ci|i∈N}作为检索条件,关系Rm(m∈N)是概念Ci与其他概念之间的某种关系,则条件概念Ci的检索结果为Q(Ci)={X|Rm(X,Ci)或Rm(Ci,X),i∈N,j∈N};假设,关系Rk(k∈N)是概念Ci与其他概念之间的某种可扩展关系,概念Ci沿关系Rk扩展后得到的扩展概念为Cik,则概念Ci的扩展查询结果为QE(Ci)=(∪Q(Cik)),其中i∈N,k∈N,检索条件C经过扩展后得到检索结果为QE(C)=(∩QE(Ci)),其中i∈N。
信息检索中最常用的概念关系有三种:概念间的层次关系,具体与一般的关系,整体与部分的关系[3,5]。这三种关系可以覆盖信息检索中的大部分情况,目前本体查询扩展主要也是考虑这三种关系。而在特定的地理信息检索领域,空间关系则成为一种需要考虑的主要关系[15]。
4 本体驱动的地理空间事件相关信息检索试验及分析
在上文检索方法指引下,进行相应的试验,主要面向政府应急管理部门,为其提供自然灾害事件相关信息的检索工具。以地震灾害为例,当用户检索灾害事件信息(主要以时间、地点和事件类型为检索条件)时,可以自动提取其关心的信息,并进行个性化展示。本文分别通过常规本体信息检索和扩展(推理)信息检索两种方式列举实例说明并进行对比分析。
4.1 常规本体信息检索
用户输入查询关键词后,即可执行检索操作,获得检索结果。图4表示对新疆乌什县发生的地震信息进行检索获得的结果,用户可查看与检索条目相关的所有信息。图5显示与该地震相关的乌什地区经济统计信息。
图4 发生在乌什地区的地震事件信息检索结果Fig.4 Retrieval result of earthquake event happened in Wushi zone
图5 与乌什地震相关的地区人口经济统计信息Fig.5 Statistical information of population and economy correlative to Wushi earthquake
由于地理空间事件本体中存在的地震事件概念与用户查询意图完全相同,因此可以直接得到以上查询结果。而当本体中的地震事件概念与用户的查询意图不完全相同时,通过常规检索方式则有可能得不到任何结果。例如,用户输入“自然灾害”作关键词检索时,得不到相应的结果。出现这种情况的主要原因在于构建本体实例时只对其及其直接所属类之间的关系进行了声明,却未直接声明其与该类的所有父类之间的关系。而类的层次关系恰恰隐含了这些实例同属于其所有父类的这一事实。即“地震”实例同样是“自然灾害”的实例。因此,当用户查询自然灾害事件时,地震事件应该符合其查询要求。
4.2 扩展信息检索
为解决上述问题,可采用扩展(推理)检索方式,获得符合要求的隐含信息[16]。当用户选择“推理”检索方式后,首先调用本体推理方法对本体模型实施一次全局推理,以明确声明子类实例与该类所有父类之间的关系,此时可完全解决上述第一个问题。当用户再次检索发生在乌什的自然灾害事件信息,可得到如图6所示结果,即可以得到乌什县发生的地震信息,因为地震属于自然灾害,而且对地点条件按照空间关系属性进行扩展。此外,在推理检索方式下,对用户输入“乌什”地点条件后,按空间关系“包括”进行扩展,可得到发生在整个阿克苏地区内的所有地震事件信息,以及与乌什县邻接的所有县的自然灾害事件信息,如图7所示。通过推理引擎,还可以提取所有与地震相关的人口经济数据,生成一系列专题信息供用户浏览。
图6 推理检索方式下可检索到发生在乌什地区的自然灾害事件信息Fig.6 Retrieval result of disaster event happened in Wushi zone in a rational manner
图7 推理检索方式下可检索到发生在新疆区域内的所有地震事件信息Fig.7 All the retrieval result of earthquake event happened in Xinjiang zone in a rational manner
5 结 论
鉴于地理信息的海量容量和复杂特征,通过使用本文描述的地理信息检索方法,从海量地理信息数据库中智能提取与地理空间事件相关的信息,支持个性化的地理信息服务,变被动检索为按事件主动服务[1],可以有效提高政府部门办公自动化和辅助决策效率。
与传统的检索方法相比,本文提供的地理信息检索方法具有以下优点:
(1)有效减少用户操作次数,可以使用户的检索效率提高2倍以上。
(2)地理空间事件相关信息的查全率、查准率达80%以上。
(3)地理空间事件关联信息类型全面,支持矢量、影像、视频、文本、图片等信息的处理与可视化。
由于地理对象存在复杂的拓扑关系、方位关系、层次关系等,地理信息检索中常包含多种空间关系[2]。当同时需要对多个空间关系实施查询扩展时,问题将会变得比较复杂,利用本体检索技术为突发自然灾害、社会事件等辅助决策服务提供检索功能还需要向深层次发展。
[1] LI B,LIU J P,SHI L H.Research on Geo-ontology Construction Based on Spatial Affairs[C]∥Proceedings of International Conference on Earth Observation Data Processing and Analysis.Wuhan:SPIE,2008:1-7.
[2] SUN Min.Geographical Information Ontology[J].Geography and Geographical Information Science,2004,20(3):6-11.(孙敏.地理信息本体论[J].地理与地理信息科学,2004,20(3):6-11.)
[3] HUANG Maojun.Study on Key Issues and Application of Geo-ontology[M].Anhui:China Science and Technology University Press,2006:83-109.(黄茂军.地理本体的关键问题和应用研究[M].安徽:中国科学技术大学出版社,2006:83-109.)
[4] ABDELMOTY A I,SMART P D,JONES C B,et al.A Critical Evaluation of Ontology Languages for Geographic Information Retrieval on the Internet[J].Journal of Visual Languages and Computing,2005,16(4):331-358.
[5] WANG Zhenfeng.Geographical Event Retrieval Based on Ontology[D].Wuhan:Wuhan University,2009.(王振峰.基于本体的地理事件信息检索[D].武汉:武汉大学,2009.)
[6] MAEDCHE A,STAAB S.Ontology Learning for the Semantic Web[J].IEEE Intelligent Systems,Special Issue on Semantic Web,2001,16(2):72-79.
[7] LI Lin.Fundamental Geographical Information Semantic Analysis Based on Formal Ontology[J].Acta Geodaetica et Cartographica Sinica,2005,37(2):230-235.(李霖.基于形式本体的基础地理信息语义分析[J].测绘学报,2005,37(2):230-235.)
[8] AN Yang.Geo-ontology Construction and Compare in GIS[J].Geomatics and Information Science of Wuhan University,2006,31(12):1108-1111.(安杨.GIS中地理本体的建立与比较[J].武汉大学学报:信息科学版,2006,31(12):1108-1111.)
[9] JONES C B,PURVES R S.Geographical Information Retrieval[J].International Journal of Geographical Information Science,2008,22(3):219-228.
[10] WEIKHM G.The Web in 2010:Challenges and Opportunities for Database Research.[M].Heidelberg:Springer-Verlag,2001:1-23.
[11] TRINKUNAS J,VASILECAS O.Building Ontologies from Relational Databases Using Reverse[C]∥Proceedings of the 2007International Conference on Computer Systems and Technologies.Bulgaria:IEEE,2007: 14-15.
[12] ŠELENG M,LACKLAVIK M,BALOGH Z,et al.RDB2Onto:Approach for Creating Semantic Metadata from Relational Database Data[C]∥Proceedings of the Ninth International Conference on Informatics.Bratislava:IEEE,2007:113-116.
[13] KIRYAKOV A,POPOV B,OGNYANOFF D,et al.Semantic Annotation,Indexing,and Retrieval[C]∥Proceedings of Web Semantics Science:Services and Agents on the World Wide Web.Florida:Springer,2004:49-79.
[14] MIRON A D,GENSEL J,VILLANOVA M O,et al.Towards the Geo-spatial Querying of the Semantic Web with ONTOAST[C]∥Proceedings of Web and Wireless Geographical Information Systems.Berlin:Springer,2007:121-136.
[15] W3C.OWL 2Web Ontology Language[EB/OL].[2009- 10-27].http:∥www.w3.org/TR/owl2-primer.
[16] LI B,LIU J P,SHI L H,et al.A Method of Constructing Geo-object ontology in Disaster System for Prevention and Decrease[C]∥Proceedings of International Symposium on Spatial Analysis,Spatial-temporal Data Modeling and Data Mining.Wuhan:SPIE,2009:1-9.