一种形式概念分析的陆地水系语义分类
2014-06-27李军利何宗宜晏雄锋朱乔利
李军利,何宗宜,晏雄锋,朱乔利
1.安徽农业大学资源与环境学院,安徽合肥 230036;2.武汉大学资源与环境科学学院,湖北武汉 430079
一种形式概念分析的陆地水系语义分类
李军利1,2,何宗宜2,晏雄锋2,朱乔利2
1.安徽农业大学资源与环境学院,安徽合肥 230036;2.武汉大学资源与环境科学学院,湖北武汉 430079
地理信息分类体系划分是否合理直接影响地理信息交互与共享。以国家基础地理信息陆地水系(GB/T 13923—2006)分类标准为例,借助地理要素的元概念特性抽取要素描述语义,利用形式概念分析方法获取形式概念表及概念格哈斯图,通过格-树转化的方法,得到具有直接包含关系的陆地水系层次分类。该方法消除了原有分类系统当中存在的概念同名与语义交叉重叠现象,是对现有分类方法的一种有益补充。
形式概念;格-树转化;地理信息;陆地水系;分类
1 引 言
随着泛在测绘时代的来临,地理信息不断跨领域应用,对人机交互与知识共享提出新的挑战[1]。地理信息共享的前提是数据具有明确的语法、结构及语义分类标识,其分类体系划分是否合理直接影响地理信息交互与共享。由于多源语义异质现象客观存在,如何增强不同领域专家对相同地理概念在不同环境下的共同理解,解决基础地理信息分类当中存在的语义交叉与重叠问题,是当前亟需解决的问题之一。本体论能将具有相同属性或特征的地理信息进行归类分级,一定程度上能够缩小形式语义系统与自然语义系统之间的差异,促进语义共同理解。已有学者开展了相关研究,可分以下几类:侧重于术语名称词义分析的,从地理要素的分类定义中抽取语义信息[2],通过多维标注法对3个不同分类体系里的概念进行可视化聚集,以识别异质性;侧重于概念相似度模型的,比较不同分类标准术语间语义差异[3],适应分类体系改变而产生相同概念间相似度差异问题[4];顾及地理分类的本体论调查[5]与概念元特性的研究[6];此外一些典型语义应用,如异质水文模型的过程共享[7],自然区划本体[8]、基础地理信息语义概念分析[9]、海岛语义层次分类[10]、土地利用的空间邻近和语义邻近问题[11]。上述文献多数都是强调地理本体的语义分析,对现有地理信息分类标准进行修正的研究并不多见。受文献[12]启发,考虑到地理信息跨领域应用产生语义异质,本文尝试将一些相关领域,比如水利工程、工业工程、城市景观设计等领域当中的陆地水系地理要素的术语语义描述,迁移到基础地理信息分类领域,以解决在本领知识很难区别的地理概念分类问题。以国家基础地理信息陆地水系(GB/T 13923—2006)分类标准为例,利用形式概念方法进行语义抽取、建格,通过格-树转化,消除概念内涵的传递包含关系,给出一种新的陆地水系地理要素语义分类。
2 陆地水系形式概念获取
形式概念分析,也称概念格理论,是应用数学的一个分支,源于哲学领域对概念的理解,关注人类思维的概念化表达,已被作为一种非监督学习方式,用于发现数据的概念化结构[13-14]。它是建立在数学序理论和完全格理论基础之上的,通过内涵和外延间二元关系构建起来的一种概念层次结构,支持概念的发现、排序和显示等;概念格的每一个节点被称为一个形式概念,由内涵和外延组成,外延指属于该概念的所有实体对象的集合,内涵指所有这些对象所共同具有属性特征的集合[13,15]。以下给出陆地水系概念的形式背景[13]。
表1 部分陆地水系概念形式背景Tab.1 Parts of the formal contexts in hydrological concepts
定义1:形式背景(formal context)可用一个三元组K=(G,M,I)表示,其中G是一个对象集合,M是一个属性集合,I⊆G×M是G和M间的二元关系。对于g⊆G,m⊆M,则(g,m)∈I表示g对象具有m属性,也可写成glm。如表1,“∗”表示某一行对象具有对应列的属性。
定义2:形式背景对象集A⊆G,属性集B⊆M,分别定义A′、B′集合表示所有对象的共有属性和所有属性的共有对象。
定义3:一个二元组(A,B),如果满足A′=B且B=A′,则称A为概念(A,B)的外延,B为概念(A,B)的内涵。表1当中,{g1}′表示地面河流的是一个属性集合,即{m1,m3,m5},而{m1}′表示物质性为水的一个对象集合{g1,g2,g3,g4, g5,g6,g7,g8}。
地理空间信息本体属于领域本体,表达地理领域中概念及概念之间的关系表达[16]。它不但具有顶层本体的最普通的概念及概念之间的关系,如时间、地点、物质、对象、事件与行为等,还应该考虑与地理领域有关的领域特征,如地理位置、地表形态、空间邻接,具体到陆地水系应该考虑到水系的功能。以GB/T 13923—2006当中确立的要素分类代码为依据,确定陆地水系分类要素作为概念外延;内涵确定以基础地理信息要素字典(GB/T20258.3—2006、GB/T 20258.4—2007)等术语描述为依据,参照文献[17]提出的几条属性构建原则,同时顾及概念元特性[6]来确定。
这里仅选取GB/T 13923—2006当中陆地水系37个相关地理要素作为形式概念外延(地面河流g1、地下河段g2、消失河段g3、时令河g4、河道干河g5、漫流干河g6、建成水库g7、建筑中水库g8、溢洪道g9、泄洪洞g10、出水口g11、湖泊g12、池塘g13、时令湖g14、干涸湖g15、运河g16、地面干渠g17、高于地面干渠g18、地面支渠g19、高于地面支渠g20、地下支渠g21、坎儿井g22、渠首g23、输水渡槽g24、输水隧道g25、倒虹吸g26、涵洞g27、干沟g28、泉g29、水井g30、地热井g31、水窖g32、贮水池g33、跌水g34、瀑布g35、干堤g36、一般堤g37),通过问卷并征求领域专家意见[5,17],确定41个相关属性作为内涵(物质性:水m1、土或石m2;成因:天然m3、人工m4;物质状态:自然流通m5、洼地积水m6、人工积水m7、水流消失m8、水流通道m9、自然出水m10;功能:过水设施m11、贮水m12、蓄水m13、调节水量m14、排水m15、引水m16、景观用水m17、工业水处理m18、防洪m19、调水m20、航运m21;时间性:常年m22、季节m23、临时m24;建设程度:完成m25、在建m26;度量:大于105m3m27、小于105m3m28,水温或大于等于60°m29,水温小于60°m30;空间形态:长条槽型(线型)m31、低洼型(多边型)m32、洞口型(点或多边形)m33、竖带状(多边形或体型) m34;空间位置:地表m35、高地m36、地下m37;空间层次:主干m38、分支m39、主体建筑m40、附属建筑m41)。构建类似表1的形式概念表,共产生71个格节点的概念格,图1为VC6.0++环境下生成的哈斯图。
图1 概念格的图形界面Fig.1 The designed graphical user interface for the concept lattice
3 格-树转化分类方法
由概念格算法产生的哈斯图是个图结构,而一个完善的分类系统一般是一个树结构。目前多数研究是根据领域专家的意见,直接将哈斯图结构转换为树型的概念层次关系[3,10],在实际应用中,并不是每一个形式概念方法产生的概念都有自然界中的地理实体与其对应,形式概念分析产生的一些新概念在陆地水系当中没有形成专门术语,应该将其剔除。比如,本研究并没有直接选择C1、C2作为分类的第二级,因为两者的内涵分别是m1(物质性-水)、m4(成因-人工),仅说明这两个内涵是所有直接参与建立概念格的地理对象当中最广泛的两种属性,结构层次也不对称,并且单一的m4属性也未必就一定是陆地水系的地理实体。考虑到形式化地理本体时,概念的内涵是决定本体的最重要属性,因此可以根据内涵的包含关系划分层次关系。在形式概念分析当中,内涵越丰富,外延越小,概念越具体;内涵越贫乏,外延越大,概念越抽象[13]。哈斯图结构从上到下是外延逐渐缩小、内涵逐渐增大的过程,其根节点可看作是树型结构的根节点,看作是层次分类的源点。本研究在参考部分领域专家的判读意见基础上,删除了一些实际中并不存在冗余概念,最终选取41个节点,选择C3、C8作为分类的第二层概念,以下仅列出C3、C8的外延与内涵。
格与树都是由节点和关系组成,但由于格结构是偏序结构,允许一定程度上重叠,具有传递性。格节点除了根节点和末梢节点外,其余节点都可能有多个前趋节点,而树型结构除了根节点以外,其余的节点都只有一个直接前趋节点,是个不许重叠的刚性结构。要实现格-树转化,必须将格中每一层节点的父节点唯一化,即求将格节点内涵的最小覆盖[18],只保留直接的父子包含关系,可以借助关系矩阵理论来消除内涵关系的传递性。根据关系矩阵的传递闭包相关理论,对于一个关系矩阵M,当且仅当关系R满足R·R⊆R时,关系矩阵具有传递性[19]。要保留概念的直接关系矩阵,就要研究n对概念之间的属性包含关系。一个n维的关系方阵M、直接层次序关系的超、子概念参考如下定义。
定义4:用值为0或1的概念关系方阵M表示行与列之间包含关系,若概念Ci是概念Cj的子概念(C1≤C2)(i≠j),则M(i,j)=1;反之, M(i,j)=0。
定义5:存在两个概念C1(A1,B1),C2(A2, B2),若满足(C1≤C2),且不存在概念C3,满足C1≤C3≤C2,则称C1是C2的直接子概念,C2是C1的直接超概念。
参照定义4和定义5,设直接关系方阵为L,利用下列公式计算求解[2]
限于篇幅,这里仅选择11个概念:常年湖C51、时令湖C39、河流C13、湖泊C29、自然水系C3、陆地水系C0、人工水系C8、沟渠C42、干渠C53、支渠C55与运河C41。根据属性包含原理计算可得矩阵M,如表2。表中的“1”表示行真包含于列,即行为列的哈斯图的下层格点,“0”表示没有真包含关系。根据公式(1)计算得到直接关系方阵L,见表3。C0所在行全为“0”,表示它没有直接的包含关系,即没有直接的上层节点,因此C0为顶层节点;再看C0所在列,C8、C3行为“1”,表示它们为C0的直接子节点;再寻找C8、C3列当中“1”所在行为分别为它们的直接子节点。通过上述操作,可以消除直接的传递关系,即C13、C29的直接前趋不可能同时是C3、C0。
表2 关系方阵MTab.2 Matrix M
表3 关系方阵LTab.3 Matrix L
但是在实际的格结构当中,依然存在着一个子概念同时有两个直接前趋,并且这两个父节点内涵之间的并不存在直接的包含关系,且内涵之间存在部分重叠或者相离。作为层次结构,这体现出子概念内涵来源多样,两个父节点的内涵相似或相近,但在严格的树结构分类系统当中是不允许的。参照概念相似度模型[20],将保留与子概念相似度最大的前趋节点作为父概念,如出现相似度相等,则征求专家的意见,将其归并。参照上述方法,将上述41个概念构建的哈斯图转化为一个新的分类体系,见表4。表中“C”表示原始概念格生成的概念,其中部分含有括号的为叶子节点,“g”地理对象为执行概念格算法,没有生产的概念,其原因是它们的内涵与外延完全被其他概念包括,如河道干河(g5),漫流干河(g6)没有在新生成的概念中出现,是因为有一个C37(g5,g6)完全包含了它们。“D”为哈斯图中一些比较复杂的概念,删除部分已分类的概念,依据子概念语义并结合专家意见综合后的概念。
4 陆地水系分类体系分析及应用
新的分类体系解决了基础地理信息分类当中存在的概念同名、内涵语义交叉重叠等问题。该分类体系结构层次较GB/T13923—2006中“大类、中类、小类、子类”4级的层次关系更加合理,更适于要素的关系表达。例如沟渠(C42)横向宽度包括干渠(C53)、支渠(C55),纵向深度包括:地面干渠(C62)、干渠(C53)、沟渠(C42)、人工水系(C8)、陆地水系(C0)。相对于传统的分类系统侧重于一个或几个角度出发对要素进行分类,局限于概念之间的上下位层次关系,概念的其他特性在分类中很难顾及,对地理对象的错综复杂的关系欠缺形式化表达能力[21],该分类体系当中每一个内涵抽取,都是基于本体思想,相对具有更全面准确的语义以及概念的内涵及外延关系测度,形式化表达更加方便,适合语义的推理分析,有助于地理信息共享与互操作。
4.1 垂直层次
新的分类系统当中自然水系(C3)、人工水系(C8)作为分类系统的第二级水平,实际上反映参与建立概念格的所有对象当中物质性“水”,与成因“天然”、“人工”3个属性是最综合最广泛的本体内涵,所有水系对象内涵非当中非“天然”则为“人工”。在一些多源分类系统融合的研究当中,这一级往往反映其来自不同的分类标准[7,22]。
在整个格结构当中,全体概念之间的层次与交叉关系也清楚地反映出概念与概念之间的相似性与异质性,从上到下体现出内涵的逐渐增大,外延的缩小,树的深度逐渐扩大。高层次的概念(2、3层)强调内涵的综合性,低层次(4、5层)的对象则反映个体的差异性。也就是说一般层次高的概念强调综合性,层次低的强调专门性。对于部分节点从上到下可能会跨越两个不同的层次,优先考虑到概念内涵的特殊性,一般在划分结构层次时将其归到最下面的层次。新的分类体系解决了不同要素重名问题,如GB/T13923—2006中“230000湖泊”和“230101湖泊”同名,有着不同的外延和内涵,语义重复交叉,划分成C29湖泊(广义)、C68湖泊(狭义),前者层次性高于后者。
表4 陆地水系分类体系Tab.4 Final integrated categorization of hydrological domain
4.2 水平层次
格-树分类系统当中同一层次的不同节点,通常反映出概念的差异性,反映出不同的本体特征,比如自然水系(C3)、人工水系(C8)强调地理对象的本体属性来源差异,再如瀑布、跌水这两个概念在GBT13926—2006标准当中,是一个复合的没加区分的概念,在地理分类当中概念很难区分,引入了城市景观、水利工程等领域相关的词典规范化语义描述,作为建立概念格时的内涵加以区分。依据园林专家解释,跌水多指规则形态的落水景观,而瀑布多指自然形态的落水景观,多与山涧溪流等结合。新的分类系统吸收其他领域的一些解释,已将其划分为两个不同的概念C58、C46,再如“230100常年湖、塘”这一要素语义不明确问题,划分成C51、C61。表4中消除了原来表达的概念模糊性与语义内涵重复交叉。
另一方面,同一层次的节点本体内涵侧重点不一样,联合同一层次的其他节点,有助于不同领域专家对同一层次的一些地理实体的理解。如将GBT13926—2006标准当中的“261000贮水池、水窖”分类转化为新分类系统当中的C32(水池)、g32(水窖)与g33(贮水池)之间的层级关系,某种程度上更符合测绘地理信息部门与水利工程等相关部门对其概念的理解。该方法符合当前地理空间信息跨领域应用、多源空间数据的语义互操作。
5 结 论
地理信息共享最重要的是实现基于语义的地理概念描述形式化、规范化,其中地理概念分类结构明晰非常重要。形式化陆地水系地理要素分类,保留了通过本体解决多源异质数据共享的特点,每一个地理概念的语义抽取均反映了对象与属性间的关系。通过元概念分析,最大程度上消除了概念的表达歧义,建格过程中产生的新概念是对现有分类标准的一种完善,格-树转化过程中,通过消除内涵包含关系的传递性,较好地保留了格理论偏序结构的层次分析完整性。最终形成的分类系统,是对现有GB/T13923—2006陆地水系分类方法的一种有益补充。但尽管该方法已经考虑了不同领域、不同层次的分类的复杂性,如引入了相关领域当中的陆地水系地理要素的语义描述,但地理信息分类涉及资源环境分类编码的标准化问题,仍然需要广泛征求专家意见,不断完善。本研究从本体角度对现有地理标准要素分类进行完善,为相关部门进行资源环境分类提供参考。
[1] LIU Jingnan.The Concept and Development of Ubiquitous Mapping and Ubiquitous Position[J].Digital Communications,2011,7(S1):28-30.(刘经南.泛在测绘与泛在定位的概念与发展[J].数字通信世界,2011,7(S1):28-30.)
[2] KAVOURAS M,KOKLA M.A Method for the Formalization and Integration of Geographic Categorizations[J].International Journal of Geographical Information Science, 2002,16(5):439-453.
[3] KAVOURAS M,KOKLA M,TOMAI E.Comparing Categories among Geographic Ontologies[J].Computers &Geosciences[J].2005,31(2):145-154.
[4] TAN Yongbin,LI Lin.Semantic Similarity Measurement Model between Fundamental Geographic Information Concepts Based on Ontological Property[J].Acta Geodaetica et Cartographica Sinica,2013,42(5):783-789.(谭永滨,李霖.基于本体属性的基础地理信息概念语义相似性计算模型[J].测绘学报,2013,42(5):783-789.)
[5] BARRY S,DA VID M M.Geographical Categories:An Ontological Investigation[J].International Journal of Geographical Information Science,2001,15(7):591-612.[6] GUARINO N,WALTY C.A Formal Ontology of Properties.Rose Dieng[C]∥Proceedings of 12th International Conference on Knowledge Engineeringand Knowledge Management,Lecture Notes on Computer Science.[S.l.]: Springar Varlag,2000:97-112.
[7] HU Shixiong,LING Bian.Interoperability of Functions in Environmental Models:A Case Study in Hydrological Modeling[J].International Journal of Geographical Information Science,2009,23(5),657-681.
[8] ZHENG Du,OU Yang,ZHOU Chenghu.Understanding of and Thinking over Geographical Regionalization Methodology [J].Acta Geographica Sinica,2008,63(6):563-573.(郑度,欧阳,周成虎.对自然地理区划方法的认识与思考[J].地理学报,2008,63(6):563-573.)
[9] LI Lin,ZHU Haihong,WANG Hong,et al.Semantic Analyses of the Fundamental Geographic Information Based on Formal Ontology-exemplifying Hydrological Category[J].Acta Geodaetica et Cartographica Sinica,2008,37(2): 230-235.(李霖,朱海虹,王红,等.基于形式本体的基础地理信息语义分析[J].测绘学报,2008,37(2):230-235.)
[10] YI Rulan,DENG Min,LIU Qiliang,et al.An Approach for Hierarchical Semantic Classification of Islands[J].Geomatics and Information Science of Wuhan University, 2012,37(8):897-901.(易茹兰,徐枫,邓敏,等.利用形式概念分析的海岛语义层次分明分类方法[J].武汉大学学报:信息科学版,2012,37(8):897-901.)
[11] LIU Yaolin,LI Hongmei,YANG Chunhui.Ontology Based Land Use Data Generalization[J].Geomatics and Information Science of Wuhan University,2010,35(8):883-886.(刘耀林,李红梅,杨淳惠.基于本体的土地利用数据综合研究[J].武汉大学学报:信息科学版,2010,35(8): 883-886.)
[12] LI X,LIU Y,LIU X,et al.Knowledge Transfer and Adaptation for Land-use Simulation with a Logistic Cellular Automaton[J].International Journal of Geographical Information Science,2013,27(10):1829-1848.
[13] GA N T AR B,WILLA R.Formal Concept Analysis-Mathamatical Foundations[M].Berlin:Springer,1999.[14] SARMAH A K,HAZARIKA S M,SINHA S K.Formal Concept Analysis:Current Trends and Directions[J].Artificial Intelligence Review,2013(5):10-15.
[15] MA Yuan,CENG Ziwei,CHI Chengying,et al.Formal Concept and Its New Development[M].Beijing:Science Press,2011(马垣,曾子维,迟呈英,等.形式概念及其新进展[M].北京:科学出版社,2011.)
[16] GURINO N.Undarstanding,Building and Using Ontology [J].International Journal of Human Computer Studies, 1997,46:293-310.
[17] WANG Hong,LI Lin,ZHU Haihong.Key Issues of National Basic Geographic Information Ontology[M].Beijing: Science Press,2011:79-85.(王红,李霖,朱海虹.国家基础地理信息本体关键问题研究[M].北京:科学出版社, 2011:79-85.)
[18] WANG Dongyan,HUANG Yinghui,LI Guanyu.Latticetree Transforming Method of Generating Rough Ontology [J].Computer Engineering and Applications,2012,48 (5):44-46.(王栋艳,黄映辉,李冠宇.粗糙本体构建的格树转化方法[J].计算机工程与应用,2012,48(5):44-46.)
[19] ZUO Xiaoling,LI Weijiang,LIU Yongcai.Discrete Mathematics[M].Shanghai:Shanghai Science and Technology Literature Press,1981:119-123.(左孝凌,李为鑑,刘永才.
离散数学[M].上海:上海科学技术文献出版社,1981: 119-123.)
[20] RODRIGUEZ M A,EGENHOFER M J.Determining Semantic Similarity among Entity Classes from Different Ontologies[J].IEEE Transactions on Knowledge and Data Engineering,2003,15(2):442-456.
[21] HE Jianbang,LI Xintong,BI Jiantao,et al.Research on Classification and Coding of Resources and Environment Information and Its Association with Ontology[J].Geomatics World,2003,1(5):6-11.(何建邦,李新通,毕建涛,等.资源环境信息分类编码及其与地理本体关联的思考[J].地理信息世界,2003,1(5):6-11.)
[22] LING Bian,HU Shixiong.Identifying Components for Interoperable Process Models Using Concept Lattice and Semantic Reference System[J].International Journal of Geographical Information Science,2007,21(9):1009-1032.
(责任编辑:宋启凡)
A Semantic Categorization of Hydrological Domain Based on Formal Concept Analysis
LI Junli1,2,HE Zongyi2,YAN Xiongfeng2,ZHU Qiaoli2
1.School of Resources and Environment,Anhui Agricultural University,Hefei 230036,China;2.School of Resources and Environmental Science,Wuhan University,Wuhan 430079,China
The reasonableness of the geographic information categorization system has a direct impact on the interaction and sharing of geographic information.A method is proposed to explore the hierarchical semantic categorization of the fundamental geographic information from GB/T 13923-2006 in China.First,a set of meta-properties extracted the semantic of geographical entity,and then construct the formal concept context and Hasse diagram based on formal concept analysis.Finally,we implemented lattice-tree transforming method of generating the hierarchical semantic classification of hydrological domain,which possessed the direct semantic inclusion.The method eliminates the overlapping concept and crossing semantic among the original classification system,which is a useful complement to the existing classification methods.
formal concept analysis;lattice-tree transforming method;geographic information;hydrological domain;categorization
LI Junli(1976—),male,PhD,majors in the theory and method of geospatial semantic.
P208
A
1001-1595(2014)09-0976-06
国家自然科学基金(41071290);安徽农业大学博士科研启动基金
2013-01-04
李军利(1976—),男,博士,研究方向为地理空间语义理论与方法。
E-mail:lijunli866@whu.edu.cn
LI Junli,HE Zongyi,YAN Xiongfeng,et al.A Semantic Categorization of Hydrological Domain Based on Formal Concept Analysis[J].Acta Geodaetica et Cartographica Sinica,2014,43(9):976-981.(李军利,何宗宜,晏雄锋,等.一种形式概念分析的陆地水系语义分类[J].测绘学报,2014,43(9):976-981.)
10.13485/j.cnki.11-2089.2014.0130
修回日期:2014-06-24