道路网选取的案例与本体推理方法
2022-01-11钱海忠刘俊楠
郭 漩,钱海忠,王 骁,刘俊楠,钟 吉
1. 信息工程大学地理空间信息学院,河南 郑州 450000; 2. 信息工程大学数据目标与工程学院,河南 郑州 450000
道路网是地图要素的重要组成部分,是用图者与制图员重点关注和获取的内容[1]。在比例尺缩小的情况下,由于受地图表达的限制,需对路网进行综合,以正确反映制图区域地理特征[2-3]。但制图综合过程通常需兼顾多个指标进行模糊决策,简单的选取模型及案例类比等方法容易出现噪声和冲突,无法满足复杂道路网选取的要求。因此亟须以综合知识为基石,利用知识表示和推理手段,对制图综合知识进行组织管理,并进一步从算法模型走向知识挖掘,促进道路网选取方法向自动化与智能化方向发展。
道路网选取的本质是对路网重要性进行评估,目前主要包括基于传统数学模型和智能模型两类方法。前者通过对道路的语义信息、几何特征、拓扑关系、空间分布特征进行分析,计算重要性评价指数。典型方法包括基于网眼密度的方法[4],基于Stroke及其约束的方法[5-6],基于骨架层次的方法[7],以及基于图论等方法[8-9]。但道路网选取具有高度不确定性和系统复杂性,数学模型难以整合运用综合知识,无法形式化反映制图专家的思维过程。因此部分学者引入智能模型,建立制图综合知识法则,相继提出了基于遗传算法[10]、基于决策树[11]的选取方法,同时神经网络等人工智能优秀成果也为道路网选取提供了重要的参考依据[12-13]。这些方法虽然弥补了传统数学模型的缺陷,但知识获取及形式化表达困难,缺乏自主学习和自适应性。近年来,基于案例推理(case-based reasoning,CBR)的道路网选取方法受到广泛关注,该方法通过记录制图专家综合结果构建案例库,利用类比推理思想对专家案例进行知识挖掘,具有简化知识获取、改善求解质量等优点[14-15]。但目前案例库容易出现噪声和冲突,难以进行知识推理,部分选取结果还需交由人工处理。
针对以上问题,本文提出一种利用本体技术组织案例并进行知识推理的道路网选取方法。
1 知识表示与推理
1.1 知识表示
知识表示指将人类知识概念化或形式化,运用符号、算法或状态图等描述待求解问题[16]。道路网选取需要明确的制图规则和专家知识,而知识的形式化表达制约智能综合的发展[17]。现有地图成果中隐含大量综合知识,可通过匹配地图数据自动获取案例,降低知识的形式化表达难度。案例C采用三元法进行表示见式(1),包括案例对象O、案例特征项F、综合标记L
Case:〈O,F,L〉
(1)
随着案例数目的增加,案例匹配和检索效率逐渐下降,为提高其表示规范性,本文利用本体O描述道路网选取案例。本体由事实集合(assertional box,ABox)和术语集合(terminological box,TBox)组成,通过图结构实现复杂案例及道路网选取知识的表示和组织[18]。其中ABox表示具体案例和对象知识,TBox表示由ABox提取的领域概念,包括案例结构和道路网选取通用知识(图1)。本文采用资源描述框架(resource description framework,RDF)三元组表示知识,即类Cclass或概念Cconcepts、关系Rrelations和实例Iinstances[19]见式(2)。类或概念表示对象集合,关系表示概念间作用,实例代表对象元素,如〈道路,hasProperty,等级〉表示“道路”概念拥有“等级”属性
图1 知识表示抽象结构Fig.1 Abstract structure of the knowledge represents
O=〈C,R,I〉
(2)
本体描述语言OWL(web ontology language)的逻辑核心是具有可判定性的描述逻辑[20](description logic,DL),而描述逻辑是计算机表达存储和计算推理的基础。本文借助描述逻辑提供的合取(∩)、析取(∪)、存在性限定(∃)等构造算子,通过简单概念实现复杂概念和关系的定义。部分OWL与DL对应关系见表1,其中“∃hasProperty.等级”表示具有等级属性的案例对象集合,“∃hasProperty.选取∩道路”表示被选取的道路集合。
表1 OWL描述与DL语法对应关系
1.2 知识推理
知识推理是计算机智能最直接的体现,指利用形式化知识进行推理并求解实际问题[16]。目前案例推理大多以静态框架表达知识,而本体以语义为先决条件,通过增加语义知识提高人机交互能力,更加符合道路网选取的动态特征。本文主要涉及的推理方法包括:本体规则扩展、语义知识映射、几何特征查询。
(1) 本体规则扩展指借助本体明确的概念定义及其丰富的语义关系进行查询扩展,从而获得更多路网属性特征和综合知识[21],本文主要涉及属性扩展和层次扩展。
(2) 语义知识映射以描述逻辑为基础,通过将案例设计过程中的静态信息转换为伴随系统运行的动态语义知识,实现案例数据库与本体知识库的匹配。
(3) 几何特征查询将SPARQL(SPARQL protocol and RDF query language)这一图查询语言[22]作为图模板,根据匹配成功的具体数值,构建数据几何特征与本体的映射关系。
借助本体规则扩展消除噪声与冲突案例,通过语义映射和SPARQL查询,匹配待选取路网数据的语义、几何特征,依据本体概念与实例间关系判断道路网选取方案,促进制图综合从数据和算法互联走向知识互联,实现不同专家及系统间的知识理解[23-24]。
2 道路网选取知识库构建
构建完善的知识库是计算机实现知识推理的基础,可借助系列比例尺地图数据自动获取道路网选取案例,填充ABox事实集合;再以案例内容为界限,确定本体领域范围,并根据地图编制规范完善TBox术语集合,为道路网选取知识推理奠定基础。
2.1 道路选取案例获取
以往案例获取主要来源于对制图专家综合操作的实时记录,该方法依赖人工操作效率低下,而已有地图数据中蕴含了大量的制图综合行为,因此通过对比同一地区系列比例尺地图数据,自动获取道路网选取案例。其中路网选取重点在于特征项的提取,道路选取原则包括:优先选取重要道路、保证与居民地选取相适应、保持路网平面图形特征、保持不同地区的道路密度比[2]。通过对相关文献分析并结合试验数据特征,选用道路等级、长度、路网密度、邻近居民地个数4个指标作为案例特征项,具体描述见表2。
表2 道路网选取案例特征项
同名线要素道路实体在位置、方向等方面具有较高相似性,参考文献[25—26],利用缓冲区及计算面积重叠率的方法进行道路网同名实体匹配,既能保证计算效率又能满足匹配需要。首先,根据专家经验设置不同比例尺缓冲区半径,分别对综合前后的道路网R构建缓冲区,并计算面积重叠率。参考已有研究的试验经验和结果,设定重叠率阈值为80%[25-26],大于阈值则同名实体匹配成功,添加选取综合标记,否则匹配失败。然后,计算长度、密度等特征项,并通过判断道路缓冲区与居民地H相交情况计算邻近居民地个数。最后,基于三元法导出案例。表3为部分道路网选取案例,案例对象(O)包括综合前道路、综合后道路及其邻近居民地(见表3“R1-3”、“R2-136”和“H1243”);特征项(F)包括等级、长度、路网密度、邻近居民地个数;综合标记(L)包括指选取、删除。案例推理根据匹配结果获得解决方案,但当匹配成功的选取与删除案例个数相等时,类比推理不充分,无法判断选取结果。因此需重新组织案例数据的相关概念和关系,并利用其他知识推理方式实现自主决策。
表3 道路网选取案例(部分)
2.2 本体知识库构建
本体知识库通过将确定的领域知识转换为本体模型进而实现构建[27],其中领域知识是开放性的,无法明确概念范围,而基于数据库的本体构建方法可根据案例蕴含的语义信息,确定领域界限[28]。因此,本文基于案例组成要素提取相关概念和关系,并参考地图编制规范补充领域知识(图2)。这种方法忠于专家经验,既能保证概念模型的完整性,又能实现案例数据与本体知识库的映射,便于实现知识推理。
图2 本体知识库构建流程Fig.2 Construction of ontology knowledge base
通过案例提取的领域概念和关系相对离散,需重新进行组织,其中概念被转换为本体的类,关系被转换为对象属性,具体包括4个步骤。①提取案例相关概念,其中“案例对象”包括“综合前”、“综合后”道路、“居民地”子概念;“特征项”包括“等级”、“长度”等子概念;“综合标记”包括“选取”、“删除”子概念。②提取特征项相关概念和实例,其中“等级”属于语义特征项,直接构建“四级”、“等外”等子概念。对于几何特征项,本文利用二分k-means算法[29]将其属性值聚类为若干区间实例,并通过最大、最小值限制条件定义取值范围。如图3长度聚类区间(0.35,0.69],本体实例“>0.35”通过“hasMax”与“hasMin”关系约束其最大值0.69 km与最小值0.35 km。③为不同概念增加“is-a”父子关系及“hasProperty”属性关系[30]。其中属性关系可描述概念间的共同特征或实例间的专有特征,父子关系描述不同级概念间的上下位关系,部分父子关系还可指向概念自身,如图3“长度”概念。④根据文献[31]补充其他相关概念和关系,为“等级”增加“市级”、“县级”等描述居民地属性特征的子概念,构建其与“一级”、“二级”等概念间的“equivalentClass”相似关系,完善本体知识库。图3本体知识库片段表示“C3”案例对综合前四级道路“R1-3”执行选取操作。
图3 道路网选取知识库部分片段Fig.3 Fragment of road network selected knowledge base
3 道路网选取知识推理
本体作为知识建模工具,具有良好的层次结构,支持逻辑推理[28]。本文借助本体规则扩展识别案例库噪声,消除冲突案例,并利用语义知识映射和几何特征查询将待选取数据的语义、几何特征映射到本体知识库,依据概念与实例间关系自动判断选取方案。
3.1 本体规则扩展
本体规则扩展指根据本体知识库中概念间关系扩展相关概念,假设存在概念集合C={Ci|i∈N},关系Rm(m∈N)指概念Ci与其他概念的语义关系,则概念Ci沿关系Rm扩展的检索结果可定义为Q(Ci)={Cj|Rm(Cj,Ci)或Rm(Ci,Cj),i∈N,j∈N}。本文主要涉及领域知识和道路实体属性特征,概念间的层次关系和属性关系丰富,因此主要从层次和属性扩展两方面实现知识推理。其中层次扩展指根据某一实体所属概念或某一概念所属层次结构,通过“is-a”父子关系扩大或缩小概念范围,如“道路”概念扩展得到“综合前”和“综合后”两个子概念,“一级”概念扩展得到“等级”父概念。属性扩展指通过“hasProperty”属性关系扩展概念集合,如根据“道路”概念可获取“等级”、“长度”等概念。
传统案例推理基于相似度匹配案例,但当案例库存在噪声和冲突时,计算机无法自主决策[14]。图4为噪声举例,综合前“R1-57”与综合后“R2-106”匹配成功,而综合前“R1-58”由于缓冲区重叠率较小,认为其与“R2-106”不是同名实体,路网匹配出现错误。此外表3综合前“R1-3”与“R1-4”的各特征项相似,但综合标记结果相反,案例出现冲突难以决策。因此需基于本体概念关系识别案例库噪声,并消除冲突案例。①噪声案例识别过程。图4案例表示如图5(a),通过概念层次扩展、实例属性扩展发现,综合前道路等级为四级,而综合后为三级,推理出现矛盾,判断其为噪声并进行删除,以减弱对知识推理的错误影响。②冲突案例消除过程。表3中C3、C4案例表示如图5(b)所示,通过“道路”概念属性扩展,得到“居民地”、“等级”概念,即可推理出新规则:选取连接二级居民地的四级道路,删除连接四级居民地的四级道路(图5(c)),消除冲突案例。本文借助层次扩展和属性扩展等本体规则,对原案例数据进行清洗,为实现待选取数据与本体知识库的映射奠定基础。
图4 案例库噪声举例Fig.4 Example of case base noise
图5 本体规则扩展实例Fig.5 Instance of ontology rule extension
3.2 语义知识映射
消除噪声和冲突后,还需借助描述逻辑,构建待选取数据语义特征与本体知识库的映射关系。语义知识映射形式化定义为m:Φ(S)→Ψ(O),其中Φ(S)包括路网数据(S)的语义属性字段及其值,Ψ(O)指本体(O)概念。参照关系数据库和资源描述框架映射语言(RDB to RDF mapping language,R2RML),本文通过“hasProperty”标签描述本体概念与实例间关系,通过“Mapping ToConcept”标签描述数据语义属性字段及其值与本体的映射关系。
基于“⊆”、“∃”等描述逻辑构造算子声明的映射关系表示如下。
m1:道路⊆∃hasProperty.等级。
m2:居民地⊆∃hasProperty.等级。
m3:Rank⊆∃MappingToConcept.等级。
m4:Rank2⊆∃MappingToConcept.二级。
m5:H975⊆∃hasProperty.Rank2∩∃MappingToConcept.居民地。
m6:R291⊆∃hasProperty.Rank2∩∃hasProperty.H975∩∃MappingToConcept.道路……
其中,m1、m2表示“道路”、“居民地”概念拥有“等级”属性。m3、m4分别表示待选取道路网数据“Rank”属性字段与“等级”概念的对应关系,“Rank2”属性值与“二级”概念的映射关系。m5表示居民地“H975”等级为二级,m6表示待选取道路“R291”为二级道路,同时连接二级居民地。由此可将待选取道路实体的语义特征转换为本体概念。
3.3 几何特征查询
除语义特征外,道路网选取还涉及众多几何特征,本体规则扩展和语义知识映射主要依据概念的语义关系,无法直接应用于数值知识推理。本文利用本体实例表示案例数据的几何特征,通过“hasMax”与“hasMin”描述其数据属性,并借助SPARQL查询语句,构建待选取数据数值属性字段与本体知识库的映射关系,具体的图结构查询模板如图6所示。判断待选取数据“R291”的长度属性匹配情况,通过计算“length”与各实例最大值“max”、最小值“min”间关系,发现其为“≤0.69”区间实例的子实例(subInstanceof),因此“R291”道路实体的长度几何特征与“≤0.69”本体实例匹配成功。同理匹配“路网密度”、“邻近居民地个数”等其他几何特征,通过概念与实例间的匹配情况,判断该道路实体的综合标记类型,进而指导计算机实现自动选取。
图6 几何特征查询模板Fig.6 Geometric feature query template
4 试验与分析
4.1 试验数据与流程
本文试验数据来源于某地区系列比例尺道路网及居民地数据,其中1∶1万比例尺为试验数据,1∶5万比例尺为参考数据。本文选择城乡邻接地区作为待选取试验区域(图7红色虚线框内),将其他部分作为案例区域,从中随机抽取200条1∶1万比例尺道路数据作为案例,利用缓冲区匹配1∶5万比例尺同名道路实体,并提取缓冲区内的居民地数据,计算邻近居民地个数。
图7 试验区域示例Fig.7 Sample of experimental data
具体试验步骤与流程如图8所示。
图8 试验步骤与流程Fig.8 Experimental process and procedure
(1) 道路网选取案例获取。首先对不同比例尺案例数据进行接链并构建缓冲区,若缓冲区面积重叠率大于阈值,则匹配成功,反之失败;然后计算长度、路网密度、邻近居民地个数等特征项;最后通过三元法构建案例,共获得97个选取案例和103个删除案例。
(2) 本体知识库构建。基于案例组成要素提取道路、居民地相关概念及其关系,将等级语义特征项构建为概念,将长度、路网密度、邻近居民地个数等几何特征项构建为区间实例,并参考地图编制规范完善本体知识库。
(3) 案例降噪和冲突消解。利用本体概念层次关系和对象属性关系扩展道路网选取规则,降低案例数据噪声,识别并消除冲突案例,提高知识的准确性。
(4) 待选取任务知识推理。计算试验区域1∶1万道路数据特征项,利用语义知识映射和几何特征查询构建待选取数据语义、几何特征与本体知识库的映射关系,根据概念与实例的匹配结果获得道路网选取方案。
4.2 试验结果分析
4.2.1 案例降噪与冲突消解分析
通过本体规则扩展对200条原始案例数据进行筛选,共识别噪声案例13个,冲突案例31组(两个冲突案例为一组),原始案例库的有效决策率为69%(表4)。试验首先借助本体规则判断概念间的语义一致性,识别并剔除案例噪声,将决策正确率暂时提高至100%。然后关联居民地等级概念,丰富特征项,消除冲突案例24组,将仍然无法判断的7组冲突案例归类为噪声。此时案例库的有效决策率为92.5%,决策正确率为91.9%。因此基于本体规则扩展的降噪和冲突消解在一定程度上提高了原始案例的准确性和有效性。
表4 案例库降噪与冲突消解结果
4.2.2 道路网选取对比分析
为验证本文方法的科学性,对试验区域1∶1万比例尺道路网数据进行选取,选取结果如图9(a)所示,参考综合结果如图9(b)所示。本文方法忠于专家经验,仅存在少量不一致情况,用红色标记错误选取道路,主要包括长度较长的四级道路,用蓝色标记错误删除道路,集中于长度较短的等外道路。原因在于本文仅涉及4项特征项,还需构建更加丰富的本体库,获得更多综合规则。选取结果相关统计见表5,其中有效决策率为100%,说明本文方法对道路网选取知识概括全面,无须人工交互即可获得结果。决策正确率为90.69%,可较为准确地反映制图专家知识,实现道路网智能选取。
图9 不同选取方法结果Fig.9 Selection result of different method
表5 本文方法选取结果统计
为进一步验证方法合理性,利用ArcGIS细化道路网工具进行对比试验,该工具可顾及路网密度及整体连通性,通过计算相应比例尺下需清晰显示的最短路段长度,控制路网集合分辨率,进而实现选取。对两种方法选取结果进行分级显示,并统计不同等级路段选取比例(表6),发现在道路等级方面,若保证总体选取比例一致,两种方法选取的高等级路段情况基本一致,但本文方法选取的四级道路多36条,选取的等外道路少37条,能够保留更多中等级路段。此外在结构保持方面,ArcGIS选取方法产生的悬挂道路较多(图10(b)虚线标出),本文方法保留了更多的完整网眼(图10(a)虚线标出),能够较好地保持道路网的整体结构。
表6 不同选取方法结果统计
图10 不同选取方法分级结果Fig.10 Grading result of different selection methods
5 结 论
本文提出了一种利用案例与本体技术进行知识推理的道路网选取方法,即利用案例本体形式化表达知识,借助本体规则消除案例噪声和冲突,并通过语义映射、图查询等方法匹配待选取数据特征,指导计算机进行自动选取。该方法忠于专家经验,能够降低决策难度,提高选取正确率,无须人工交互即可获得选取结果,为智能化制图综合提供了思路。
本体库的完善程度对道路网选取结果具有决定性影响,在后续研究中还需考虑路网连通性等其他特征,构建更加完善的本体知识库。此外如何将本体技术与机器学习、深度学习等人工智能方法进行结合,提高道路网选取结果准确率,也需进行深入研究。