应用本体的近岸海域环境监测站点布局优化
2021-04-14彭紫荆卢毅敏黄葵刘伟
彭紫荆, 卢毅敏, 黄葵, 刘伟
(1. 福州大学 空间数据挖掘与信息共享教育部重点实验室, 福建 福州 350002;2. 福州大学 数字中国研究院(福建), 福建 福州 350002;3. 华南师范大学 地理科学学院, 广东 广州 510631)
监测站点的布局决定着监测数据能否有效反映所在海域的环境质量状况.监测网络作为载体是近岸海域环境监测中十分重要的一环,其设计首先需要参考环境保护部所制定的技术标准;其次,需要考虑海域内的生态环境、污染程度、海岸带的自然环境、沿海区域的社会经济发展状况;最后,还要顾及整个网络的冗余度和监测布局费用.针对监测点位的布局问题,文献[1-3]采用网格将待选址区域划分成多个子区域的方法,划分出沿海浅层生态系统区域,这虽然能实现目标的全覆盖,但容易产生监测站点冗余,增加成本.数理统计分析法被用来确定传统的布局优化,聚类分析法常被用来确定区域综合水质和分区[1];物元分析法和灰色关联度分析法被用来量化分析排序站点[4];贴近度算法被用来监测网络[5].以上研究大都基于数理分析,以量化的方式进行,尽管借助公式、定理能分析水质等定量化指标,但无法解释监测领域的地理要素及语义描述性的问题.
本体能明确特定领域的相关概念,通过层次化类定义,描述属性及属性限制,完整地表达领域概念之间的关系,被用于知识分类、表达、共享与重用[6].将地理知识、监测网络的信息和数据抽象成实体,进行概念化处理,对监测领域知识库的构建具有重要意义.描述监测网络的语义约束、抽取规则,并进行规则推理是增强监测网络自动化布局的重要环节.本体在地理领域已有很多卓有成效的研究和探索,Zhu等[6]将本体引入到水环境研究中,将本体模型与综合水质评价方法相结合,通过分析和推理得到水质评价信息.张采芳等[7]将本体应用到交通地理信息系统(GIS)中,借助本体概念层次结构、语义扩展等特性组织和分析动态交通数据.刘晓慧等[8]基于地理本体理论,继承已有事件本体模型,拟建立突发地质灾害应急响应知识模型.洪烨等[9]利用本体论知识,抽取旅游地理学科知识中的核心概念,通过定义旅游地理本体概念层次结构,构建了能被共享、重用的旅游地理本体模型.魏家旺等[10]引入知识工程中本体概念,对滑坡地理本体进行表达、建模,实现滑坡信息的自动提取.
目前,鲜有学者将本体技术应用于近岸海域环境监测站点布局的知识表示与建模.本文将本体知识库的思想融入监测站点布局中,完成近岸海域环境监测领域知识本体库的构建,并借助规则推理,提高监测站点布局的自动化程度.
1 近岸海域监测本体知识库
1.1 本体概念及构建方法
本体是对概念的一种正式而明确的表示,其中,包含特定领域的术语和概念.通过确定领域内共同认可的词汇,明确定义概念中正式指定的关系和公理,通过形式化的方式提供计算机识别,实现知识和信息的共享与重用.类间关系通过属性进行描述,父类与子类之间呈现出相应的层次结构,子类除了拥有父类属性外,还拥有自身特有的识别属性;本体中的类,属性和相互之间的条件约束都有明确的定义[11].本体知识库是利用本体描述和组织领域知识的知识集群,基于本体可实现领域知识库的构建,揭示知识之间的内在联系,方便存储和重用知识的管理,提供对领域知识的共同理解[12].
本体构建过程是一项复杂庞大的工程,不仅需要借鉴领域专家的经验,还需要共同的规则标准作为指南.目前主要的本体构建方法有TOVE法、骨架法、Methontoloy法、七步法等[13].七步法是由斯坦福大学医学院研发的[14],具体流程包括:1) 确定本体的领域和范围;2) 查看是否有可复用和整合的本体;3) 枚举领域重要术语;4) 定义概念层次结构;5) 定义概念的属性;6) 定义属性的分面;7) 添加实例对象.该方法较为成熟,具有一定的通用性.通过分析传统的七步法,结合选址—评估—优化过程的阶段性特点,在不同阶段进行不同实例和属性值的添加,为监测站点布局服务,形成改进的七步构建法.本体构建流程,如图1所示.
图1 本体构建流程Fig.1 Ontology construction process
1.2 概念层次结构与属性关系描述
1.2.1 概念层次结构 由于通过知识采集获取的领域知识不成体系,因此,严密归类、合并、分散凌乱的知识,抽取关键性术语,是形成强逻辑性、高实用性本体知识库的关键[15].相关的布点技术规范[16-19]以文本的形式直接罗列了相关概念,包括监测站点、河流、海岸线、潮间带、功能区等中间核心概念.采用核心扩展法建立本体类间层次结构,即将自顶向下法和自底向上法相结合.
具体过程包括以下4个过程.
1) 以中间层为起点,将技术规范中明确提出的概念进行消歧精简,确定本体中的核心概念.
2) 向上进行抽象化,将各类型站点归为监测站点类,操作行为归属为操作类,操作类与监测站点类形成作用和被作用的关系;具体的离岸范围抽象为向海距离,将其作为衡量海域受人类影响程度的重要参考;与监测有关的地理概念抽象为地理要素,从而明确所在海域的周围环境.
3) 由内向外扩展.后期优化时,动态添加优化操作类与贴近度类.
4) 由中间核心层向下进行具体化,进行更细类的划分,包括具体的海岸线类型、功能区类型、河流分类等,从而覆盖整个监测领域的知识,以层次型的知识结构表达站点监测布局中的知识.近岸海域监测网络本体层次结构图,如图2所示.
图2 近岸海域监测网络本体层次结构图Fig.2 Ontology hierarchical structure chart of coastal waters monitoring network
1.2.2 属性关系描述 属性描绘概念的内在结构.数据属性是对个体和数值间关系的具体描述,对象属性是对类间在语义层次上的相互关联关系的表达[20].其中,监测领域涉及到地理空间知识,其概念关系主要包括基本语义关系和空间关系[21].基本语义关系主要包括属性关系及实例关系,以对象属性为例,布局对象与布局操作是拥有与被拥有关系;以数据属性为例,功能区面积自身的属性为面积大小.空间关系是依据空间对象实体的几何形态和知识表示,将实例抽象成点、线、面这3种类型.
围绕监测站点,分别定义近岸海域监测领域中点、线、面、点-面、点-线,以及点-点等的空间关系.点与面之间的关系分为监测站点在海域分区面内,点在海域分区面外部一定阈值范围内,以及点远离面.点与线空间关系分为监测站点在海岸线上,点在海岸线周边一定阈值范围内,以及点远离线.点与点间的关系包括两站点之间距离在一定阈值内,以及相互远离.上述关系中,阈值的设定可根据布局背景和需要进行动态设定.近岸海域监测网络对象属性和数据属性,分别如表1,2所示.
表1 近岸海域监测网络对象属性Tab.1 Object attributes of coastal waters monitoring network
表2 近岸海域监测网络数据属性Tab.2 Data attributes of coastal waters monitoring network
为了增强本体模型在计算机中的可操作性,需要对本体模型进行形式化处理.网络本体语言(OWL)以框架逻辑为形式基础,以描述逻辑为语义推理基础,在描述语义网特征上,具有很强的表达能力,能为规则推理服务[22].因此,采用OWL作为近岸海域监测本体描述语言,对本体形式化的表达进行说明.
1) 部分本体类OWL形式化表达为
〈owl:Class rdf:ID=“#Coastal_monitoring”〉
〈rdfs:subClassOf 〉
〈owl:Class rdf:ID=“#Layout_object”/〉
〈rdfs:subClassOf 〉
〈rdfs:label〉临岸监测站点〈/rdfs:label〉
〈/owl:Class〉
“Coastal_monitoring”是一个类信息,subClassOf指的是Class下的父类,即“Layout_object”是“Coastal_monitoring”的父类,临岸监测站点则为“Coastal_monitoring”的标签.
2) 部分属性OWL形式化表达为
〈owl:ObjectProperty rdf:ID=“#has_function_area”〉
〈rdfs:domain rdf:resource=“#Functional_area_monitoring”/〉
〈rdfs:range rdf:resource=“#Functional_area”/〉
〈rdfs:label〉拥有功能区〈/rdfs:label〉
〈/owl:ObjectProperty〉
对象属性“has_function_area”的定义域为“Functional_area_monitoring”,值域为“Functional_area”,表示拥有功能区.
3) 部分实例OWL形式化表达为
〈owl:NamedIndividual rdf:about=“#l_13”〉
〈rdf:type rdf:resource=“#Artificial_shoreline”/〉
〈/owl:NamedIndividual〉
其中:rdf:type是一个特殊的属性,表明前者是后者的实例;“l_13”是“Artificial_shoreline”人工岸线的一个具体实例.实例是类的具体个体.
1.3 本体规则库构建
知识库建模方式有事实、概念与规则3个层次.在基于本体构建知识库的过程中,事实层和概念层已通过本体概念模型表示,而规则层的构建需利用本体概念和关系进行知识规则的集成[23].从各种近岸海域监测站点布局案例及技术规范中甄选出3类规则,即选址规则、重点监测区域规则和优化规则,共提取出58条.选址对象共涉及7大监测站点类,不同的监测站点类型侧重点不同,与之相关的地理要素也不同.
按照产生式规则进行表达,也称为If-Then规则.以选址规则为例,If:(事实1)近岸海域监测站点类型,(事实2)类型所拥有的属性,Then:(结论1)选址操作.部分规则描述如下.
1) 选址规则抽取.
规则1:If:临岸近岸监测站点x,海岸线为人工岸线,且其向海距离为2~8 km,Then:保留站点.
规则2:If:临岸近岸监测站点x,位于滨海城镇区,所在海域水质为一类,Then:保留且在2 km处增设1个临岸监测点位.
规则3:If:代表性单元监测站点x,与质心点距离小于15 km,Then:保留站点.
规则 4:If:海域环境功能区监测站点x,所在功能区面积小于5 km2,Then:删除站点.
2) 重点监测区域规则抽取.
规则1:If:海域环境功能区监测站点x,所在功能区为农渔业区,拥有一类以上水质,Then:为重点监测区.
规则2:If:海域环境功能区监测站点x,所在功能区为海滨浴场,拥有二类以上水质,Then:为重点监测区.
3 ) 优化规则抽取.
规则1:If:优化对象x,拥有二类贴近度,贴近度值为大于1小于3,不与新增站点存在关联,最近邻点距离小于20 km,不属于重点监测区,Then:优化掉.
以优化规则1为例,用Jena规则语法表示,采用Jena规则语法进行形式化处理并存储,每条规则皆由前主体项terms(前提)、hterms(头部项)、规则名和推理方向定义组成[24-25].
Rule1:(?x rdf:type ns:Optimized_object) (?y rdf:type ns:Similarity_of_grade2)
(?x ns:has_similarity ?y)(?x ns: value_of_similarity ?y) greaterThan(?z,1.0) lessThan(?z,3)(?x ns: associated_with_the_reference_site 'false'^^xsd:boolean)
(?x ns:Nearest_neighbor_distance ?d) lessThan(?d,20000) (?x ns:key_monitoring_region′false′^^xsd:boolea) (?s rdf:type ns:optimized) → (?x ns:has_optimized_operation ?s).
其中:ns是本体知识库的命名空间;lessThan(小于)和greaterThan(大于)为Jena的内置元语;false′^^xsd:boolean表示布尔类型;“→”表示规则结论方向.
1.4 本体规则推理
图3 推理机制Fig.3 Reasoning mechanism
知识规则能对陈述性知识进行演绎,实现基于逻辑理论的本体推理,弥补本体推理能力的不足[26].Jena是美国惠普实验室针对语义网研发的应用开发包,能调用RDF,RDFS和OWL文档对本体进行解析和推理,利用数据库保存数据,使用SPARQL语言进行查询,是通用的开源本体推理机,允许用户自定义推理规则[27-29].选取Jena作为规则形式化描述语言,采用 Jena 自带的基于自定义规则的推理机.推理机制,如图3所示.
1) 将监测数据与OWL形式化的RDF本体模型结合,生成近岸海域监测本体实例,使用ModelFctory中的CreateOntology Model方法创建本体模型,装载本体文档[30].
Model model = ModelFactory.createDefaultModel().
2) 加载推理规则文件与本体文件,创建推理机,使用Create InfModel()方法创建含有推理规则的模型对象InfModel.
public InfModel getInfModel(String rulePath,String ontPath)
{this.inf=ModelFactory.createInfModel(getReasoner(rulePath),getOntModel(ontPath));
return this.inf;}
3) 利用 SPARQL对推导出的RDF三元组模型进行查询,得到最后的推理结果,并将结果转为列表形式存储于数据库.
String queryString = “PREFIXns:http:∥www.semanticweb.org/peng/ontologies/distribution#”+ “SELECT ?station_number ?subject ”+ “WHERE {?station_number ns:has_operation ?subject}”.
2 案例研究分析
2.1 福州市近岸海域监测站点的实例添加
图4 福州市近岸海域现有监测站点布局Fig.4 Layout of existing monitoring stations in Fuzhou City coastal waters
福建省福州全市海域面积1.06万 km2,大陆海岸线920 km,沿岸港湾重要工业企业较多,且有3大河流注入海湾.口小腹大的港湾水体交换能力差,自净能力不强,受污染程度较重.自全国海域环境监测网组建以来,福州市于2002年采用常用的网格布点法开展站位调整工作[31].福州市近岸海域现有监测站点布局,如图4所示.
由图4可知:随着沿海经济开发的不断推进,对于海湾众多、海岸线狭长的福州市近岸海域,现有的监测站点覆盖度不够完整,狭长航运区的周围存在空窗期,有必要在受陆源污染影响大的区域加密监测点位,重新对监测站点进行布局设计.
采用网格布点法初步将近岸海域空间划分成不同粗细层次的规则格网,近岸区网格为10 km×10 km,远岸区网格为20 km×20 km,每个格网以其中心点的坐标确定监测站点地理位置.监测站点布局对象分布,如图5所示.
图5 监测站点布局对象分布Fig.5 Layout object distribution of monitoring stations
由图5可知:近岸海域受人为影响大,功能区众多,监测站点密集,远岸区相对稀疏.考虑到网格布点法仅仅是随机布点,需要进一步筛选和优化网络,确定每个实例所属的类别,添加相关属性是进一步选址和优化的前提.借助protégé 5.4平台,在福州近岸海域,构建了包括81个类、27条属性和137个本体实例.布局对象实例添加了具体属性约束值,以s_37为例,“拥有最近邻点”为s_33;“最近邻点距离”为10 590.037 m;“拥有贴近度”为t_37;“拥有贴近度值”为1.882;“拥有水质类别”为2类水;“拥有功能区”为闽江口矿产与能源区;“功能区面积”为88.143 km2;“与新增站点之间存在关联”为false;“位于重点监测区”为false.
2.2 推理结果与分析
经过第一阶段选址规则推理,保留原有27个符合规则的监测站点,并增设7个对照站点.选址规则推理结果站点分布,如图6所示.
由图6可知:s_44属于临岸近岸监测站点类,对应海岸线长度大于50 km,向海距离为2~8 km,避免过于靠近岸线而受到海岸线向海淤涨的影响,依据规则推理将其保留,并在5 km处增设s_59对照站点;s_41也是位于同一岸线附近,且处于重要港口和航运区,自动增设s_58站点;s_36,s_23,s_9,s_17和s_5属于海滨浴场监测站点类,且浴场宽度大于250 m,需要在2 km处增设站点,用来分析水质变化规律和变化范围;s_11,s_25,s_28,s_43位于监测代表性单元质心点附近,所在的单元都有特有的生态特点和水团特点,主要用来监测远岸海域环境状况.但是,选址规则只能剔除完全不符合布点规则的随机站点,形成的监测网络仍然存在一定的冗余.
为降低监测站点的冗余度,增加监测网络代表性,利用优化规则优化掉冗余站点,保留重点监测区域监测站点.优化结果站点分布,如图7所示.
由图7可知:牛屿岛附近海域功能区种类少,站点s_7,s_8,s_12,s_4在同一片海域水质相同,处于非重点监测区域,站点之间贴近度值相似.因此,在进行优化处理时仅选定s_9与新增站点作为代表监测站点;s_33与s_34贴近度值相似,但由于s_33位于长乐海蚌保护区,其水质为超1类水.因此,对优化掉s_34,选定s_33进行重点监测.
图6 推理结果站点分布 图7 优化结果站点分布Fig.6 Station distribution based on inference results Fig.7 Station distribution of optimization results
整个监测网络的设计宏观上构建了完整的类层次结构,适用于类似的海域监测网络,具有一定的复用性.微观上,详细到每一站点的具体属性值,可根据不同海域的具体情况进行修改添加,方便查询每一站点选定与优化的依据.布局的结果与现有站点对比加强了对近岸海域、受人为活动影响大的海域的监测.滨海城市密集区的站点布设相对于自然岸线更密集,同时,综合考虑了生物生态因素和水团因素.综上分析,对福州近岸海域现有监测网络提出以下4个建议.
1) 加强对海滨浴场的监测.王爷山海坛的坛南旅游娱乐区位于福建省平潭岛东部海坛湾,距城关1.5 km.海滩宽500 m,连绵9.5 km,是全国最大的海滨浴场之一.其所在海域水质为3类水,应在其附近增设两处监测站点,用来分析水质环境变化规律和变化范围.
2) 闽江口每年的污染排海量大,周围海域的水质受到污染严重,入海口处海域水质为4类水,且周围有闽江口港口与航运区,对水质要求高的黄岐半岛东部农渔业区,闽江口海洋保护区,有必要适当增加监测站点.
3) 福清市沿岸与平潭岛西侧的海域地处陆地狭角,不利于与外海的水质交换,污染物自净能力差,加上地理位置的特殊性,有狭长的航运区,污染严重,需针对性监测.
4) 福州远岸海域受人为影响小,水质良好,相对于站点的密集度更应发挥监测的代表性作用;根据海域生物生态,水团水质特征,进行合理的监测单元分区,加强海域监测的代表性.
3 结论与展望
对聚焦近岸海域环境监测站点布局进行研究,提出基于本体知识库的研究方法,探讨本体构建法及本体模型推理方法,充分发挥了本体和规则两者的优势.通过构建领域概念层次结构,分析概念的语义关系和空间关系,帮助设计者了解布局文本中的语义关系,完成了本体模型的形式化.利用规则语法对归纳的描述性规则进行构造,得到布局与优化的推理规则,结合本体推理机和推理规则完成各阶段规则的推理.
以福州市近岸海域环境监测站点布局为例,对本体知识库方法进行验证.结果表明:该方法能有效借鉴模型的专家经验知识,扩充类似案例的系统知识库,为近岸海域环境监测站点布局开辟新的思路.布局每一站点都能清晰地查询到操作的依据,验证了规则推理的有效性.布局结果考虑了海洋环境质量评价和海洋的区域性特点,优化后的方案能够降低监测网络的冗余度,提高监测站点的代表性.
在本体的知识获取和构建过程中,多为人工操作,虽然保证了知识库的质量,但随着区域的扩大、实例属性的增多,效率降低.监测站点布局策略的部分描述性文字存在一定语言上的模糊性,如“兼顾重要海湾和河口”中的“重要”一词并未进行明确的程度指明.文中单一地使用水质环境判断,存在一定的不足.因此,有待进一步对海湾的封闭程度、海域的污染风险指数及社会经济关联度等多方面因素综合分析,完善近岸海域环境监测本体知识库和规则库.同时,增强知识自动化获取和本体的自动化构建能力,提高构建效率.