基于贝叶斯网络的海洋生态环境状况评价
——以山东省为例
2021-10-20杨湘艳余静
杨湘艳,余静,2
(1.中国海洋大学 海洋与大气学院,山东 青岛 266100;2.中国海洋大学海洋发展研究院,山东 青岛 266100)
我国是海陆兼备的国家,拥有约300 万平方千米的蓝色国土。与20 世纪80 年代初相比,我国海洋生态环境状况发生了显著变化,出现了海洋环境污染严重,海洋生态系统健康受损,近海渔业资源衰退,以及自然岸线缩减等系统性问题(厉丞烜等,2014),沿海地区海洋生态环境正遭受着前所未有的人类活动干扰(郑力燕等,2018)。开展海洋生态环境状况科学评价方法的研究,识别影响海洋生态环境状况的主要因素,可以为开展海洋生态环境监测评估和制定海洋生态环境保护政策提供科学依据,进而改善海洋生态环境状况,促进陆海统筹和海洋可持续发展。
目前针对海洋生态环境状况评价的研究主要包括以下两类:(1)对海洋生态环境现状及其变化趋势的定性分析(厉丞烜 等,2014);(2)基于观测资料,构建指标体系(宋伦等,2007;胡婕,2007;许雪青等,2014)或结合相关模型(韩婕妤,2019)的海洋环境状况定量评价。现行海洋生态环境状况评价方法为海洋生态环境状况评价指标体系构建奠定了坚实基础,但较少有对评价指标间关系的研究。此外,在海洋生态环境状况评价过程中,难免存在着诸如指标选取难以全面,数据质量难以保证以及对海洋生态环境状况认知限制等不确定性,影响了海洋生态环境状况评价结果的可靠程度。
构建基于贝叶斯网络的海洋生态环境状况评价方法,利用模型特点弥补目前海洋生态环境状况评价过程中存在的不确定性,可以在一定程度上提高评价结果的科学性。同时,利用贝叶斯网络强大的推理能力,可以进一步识别海洋生态环境状况指标对环境状况的影响程度及指标间相互关系,为海洋生态环境保护工作提供科学指导。本文基于贝叶斯网络模型理论,构建了基于贝叶斯网络的海洋生态环境状况评价模型,并以山东省为例,构建山东近海生态环境状况评价指标体系,开展模型应用研究。
1 海洋生态环境状况评价模型
1.1 贝叶斯网络基本理论
贝叶斯网络(又称贝叶斯概率网络、贝叶斯信念网络)是一种高效的图形化决策分析工具(蒋望东等,2007),是使用数理统计知识解决复杂系统中不确定问题的有效建模方法(Friedman et al,1997)。其数学基础是贝叶斯公式:
其中,P(Bi)代表先验概率,P(Aj)为新证据发生的边缘概率,P(Aj|Bi)为在先验概率条件下新证据出现的似然概率,P(Bi|Aj)为后验概率,即在获取新证据后修正先验概率所得到的更符合实际情况的概率估计(刘瑞,2016;李明等,2018)。
贝叶斯网络包含定性与定量两个部分,其中定性部分为表示变量间概率依赖关系的有向无环图;而定量部分则是各个节点的概率分布,表征了不同变量对其父节点的依赖程度(张连文等,2006)。贝叶斯网络的建模流程通常可归纳为四个步骤:(1)定义网络节点;(2)确定贝叶斯网络结构;(3)确定贝叶斯网络参数;(4)进行贝叶斯网络推理(范宵,2013)。其中,确定贝叶斯网络结构(结构学习)与网络参数(参数学习)的过程统称为贝叶斯网络学习。
与其他评价方法相比,贝叶斯网络不仅有效地结合了定性与定量方法,还融合了先验知识与客观证据(刘瑞,2016),可以为开展评价研究提供科学依据。此外,贝叶斯网络能够基于概率理论展开统计推断,直观简便,原理清晰,具有深刻的理论和实际意义(齐培培,2009;曹杰,2017)。
1.2 评价模型构建
本文将贝叶斯网络引入海洋生态环境状况评价,融合专家知识与客观数据,建立并确定不同评价指标之间的网络结构关系与相互依赖程度,进而通过概率推断对海洋生态环境状况开展评价。构建基于贝叶斯网络的海洋生态环境状况评价模型如下:
其中,B 代表子节点海洋生态环境状况(i 为海洋环境状况等级,本文设置每个节点可取3 种状态,1、2、3 分别对应良好、一般、较差) 或准则层指标,A 代表父节点准则层指标或海洋生态环境状况指标(j 为指标编号)。Aj表示第j 个指标的观测值。
利用该模型开展海洋生态环境状况评价的基本步骤如下:
(1)基于区域生态环境状况特征与数据收集情况,构建海洋生态环境状况评价指标体系,并进行数据标准化、指标分等定级等数据预处理;
(2)计算不同指标的主客观组合权重;
(3)通过专家咨询,构建海洋生态环境状况评价初始贝叶斯网络结构;
(4)设计基于距离法的蒙特卡洛算法,弥补无法或难以获取的指标数据;
(5)通过结构学习与合理调整,获得最终网络结构;
(6)基于最终结构进行参数学习;
(7) 将最终结构与参数学习结果输入Netica进行推理,并分析结果。
图1 基于贝叶斯网络的海洋生态环境状况评价模型流程图
2 案例研究
本文选取山东省近岸海域作为评估案例,运用上文构建的基于贝叶斯网络的海洋生态环境状况评价模型对其海洋生态环境状况进行评价和分析。评估实验平台为MATLAB 2015b,相应库函数来自K.P.Murphy 编写的BNT 工具箱。
2.1 评价指标体系构建
山东省是位于我国东部沿海的一个海洋大省,具有独特的海洋经济发展区域优势(刘笑,2019)。山东半岛是我国最大的半岛,三面环海,与日本列岛、朝鲜半岛、辽东半岛隔海相望(刘笑,2019;张盼盼等,2017)。全省管辖海域面积约15.96 万平方千米,海岸线长约3 345 千米(侯英民,2010);海洋生物、矿产、能源、旅游资源丰富(狄乾斌等,2015)。
本文基于山东省海洋生态环境特点与山东省海洋环境状况公报数据,选取山东近海生态环境状况评价指标(表1)。该指标体系的准则层由海洋环境质量、海洋生态健康和海洋生态灾害构成,并进一步细分为8 个指标。
表1 山东近海生态环境状况评价指标体系
本文计算所需数据来源于2013—2019 年的《山东省海洋环境状况公报》,指标等级划分依据《近岸海洋生态健康评价指南(HY/T 087-2005)》《区域性生物多样性评价标准(HJ623-2011)》《绿潮预报和警报发布HY/T 217-2017》 《赤潮监测技术规程HT/T 069-2005》 《山东省海洋环境状况公报》 《近岸海域环境监测规范HJ 442-2008》和相关参考文献研究结果(胡婕,2007;许雪青等,2014)等资料确定。
2.2 数据处理与权重计算
由于各指标的单位不统一,故在进行指标权重计算和综合评价前,需对数据进行标准化处理。根据指标性质的不同采用对应的标准化公式如下。其中,正向指标代表对海洋生态环境状况有正面作用的指标,负向指标代表对海洋生态环境状况有负面影响的指标。
正向指标(指标1~6):
为充分融合客观数据的逻辑性与专家经验的实际意义,保证评价的客观性,本文采用熵值法和AHP 法确定权重,具体计算方法见相关参考文献(孙倩等,2018;孙慧莹等,2019),此处不再赘述。在计算出指标层各指标权重后,根据综合评价指数法公式(胡婕,2007)计算得到准则层指标数据,再进一步计算得到其权重。
本文首先通过电子平台发放百余份问卷,邀请各领域专家对指标间的重要性比值按照1~5 标度进行打分,同时根据专家意见对指标体系做相应调整,计算得到AHP 法权重结果;再选取2013—2019 年山东省近海生态环境状况指标数据,对数据进行标准化处理后计算得到熵值法权重结果,最后得到组合权重如表2 所示。
表2 2013—2019 年山东近海生态环境状况指标权重
此外,由于在无特殊情况下,海洋生态环境状况的各项指标年变化量不会出现大幅变化,转换成指标等级变化将更不明显。为更好地分析各个年份的海洋生态环境状况变化,本文采用距离法(齐培培,2009)对各个年份的指标数据进行分等定级,具体方法如下:
其中,xj表示第j 个指标的观测值;yij表示环境状况级别为i 时,第j 个指标的标准值;Lij=|xj-yij|,指标观测值与对应级别标准值的绝对值差越大,其属于该级别的可能性就越小。如对于指标7 而言,设其观测值为100,则其属于良好等级的概率为:
即有标准区间的各等级标准值均取最大值,无法确定最大值的按等差数列取值。
基于2013—2019 年山东近海生态环境状况指标数据,采用上述方法计算得到各年指标等级划分结果如表3 所示。
2.3 贝叶斯网络结构学习
目前,构建贝叶斯网络拓扑结构的方式主要包括专家知识构建和数据学习构建两种(曹杰,2017),其中,数据学习构建方法依赖于足够多的样本数据进行,因而在数据较少或节点间因果关系明显的情况下,专家知识构建方法更具优势(李俊生等,2008)。基于本研究的数据条件及指标间较为明显的因果关系(莫定源,2017),本文首先采取专家知识构建方法构建山东省海洋生态环境状况评价初始贝叶斯网络拓扑结构(图2)。其中浮游植物作为生态系统的基础,其多样性对其他物种如浮游动物、底栖生物等的多样性有不容忽视的影响。再基于实际数据通过统计分析得到各指标层指标的概率分布,采用基于距离法的蒙特卡洛算法,融入指标权重后给出准则层及目标层指标的初始概率分布,并基于上述概率分布构造足量数据样本,采用爬山搜索算法(hill-climbing)与BIG 评分函数进行结构学习,基于学习结果与专家经验知识进一步优化得到最终网络拓扑结构(图3)。
图2 山东近海生态环境状况评价贝叶斯网络初始结构
图3 山东近海生态环境状况评价贝叶斯网络最终结构
根据结构学习结果,可以看出指标8 绿潮分布面积与指标7 赤潮分布面积之间存在一定的因果关系。这是由于绿潮的发生将引起海域内营养盐结构的改变,破坏海域内群落结构稳定性,进而引发赤潮等次生生态灾害(冯立娜等,2020)。
2.4 贝叶斯网络参数学习
贝叶斯网络参数学习是在已知贝叶斯网络结构的情况下确定贝叶斯网络参数,亦即各节点概率分布的过程。数据集完备情况下的参数学习方法包括最大似然估计法(MLE)与贝叶斯估计方法(MAP);数据集缺失情况下的参数学习方法则包括EM 算法与Gibbs 抽样算法(李明,2018)。相对于最大似然估计,贝叶斯估计方法可以更好地考虑先验知识的影响(范宵,2013),使后验概率最大,故本文采用贝叶斯估计方法进行参数学习。以指标9 海洋环境质量为例,参数学习结果如表4 所示。
表4 指标9 海洋环境质量参数学习结果
2.5 推理计算
Netica 是一款基于Java 开发的贝叶斯网络学习软件(陈静等,2016),因其设计简单、功能强大,被广泛应用于商业、工程或生态环境等领域的不确定性研究(曹雪亚,2009)。将最终网络结构与各节点概率分布输入Netica 软件平台,得到推理结构(图4)。再依据各指标的逐年等级概率分布进行推理,获得基于贝叶斯网络模型的逐年海洋生态环境状况评价结果(表5),逐年变化趋势(图5)。
图4 山东省近海生态环境状况评价Netica 推理结构
图5 基于贝叶斯网络的山东省海洋生态环境状况2013—2019 年评价结果变化趋势
表5 2013—2019 年山东近海生态环境状况贝叶斯网络模型评价结果
根据最大概率原则,可知基于贝叶斯网络的山东近海生态环境状况结果为:2013—2019 年间山东近海生态环境状况基本保持一般状态,但概率大小有所起伏,整体呈现上升-下降-上升-下降-上升的趋势。此外,2015 年以前海洋生态环境状况属于较差状况的概率高于其属于良好状况的概率;2015 年以后海洋生态环境状况属于良好状况的概率有所上升,超过其属于较差状况的概率,可见山东省近海生态环境状况于2015 年后有一定程度的改善。查阅山东省海洋环境质量公报可知,2013—2019 年期间山东省近海海水质量与沉积物质量始终保持稳中向好的变化趋势;绿潮灾害爆发面积在2014 年与2015 年有明显增长,2015 年后显著下降并保持相对稳定;自2015 年起赤潮灾害鲜有发生或仅在小范围内发生;近海海域内浮游生物多样性水平起伏较为明显,2015 年浮游植物多样性指数与底栖生物多样性指数均为最低值。相关指标变化趋势均表明,山东省近海生态环境状况于2015 年后有所改善。
2.6 模型检验
综合评价指数法在评价领域得到广泛应用,其指标归一化方法在表征变量的时间变化趋势上有简便直观的优势。故本文采用综合评价指数法进行逐年海洋生态环境状况综合评价,将评价结果逐年变化趋势与模型呈现结果进行比较,以验证模型评价的可行性。根据综合评价指数法公式(胡婕,2007):
其中,棕i为指标权重,Ci为各评价指标归一化值,n 为指标个数;计算得到各年环境状况综合评价值如表6 所示:
表6 2013—2019 年山东省近岸海洋生态环境状况综合指数评价结果
根据对比结果,可知两种评价方法虽在变化幅度上有所不同,但整体变化趋势一致,均呈现上升-下降-上升-下降-上升的趋势,说明本文构建的基于贝叶斯网络的海洋生态环境状况评价模型合理且可行。
图6 贝叶斯模型评价结果与综合指数评价结果变化趋势对比
2.7 结果与讨论
根据模型评价结果可知,2013—2019 年间山东省近海生态环境状况总体保持一般状态,于2015 年出现恶化情况,并于2015 年后在整体上有一定程度的改善,2017 年后略有变差,整体呈现上升-下降-上升-下降-上升的趋势。为识别影响山东近海生态环境状态的主要因素,需要对评价指标的变化趋势及其对环境状况的影响机理进行深入挖掘。
贝叶斯网络敏感性分析是指通过改变输入节点参数的值来量化其对目标节点的影响程度(莫定源,2017)。为了进一步分析各个指标对海洋生态环境状况评价结果的影响程度,通过比较由Netica软件计算得到的各指标的方差(Variance of Beliefs)值大小对各个指标进行敏感性分析(陈静 等,2016),方差值越大,则代表该指标对结果影响越大(表7)。
由表7 可知,在本研究案例中,准则层指标中对海洋生态环境状况评价结果影响最大的指标依次为海洋环境质量、海洋生态灾害与海洋生态健康;在指标层指标中,对海洋生态环境状况影响最大的前三个指标依次为区域沉积物综合质量、一二类水质面积占比与绿潮分布面积。
表7 各指标敏感性分析结果
海洋环境质量作为海洋生态环境基底,对海洋生态灾害的发生频率及海洋生态系统健康都有不容忽视的影响。海水富营养化被视为导致绿潮和赤潮等海洋生态灾害的重要原因(郭伟,2017),自2007 年起,每年5—8 月绿潮灾害都会影响我国南黄海海域,这与城市污水排放等人类活动引起的海水富营养化密不可分。此外,受围填海工程等因素的影响,山东省北部莱州湾生态监控区多年处于环境质量不健康状态(李先超,2011);近海浮游动植物多样性有所降低,海洋生态系统始终处于亚健康状态。而海洋生态灾害的发生也会反作用于海洋环境质量,如大型海洋绿藻大量增殖的现象——绿潮,虽然其在发生过程中并不会对环境及人体健康造成危害,但其消亡过程会对水质产生一定影响(梁宗英等,2008)。
研究表明陆源排放污染物是导致近海生态环境质量恶化的主要原因(陈江麟等,2000),山东省通过调整产业结构、关停高污企业和提高治污技术水平等,有效提高了城市污水处理达标率(秦灿,2014),进而有效改善了海洋环境质量。近年来,山东省逐步加大海洋环境保护力度,先后颁布了《山东省海洋功能区划(2011—2020 年)》 《山东省渤海海洋生态红线区划定方案(2013—2020 年)》《山东省黄海海洋生态红线划定方案(2016—2020年)》等规划方案对海洋开发利用活动进行管制,并设立了诸如红线区面积占比、自然岸线保有率、水质达标率等相应海洋环境保护控制指标,海洋环境质量得到有效改善,赤潮发生频率与绿潮分布面积显著下降,海洋环境保护效果初见成效。
3 结论
本文基于贝叶斯网络模型理论,初步构建了基于贝叶斯网络的海洋生态环境状况评价模型,并以山东省为例,开展模型应用研究。主要研究结论如下:
(1)基于贝叶斯网络开展海洋生态环境状况评价是行之有效的。通过贝叶斯网络的结构构建与学习,可以直观地表达各个因素间的因果关系,并通过条件概率表表征因素间的依赖程度,从定性与定量角度开展海洋生态环境状况评价,为海洋生态环境状况评价研究提供了新的研究思路。
(2)本研究在权重计算与模型结构构建过程中充分融合了专家经验知识与客观数据。通过咨询海洋生态、环境等领域的专家,调整评价指标体系使其更加合理;基于AHP 法确定的主观权重有效地中和了客观权重的局限性。此外,通过基于距离法的蒙特卡洛算法计算准则层与目标层指标数据,克服了数据量不充分的缺陷。
(3)基于案例基本信息,对各个指标进行了贝叶斯网络敏感性分析,初步分析得到了对海洋生态环境状况评价结果影响程度较大的指标,分析结果对于环境保护政策制定具有一定的借鉴意义。在扩大数据时间序列与空间分布精度的情况下,将得到更为准确的分析结果。
(4)根据模型评价结果,可以看出山东省近年来在海洋环境保护方面的工作,尤其是海洋环境质量改善、海洋生态灾害控制两方面初见成效,但在提升海洋生态健康方面效果有所欠缺或尚未显现。
基于公报数据的模型评价在反映海水流动性方面有较大的局限性,下一步,我们将完善数据来源,构建基于动态贝叶斯网络的海洋生态环境状况空间评价模型,从时空演变角度体现海水流动性及其对结果的影响,提高评价结果的准确性。