基于机器学习方法的废弃场地污染特征分析
2023-08-11高明亮
李 翔,高明亮,陈 征
(1.首都师范大学,北京100048; 2.中国环境科学研究院,北京 100012)
0 引言
随着现代化工业的不断发展,人们环保意识逐渐增强,许多涉污企业、厂区相继关停或搬迁[1]。然而,遗留在场地及其周围的污染物并不会随着企业厂区的搬迁、关停而消失,相反遗留污染物会持续对周围的自然环境及居民造成潜在的风险[2-8],亟需对这些废弃厂区遗留的污染物状况开展持续调查及特征分析,为日后的治理、修复及管控提供科学依据。
在污染特征分析研究方面,国内外学者主要通过 GIS 技术,运用污染评价算法及可视化方法,分析污染空间分布特征。White[9]利用克里金插值方法,得到美国某区域土壤中锌元素的空间分布格局,从而提取了Zn元素的污染分布特征。Goovaerts[10]等对瑞士某地区土壤中的铜、铅元素进行含量分析,利用克里金插值对污染进行特征分析。楼春[11]等从水平方向与垂直方向对某焦化厂场地土壤污染特征进行了分析研究。陈宏[12]等通过场地调查,确定了南方某场地的主要污染物,进一步分析了污染物在土壤与地下水中的分布特征。耿治鹏[13]等用反距离权重法,分析了重金属在研究区的分布特征,运用莫兰指数进行空间关联分析,运用半变异函数,分析重金属污染整体的空间结构及趋势,以探究污染场地的重金属污染空间特征。近年来,数学建模及机器学习技术飞速发展,将其应用于污染场地特征分析成为新趋势。Zeng[14]等通过三维建模与可视化精细表征高度污染工业场地的重金属污染,利用三维模型,揭示水文地质特征对污染迁移的影响及分布机制。Liu[15]等提出一种随机森林与普通克里金法相结合的模型,结合地形要素、场地环境要素及遥感数据等多源环境数据,预测某大型砷渣场地土壤中重砷(As)的空间分布。黄燕鹏[16]等基于SOM+K-means分析挖掘及空间插值方法,研究华东地区某铬渣污染场地,并将研究区地下水分为4类区域,识别出每类区域需重点关注的污染指标。
在污染场地大数据监管及数据挖掘背景下,提出利用机器学习方法,将研究区场地的多源异构数据进行融合,以综合评判其污染情况,以期为污染场地管控及决策提供科学参考。
1 材料与方法
1.1 研究区概况
该研究场地为我国华南某市的一个废弃电镀工业区,该市属亚热带海洋性气候,春夏时间长,秋冬时间短,年平均气温22.6 ℃,年平均降水量1805.2 mm。阳光充足,雨量丰沛。该废弃工业区地块总面积43.614亩,由电镀厂区(约23 072 m2)与污水处理厂(约6004 m2)组成。场地东边与南边毗邻化工厂,西边紧邻农田,北边与某工业园相邻。
1.2 数据采集
本研究所用到的数据包括遥感影像数据与土壤污染物采样数据,其中遥感影像数据来源于landsat 8平台和高分-2号,具体信息见表1。
表1 遥感图像数据信息
土壤污染物采样数据来自于实地调查采样,检测包括银、砷、镉、铬、铜、镍、铅、锌、汞及六价铬等 10 种重金属及总氰化物、挥发性有机物(VOCs)、半挥发性有机物(SVOCs)、总石油烃(TPH)与多氯联苯(PCB)等,其中铜、镍、锌三种重金属元素超过风险筛选值。共设33个采样点。
1.3 研究方法
按照《关闭搬迁企业地块风险筛查与风险分级技术规定》[下文简称《规定》]分类分级指标,将采样数据划分为特征数据集,其中主要特征包括各类污染物浓度超标倍数、地表覆盖情况、地下防渗措施、土壤质地、土地利用方式、平均采样深度等。参考《规定》中的量化指标,将污染物特征数据集按污染严重程度分为中度关注、高度关注两个类别。建立贝叶斯模型,评估各样本分别属于高度关注、中度关注的的概率。利用XGBoost算法,计算各特征的特征重要性,识别出污染严重程度的主要控制特征,并以此量化结果作为权重,量化各样本的污染特征值。基于ARCGIS平台,绘制该厂区污染分布图,分析厂区内部污染物分布特征,为污染场地治理、修复及管控决策提供科学参考。
图1 技术研究路线
1.3.1 朴素贝叶斯模型
朴素贝叶斯是贝叶斯分类器中的一种模型,用已知类别的数据集训练模型,从而实现对未知类别数据的类别判断,理论基础是贝叶斯决策论[17-24],核心思想是利用先验知识计算出样本分别属于每个类别的概率,以此来判定样本所属的类别,故需引入贝叶斯概率公式来计算样本概率。
贝叶斯公式一般表达为:
(1)
也可通俗表达为:
(2)
假设一组样本需要分为两个类别,则只需计算每条样本分别属于类别1与类别2的概率,见下式:
(3)
(4)
在污染场地中,贝叶斯方法进行数据融合主要思路是利用朴素贝叶斯分类器中的高斯分类器,将样本的各个特征输进分类器,并输出每条样本对应的类别,以达到数据统一化的目的。样本特征值主要通过污染场地详细调查的数据整理得到(如地表覆盖情况、地下防渗措施、采样深度、污染物浓度等),通过贝叶斯方法来进行分类,得到样本的所属类别。
1.3.2 XGBoost算法
XGBoost算法[25-29]是一种决策树提升算法,全称为 eXtremeGradient Boosting。与 GBDT 算法相同,XGBoost算法由不定量的弱分类器组成,与GBDT的不同之处在于目标函数的定义方式。XGBoost 的树模型与目标函数表达式类似,同样属于boosting算法,所以遵从前向分布加法,以第t步的模型为例,模型的第i个样本的x的预测值为:
(5)
(6)
(7)
(8)
根据泰勒公式,把函数f(x+Δx)在x处进行泰勒的二阶展开,得到式(9):
(9)
(10)
将上述的二阶展开式带入到 XGBoost 的目标函数中,得到目标函数的近似值:
(11)
(12)
对Ω(ft)进行正则化,得:
(13)
用叶子结点表达目标函数:
(14)
记∑(i∈Ij)gi为Gj,∑(i∈Ij)hi为Hj,
对wj求导,得:
(15)
目标函数可简化为:
(16)
XGBoost算法引入正则化项于损失函数中,降低了模型的复杂度,减少了模型出现过拟合的概率,利用稀疏感知算法判断模型的分裂方向,弥补了特征缺失值导致的误差,通过抽样计算,减小了计算量,避免了过拟合现象的出现,具有非常高的可执行性[30]。
特征重要性是通过对数据集中的每个特征进行计算并排序得到的。在XGBoost算法中选择Gain(增益)衡量每个特征对模型性能改进做出的贡献。与其他特征相比,此度量值的较高值意味着它对生成预测更为重要。由节点负责加权及记录次数,将一个特征在所有提升树中的结果进行加权求和后然后平均,得到特征重要性的量化结果。
(17)
利用该算法获取每个样本的每个指标造成污染严重程度的特征重要性,并以此作为每个指标的权重,利用线性加权方法得到样本的污染特征值,量化评估污染地块的综合污染情况。
2 结果与讨论
2.1 影响因子指标构建
以报告为数据来源,以《规定》为参考,选取地表覆盖情况、地下防渗措施、土壤类型、采样深度、重金属污染物超标倍数等影响因子,将各个影响因子进行量化。
量化细则如表2。
表2 非结构化数据量化细则
2.2 关注度计算
利用贝叶斯方法,输出每个样本分别是属于中度关注还是高度关注的概率,以此来判断该样本所在区域的污染关注程度。采用贝叶斯模型处理多维、多类别数据,无需将数据统一化,显著提高了多源数据融合效率,避免了量纲及单位问题,更好地辅助决策。
(18)
(19)
根据贝叶斯概率公式,计算每个样本分别属于中度关注还是高度关注的为后验概率,故需要计算出先验概率P(中度关注)、P(高度关注)。由于特征数据集中的数据已经过量化,因此在贝叶斯模型中属于连续型数据,故采用高斯方法,求出先验概率概率P(特征∣中度关注)、P(特征∣高度关注)。根据公式进行计算,得到样本的后验概率,若P(中度关注∣特征)>P(高度关注∣特征),则判断该样本所在区域关注度为中度关注,反之亦然。
将数据输入值朴素贝叶斯分类器中,分类结果如表3所示。
表3 污染关注度计算结果
表4 特征指标重要性量化结果
经过分类,场地内部高度关注区域共有6处,分别为MC04/MC05一带、MC09/MC11一带、MC18/MC20。其余部分皆为中度关注区域。分析发现,MC11、MC09点位于地块南侧某电镀厂排污出口附近,土质为砂土,地表硬化情况一般,有裂缝与破损及一定的地下防渗措施。MC04、MC05处位于原场地污水处理厂,土质为砂土,地表硬化情况一般,有裂缝与破损及一定的地下防渗措施。
2.3 污染特征计算
传统方法(如内梅洛综合指数法、污染物浓度插值法等)对地块内污染物进行特征分析,仅考虑区域内污染物含量造成的影响,难以综合反映场地污染情况,因此通过XGBoost算法获取每个污染特征指标造成污染严重程度的特征重要性,以此作为每个指标的权重,利用线性加权方法,得到每个采样点的污染特征值,特征值越大,代表当前区域综合污染情况及风险越严重,以此量化评估污染地块的综合污染情况,从而实现估计环境信息的污染特征分析。
2.3.1 特征指标权重计算方法
利用XGBoost算法,得到所有特征指标在模型中的增益(Gain),再用每个特征的增益除以所有特征增益的总和,得到每个指标特征的权重:
(20)
其中,Gaini是每个特征指标的增益,n是特征个数。
2.3.2 特征值计算方法
分别将各个影响因子的权重与特征数据集中相应的数值进行相乘,再进行相加,将得到的数据作为污染特征值。
特征值计算结果如表5所示。从表中结果可知,该场地主要污染物为铜、镍、锌,与其主要电镀相关业务排放特征一致。通过对比分析可知,该场地区域内锌元素污染最为严重,污染特征平均值达到12.40。其中,在MC09、MC11及MC18点位,锌元素污染特征值分别达到了20.10、24.56及20.35,需要重点关注。
表5 污染特征值计算结果
2.4 污染物特征可视化及空间分析
由图2可以看出,镍、锌、铜三种元素的污染分布情况较为接近。污染严重区域集中在场地西北侧污水处理厂附近及原电镀厂与电染厂排污出口处,并有向四周扩散的趋势。MC11、MC09点位于某电镀厂排污出口附近,土质为砂土,地表硬化情况一般,有裂缝与破损及一定的地下防渗措施。MC04、MC05处位于原场地污水处理厂,土质为砂土,地表硬化情况一般,有裂缝与破损及一定的地下防渗措施。初步判断电镀生产是导致铜、镍、锌三种污染的主要原因,且污染超标最严重的污染元素是锌。此外,前期研究发现,污水处理环节及运输过程泄露也是导致重金属污染的重要原因之一[13]。基于此,针对该废弃场地的修复工作,应主要集中在西北部污水处理厂、南部及北部的电镀厂排污出口处,可减少修复工作成本及化学修复对环境带来的副作用。
图2 镍、锌、铜污染特征可视化结果
3 结论
通过对多源数据的筛选整理,利用贝叶斯决策方法,预测污染场地内部污染严重程度,其中预测结果与该污染场地实际污染分布情况相吻合。根据相关材料筛选出能够综合评价污染场地特征的指标,将其量化,利用XGBoost算法及线性加权,获得污染场地各部分样本的污染特征值,其中锌元素污染特征值整体较高,说明该场地锌元素污染较严重,污染特征值可视化结果亦与实际情况相符。本研究基于贝叶斯决策与XGBoost构建的废弃场地污染特征分析方法,可为污染场地管控、修复工作提供技术支撑及决策参考。