APP下载

基于卷积神经网络识别三维荧光光谱的水污染溯源研究

2022-10-28侯茂泽马艳琼田森林欧阳昊李英杰赵琦琳

中国环境监测 2022年5期
关键词:污染源水样正确率

侯茂泽,马艳琼,田森林,欧阳昊,赵 恒,李英杰,铁 程,赵琦琳

1.昆明理工大学环境科学与工程学院,云南 昆明 650031 2.昆明市生态环境局安宁分局生态环境监测站,云南 昆明 650309 3.东南大学信息科学与工程学院,江苏 南京 210096 4.天津工业大学电气与电子工程学院,天津 300387 5.云南省生态环境监测中心,云南 昆明 650034

我国“十四五”规划和2035年远景目标纲要提出“健全有毒有害化学物质环境风险管理体制”和“重视化学品污染治理”的要求。频发的安全生产突发事件是有毒有害化学物质进入环境的重要途径,对生态环境造成破坏的同时也对社会安定和居民健康带来严重危害[1]。典型案例有2010年福建紫金矿业溃坝事件、2010年大连新港原油泄漏事件、2011年云南曲靖铬渣污染事件、2012 年广西龙江镉污染事件、2013年山西长治苯胺泄漏事件等,这些水污染事件的发生严重威胁到受污水系流经地域内居民的用水安全,极大地破坏了所流经地域的生态环境[2-3]。

污染物溯源追踪是一种可在污染事件发生早期对污染源进行快速准确溯源和处理的技术[4]。目前主要的水污染溯源方法可分为排查法、数学模型模拟法和水纹法。排查法[5]是我国环境监测部门在发生污染事件后进行污染溯源的传统手段,是在现有河流监测数据的基础上进行大量的人工采样和检测,并结合系统科学的分析判断最有可能的污染源,该方法缺乏科学的搜索导则,效率较低。数学模型模拟法是目前水污染溯源领域报道最多的方法,主要是根据区域水环境监测数据结合河流水系关系建立模型,反演污染源位置信息。蓝志峰等[6]在福建敖江流域整合现有流域要素,构建了水污染溯源的流域要素空间关系模型,该模型能有效提供污染源空间分布和结构信息,识别和筛选研究区域的水污染引发源,快速缩小未知污染源搜查范围,但对于集中排放的工业园区难以准确找到对应的排污企业。陈正侠等[7]在佛山西江流域基于EFDC和WASP模型建立了研究区域的水动力模型、常规污染物水质模型以及有毒污染物水质模型,该模型可反向估算污染源得到可能的污染源位置及对应的排放量,但在实际应用场景中需选取能够正确反映水体污染的参数,需要大量的试错工作,且存在一定难度。水纹法是近几年基于三维荧光光谱技术提出的一种新型水污染溯源方法。生活污水、工业废水和地表径流中均含有大量荧光物质,如蛋白质、腐殖质、酚、脂质、叶绿素等[8],水样经三维荧光光谱技术检测后生成与之对应的荧光谱图,该技术具有所需样品量少、几乎无需化学试剂、对样品无破坏、测试快速准确等特点。刘传旸等[9]以南方C市A河为研究对象,运用水质荧光指纹比对算法[10],将待检测水样与污染源数据库进行对比溯源,确定了该水样为印染废水;蒋凤华[11]采集胶州湾和莱州湾20个样品,应用三维荧光光谱联合GC-MS技术建立指纹谱图库,并对平行样进行模式识别,区域识别正确率达80%。目前,这类方法在水质监测和水污染溯源方面得到了一定应用[12-14]。但是在现实情况中,污染废水进入水体后被大幅度稀释,其荧光特征也会随之衰弱和改变,依靠水质荧光指纹比对算法将未经预处理的水样谱图直接与数据库中谱图进行比对溯源难度较高。近年来,随着深度学习(Deep Learning)在目标识别、语音处理、自然语音处理等领域的广泛运用,利用卷积神经网络(Convolution Neural Networks)结合大量的数据对三维荧光光谱进行研究成为一种趋势。本文提出一种基于卷积神经网络识别三维荧光谱图的水污染溯源方法,运用该方法能在短时间内较为准确地追溯到污染物来源企业,及时阻断污染。

1 材料与方法

通过采集安宁市内8家重点企业共计20个废水水样进行三维荧光光谱检测,得到相应的三维荧光谱图,对所获三维荧光谱图进行目视剔除散射区域-线性归一化处理,基于卷积神经网络构建水污染溯源模型,利用溯源模型识别三维荧光谱图找到对应的企业(图1)。

图1 水污染溯源技术路线图Fig.1 Technical route for water pollution traceability

1.1 三维荧光原理

荧光是一种光致冷发光现象。一定波长的入射光照射后,荧光物质分子会吸收光能,跃迁为激发态。激发态的分子不稳定,容易经非辐射跃迁和辐射跃迁返回基态,辐射跃迁的衰变过程伴随着光子的发射,即产生荧光或者磷光。溶液的荧光强度与溶液浓度有一定的关系,通常情况下用式(1)表示:

If=2.303φfIoεbc

(1)

式中:If表示溶液的荧光强度;φf表示荧光量子产率;Io表示入射光强度;ε表示摩尔吸光系数;b表示吸收光程;c表示溶液的浓度。

荧光强度是一个无量纲值。当入射光强度一定时,荧光物质浓度极稀的情况下,溶液的荧光强度与溶液的浓度呈线性关系。一般荧光测量所得到的光谱图是二维平面图,一种是固定发射波长,取荧光强度随激发波长而变化的激发光谱图;另一种则是固定激发波长,取荧光强度随发射波长变化的发射光谱图[15]。三维荧光区别于一般荧光分析的主要特点是能获得激发波长与发射波长同时变化时的荧光强度信息,并绘制成三维荧光谱图[16]。

1.2 水样采集及分析

2021年3月,选择昆明市安宁市内8家典型行业重点企业为研究对象,根据企业环境影响评价报告书中排污分析内容采集企业内各产污工段水样,共采集20个水样;同年4月,第二次采集8家企业各1个水样。样品采集、保存按照《水质样品的保存和管理技术规定》(HJ 493—2009)进行。水样经0.45 μm水溶性滤膜过滤后,用去离子水分别将水样稀释1、2、5、10、20、50、100、500倍。使用三维荧光光谱仪测定样品前应用去离子水作为空白样进行测定,检验去离子水是否合格。企业相关信息见表1。

表1 水样采集企业相关信息Table 1 Information of water sample collection enterprises

实验样本的三维荧光光谱数据由日立公司生产的F-2700FL Spectrophotometer型荧光光谱仪测得。仪器主要性能参数:激发光源为150 W氙灯;PMT电压为700 V;扫描速度为12 000 nm/min;扫描光谱进行仪器自动校正;自动响应时间;激发波长范围为220~600 nm;发射波长范围为230~650 nm;激发和发射步长为5 nm;激发和发射端狭缝宽度为5 nm。

1.3 数据预处理

利用荧光分光光度计测量废水样品,可以完整地记录激发波长和发射波长变化时的废水荧光强度,但同时也会记录来自容器表面和溶剂的散射光的干扰信号,主要表现为瑞利散射,即与激发光波长相等或相近的发射光[17]。瑞利散射的存在会对样品本身的荧光峰产生较强的掩盖作用,并且会对待测样品真实光谱数据的获取产生干扰,是一种典型的“缺陷数据”。消除瑞利散射通常采用仪器校正法、空白扣除法、Delaunay三角形内插值法和缺损数据重构(MDR)法[18]等。本研究创新性采用目视剔除散射区域-线性归一化方法对原始荧光谱图进行预处理,即在使用MATLAB软件heatmap函数绘制三维荧光热图后,利用imcrop函数目视选中需要剔除的瑞利散射区域,利用roipoly函数将其剔除。对保留下来的谱图进行线性归一化增益:针对一个水样,分别将最大、最小荧光强度线性归一化为1和0,以提高荧光信号强度,提高溯源追踪的识别率。线性归一化计算公式:

(2)

式中:F为在激发波长nnm、发射波长mnm处线性归一化计算后的荧光强度;fi(n,m)为在激发波长nnm、发射波长mnm处荧光分光光度计扫描得到的荧光强度;fimin为剔除散射后的最小荧光强度;fimax为剔除散射后的最大荧光强度。

1.4 模型构建

基于卷积神经网络近几年在进行图像识别领域和环境预测领域的出色表现[19-22],本研究以ConvNet卷积神经网络架构建立模型,作为预处理后的三维荧光谱图的溯源识别计算工具。采用由2个卷积层和1个池化层构成的规模较小的CNN网络,通过设置不同的图片分辨率(Image resolution)、步长值(Stride)、卷积层数(NCL)、滤波器尺寸(FS)、滤波器数量(NF)等超级参数建立不同的溯源模型。以2021年3月所采集水样荧光谱图组成样本集,设定样本集中95%样本为训练样本,剩余5%样本为模型测试样本,步长值(Stride)设为默认值2,分别在图片分辨率为300×300、200×200、150×150、100×100下设定滤波器尺寸和第一、第二个卷积层中滤波器数量进行循环测试,得到1 425组测试结果。每组测试结果含卷积网识别得分、正确率以及对应的模型。卷积网识别得分是经模型计算后得到的测试样本与各企业废水的相似度,取最大值对应企业为溯源结果,其计算公式见式(3)、式(4)。

PScorei=W×Xi+b

(3)

(4)

式中:PScorei为第i个输入样本经卷积网识别的原始得分;W为第i个输入样本经卷积网训练得到的权值矩阵;Xi为第i个输入样本图像像素值变形为单列向量;b为卷积网训练得到的阈值矩阵;Scorei为第i个输入样本经卷积网识别的最终得分;PScorei为所有输入样本原始得分最大值;PScoremin为所有输入样本原始得分最小值。

溯源正确率是溯源结果与测试样本相符的数量与测试样本数量的比值,其计算公式见式(5)。

(5)

式中:T为溯源正确率;Nt为溯源结果与测试样本相符的数量;Ns为测试样本数量。

溯源正确率越高代表模型性能越好,识别三维荧光谱图越准确。测试结果显示,在图片分辨率为300×300、200×200、150×150、100×100下,最高溯源正确率分别为62.5%、75%、75%、75%,排除300×300分辨率下的模型,由此得到3个性能较好的溯源模型。

2 结果与讨论

2.1 谱图预处理分析

以希陶药业安宁分公司中药工艺废水原水(水样A)和希陶药业安宁分公司中药工艺废水(水样B)稀释10倍水为例。如图2(a)、图2(b)所示,预处理前的三维荧光热力图中存在明显的瑞利散射区域,并与污染物荧光特征区域相连,水样B谱图中荧光特征较水样A显著衰弱。使用目视剔除散射区域-线性归一化方法对荧光谱图进行预处理,结果如图2(c)、图2(d)所示,荧光谱图中的瑞利散射区域被有效剔除,水样B谱图中因稀释导致衰弱的荧光特征经线性归一化处理后得到了显著增强,与此同时,稀释10倍后废水的荧光谱图经预处理后极大程度还原了原废水的荧光谱图特征,两者具有极高相似性。

图2 散射去除效果Fig.2 Effect of scattering removal

为检验此预处理方法对于提高模型识别谱图的效果,从已有的1 425个模型中随机抽取100个模型分为10组,再进行水样A和水样B预处理前后的荧光谱图识别,结果见表2。

由表2可知,荧光谱图经预处理后,能正确识别水样A、B荧光谱图的模型个数分别从18、13个提升到39、35个,说明目视剔除散射区域-线性归一化方法可有效避免荧光散射对溯源结果造成干扰的影响,有利于提高后期溯源模型溯源的正确率。

表2 荧光谱图预处理效果检验结果Table 2 Testing results of fluorescence spectrum pretreatment

2.2 模拟溯源评估

将图片分辨率200×200、150×150、100×100时所获得的模型命名为Model-200、Model-150、Model-100,以2021年4月采样废水经预处理后的三维荧光谱图作为模拟溯源样本集,将其分别导入3个模型中进行模拟溯源,结果见表3。由模拟溯源结果可知,3个模型均能正确溯源来自安宁钢力金属制品有限公司、云南弘祥化工有限公司、云南煤业能源股份有限公司安宁分公司、中石油云南石化有限公司、希陶药业安宁分公司5家企业的污水,但对于来自云南天安化工有限公司、安宁万家康生猪屠宰有限公司、昆明客运段洗涤车间3家企业的污水溯源存在困难,且对应的卷积网识别得分较低,最高为66.9。Model-100溯源模型性能最佳,溯源正确率为75%,Model-200、Model-150溯源正确率均为62.5%,说明本研究所提出的水污染溯源模型能准确识别经预处理后的三维荧光谱图是一种有效的水污染溯源方法。

表3 模拟溯源结果Table 3 Simulation traceability results

对比预处理前、后三维荧光谱图,处理后三维荧光谱图的瑞利散射区域被有效剔除,水样荧光谱图中污染物荧光特征比未处理前更加明显。从1 425个模型中随机选取100个模型用于该方法的检验,结果显示,经处理后的荧光谱图更容易被溯源模型识别,能正确识别水样A、B模型数量分别从18、13个提升到39、35个。除瑞利散射外,三维荧光光谱还受其他散射影响,如拉曼散射和容器表面的散射。BAHRAM等[23]提出使用插值法去除一、二阶瑞利散射和拉曼散射区域,随后运用平行因子分析法进行拟合,结果表明该方法适用于各种荧光光谱的散射去除;孔德明等[18]分别采用仪器校正法、空白扣除法、 Delaunay三角形内插值法和MDR对海面溢油三维荧光光谱中的瑞利散射进行校正,并结合定性鉴别、定量分析结果对比分析了几种方法的校正效果,得出结论:MDR可在保证原有光谱特征不失真的基础上有效去除瑞利散射。上述研究虽然可以很好地去除瑞利散射,但不同浓度水样校正后的荧光谱图有较大差异。目视剔除瑞利散射区域-线性归一化的预处理方法在去除瑞利散射区域的同时还对荧光谱图进行了增益处理,使得处理后的荧光谱图具有较高的相似度,有利于后期溯源模型的识别比对。

运用ConvNet卷积神经网络构建溯源模型,通过设置不同的图片分辨率、步长值、卷积层数、滤波器尺寸、滤波器数量等超级参数得到1425组测试结果,从而筛选出3个性能较好的模型进行模拟溯源。模拟溯源结果显示,性能最佳的Modle-100溯源正确率达到75%。辛小康等[24]将遗传方法与数学分析算法相结合建立水污染事故和污染源识别模型,可得到单点源和多点源的识别结果;朱嵩等[25]通过将贝叶斯估计方法与水质模型相结合,得到污染源位置的概率分布。以上这些溯源方法仅能得到追溯到污染源的大致区域,无法精准溯源到某个污染源。本研究选择安宁市各行业重点企业采集水样并进行三维荧光检测,通过目视剔除瑞利散射区域-线性归一化方法对三维荧光谱图进行预处理,通过建立卷积神经网络模型识别三维荧光谱图进行溯源,能较为准确地追溯到污染物来源企业。

3 结论

本研究以安宁市8家重点企业为研究对象,通过采集企业各工段污水进行三维荧光检测得到原始荧光谱图,运用目视剔除瑞利散射区域-线性归一化方法对三维荧光谱图进行预处理,基于ConvNet卷积神经网络建立模型进行水污染溯源研究。结果表明,目视剔除瑞利散射区域-线性归一化荧光谱图预处理方法能有效去除瑞利散射干扰,增强因水样稀释而衰弱的荧光特征,提高溯源模型识别荧光谱图的能力;基于ConvNet卷积神经网络建立的水污染模型能在短时间内较为准确地追溯到污染物来源企业,相比传统的污染源排查法更加准确高效。受疫情影响,本研究只采集了8家不同行业企业的废水样品,建立的数据库较小,溯源模型还需要更多的样本进行验证和优化。

猜你喜欢

污染源水样正确率
持续推进固定污染源排污许可管理全覆盖
门诊分诊服务态度与正确率对护患关系的影响
HC油田N138区注入水配伍性研究
我国相关标准水样总α、总β放射性分析方法应用中存在的问题及应对
平行水样分配器在环境监测中的应用
水样童年
基于污染源解析的空气污染治理对策研究
十二五”期间佳木斯市污染源排放状况分析
看不见的污染源——臭氧
生意