紫外-可见连续光谱法对农村生活污水处理出水COD的在线监测方法
2020-07-17曲江北何义亮王志平
曲江北,李 彭,何义亮,王志平
(上海交通大学环境科学与工程学院,上海 200240)
随着社会经济的发展和人民生活水平的提高,人们越来越关注水环境状况。在农村区域,生活污水的处理效率低且存在不达标排放现象,对环境的整洁和人体的健康都造成了巨大的危害。目前,农村开始普遍采用分散式处理的模式,并形成了污水处理设施规模小、位置分散、数量众多的特点[1]。因此,需结合农村自身的经济、环境状况,寻求一种经济、高效的水质实时在线监测方法来保障农村生活污水的达标排放。
化学需氧量(COD),作为一项重要的水质检测指标,能够有效反映水体中有机物的总体污染水平。传统的化学法检测COD精度高,但存在反应时间长(0.5~4 h)、二次污染等问题[2]。此外,传统化学法的COD检测设备及样品预处理设备昂贵、维护费用高,并不能有效适用于农村地区的污水实时在线监测。随着光谱学的发展,包括紫外-可见光、三维荧光、近红外光谱在内的光谱法分析技术不断被应用于污水水质监测中[3-5],其中,紫外-可见光谱的应用最为广泛。相较于传统的化学法,光谱法能够实现对水质指标的快速检测、无二次污染,且设备便宜,运行维护成本低。紫外-可见光谱最早的应用为UV254(254 nm波长下的吸光度)[6]以及后来的双波长补偿法[7]。随着光谱数据的获取变得更加便捷以及化学计量学的发展,紫外-可见光谱法开始被广泛研究和应用[8],但对于紫外-可见光谱法COD监测模型的预测精确度和稳定性仍然有许多需提高的地方。
光谱法COD预测模型建模方法的选择及光谱范围的选择是影响模型预测效果的最主要因素。目前,常用的预测模型构建方法包括多元线性回归、偏最小二乘法、支持向量机、神经网络等。Qin 等[9]认为,类似于偏最小二乘法的传统统计学方法可以满足光谱法水质模型的建模需求。而Lepot等[8]发现,偏最小二乘法和支持向量机在模型自身的校准方面更优,线性回归、神经网络算法则更适合模型预测。因此,目前还没有一种公认的方法用于模型的构建。光谱法水质监测模型是基于COD浓度与不同光谱范围下,水样中有机物的吸收强度之间的线性相关关系,对于含有不同物质组分的水样而言,紫外-可见光谱图的吸收峰也不同。因此,光谱范围的选择会对模型运算的速率以及预测结果的精确度产生一定程度的影响。
近年来,紫外-可见光谱法已经被许多学者、工程技术人员[10-11]广泛应用于水质指标的在线、原位监测。但对光谱法的研究具有局限性,缺乏对光谱法进行系统性的研究、优化,且研究对象大部分为实验室配水而非实际污水。本文以实际农村生活污水处理设施出水为研究对象,从单波长法、双波长补偿法、紫外-可见光谱法逐步验证光谱法水质COD预测模型的可行性,并通过对紫外-可见光谱的预处理、建模方法的比较选择、特征波长筛选等手段对紫外-可见光谱法进行系统性优化改良,从而提出一套有效的紫外-可见光谱法COD预测模型的优化方法。
1 试验部分
1.1 数据采集及光谱预处理方法
数据采集地点为江苏省常熟市,为保证水样均具有代表性,水样采集地点分布于常熟市的所有农村区域,采集时间为2019年3月10日,所采集水样分别来自110个分散式农村生活污水处理装置的出水,共计110个样品。水样的采集与贮存均使用500 mL聚乙烯瓶,4 ℃保存。所有水样进行分析前,均需通过0.45 μm的滤膜进行过滤。样品COD的浓度参照国标GB 11914—1989重铬酸钾回流法进行测定。CODCr的质量浓度为20~200 mg/L。水样中其余各项水质指标:温度为17~18 ℃,pH值为6.6~7.5,溶解氧为7.5~9.5 mg/L,浑浊度为5~15 NTU,硝态氮为5~30 mg/L,氨氮为1.12~15 mg/L。
水样的紫外-可见光谱由HACH DR/6000光谱仪扫描获取,光谱选择200~700 nm,间隔为1 nm。紫外-可见光谱预处理方法选用S-G平滑处理(savitzky-golay smoothing)、多元散射矫正(multiplicative scatter correction)、标准正态变换(standard normal variate transform,SNV)。
1.2 建模方法及模型评价参数
紫外-可见光谱法水质监测模型构建方法分别选用偏最小二乘法(partial least squares regression)、支持向量机(support vector machine,SVM)和神经网络算法(back-propagation neural network method)。
紫外-可见光谱法水质监测模型的预测效果由均方根误差(root-mean square error, RMSE)和决定系数(R2)来评价。均方根误差(亦称标准误差)是预测值与真实值差的平方和与观测次数n比值的平方根。R2表示可根据自变量的变异来解释因变量的变异部分,当R2越接近1时,模型预测结果参考价值越高。
1.3 特征波长筛选方法
紫外-可见光谱特征波段的筛选采用间隔偏最小二乘法(interval partial least-squares regression, iPLSR)和组合间隔偏最小二乘法(synergy interval partial least-squares regression, siPLSR)相结合。2种方法均是将光谱数据等分成若干区间,再将不同区间相互组合构建模型,最终依据R2和RMSE筛选出最佳波段组合。在得到的最优波段中,利用套索回归 (lasso regression)及逐步回归法(stepwise regression)筛选出特征波长。
2 结果与讨论
2.1 单波长及双波长COD预测模型
大部分有机物在紫外光区域具有良好的吸收特性,且有机物浓度通常和254 nm波长下的吸光度(UV254)具有一定的线性关系,因此,UV254经常被用于衡量样品中有机物的浓度[12]。如图1所示,分别用实验室配置的邻苯二甲酸氢钾溶液和采集的水样构建COD-UV254线性回归模型,相关性系数R2分别为0.997和0.821,说明无论在单一物质组分水样中还是在实际污水中,UV254和COD浓度都能呈现良好的线性关系。因此,可以通过UV254的变化有效反映COD浓度的变化。
图1 COD与UV254关系图 (a)邻苯二甲酸氢钾溶液; (b)采集的水样Fig.1 Correlation between UV254 and COD (a) Potassium Hydrogen Phthalate Solution; (b) Collected Water Samples
水中的某些物质,如悬浮态无机颗粒物等,对COD没有贡献但对光谱有一定的影响,因此,需考虑规避这类因素,提高光谱数据与COD之间的相关性。蒋然等[13]利用440 nm和560 nm的双波长光谱法测定低污染水样的COD时发现,相比于单波长的检测方法,该方法检测具有更高的灵敏度和准确性。赵友全等[14]通过254 nm处的紫外吸光度检测水质COD,并采用546 nm可见光对浑浊度进行修正,预测R2均超过0.9。如图2所示,利用水样在546 nm下的吸光度对UV254进行修正,将546 nm的吸光度与UV254之间的差值作为修正后的UV254,并与COD构建线性回归模型,得到的模型相关系数R2为0.856,相较于单波长模型,提高了模型的精确度。
图2 COD与UV254-A546关系图Fig.2 Correlation between UV254-A546 and COD
通过单波长及双波长补偿模型的评价分析,2种模型虽然能够实现COD浓度值的预测,但预测精度并不高,这是由于不同物质组分构成的水样其特征吸收波长是不同的。单波长模型依据主要组分在某一波长下的吸光度来构建模型;而对于构建双波长补偿法,也可以采用不同的波长进行补偿,其效果也不同,如汤斌等[15]研究了溶液分别在245、300、360 nm和560 nm处浑浊度对紫外-可见吸收光谱法检测水质COD的影响。
有限波长数下的吸收光谱反映的水质情况也是有限的。虽然单波长、多波长水质COD预测模型在预测精确度方面存在一定的不足,但证明了光谱法水质COD预测模型的可行性,并为光谱法后续的研究及应用打下了坚实的基础。
2.2 紫外-可见光谱预处理方法的选择
由于实际水样的成分更复杂,收集的紫外-可见吸收光谱可能会受到水体中复杂成分的影响,例如背景噪声的干扰和浑浊度散射。因此,在进行光谱数据建模之前,需对光谱数据进行有效的预处理,分别采用S-G平滑处理、多元散射矫正、标准正态变换对紫外-可见光谱数据进行预处理。利用偏最小二乘法对原始光谱数据以及3种预处理光谱数据分别构建模型,对模型预测效果的评价,如表1所示。
表1 不同预处理方法后的模型评价结果Tab.1 Results of Models Evaluation after Different Pretreatment
通过对比原始光谱和预处理光谱模型的评价结果发现,以上3种常用于光谱预处理的方法并没有显著提高模型的预测效果。紫外-可见光谱受干扰的因素主要包括水样水质以及监测环境和设备。由于所研究水样的浑浊度较低,并未对光谱产生较大的影响,无需采用预处理方法对光谱进行修正,此外,光谱测试技术的快速发展保证了光谱数据监测的可靠性及稳定性。因此,在光谱法水质COD监测的实际使用中,若水样的浑浊度并未对光谱产生较大影响,选择原始光谱数据即可满足光谱法预测模型的构建。
2.3 建模方法的比较选择
借助Python的Random函数从110个水样中随机挑选70%的水样作为训练集,剩余30%的水样作为验证集,分别利用偏最小二乘法、支持向量机、BP-神经网络3种算法对70%水样的原始光谱数据及COD构建预测模型,剩余30%水样作为测试集对模型的预测效果进行验证。如表2所示,依据R2和RMSE来评价3种模型的预测效果。
表2 不同建模方法的模型评价效果Tab.2 Evaluation Results of Models Constructed by Different Modeling Methods
由表2可知:在预测模型自身的构建方面,偏最小二乘法~支持向量机>BP-神经网络;从模型的预测效果来看,偏最小二乘法~BP-神经网络>支持向量机。光谱法预测模型建模方法的选择不仅依赖于模型预测结果的精确度和稳定性,同时,也要考虑到建模方法本身的简易程度及现实的技术条件。Lepot等[8]通过对不同建模方法的对比发现,偏最小二乘法和支持向量机在模型自身的校准方面更优,而线性回归、神经网络算法拥有更好的模型预测效果。Brito等[16]也在研究中指出,偏最小二乘法所构建的模型可以满足需求,并不需要更加复杂的算法来构建模型。但是,如果水样中的组分比较复杂或是光谱获取的过程中存在许多干扰,如浊度散射等,光谱数据和COD浓度之间并不能始终保持线性关系,朗伯-比尔定律便会失效,偏最小二乘法也就不适合。对于B-P神经网络算法而言,其既可用于构建线性模型也可用于构建非线性模型,但是,神经网络算法需更多的水样数据来构建模型。随着在线监测技术的不断发展,大量水样指标数据的获取将变得更加容易,神经网络算法也将会发挥自身的优势,不断提高光谱法预测模型的预测精度。
建模方法的选择不仅取决于模型的预测效果,同时,也要考虑建模的复杂度及成本。对于农村污水处理设施出水而言,偏最小二乘法最为合适。对于不同类型的水样,同样需要从各个方面进行考量,选择一种最为合适的建模方法。相信随着光谱法的不断发展及化学计量学的不断深入研究,一种具有普适性的建模方法将会被提出,并广泛应用于光谱法水质监测模型。
2.4 特征波长筛选
不同物质在某一波长下的吸光度有所不同,因此,对于不同物质组分的水样而言,其特征波长也有所不同。由图3可知,随着波长的增加,吸光度的变化会越来越小。当波长大于450 nm时,即使水样COD浓度不同,吸光度也并没有明显的变化,说明COD浓度的变化并不会对某些波长下的吸光度产生影响。因此,在建模的过程中,仅利用含有水质信息的光谱数据进行建模,不仅可以提高建模效率,还能够降低光谱测量工作量。
将A组水样的光谱数据(200~700 nm下的吸光强度)根据波段进行30等分。利用iPLSR 和siPLSR对30个波段的吸光强度和COD进行不同组合数的模型构建,并根据模型评价参数R2和RMSE从所有所建模型中筛选出最优的波段组合(图4)。
图3 不同COD浓度的水样光谱图Fig.3 UV-Visible Absorbance Spectra of Two Samples with Different COD
图4 不同波段筛选组合模型评价结果Fig.4 Evaluation Results of Models Constructed by Different Bands Selected Region Combination
由图4可知,三波段组合的模型预测效果最佳,对应的最优波段分别为251~268、319~336 nm和353~370 nm,且均在近紫外区。一般的饱和有机化合物在近紫外线区域没有吸收,而含有共轭双键或苯环的有机化合物在紫外线区域具有明显的吸收或特征峰,这也证实了光谱法适用于含有共轭双键或苯环水样品的有机化合物。此外,相较于全光谱模型,特征波段筛选几乎没有影响到模型的预测效果,反而减少了模型的运算量,提高了效率。
通过对比相邻波长下的吸光度发现,邻近波长下的吸光度之间存在较强的相关性,R2高达0.95以上。这也为再次减小波长数提供了依据,即可以通过某一波长替代其邻近的波长。利用套索回归对三波段组合进行最优波长筛选,筛选结果为251、356、357、362 nm和363 nm,再利用逐步回归法对5个波长进行变量筛选,得到的最小信息准则(AIC)为118.36,筛选出的特征波长为251、356 nm和363 nm。由图3可知,这3个波长下的吸光强度也是紫外-可见吸收光谱中局部区域的峰值,可以有效反映水样中含有芳香环结构或共轭双键物质的有机物含量。
根据波长筛选得到的3个波长下的吸光度与COD构建多元线性回归模型(MLR)。如图5所示,与全光谱模型(表2)相比,R2和RMSE仅仅发生了微小的变化,全光谱法适用于水样水质的精确监测。而特征波长的筛选应用不仅可以有效降低测试成本及检测工作量,更重要的是依然可以保证模型的预测效果。该方法适用于对水质预测精度要求较低的场景或用于水质预警,对于紫外-可见光谱法监测水质COD的进一步发展与实际应用提供了一种新的思路。
图5 实际污水COD浓度值与模型预测COD浓度值多元线性拟合关系图 (比例为 1∶1)Fig.5 MLR Fitting Relationship of Practical and Model Prediction COD Values (Ratio is 1∶1)
3 结论
本文以实际的农村生活污水生物处理设施出水为研究对象,验证了光谱法进行污水水质COD指标检测的可行性,并对光谱法水质COD预测模型进行系统性优化。
(1)光谱数据无需预处理即可满足光谱法水质预测模型的构建需求。
(2)从模型运算复杂度及精度考虑,偏最小二乘法是最适合的建模方法,模型相关系数R2为0.949,均方根误差RMSE为11.03。
(3)波长筛选可以在保证模型精度的前提下简化建模过程,最优波长的筛选结果为251、356 nm和363 nm,所构建的模型R2为0.943。
以上对光谱法水质COD预测模型的优化改良方法并不局限于农村生活污水处理设施出水,对于不同类型污水的光谱法COD预测模型的优化同样具有参考价值,为光谱法在实际污水监测领域中的发展和应用提供了一种新的思路。