APP下载

基于PCA的水质紫外吸收光谱分析模型研究

2016-07-12赵友全董鹏飞王伶俐王先全

光谱学与光谱分析 2016年11期
关键词:吸收光谱水样光度

赵友全,李 霞,刘 潇,董鹏飞,王伶俐,王先全

1. 天津大学精密仪器与光电子工程学院,天津 300072 2. 重庆理工大学电子信息与自动化学院,重庆 400054

基于PCA的水质紫外吸收光谱分析模型研究

赵友全1,李 霞1,刘 潇1,董鹏飞1,王伶俐1,王先全2

1. 天津大学精密仪器与光电子工程学院,天津 300072 2. 重庆理工大学电子信息与自动化学院,重庆 400054

利用紫外光谱分析水中有机污染物已成为水质实时在线监测的重要方法之一,水样组分复杂且不稳定是影响其测量结果的主要因素。利用主成分分析法(PCA)结合欧氏距离分析水样紫外吸收光谱,对水样分类,效果良好。分别用主成分分析结合偏最小二乘法回归(PCA-PLSR)和直接利用多波长吸光度结合偏最小二乘法回归(MWA-PLSR)建立分析模型,并对比分析了不同浓度的COD标准液的实验数据。结果表明,采用第一、二主成分作为回归参数的PLSR模型的测量误差在5%以内,偏差最小。利用本文方法可同时实现水样分类和水质参数的精确定量。

紫外吸收光谱;水质分析;PCA;PLSR;水样分类

引 言

近年来,环境污染特别是水质污染已成为社会关注的焦点,我国近一半的湖泊和河流被污染,形势严峻,提升水环境的监控预警技术成为一种迫切需要。作为一种纯物理的光学方法,紫外水质检测方法得到了越来越广泛的关注,该方法不需化学试剂,无二次污染,操作简单[1],可以进行实时在线的连续监测,能及时反应水质参数的动态变化[2]。目前紫外法水质建模大多是采用单波长或双波长方法[3-6],经与国家标准化学法比对后用于检测监测水中污染指数。该方法较适用于成分比较单一或者污染源固定不变的水体检测。当水质污染成分变得复杂时,某一个或者两个波长上吸光度的变化与否,已经不能代表水中所有污染物含量的变化,也就不能很好的反应水质的连续的动态变化,这会导致检测结果与实际污染物指标不一致。

应用紫外全光谱法[7],一次检测即可得到全紫外波段的吸光度曲线,可以比较全面的反映水体污染。用全光谱而不是少数几个波长建模,就能够更多地将组分变化的影响考虑进来,水质成分虽然复杂且多样,但利用主成分分析法结合欧氏距离将水样分成有限的种类[8-10],对同一类水体的紫外吸收光谱进行主成分分析,获取主成分,结合偏最小二乘法建立模型[11],即可准确得到水中的污染指数,为水质的检测监测提供种适应性更好方法。

1 主成分分析法(PCA)

主成分分析法(PCA)分析水样紫外吸收光谱的基本思想是: 将原来具有一定相关度的n个波长的吸光度参数,重新组合成一组较少个数的互不相关的吸收向量Fm(m=1, 2, 3,…)即主成分。就是将紫外吸收光谱中的众多的吸光度变量,减少成为吸光度的线性组合变量[12]。所得的主成分可表示为

(1)

(2)

Fm的方差越大,G(m)越大,越能代表原光谱信息。理论上来说,同种水样的吸收光谱经过主成分分析得到的主成分只有一个,第一主成分的贡献率为100%。但是由于水样组分变化和污染源不同,吸光度分布与浓度的正比例关系发生改变,主成分个数增加。

样品在每个主成分上的得分值可以反应出主成分与水样间、水样与水样间的相互关联程度,得分值越大代表此水样在此主成分上的含量越高。同一水样在不同主成分上的得分为

(3)

每一个主成分都是所有波长吸光度的线性组合,任意一个主成分得分都与浓度成正比例关系。故可以用主成分得分值的线性组合建立模型,定量分析水样中的水质参数。

对于不同水样进行主成分分析时,其主成分的得分与水样成分和浓度有关,对于成分相同,浓度相近的水样,其主成分得分差距较小。反之,可以认为主成分得分相近的水样可以为同一类,从而解决不同水样的分类问题。

2 结果与讨论

2.1 实际水样的鉴别和分类

紫外法测水质一般是利用模型估测水样中的水质参数含量,模型的选择与水质种类有很大的关系,不同种类的水样应用不同的估测模型。污染源不同、水样组分发生变化,都应归为不同类水体。选取三种水样,两个来自人工湖泊,一个来自近湖的河流。在不同位置共取20个水样,测得所有水样在200~400 nm的吸收光谱,对所得光谱进行主成分分析,得到结果如图1、图2所示。

图1 实际水样的主成分贡献率图

由图1可以看出,20份实际水样主要有两大主成分,第一主成分的贡献率为62.56%,第二主成分的贡献率为34.77%,此两个主成分的累积贡献率已大于95%。对水样进行得分分析,结果如图2所示,可以明显看出三种水样被分为3组,1—5号是河流水样,得分之间有一定的差距,是因为所取水样是由河流不同长度的界面处取得。6—10号和11—20号分别为两个湖泊水样。所有主成分得分值较小,说明水样成分及浓度都较为接近,这从侧面反映出两个湖泊和河流的所处的地理位置较近。直接利用欧氏距离对其进行系统聚类,如图3所示,可以看出,水样可按图中虚线所示分为3类,和主成分分析分类相同。此外,水样6—10号与11—20号的距离较小,合为一个大类,和实际水样分别取自湖泊和河流的分类相同。本方法很容易精准对水样进行分类,从而实现对水质参数的准确分析。

图2 不同水样在第一、二主成分上的得分

图3 利用欧氏距离的紫外吸收光谱的聚类分析

2.2 水质参数的实验测定与分析

由国标GB11914—89可知, 以重铬酸钾为氧化剂,1 g邻苯二甲酸氢钾耗氧1.176 g。利用分析纯的邻苯二甲酸氢钾,配制浓度为1 000 mg·L-1的储备液,将此储备液稀释成如表1所示的16种浓度的邻苯二甲酸氢钾溶液,其吸收光谱如图4所示。

由吸收光谱图4可以看出,邻苯二甲酸氢钾在200~300 nm波段有显著吸收,当波长大于310 nm时,几乎无吸收。当浓度较小(小于等于50 mg·L-1)时,其有3个吸收峰,分别在210,235和280 nm左右;当浓度大于50 mg·L-1时,有两个吸收峰,第一个吸收峰波长会随浓度的增加而增大,其范围为235~252 nm,另一个吸收峰在280 nm左右。250~280 nm波段的吸光度随浓度的增加显著增加,提取16组不同浓度的COD的溶液吸收光谱250~300 nm波段的吸光度进行主成分分析,得到的主成分贡献率如图5所示。

表1 不同COD浓度的邻苯二甲酸氢钾溶液溶液

图4 不同浓度的邻苯二甲酸氢钾溶液的紫外吸收光谱图

图5 主成分贡献率图

由图5可以看出第一主成分的贡献率已达到99.02%,而第二主成分的贡献率为0.93%,其余主成分的贡献率已经很低,可忽略不计。图6是16个样品在第一、二主成分的得分,得分呈现出一种随着浓度的增大在第一主成分上的得分逐渐增大、在第二主成分上的得分先增大后减小的现象。第二主成分的得分变化远小于第一主成分的得分变化,这是因为第一主成分的贡献率远大于第二主成分的贡献率,第一主成分已经可以代表原水样的绝大部分信息。由图7(a)可以看出,第一主成分上的波长得分变化值与邻苯二甲酸氢钾溶液的吸收光谱类似,在图7(b)和(c)中波长得分变化值主要在250~258 nm波段内,其余波长段得分变化值基本为0,说明在第二主成分中的次波段内,各波长上的得分不随浓度的变化而变化,溶液在此波段内吸光能力几乎为0。可以认为在第一主成分上258~350 nm波段上溶液表达了所有的吸光能力,吸光度与浓度符合朗伯比尔定律。在其他波段得分不随浓度变化时,而250~280 nm波段的得分值有了不同程度的变化,说明次波段内出现了随着浓度的增大吸光度已经不能同比例增加的现象。主成分分析将此波段的吸光度分为两部分的和,并且变化比例不同,分成此两部分有利于水质参数含量的测定。

图6 16种邻苯二甲酸氢钾溶液在第一、二主成分上的得分图

Fig. 6 Scores of 16 kinds of potassium hydrogen phthalate solution on the first and the second principal component

图7 主成分得分在每个波长处的变化

(a): 当COD浓度由10 mg·L-1增长到400 mg·L-1时,第一主成分得分在每个波长上的变化;(b): 当COD浓度由10 mg·L-1增长到220 mg·L-1时,第二主成分得分在每个波长上的变化;(c): 当COD浓度由220 mg·L-1增长到400 mg·L-1时,第二主成分得分在每个波长上的变化

Fig.7 Changes in the score at each wavelength

on principal component

(a): When the COD concentration increase from the 10 to 400 mg·L-1, changes at each wavelength on the first principal component; (b): When the COD concentration increase from the 10 to 220 mg·L-1, changes at each wavelength on the second principal component; (c): When the COD concentration increase from the 220 to 400 mg·L-1, changes difference occur at each wavelength on the second principal component

2.3 水质参数的估测模型及可靠性分析

在测量水质参数含量的过程中,当水质参数的浓度较大时,吸光度与浓度的关系不再符合朗伯比尔定律,浓度较小时容易受外界干扰和仪器噪声的影响而导致测量误差偏大。为便于实验设计和比较,解决水质参数浓度较小时测量误差容易偏大、浓度较大时吸光度易与浓度不成比例的问题,以浓度为20,200,300和380 mg·L-1为验证集,以剩余的12组不同浓度的样品为训练集,每个样品的吸收光谱平行测量三次并取其平均值,以PCA-PLSR和MWA-PLSR方法建立模型,以相关系数为评价指标。本文中共采用两种多波长、三种主成分和光谱面积等六种方式建立PLRS模型,结果如表2所示。

表2 六种模型的回归结果

表3 六种方式的测量值与理论值的对比结果

Table 3 The comparative results between the theoretical value and the measured value from 6 kinds of ways

理论值/(mg·L-1)模型方式测量值/(mg·L-1)测量误差/%380方式1378.18470.4777方式2385.99971.5789方式3383.31130.8714方式4376.81670.8377方式5374.43591.4642方式6387.28931.9182300方式1311.14893.7163方式2312.59134.1971方式3296.01421.3286方式4299.48980.1701方式5290.83703.0543方式6294.12401.9587200方式1194.77752.6113方式2218.14069.0703方式3203.69891.8494方式4208.08954.0448方式5214.07707.0385方式6200.90220.451120方式114.888025.56方式218.15939.2035方式324.301521.5075方式419.01614.9195方式514.599427.003方式627.518237.5910

由表2可以看出,六种不同建模方式的相关系数相差不大,方式1—5的相关系数均超过0.99,只有第六种方式的相关系数稍微偏小,但是在可接受范围内。为检测六种模型对水质污染含量的估测值的可靠性,利用以COD浓度为20,200,300和380 mg·L-1的吸收光谱对建立的六种模型进行测试,得到的结果如表3所示。

由表3可以看出,以第一、二主成分为回归参数的建模方式(方式4)的测量结果误差最小,均在5%以内。以259,270和288 nm三个波长吸光度为回归参数的建模方式(方式1)在浓度较高时,测量较为准确,测量误差在4%以内,浓度较小时误差太大,达到了25%。以254,259,265,270和288 nm五个波长吸光度为回归参数的建模方式(方式2)的测量结果偏差基本较大,不宜采用。以第一主成分建模(方式3)、以第一、二、三主成分建模(方式5)和以光谱面积建模(方式6)都出现浓度较小时测量偏差较大的现象。结果表明,以第一、二主成分为回归参数的估测模型比其他几种模型测量效果好,可为COD含量的预测提供有效依据。

3 结 论

采用主成分分析结合欧氏距离和偏最小二乘法对水样分类和COD含量的预测进行了定性和定量的分析。通过实验验证了主成分得分结合欧氏距离的方法对实际水样可以进行有效分类,减少了因水样差异造成的选用模型差异而产生的测量误差。同时,分别用不同主成分组合和不同波长组合建立了六种多元回归模型。结果发现,以第一、二主成分为回归参数的估测模型比其他几种模型测量效果好,此模型将随浓度的增大而不符合朗伯比尔定律的波长吸光度分为两部分,解决了COD浓度小时误差偏大和浓度较大吸光度易与浓度不成比例的问题,为COD含量的准确预测提供可靠方法。

[1] Hou D, Liu S, Zhang J, et al. Journal of Spectroscopy, 2014, 2014.

[2] ZHAO You-quan, LI Yu-chun, GUO Yi, et al(赵友全, 李玉春, 郭 翼, 等). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2012, 32(5): 1301.

[3] ZHOU Na, LUO Bin, LIAO Ji, et al(周 娜, 罗 彬, 廖 激, 等). Sichuan Environment(四川环境),2006, 25(1): 84.

[4] Fang J, Dai L. Intelligent Control and Automation, 2004. WCICA 2004. Fifth World Congress on. IEEE, 2004, 5: 3810.

[5] Chong S S, Aziz A R, Harun S W. Sensors, 2013, 13(7): 8640.

[6] GU Jian, ZHAO You-quan,GUO Yi, et al(顾 建, 赵友全, 郭 翼, 等). Journal of Safety and Environment(安全与环境学报), 2012, 6: 22.

[7] MU Xiu-sheng(穆秀圣). University of Electronic Science and Technology of China(电子科技大学), 2009.

[8] DAI Lei-lei(代雷雷). Zhejiang University(浙江大学), 2014.

[9] HU Yang-jun, ZHU Chun, CHEN Guo-qing, et al(胡扬俊, 朱 纯, 陈国庆, 等). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2014, 34(8): 2143.

[10] Lourenco N D, Chaves C L, Novais J M, et al. Chemosphere, 2006, 65(5): 786.

[11] Chen B, Wu H, Li S F Y. Talanta, 2014, 120: 325.

[12] Platikanov S, Rodriguez-Mozaz S, Huerta B, et al. Journal of Environmental Management, 2014, 140: 33.

(Received Sep. 15, 2015; accepted Jan. 5, 2016)

Research on Water Quality Analysis Model with PCA Method and UV Absorption Spectra

ZHAO You-quan1,LI Xia1,LIU Xiao1,DONG Peng-fei1,WANG Ling-li1, WANG Xian-quan2

1. College of Precision Instrument and Opto-Electronics Engineering, Tianjin University, Tianjin 300072,China 2. Electronic Information and Automation, Chongqing University of Technology, Chongqing 400054,China

Using the UV absorption spectrum to detect Organic pollutants content in water has become one of the most important methods for real-time online monitoring in the field of water quality inspection, however, the water complex and unstable components often bring much uncertain offset to the standard test. In this paper, water samples were classified firstly by analyzing UV absorption spectrum ranging from 200 nm to 400 μm including the organic substances, through the way of combining principal component analysis (PCA) with Euclidean distance. In this paper, we compared the Principal component analysis combined with partial least squares regression (PCA-PLSR) and the direct multi-wavelength absorption models combined with partial least squares regression (MWA-PLSR), not only for the real water sample but also for the analysis of different concentrations of COD standard solution. The result indicates that the measurement errors of the PCA is less than 5%, it is the smallest by using the first and second principal components as regression parameters for PLSR. Using the methods above can simultaneously achieve to classify of water samples and to measure the concentration of water quality parameters more accurately.

UV absorption spectrum;Water quality analysis;PCA;PLSR;Sample classification

2015-09-15,

2016-01-05

国家自然科学基金项目(51275551),国家重大科学仪器专项(2011YQ15004008)资助

赵友全,1970年生,天津大学精密仪器与光电子工程学院副教授 e-mail: zhaoyouquan@tju.edu.cn

O657.3

A

10.3964/j.issn.1000-0593(2016)11-3592-05

猜你喜欢

吸收光谱水样光度
一种基于SOM神经网络中药材分类识别系统
不同遮光度对红皮云杉幼苗生长的影响
HC油田N138区注入水配伍性研究
我国相关标准水样总α、总β放射性分析方法应用中存在的问题及应对
乘用车后回复反射器光度性能试验研究
平行水样分配器在环境监测中的应用
水样童年
原子吸收光谱分析的干扰与消除应用研究
浅析原子吸收光谱法在土壤环境监测中的应用
茶油氧化过程中紫外吸收光谱特性