主成分分析方法在松山湖水质分析的应用
2016-11-24郑少娜车松杰黄阳海
郑少娜 车松杰 黄阳海
(1广东省环境监测中心广东广州5103082东莞立创华科检测技术服务有限公司广东东莞523808)
主成分分析方法在松山湖水质分析的应用
郑少娜1车松杰2黄阳海2
(1广东省环境监测中心广东广州5103082东莞立创华科检测技术服务有限公司广东东莞523808)
采用基于因子分析的主成分分析的方法对松山湖2015年11个采样点8项监测指标进行分析,从原始数据出发提取了2个主要成分。第1成分主要是由水中的有机污染物所引起的;第2成分主要代表水中的硝酸盐。评价结果认为南部2#和3#监测点位水质污染程度严重,是松山湖水质较差的主要原因。控制此区域水质污染程度将对松山湖水质的改善产生巨大影响。
主成分分析;水质指标;松山湖
1 引言
水质评价是根据某些水质指标值,通过所建立的数学模型,对水质等级进行综合评价。如何更合理地、更客观地描述水质状况,是20世纪90年代以来水环境研究领域的一个热点和难点问题[1,2]。水质受很多因素影响,基于单一指标的许多评价方法在评价水质时表现出一定的局限性,因为水质系统是由多维因子组成的复杂系统,因子间可互相关联,综合评价较为困难[3,4]。
主成分分析(Principal Components Analysis,PCA),又称定量分析或多元分析,它是在一组变量中寻找出方差-协方差矩阵的特征量,然后由原变量在不损失原数据主要信息情况下,使信息更加集中、更典型地显示出研究对象的特征[4,5]。该方法充分考虑各指标之间的信息重叠,能够在最大限度地保留原有信息的基础上,对高维变量进行最佳的综合降维,且更客观地确定各个指标的权重,避免了主观随意性,因此广泛应用于社会学、教育学、医学、环境科学等方面[2]。
东莞松山湖科技产业园区位于广东省东莞市寮步、大朗、大岭山三镇接壤处,总面积59.43km2,是东莞市的几何中心,目前规划控制面积约72 km2,拥有8 km2的淡水湖(以下简称松山湖)和14 km2的生态绿地,是一个生态自然环境保持良好的区域。近年来,随着园区经济的快速发展,松山湖水质不断恶化,水体富营养化现象日趋严重。为了研究松山湖水质情况,于2015年对松山湖11个采样点的8项指标进行为期1年的监测,利用主成分分析方法对其水质进行综合评价。
2 采样布点和监测方法
2.1采样方法
根据视松山湖的地形、水面面积、入湖河流和工业排污口分布、富营养化状况及其主要分布特征等,分别在北部、中部各设4个采样点,在南部设3个取样点。具体采样点位置如图1所示,采样方法按照《地表水和污水监测技术规范》(HJ/T 91-2002)中的要求进行。
图1 松山湖水质监测点位示意图
2.2监测项目
监测项目包括pH、溶解氧(DO)、高锰酸盐指数(CODMn)、五日生化需氧量(BOD5)、氨氮(NH3-N)、总磷(TP)、总氮(TN)和硝酸盐(NO3-N)等8项,监测结果详见表1所示。
表1 松山湖水质指标监测结果
3 主成分分析方法对水质进行综合评价
3.1主成分确定
为了消除原始数据量纲和数量级的影响,利用SPSS19.0软件对11个检测点8项指标数据进行Z-Score标准化[7],见表2所示。再对标准后的数据进行相似性分析,求得其相关系数矩阵R,结果见表3所示。从表3可以知道,CODMn与BOD5、TP和TN之间,TP和TN之间具有较强的相关性,其他指标之间的相关性较小。
利用SPSS19.0软件分别对检测数据计算特征值和主成分贡献率,结果见表4所示。从表4可以看出,利用SPSS19.0分别对检测数据计算特征值和主成分贡献率,第1、第2、第3主成分特征值分别为6.374、0.984和0.383,我们取特征值为0.9,故只有第1和第2主成分的特征值大于0.9,且二者方差累积贡献率达到91.970%,满足因子选取原则(≥)说明第1和第2个主成分已经反映原始变量提供的91.970%的信息,包含了以上8个指标的所要信息,根据综合评介的需要,用前2个主成分来代替原来的8个指标变量。
表2 标准化数据
表3 相关系数矩阵R
表4 主成分特征值和累计贡献率
3.2主成分表达式的确定
每个污染指标初始因子载荷系数表示与主成分的相关程度,正值表示正相关,负值表示负相关,其绝对值越接近1,表示相关程度越高[4]。对第1、第2主成分进行载荷值计算,结果见表5所示。由主成分载荷大小可以看出,第1成分,除NO3-N载荷较小外,其他指标所占载荷均较大,说明第1个主成分反映了pH、DO、CODMn、BOD5、NH3-N、TP和TN等7项指标的信息;第2个主成分中NO3-N载荷最大,说明第2个主成分主要反映了NO3-N指标的信息。
表5 初始因子载荷矩阵
表6 主成分系数表
各成分表达式系数用初始因子荷载量矩阵第i列向量除于特征值就得到第i个主成分的系数向量[3,4],结果见表6所示。则各成分表达式为:
其中,xn为原始监测数据标准化后的数值。
以每个主成分所对应的特征值占提取主成分总的特征值之和的比例作为权重计算主成分模型[3,4]:
3.3评价结果
根据上述主成分表达式计算出11个监测点位的主成分得分F1、F2及综合得分F,以定量描述各监测点位水质污染程度并进行排序,具体结果见表7。
根据表5可以知道,F1反映了pH、DO、CODMn、BOD5、NH3-N、TP和TN等7项指标的信息,但关联最大的是CODMn和BOD5,表示的是有机污染物污染程度。从表7可以知道,南部2#和3#监测点位的值最大,而且远远大于其他监测点位,说明此处水体中有机污染物污染程度最严重。这是因为南部2#监测点位刚好位于大岭山杨屋村、颜屋村混合生活污水排入松山湖的排污口;而南部3#监测点位刚好位于大岭山月山村生活污水排入松山湖的排污口,据现状分析,这几个村的生活污水暂时没有收集处理,还是直接排入松山湖,引起有机物污染严重,影响水质。因此,完善大岭山各村镇,特别是靠近松山湖附近村镇的生活污水截流管网,将生活污水排入污水处理站处理后再排放,对松山湖的水质的提高有深刻的影响。
表7 各监测点位水质综合评价结果
F2反映了NO3-N指标信息。从表7可以知道,南部2#监测点位值最高,中部2#监测点位值其次,而北部1#和2#监测点位值最小。南部2#监测点位值最高原因与前面有机物污染分析一致,而中部2#监测点位较高的原因可能跟中部由于商部、交通设施、密集人流、等产生的生活污水和生活垃圾进入松山湖引起的。
4 结语
本文利用SPSS对2015年松山湖水质进行计算分析,得到以下内容:(1)对松山湖水质监测指标进行主成分分析,得到第1主成分主要是水中的CODMn和BOD5有机污染物引起;第2主成分主要体现的是水中的NO3-N信息。(2)位于南部2#和3#监测点位的水质污染程度严重,也是松山湖水质较差的主要原因。控制此区域水质污染程度将对松山湖水质的改善产生巨大影响。
[1]邹志红,孙靖南,任广平.模糊评价因子的熵权法赋权及其在水质评价中的应用[J].环境科学学报,2005,25(4):552-556.
[2]邹海明,蒋良富,李粉茹.基于主成分分析的水质评价方法[J].数学实践与认识,2008,38(8):85-90.
[3]谭明芳,毛唐秀,江利平,田哲.基于主成分分析法的沦河水质评价[J].现代农业科技,2012,11:214-215.
[4]潘春芳,崔广柏,张浩.主成分分析方法在太湖水质综合评价中的应用[EB/OL].北京:中国科技论文在线.[2008-06-10].http: //www.paper.edu.cn/releasepaper/content/200806-197.
[5]万金保,何华燕,曾海燕,李嫒嫒.主成分分析法在鄱阳湖水质评价中的应用[J].南昌大学学报,2010,32(2):113-117.
郑少娜(1985—),女,广东饶平人,研究生,从事环境监测质量管理工作。