基于主成分-聚类分析的南水北调中线干渠水质时空分异规律
2022-08-09倪智伟罗慧萍罗平安李青云
陈 浩,靖 争,倪智伟,罗慧萍,罗平安,李青云
(1.长江科学院 流域水环境研究所,武汉 430010; 2.长江科学院 流域水资源与生态环境科学湖北省重点实验室,武汉 430010; 3.中钢集团马鞍山矿山研究总院有限公司,安徽 马鞍山 243000)
1 研究背景
南水北调中线工程是缓解中国北方地区水资源短缺、实现水资源合理配置、保障经济社会可持续发展的重大战略性基础设施。自2014年通水以来,输水水质良好,绝大部分指标能够稳定达到地表水I类水质标准。现有研究基于实测资料,分析了主要水质指标浓度变化趋势,采用单因子评价法、综合污染指数法等方法评价了中线干渠水质状况,取得了一定成果[1-3]。然而,中线总干渠输水距离长,涉及区域广,周边水质影响因素复杂,水质监测指标众多,数据量巨大,存在识别和监管困难等问题。而现有的研究不能很好地解决管理监控中存在的这些问题。
为了及时发现干渠水质问题或潜在风险并进行针对性的风险管理,本文采用主成分-聚类分析的方法,对中线工程总干渠进行水质现状分析。采用主成分分析法[4-7]将各水质参数进行标准化处理后,通过线性变化,将多项水质参数指标组合成互相独立的综合指标(即主成分),再以这些主成分来对监测断面采用聚类分析法进行分类。聚类分析是将研究对象按某些相似性进行分类,并进行系统研究的一种方法[8-9],已成为河湖水质特征分析和水质分区的有效工具[10-13]。将主成分分析与聚类分析相结合,能有效提高聚类分析结果的可靠性,对于中线总干渠这种大尺度、多指标、高频次的高维数据聚类过程,能解决水质指标众多且相互关联复杂、样本的选取具有一定的主观性的问题。目前,已有学者将主成分分析与聚类分析相结合的方法应用于巢湖、向家坝等大型湖库的水质分析,取得了较好的效果[14-15]。将主成分分析和聚类分析相结合应用于中线工程水质分析,可对复杂的多元数据进行归纳和解释,为管理者关注的水质指标数据提供更清晰的理解,进而更明确地认知水质时空分异特征。
本文在分析南水北调中线干渠水质指标变化情况的基础上,采用主成分分析对原始水质指标进行简化并提取主成分,识别影响中线水质的首要指标,并通过主成分进行聚类分析,对中线监测断面进行分类,甄别各断面水质变化相似性特征,合理进行水质评价与分区,为中线水质保护和管理提供决策参考和优化建议。
2 研究区域与方法
2.1 研究区域概况
南水北调中线工程(32.67°N—39.98°N、111.71°E—116.27°E)自丹江口水库陶岔渠首开始,跨越长江、黄河、海河、淮河四大流域,最终到达北京和天津。作为京、津、冀、豫4省市生活饮用水源,其水质安全决定调水成败。北京段输水线路全长为1 276 km。中线总干渠沿途穿越亚热带气候区和暖温带季风气候区,区域年均降水量为542.7~1 173.4 mm,年均气温为14.6~21.2 ℃。这种长距离输水工程沿程存在明显的水温、气候和环境差异,使沿程水质也呈现出区域性差异,所以整个工程的管理方案不能一以贯之。至2020年6月3日,中线工程已安全运行2 000 d,累计向北调水300亿m3,惠及沿线6 000万人口。中线工程沿线具有复杂的输水工程设置。著名的南水北调穿黄隧洞是工程规模大、技术含量最高的交叉建筑物,设计流量为265 m3/s,加大流量可达320 m3/s。湍河渡槽和沙河渡槽等内径9 m,单跨跨度40 m,最大流量达420 m3/s。这种流量和建筑物沿程的变化,给中线工程沿程管理带来一定的挑战。
南水北调中线工程通水以后,干线管理部门(南水北调中线建设管理局)在总干渠沿线布设了三十多个水质固定监测断面(图1),并逐月对26项水质参数和藻密度进行监测和分析。本文选取中线工程总干渠河南和河北段25个水质固定监测断面的 2017—2018年监测数据开展水质特征分析。24项常规监测指标中,检出13项,砷、汞、镉、铬(六价)、铅、氰化物、挥发酚、石油类、阴离子表面活性剂、粪大肠杆菌等11项指标均未检出。大部分断面的化学需氧量、硫化物低于检出限,部分断面部分时段生化需氧量、铜、锌等4项指标低于检出限。根据常规水质规范要求,本文选择各监测断面检出且有明显变化的水温(X1)、溶解氧(X2)、pH值(X3)、高锰酸盐指数(X4)、氨氮(X5)、总氮(X6)、总磷(X7)、氟化物(X8)、硫酸盐(X9)等9项水质指标进行分析。
图1 南水北调中线工程干渠各监测断面位置Fig.1 Locations of monitored sections in the main canal of the middle route of SNWDP
2.2 主成分-聚类分析
主成分分析法是一种将多指标变量转换成综合指标的统计方法,指标数量得以减少,使问题得到降维处理[10]。通过运用SPSS等大型统计软件,能准确快捷得到结果。本文使用SPSS22进行主成分分析,利用Origin2021进行数据统计及制图。
主成分分析法主要步骤有[16-17]:
设取得研究对象的m个样本,每个样本含有n个因子,由此建立变量矩阵X,即
(1)
式中Xij(i=1,2,…,m,j=1,2,…,n)为第i个样本的第j个因子的数值。
为了消除样本因子间的数值差异,保证量纲统一,简化数据,对数据进行标准化处理[18]。利用标准化常用方法Z-Score变换得到标准化后的数据Zij,其计算公式为
(2)
(3)
(4)
标准化后计算数据的相关系数矩阵,并计算出特征根。然后用雅可比法解特征方程计算特征值λi,公式为
|λi-X|=0 。
(5)
所得特征根λ1≥λ2≥…≥λm≥0。
为确定主成分个数,一般由累积贡献率进行判断,一般主成分累积贡献率需达到80%,判断公式为
(6)
对数据进行主成分分析后,利用确定的主成分对南水北调中线工程各监测点进行聚类分析,可将干渠划分成几个水质管理区段,能直观地显现出每个区段的主要污染物及污染程度的差异,以便针对性地对各区段进行水质分析和管理规划。
聚类的方法主要有系统聚类法和K-均值法两种。本文采用系统聚类法,根据样本的亲疏程度,将亲疏程度最高的两类样品合并成新的类,然后继续分析新分类间的亲疏程度,再合并,重复合并类,直至合并为一类[8]。对于已经主成分分析的指标,无需进行标准化,直接进行指标间距离计算。本文采用欧式距离计算,公式为
(7)
式中Xik、Xjk分别表示两主成分指标。
3 结果分析
3.1 中线工程水质指标时空变化
依据南水北调中线工程25个断面2017—2018年水质指标含量,对各项水质参数统计分析,结果如图2 所示。
图2 2017—2018年南水北调中线工程干渠断面水质指标沿程变化Fig.2 Changes of water quality indexes along flow direction in major sections of the main canal of the middle route of SNWDP from 2017 to 2018
3.1.1 基础理化指标(水温、溶解氧、pH值)
2017—2018年水温总体呈现沿程下降的趋势,表现出南高北低的规律,穿黄前后断面水温升降较明显。2017、2018年年平均水温分别为17.38、17.56 ℃,两年水温变化不大(图2(a))。
2017—2018年中线工程各监测点的pH值平均值为8.07~8.44,整体呈现弱碱性,沿程呈先上升再下降的趋势,在漳河北站点pH值下降明显,之后站点变化不明显,河南段与河北段pH值存在一定的差异。2017、2018年年平均pH值分别为8.14、8.25,2018年pH值较2017年略有上升,两年河南段(漳河北前)差距不大,河北段pH值差异较大,这可能反映了该地区大气降水输入的影响[19](图2(b))。
2017—2018年各监测点溶解氧(DO)从渠首开始先有所上升,随后趋于稳定,在北盘石监测点后溶解氧浓度略有下降,至西黑山监测点突然上升。部分站点溶解氧浓度高于10 mg/L。有关研究表明溶解氧的升高与水温和藻类增殖有关[20]。干渠年平均浓度为9.03~10.53 mg/L,2017年与2018年溶解氧浓度整体差异不大,均低于地表水环境质量Ⅰ类(7.5 mg/L)水质标准(图2(c))。
3.1.2 有机物和营养盐指标(高锰酸盐指数、氨氮、总氮、总磷)
如图2(d)所示,2017—2018年中线工程各水质监测点的高锰酸盐指数(CODMn)平均浓度为1.61~2.70 mg/L,各年呈现出明显的沿程升高趋势,至漳河北后,各站点平均浓度趋于稳定,河南段与河北段之间存在差异。2017、2018年年平均高锰酸盐指数浓度分别为1.81、1.94 mg/L,2018年年平均浓度高于2017年平均浓度,2018年部分监测断面超过了国家地表水环境质量标准Ⅰ类(2 mg/L)水质标准限值。
2017—2018年氨氮(NH3-N)年平均浓度为0.029~0.092 mg/L,所有监测断面均符合地表水环境质量标准 Ⅰ 类(0.15 mg/L)水质标准,2017、2018年年平均浓度分别为0.035、0.042 mg/L,氨氮平均浓度略有升高,北盘石至西黑山监测站浓度上升明显(图2(e))。
2017—2018年各监测点总氮(TN)平均浓度介于0.77~1.30 mg/L,各年总氮浓度呈沿程下降趋势,北盘石至西黑山监测点下降明显,氨氮浓度的上升和总氮浓度的下降表明该段可能有较强的氧化还原反应进行。2018年TN平均浓度(1.22 mg/L)高于2017年TN平均浓度(0.91 mg/L),TN浓度有逐年升高的趋势,与水源地的初始TN浓度关系密切(图2(f))。
2017—2018年总磷(TP)年平均浓度差异不大,2017年总磷年平均浓度为0.011 mg/L,大多数监测站浓度都低于总磷检出值,而2018年总磷年平均浓度为0.012 mg/L,大部分监测断面总磷浓度上升,超出检出值,说明总磷有逐年升高的趋势,但整体浓度偏低(图2(g))。
3.1.3 其他指标(硫酸盐、氟化物)
两年硫酸盐浓度年平均值为26.74~34.03 mg/L,沿程呈上升的趋势,河南段浓度略高于河北段浓度,河南段的变化趋势与大气沉降有关,河北段的变化与大气沉降和干渠流量有关。2017年与2018年硫酸盐平均浓度分别为29.09、27.30 mg/L,有下降趋势(图2(h))。硫酸盐浓度反映水体酸碱度变化,2017年与2018年硫酸盐浓度的差异与pH值的变化趋势一致。由图2(i)可知,2017—2018年氟化物浓度沿程波动较大,年平均浓度为0.188~0.218 mg/L,对比各年平均浓度,氟化物年平均浓度有逐年降低的趋势。
3.2 中线工程渠道主干断面环境因子主成分分析
对南水北调中线工程主干断面水质指标年平均值进行主成分分析,分析结果相近。利用SPSS对水质参数进行 KMO(Kaiser-Meyer-Olkin)和 Bartlett 检验,得到2017年和2018年KMO 值分别为0.583、0.582;Bartlett 球形检验结果分别为 92.794(P<0.05)、93.754(P<0.05),说明参数指标之间具有较好的相关性,适合主成分分析。两年主成分分析结果相近,故本文以2018年南水北调中线工程主干断面水质指标年平均值为基础,验证主成分分析方法的适用性。
为了消除各个指标量纲不同的影响,需对原始数据经过标准化,标准化后所得矩阵各行标准差为1,平均值为0。由于溶解氧为逆指标,即其数值越大,表征其水质越好,故对其取倒数后再进行标准化。基于标准化数据,利用SPSS22运算得出各个水质指标之间的相关矩阵,如表1所示。
对表1进行运算,可得到特征值,从而对主成分进行确定,并得主成分贡献率的大小,如表2所示。
表1 2018年南水北调中线工程主干断面水质指标相关矩阵Table 1 Correlation matrix of important water quality objectives in major sections of the main canal of the middle route SNWDP in 2018
表2 2018年南水北调中线工程干渠断面水质指标特征值和主成分贡献率及累积贡献率Table 2 Eigenvalues,contribution rates and accumulated contribution rates of principal components of water quality indexes in major sections of the main canal of the middle route SNWDP in 2018
由表2所知,第一主成分的特征值为3.505,第二主成分的特征值为1.552,第三主成分的特征值为1.142,第四主成分的特征值为1.022,均>1,而从第五主成分开始,特征值均<1,这说明前4个主成分对解释原有变量的贡献最大,符合主成分挑选条件,第五主成分己经不满足要求。由于第一至第四主成分己经包含了9个指标的全部信息,且这两者的累积贡献率已达80.23%,其对水质变化的影响最大。因此,本文确定前4个主成分开展进一步的分析。
为确定各主成分所包含的水质指标信息,需计算各主成分在单个指标上的载荷。表3为2018年南水北调中线工程各断面水质指标旋转成分矩阵,由表3得出,第一主成分在pH值、溶解氧、高锰酸盐指数、硫酸盐上有较大载荷,其载荷分别为 0.737、-0.797、0.891、0.745;第二主成分主要在水温上有较大载荷,其载荷为0.913;第三主成分主要在总氮上有较大荷载,其荷载为0.716;第四主成分主要在总磷上有较大的荷载,其荷载为0.886。
表3 2018年南水北调中线工程干渠断面水质指标旋转成分矩阵Table 3 Rotated component matrix of water quality indexes in major sections of the main canal of the middle route SNWDP in 2018
3.3 中线工程渠道主干断面聚类分析
在主成分分析的基础上,对各监测断面水质指标进行聚类分析。以2018年南水北调中线工程干流断面主成分分析中各断面主成分为基础,聚类方法采用组间联接法,对等间隔测度的变量使用欧式距离平方作为类间距离,得到2018年南水北调中线工程主干渠断面聚类分析结果树状图,如图3所示。
图3 2018年南水北调中线工程采样点聚类树状图Fig.3 Dendrogram of sampling points in the middle route of SNWDP in 2018
在对主成分进行聚类分析后,将南水北调中线工程总干渠划分成4类区段,如图4所示。第一渠段为位于渠首的陶岔、姚营、程沟和方城4个断面;第二渠段包括库区大部分断面,为中线总干渠中间,有沙河南、兰河北、新峰、穿黄后、纸坊河北、赵庄东南、西寺门东北、侯小屯西、漳河北、南营村、侯庄、北盘石、东渎、大安舍、北大岳、蒲王庄和柳家佐17个断面;第三渠段为苏张、郑湾和穿黄前3个断面;第四渠段为西黑山断面。
图4 南水北调中线工程聚类分析分区渠段示意图Fig.4 Schematic diagram of divided four segments of the main canal of the middle route SNWDP
为了验证上述聚类分析的结果,应用判别分析(Discriminant Analysis,DA)方法进行聚类分析正确率检验。检验结果表明,聚类分析正确率结果为80.65%,选择分成4类能合理反映各渠段差异。
4 分析与讨论
4.1 总干渠关键水质指标识别与分析
第一主成分结果包含高锰酸盐指数、溶解氧、pH值、硫酸盐指标、氨氮,贡献率达38.94%,反映水体中耗氧程度和酸碱平衡状态。根据水质指标时空变化趋势可知,总干渠水体中的高锰酸盐指数沿程呈上升趋势,且存在部分断面超过国家Ⅰ类水质标准,与文献[2]和文献[21]的研究结果一致,是总干渠耗氧程度关键水质指标之一。pH值逐年呈下降趋势,且沿程波动较大,趋势与硫酸盐浓度变化趋势一致,是反映总干渠酸化趋势水质指标之一。上述表明总干渠最主要的水质变化趋势为水体耗氧及酸化趋势。
第二主成分为水温,反映水体热力学状态。根据监测分析,水温南北差异较大,且沿程波动明显,对沿程各站点的影响较大,水温对水体中的营养物质有着重要影响,影响整个水体的营养盐时空分布,因此,中线工程的水温对水质有一定影响。
第三、第四主成分分别为总氮、总磷,反映水体营养状态。总氮浓度沿程变化不大,但有较明显年际差异,这与文献[3]的总氮分析结果一致。年际差异与水源地丹江口水库总氮浓度变化有关。总氮浓度的大小影响着中线总干渠富营养化状态,是总干渠富营养化关注的主要因素之一[22]。总磷在中线工程浓度较低,2017年大多数断面都低于检出值,但在2018年较2017年有上升趋势,因此总磷也是中线工程营养状态的影响因素之一。
综上,9项水质指标通过主成分分析降维到4项,前4个主成分能够充分代表中线水质状况。中线工程总干渠的首要水质指标为高锰酸盐指数、溶解氧、pH值、硫酸盐,应重点关注中线工程耗氧程度和酸化趋势;其次是水温、总氮、氨氮、总磷,应关注水温季节性变化和南北空间差异及总磷等营养物的逐年上升趋势。
4.2 中线干渠各区段主要指标的时空分异特性
聚类分析将25个监测断面聚成4类,计算出各区段的各水质指标的年平均值,并对4类渠段各水质指标之间的差异进行比较,如图5所示。
图5 2018年南水北调中线工程各分渠段水质监测点水质指标比较Fig.5 Comparison of water quality indexes among monitoring site segments of the main canal of middle route SNWDP in 2018
由图5可知,第一渠段比较突出的水质指标为总氮和总磷两项指标,对整个总干渠而言,总氮浓度差异不大。该渠段位于河南境内,连接丹江口水库。有研究表明,丹江口水库总氮浓度平均值为1.5 mg/L,总磷浓度大部分<0.04 mg/L,是南水北调总干渠总氮、总磷营养盐的主要输入源[23]。因为处于整个工程的渠首段,其他水质指标整体较好。第二渠段主要包括中线工程大部分站点,这些站点水质较第一区段有变差趋势,应加强管理检测,及时防治,其中高锰酸盐指数有所升高,这与文献[2]的研究结果相一致,应重点关注该段高锰酸盐指数的升高原因。第三渠段位于第二渠段中间,主要包括穿黄前3个断面,与其他渠段相比,这3个站点的水温较其他渠段高,且pH值略高于其他渠段。第四渠段只有西黑山一个站点,水质问题最为严重,西黑山大多数水质指标都明显高于其他站点,作为送往北京和天津前最后一级,高锰酸盐指数超过国家水质Ⅱ类标准,硫酸盐浓度也高于其他渠段,其水质的变化应引起重视。
综上所述,第一渠段应重点关注总氮、总磷浓度变化,对第一渠段总氮、总磷浓度的控制有助于中线整个总干渠总氮、总磷浓度的管理。对于第二渠段和第三渠段,应重点关注沿程高锰酸盐指数变化情况,增加高锰酸盐指数的监测手段,加强高锰酸盐指数沿程升高因素识别及主要因子加密监测。对于第四渠段,应重点关注高锰酸盐指数及硫酸盐浓度的变化,识别变化影响因素。
4.3 典型区段关键水质指标影响因素识别
第四渠段(西黑山)水质变化较为显著,以第四渠段为分析对象,结合同期水文监测数据,对主要水质指标高锰酸盐指数和硫酸盐的影响因素进行探讨。
分析高锰酸盐指数与水动力参数的关系,如图6(a)所示,高锰酸盐指数与流量呈一定的相关关系,70%的数据点落在95%置信区间内,表明流量对高锰酸盐指数有影响。高锰酸盐指数作为反映水体耗氧污染程度的重要指标,代表了水体中可被高锰酸盐氧化的有机和无机物质浓度[24]。范傲翔等[21]研究结果表明,总干渠藻密度突变点与高锰酸盐指数的突变点高度吻合,表明水体自身藻类及微生物活动等自生源过程中向水体释放的蛋白质和微生物残体增加了高锰酸盐指数。中线渠道沿程环境复杂,水动力特征会发生显著变化,物质在水体中的各种相态、迁移转化过程都会发生改变,影响藻类生长速度及分布特征,从而可能影响高锰酸盐指数。流量增加,引水渠中的流速会增大,更容易破坏渠道内的藻类生长环境,导致大量的藻类死亡和藻细胞破碎,增加水体中有机物质浓度。因此,解决该站点高锰酸盐指数升高的问题应考虑控制流量。
分析硫酸盐与水动力参数的关系,如图6(b)所示,随着流量的增加,硫酸盐浓度具有下降趋势,75%的数据点落在95%置信区间内,表明流量对该渠段硫酸盐浓度有影响,其浓度的降低主要受到来水的稀释作用。硫酸盐浓度表征干渠的酸化趋势,来源主要包括大气沉降(酸雨、降尘)及其他人类活动的输入(农业、生活、工业、矿业等)[25]。对于相对封闭的中线总干渠而言,其主要来源为大气沉降,并与渠段周围的重工业发达程度有着密切的关系。因此,在密切关注大气沉降对总干渠的影响的同时,流量调节对硫酸盐的控制有积极作用。
图6 高锰酸盐指数、硫酸盐与流量的关系Fig.6 Relations of permanganate index and sulfate content versus flow rate
综上所述,对于第四渠段,流量与关键水质指标高锰酸盐指数和硫酸盐有相关性,在渠段管理过程中可以通过调节该段流量控制相关指标。由于数据收集有限,本文未对大气沉降、气温、降水等因素进行讨论。
5 结 论
(1)数理统计结果显示,总干渠水温、总磷呈下降趋势,其中水温、pH值在河北段下降更为显著,生化需氧量则在河南段下降更为显著;溶解氧、高锰酸盐指数、氨氮、氟化物等指标呈上升趋势,其中高锰酸盐指数和氟化物在河南段上升更为显著,氟化物仅在河南沿线显著上升。除总氮、总磷外,其余指标2017年与2018年差距不大。
(2)以主成分分析方法提取的4个主成分,其累积贡献率达到 80%以上,4个主成分几乎包含了原始数据所有的信息量。4个主成分载荷的分析结果表明中线工程应重点关注总干渠耗氧污染程度和酸碱平衡状态,其次考虑水温等水热状态,再次关注氮磷等水体营养状态。
(3)以4个主成分对监测断面进行分类,较好地识别出总干渠各段水质指标特征,将中线总干渠分为4类渠段。第一渠段重点关注总氮、总磷浓度变化,有助于中线整个总干渠总氮、总磷浓度的管理。对于第二渠段,可以适当减少测站数量,方便管理。对于第四渠段,应重点关注高锰酸盐指数及硫酸盐浓度的变化,识别变化影响因素。
(4)重点分析讨论了第四渠段西黑山断面的变化,流量与该渠段的高锰酸盐指数呈正相关,与硫酸盐呈负相关。水动力变化对第四渠段的主要水质指标影响明显,可通过水动力调控对水质指标进行调控。