基于K-means 聚类的煤炭港区TSP 浓度变化及影响因素分析
2022-08-04林翔宇张艳封学军林志端朱信源沈金星
林翔宇,张艳,封学军,林志端,朱信源,沈金星
(1.河海大学港航物流与绿色发展研究所,江苏 南京 210098;2.河海大学土木与交通学院,江苏 南京 210098)
0 引言
煤炭在港区的装卸、运输和堆存过程中都会产生大量颗粒物,不仅对港口环境造成污染,而且严重影响附近城市空气质量[1]和居民身体健康[2],制约了港口的可持续发展能力。对煤炭港区颗粒物的防治已经成为绿色港口建设面临的重要任务。
煤炭港区大气中的总悬浮颗粒(TSP)浓度是判断颗粒物污染程度的重要指标。国内外对港区TSP的研究主要涉及起尘机理[3]、时空变化规律[4-5]和抑尘措施[6]等方面。我国针对干散货港区粉尘领域的研究起步较晚,但近年来在港区粉尘时频演变规律等方面成果丰富[7-8]。总体看,当前关于TSP 的时频规律研究大多是统计天、月、季、年整体[9]的变化规律,针对不服从整体规律的情况缺少关注,且对于时变特征规律亦缺少深入研究。
K-means 算法作为最典型、最常见的一种聚类算法,在大气污染研究中也有广泛应用[10]。
针对港区TSP 的时变规律研究成果很少,而K-means 聚类方法可以保证达到同一簇内数据相似性较高的优点。本文基于2020 年港口粉尘在线监测数据,对苏州港常熟FD 港区TSP 全年数据进行聚类分析,探究TSP 平均浓度的时变规律并结合气象因素分析其相关性。
1 技术方案
1.1 监测点位置
本文以江苏苏州港常熟FD 港区为研究对象,该港区位于长江下游,主要运营货种为煤炭。港区内粉尘监测点位布设位置如图1 所示。
图1 FD 港区及监测点位图Fig.1 FD port area and monitoring points
1.2 数据采集
监测点位中TSP 数据采集仪器采用H6 型颗粒物监测仪,监测点的检测数据为每分钟记录1次,进行24 h 连续工作。监测中选取2020 年1月1 日—12 月31 日全年数据,包括TSP 的浓度数值和实时气象5 种参数值(风速、风向、温度、湿度和气压)。
1.3 数据处理
为了保证数据的准确性和可靠性,对TSP 数据进行清洗,主要包括空缺数据、错误数据和异常数据3 种数据的处理。对于前两种数据,删除不进行分析;针对其余异常数据,选择3 倍标准差法对数据组进行循环剔除异常值,采用的异常值判断公式为:
式中:xi是每组中的第i个数据;是该组数据均值;N为该组数据总个数。符合不等式(1)的xi即被作为异常值。
以整点时刻前后各0.5 h 数据为一组,通过公式(1)循环剔除异常值后取均值,每日可得到24个整点时刻数据,加入日均值共25 个数据作为25 个特征值进行聚类输入。当出现某天数据不足25 个时,做删除处理,合计36 d。
2 K 值确定
聚类算法的目的是把数据划分为属性类似的多个簇,便于分析其内在性质及规律。K-means算法的基本思想是从样本数据集中随机选择k个
初始聚类中心,计算剩余数据对象与聚类中心的相似性,并分配到与其相似性最高的中心所对应的簇中,依据新的中心进行下一次迭代,直到中心不再变化时停止。可见确定聚类出的簇数目k是K-means 算法的最关键部分。本文使用输入特征值之间的欧氏距离作为相似性的评判依据,通过“拐点法”和“平均轮廓系数法”相结合[11]确定k值。利用“拐点法”计算评价聚类质量有效性的指标——误差平方和(SSE),计算方法见式(2)。
式中:i为聚类结果中的第i类簇;k为聚类出的簇数目;Ci为第i类簇的所有数据集合;P为Ci中的任一数据元素;mi为第i类簇的数据中心。
当SSE判断效果不显著时,引入另一判定聚类质量有效性的指标——平均轮廓系数(SC),计算公式见式(3)和式(4)。
式中:a(i)为样本i到同簇内其他样本点的平均距离;b(i)为样本i到其它簇所有点的平均距离;S(i)为样本i的轮廓系数;m为样本总数;SC为整个样本集的轮廓系数,取值范围为[-1,1],其值越接近1 表明聚类效果越好。
图2为SSE和SC随k的变化曲线。当k<4时,SSE下降趋势明显,在k= 2 时SC出现最大值,但聚为2 类不能很好展示出TSP 多样的变化规律,随着SSE变大聚类效果变差。综上,取k= 6。
图2 SSE和SC 随不同聚类簇数k 的变化曲线Fig.2 Variation curve of SSE and SC with cluster number k
3 结果和讨论
3.1 TSP 年平均小时浓度统计分析
计算各时刻TSP 的平均浓度,按分位数表达的结果如图3 所示。从均值变化趋势看,每日浓度的变化趋势呈现“单峰单谷”态势,5:00—7:00达到峰值,17:00—18:00 达到谷值。上午温度升高时颗粒物的布朗运动逐渐强烈,促使污染物向高空大气扩散[12],随着港区7:00—8:00 左右配合白天作业开启喷淋等人工降尘措施,TSP 浓度进一步降低,至18:00 左右出现谷值;夜间虽然港区作业强度变低,但部分人工降尘措施关闭,且温度降低布朗运动变弱,TSP 浓度回升。
图3 TSP 质量浓度日变化情况Fig.3 TSP mass concentration changes in intraday
3.2 TSP 的聚类结果及分析
图3中下四分位数和上四分位数之间的数据间隔较宽,表明不同时刻浓度值的差异性较大,有必要通过聚类进一步分析。为了方便描述,TSP聚类得到的6 类簇分别用T0—T5 表示。
3.2.1TSP 总体情况分析
表1展示了T0—T5 在各月份的分布情况,图4 表示T0—T5 的TSP 质量浓度日变化情况。
图4 TSP 各簇日内变化情况Fig.4 TSP clusters changes in intraday
T3 和T5 出现在夏季(6—8 月)概率达68%,且曲线波动较大,其中T3 波动范围为17~526 μg/m3,表现为0:00—10:00 的高污染;T5 的波动范围为50~832 μg/m3,表现为10:00—23:00 的高污染。T2 出现在冬季(12 月、1 月、2 月)概率达50%,呈现出整日持续递减的变化,但日内TSP 最低质量浓度(204 μg/m3)仍高于GB 3095—2012《环境空气质量标准》年均值二级标准(200 μg/m3)。可见该港区在夏、冬季节更易出现粉尘污染情况,其中夏季尤为突出,与ŽIBERT 等[4]基于Koper 港发现的冬、春季污染更易出现波动有所不同,可能原因在于气候、装卸货物的差异和新冠疫情对港区作业量大幅影响有关。T0 呈现出整日持续递增的变化;T1 变化趋势与图3 全年日平均变化相同为“单峰单谷”型;T4 日内质量浓度变化不超过16 μg/m3,且整日浓度均符合GB 3095—2012《环境空气质量标准》年均值一级标准(80 μg/m3),粉尘防治效果显著。
3.2.2TSP 各类簇变化原因
进一步分析TSP 浓度变化原因,计算全年TSP 浓度与各气象条件之间的皮尔逊相关性系数见表2,可见TSP 与湿度呈正相关,与风速呈负相关。温度和气压的皮尔逊系数过小,风向为矢量,相关性计算存在误差,均不做考虑。进一步计算各簇TSP 与风速和湿度的皮尔逊系数,见表3。T5 对应数据只有5 d,相关性计算结果不做考虑。
表2 全年TSP 浓度与气象条件间的相关性Table 2 Correlation between TSP concentration and meteorological conditions annually
表3 各簇TSP 浓度与风速和湿度的相关性Table 3 Correlation of TSP concentration with wind speed and humidity for each cluster
在湿度上,本文基于数据计算得出的TSP 浓度与湿度整体呈正相关不代表高湿度一定会增大污染。相反,湿度足够大时更利于降尘。当湿度相对较大时,一方面湿度阻碍了TSP 等颗粒物的扩散[13],水汽更容易以颗粒物为凝结核凝结,使污染物聚集,导致TSP 浓度增加,这也是T3 在0:00—10:00 高污染的原因;另一方面湿度足够大时污染物凝聚成的大颗粒物重力过大发生沉降,颗粒物浓度反而降低[14],导致T0 与湿度呈负相关的现象。对于港口这类需要严格控制空气质量的区域,TSP 高浓度时人为进行的大量喷淋会增大两者的正相关程度。
在风速上,T0—T4 均呈现负相关性。观察数据,T1 和T2 对应浓度变化与风速变化趋势明显相反,表明该2 种变化情况受风速影响更大。可能的原因为风速增大易使TSP 等颗粒物向大气扩散而减少地表浓度,与张一等[15]通过回归模型得出结论一致。
除湿度和风速影响外,2020 年2 月和3 月新冠疫情爆发,港区作业量骤减,导致T4 各时刻浓度较低且较稳定,说明港区作业情况变化[16]也是影响TSP 浓度变化的重要因素。T5 只有5 d,变化趋势均与其它各簇呈现极大的差异,可视为特殊簇。观察数据得知,T5 对应的湿度和风速与其它各簇差异明显,湿度在9:00 后明显高于其它各簇,风速杂乱且偏高。考虑T5 变化为港区内装卸作业量达到峰值和特殊的气候变化所致。
4 结语
本文通过对2020 年苏州港常熟FD 港区的TSP 在线监测数据进行聚类,并结合实时湿度、风速等数据进行分析,主要结论如下:
1)以煤炭为主要作业货种的FD 港区TSP 年均日内变化情况可以描述为:TSP 的年均质量浓度在日内呈现“单峰单谷”的形式,峰、谷值分别在每日5:00—7:00 和17:00—18:00 出现,主要受气温和抑尘措施的影响;从季节表现看,TSP 浓度值容易在夏、冬季出现异常波动情况,且夏季表现最为剧烈。
2)基于K-means 聚类法,通过“拐点法”和“平均轮廓系数法”相结合确定采用6 类簇数,对港区TSP 日内变化情况分析显示:T3 和T5 曲线变化(波动)激烈,剩余各簇曲线变化较为平稳,其中T3 表现为0:00—10:00 高污染,相对湿度为该簇主要影响因素;T5 表现为10:00—23:00的高污染,由各种气象因素和港口活动的综合作用导致;T4 在1 d 内浓度变化不超过16 μg/m3,颗粒物防治效果显著;T2 呈现出持续递减的变化,但TSP 质量浓度仍然高于标准值,需要重点防治,风速为该簇主要影响因素。
3)总体看,TSP 质量浓度与大气湿度呈正相关关系,与风速呈负相关关系,且港区作业强度对TSP 的质量浓度也具有一定影响;但在不同簇中,湿度和风速对TSP 质量浓度的影响程度具有较大的差异性。