APP下载

基于模糊C均值聚类和Fisher判别分析的城市空气质量评价*

2022-12-10尤游

菏泽学院学报 2022年5期
关键词:城市群空气质量长三角

尤游

(安徽机电职业技术学院公共基础教学部,安徽 芜湖 241000)

引言

随着工业化、城镇化进程的逐渐加快和经济的高速发展,生态环境的安全问题越来越受到全社会的关注和重视.2018年习近平总书记在全国生态环境保护大会上强调要“加快构建生态文明体系”“全面推动绿色发展”“坚决打赢蓝天保卫战是重中之重”.在整个生态文明体系中,空气质量是最重要的生态指标[1],空气质量的好坏严重影响城市的知名度和投资竞争力.近年来,城市雾霾天气频繁出现,已经严重威胁人们的日常生活和身心健康.为此,构建科学便捷的空气质量评价模型可以帮助实现对城市空气质量的可视化质量预测,为大气污染防控治理提供理论参考依据,同时也能推动城市绿色经济发展和可持续发展,促进生态文明建设[2-3].

针对城市空气质量评价,目前国内有不少学者已展开研究,并取得了一些成果.如张茹等[3]以徐州市为例,分别运用层次分析法和主成分分析法来对比评价城市空气质量;陈颖等[4]以山西省11个地级市为例,基于聚类分析和主成分分析构建城市空气质量评价模型;郑霞等[5]以长沙市为例,提出一种基于组合赋权集对分析的空气质量评价方法,仿真结果表明该方法评价结果波动性小、稳定性强;候甜甜等[6]利用主成分分析选取影响空气质量的主要因素,然后进行费希尔(Fisher)判别分析,最终构建主成分的费希尔判别分析模型.以上文献主要针对某个城市或某个省来讨论,未能覆盖大型的城市群.随着城市化进程的推进和发展逐渐进入成熟阶段,城市群已成为当今世界城市化与区域发展的新趋势[7],研究城市群的空气质量对区域经济和环境的协调发展有重要的促进作用.

长三角城市群作为国内最具代表性的城市群之一,研究其区域大气环境,深化城市间联防联控,有利于推动长三角区域的高质量一体化发展.文章在前人研究的基础上,以长三角城市群为研究对象,选取6种污染物(SO2、NO2、PM10、CO、O3、PM2.5)浓度和空气质量达到和好于二级的天数比例作为影响城市空气质量的指标.考虑到待分类对象的不确定性,首先选用模糊C均值聚类(FCM)算法对城市空气质量进行聚类得到分类类别,但由于分类类别属于离散型变量,想要构建其与多个连续性自变量之间的关系则需要借助于判别分析[8],所以文章进一步引入Fisher判别法来构建线性判别函数,并依据距离判别法进行回判和效果检验,同时获得其他待判城市的判别结果.

1 资料和方法

1.1 研究区域概况

长三角城市群位于我国华东地区,由浙江、江苏、安徽和上海三省一市主要的地级市组成,具体包括浙江省的杭州、宁波、温州、嘉兴、湖州、绍兴、金华、衢州、舟山、台州、丽水,江苏省的南京、无锡、徐州、常州、苏州、南通、连云港、淮安、盐城、扬州、镇江、泰州、宿迁,安徽省的合肥、淮北、亳州、宿州、蚌埠、阜阳、淮南、滁州、六安、马鞍山、芜湖、宣城、铜陵、池州、安庆、黄山和上海等41个城市.

长三角城市群总人口约2.2亿,该地区经济发展活跃,制造业发达,城镇化率高,创造的GDP总量约占全国总值的25%,是我国经济发展最活跃的区域之一,也是我国“一带一路”与长江经济带的重要交汇地带.

2020年8月习近平总书记在扎实推进长三角一体化发展座谈会上强调,要紧扣“一体化”和“高质量”两个关键词抓好重点工作,推动长三角一体化发展不断取得成效.其中长三角一体化发展具体包括经济一体化、科技一体化、设施一体化和生态一体化[9].目前长三角一体化已经上升为国家战略,伴随着区域经济的高速发展,引发的大气污染问题也日益突出.根据《2020年中国生态环境状况公报》显示,长三角城市群中有34个城市优良天数比例在80%~100%之间,7个城市优良天数比例在50%~80%之间,平均超标天数比例约为14.8%.在全国168个主要城市空气质量排名中,长三角城市群的省会城市杭州、南京、合肥以及上海排名均在80名以后,相比较其他空气优良城市其大气环境还需要进一步的改善[10].

1.2 变量选取和数据来源

本研究以长三角城市群41个城市为研究对象,选取X1,X2,...,X77个指标,分别为二氧化硫(SO2)年平均浓度(ug/m3)、二氧化氮(NO2)年平均浓度(ug/m3)、可吸入颗粒物(PM10)年平均浓度(ug/m3)、一氧化碳(CO)日均值第95百分位浓度(mg/m3)、臭氧(O3)日最大8小时第90百分位浓度(ug/m3)、细颗粒物(PM2.5)年平均浓度(ug/m3)和空气质量达到和好于二级的天数比例(%).

文中数据来源于2021年浙江省、江苏省、安徽省统计年鉴以及中国统计年鉴和相关气象网站(http://www.tianqihoubao.com/),通过查询整理获得长三角城市群2020年全年空气质量指标数据.依据统计结果并结合《2020年中国生态环境状况公报》可以获得长三角城市群空气质量的总体情况.41个城市的空气平均优良天数比例为85.2%,而2020年全国168个地级及以上城市平均优良天数比例为80.7%,且2020年公布的168个城市环境空气质量排名前20名城市中包含长三角地区的舟山市、黄山市、丽水市和台州市.

2 相关理论

2.1 模糊C均值聚类算法

模糊C均值聚类是由Bezdek于1981年提出的聚类算法,该算法基于隶属度大小来量化样本属于某个聚类的程度,进一步优化目标函数获得最小值.设样本数据集为X={x1,x2,...,xn},其中每个样本xi对应有t个指标属性,将样本集分为s(1

(1)

其中Ω={wij}s×n为隶属度矩阵;λ表示模糊加权因子,一般认为1.15≤λ≤2.15算法效果最好,常见的λ取值为2[11-12];‖xi-vj‖表示样本xi到聚类中心vj的欧式距离.

模糊C均值聚类算法的核心是通过不断迭代获得目标函数的最小值,从而得到最优的隶属度矩阵Ω*和最佳聚类中心V*.具体计算流程如下[12-14]:

Step1:导入样本数据并标准化,确定聚类个数s和模糊加权因子λ,设定最大迭代次数θmax和目标函数的终止阈值ε,初始化隶属度矩阵Ω(0);

Step4:根据给定的终止阈值ε,判断是否‖ΔW‖≤ε或者迭代次数超过θmax,如果满足条件则迭代终止,认为此时算法收敛,目标函数Φλ(Ω,V)达到最优,可根据最优的Ω*,V*确定样品的类别;如果不满足条件则返回到Step2继续迭代,直至满足条件;

2.2 Fisher判别分析

Fisher判别的核心思想是投影[14],试图寻找一个最优投影向量或者最优判别函数,使得样本数据投影到该方向上,基于组内离散度尽可能小而组间离散度尽可能大的原则确定判别函数,再根据判别函数确定样品类别.假设有l个总体G1,G2,...,Gl,观测样本为xi1,xi2,...,xiqi(i=1,2,...,l),则样本数据xij的组间离差平方和和组内离差平方和分别为[14-15]

(2)

(3)

根据方差分析理论得当目标函数f(p)=(p′SSAxp)/(p′SSExp)取得最大值时,此时得到的投影向量p最佳.为保证解的唯一性[16],假定SSAx/SSEx为单位矩阵E,求偏导推出

(SSEx)-1·SSAxp=λp

(4)

2.3 判别效果检验

3 MATLAB仿真实验结果分析

3.1 FCM聚类结果分析

基于长三角41个城市样本数据,利用MATLAB2016进行模糊聚类.这里确定3个聚类,设定模糊加权因子为2,最大迭代次数为100,目标函数的终止阈值为10-5.经过23次迭代后目标函数获得最小值,根据隶属度最大原则得到FCM聚类结果如表1所示.

表1 41个城市模糊C均值聚类结果

根据《2020中国生态环境状况公报》公布的全国168个城市空气质量排名,其中前20名中有舟山、黄山、丽水、台州4个城市全部聚类为第一类,说明第一类空气质量最好;再根据各省发布的2020年生态环境状况公报可知,第三类空气质量较差,第二类居中,聚类结果符合实际.

3.2 Fisher判别分析

基于上述聚类结果,接下来依据41个城市的空气质量指标数据进行回判并对待判城市进行聚类评价.得到的判别式函数分别为

y1=0.005 9x1-0.011 2x2+0.017 2x3+0.999x4-0.005 1x5+0.000 863x6-0.039 2x7

y2=0.010 1x1+0.019 5x2-0.010 2x3+0.999 7x4+0.005 1x5+0.004 2x6+0.005 8x7

类均值投影矩阵代表3个类的类中心位置,如表2所示.由程序运行结果可以读出两个判别式的贡献率分别为83.14%和16.86%,且由表2混淆矩阵可看出训练样本中第一类的12个城市和第二类的20个城市均得到正确判别,第三类的9个城市中仅有1个城市错判,即第三类的“淮安市”误判到第二类,回判综合正确率为97.6%,误判率仅为2.4%.由此可见模糊聚类结果可信度较高.

表2 判别分析对应的混淆矩阵和投影矩阵

另外从三类的2个判别式得分绘制出的散点图来看,3个类别的分离效果较好,具体如图1所示,进一步验证样本城市空气质量等级分类结果是合理的.

图1 判别式得分对应的散点图

3.3 待判城市结果分析

这里选取太原、福州、南昌、济南、郑州、武汉、长沙和昆明8个城市为待判城市,分别导入空气质量指标数据,通过代入判别函数获得投影数据矩阵,再根据3个类的类均值投影矩阵,分别计算对应的欧氏距离,根据距离最小原则就能判别8个城市的类别.

具体计算结果如表3所示,这里di表示待判城市的投影向量与第i类类中心的欧氏距离.从而获得8个待判城市的类别结果依次是第三类、第一类、第二类、第三类、第三类、第二类、第二类和第一类,该判别结果与生态环境部公布的全国城市空气质量排名相吻合.其中福州市和昆明市属于空气质量排名前20名城市,判为第一类,空气质量最好;太原和济南属于空气质量排名后20名城市,属于第三类,空气质量最差.根据上述判别式函数,也可以判别其他城市的类别,以实现对城市空气质量的精准防控.

表3 待判城市判别结果

4 结束语

由于样本城市空气质量类属的不确定性,模糊C均值聚类算法可以基于隶属度的大小快速的对样本城市进行空气质量等级归类,缺点在于不能评价聚类结果的优劣性,且不能对非样本城市进行聚类[17].所以文中引入Fisher判别法,在聚类分析的基础上,依据判别式函数来评判聚类分析的可靠性,进一步判别待判城市的空气质量等级,两者结合对城市空气质量进行判别,可以提高空气质量分类评价的准确性.文中通过收集2020年长三角地区41个城市的空气质量相关指标数据,对41个样本城市的空气质量进行等级评价,并对照《2020中国生态环境状况公报》进行类比,分析验证其评价结果合理,具有一定的参考价值.以此可以对其他待判城市进行快速判别,该模型有利于提高环保部门对大气污染的风险信息研判和预警能力.

猜你喜欢

城市群空气质量长三角
紧扣一体化 全面融入长三角
“首届长三角新青年改稿会”作品选
长三角城市群今年将有很多大动作
我国第7个城市群建立
把省会城市群打造成强增长极
“空气质量发布”APP上线
车内空气质量标准进展
重视车内空气质量工作 制造更环保、更清洁、更健康的汽车
开展“大气污染执法年”行动 加快推动空气质量改善
长三角瞭望