基于机器学习的空气质量模型分析与研究
2023-03-04朱茜
朱 茜
(河南省气象探测数据中心,河南 郑州 450003)
0 引言
2021 年11 月,中共中央、国务院印发《关于深入打好污染防治攻坚战的意见》,《意见》指出,污染防治攻坚战阶段性目标任务圆满完成,但重点区域、重点行业污染问题仍然突出,实现碳达峰、碳中和的任务艰巨,要深入打好污染防治攻坚战。到2025 年,全国重度及以上污染天数比率控制在1%以内。国家环境部门和气象部门也加大了对空气质量的监督和防治[1]。空气质量指数[2](Air Quality Index,简称AQI)定量为描述空气的质量和污染状况的无量纲指数,其代表的意义为AQI 数值越大、空气污染级别和类别越高、表征颜色越深,说明该区域的空气污染状况越严重,空气质量的好坏直接影响着人们的健康。空气质量综合指数[3-4]综合考虑了《环境空气质量指数(AQI)技术规定(试行)》(HJ 633—2012)中规定了细颗粒物(PM2.5)、可吸入颗粒物(PM10)、二氧化硫(SO2)、二氧化氮(NO2)、臭氧(O3)、一氧化碳(CO)等六种污染物污染程度。对于AQI[5-7]的计算与评价过程主要分为三步:首先主要是对照六种污染物的分级浓度的限值[AQI 的浓度限值参照(GB 3095—2012)和API的浓度限值参照(GB 3095—1996)],然后以细颗粒物(PM2.5)、可吸入颗粒物(PM10)、二氧化硫(SO2)、二氧化氮(NO2)、臭氧(O3)、一氧化碳(CO)等各项污染物的实际测量浓度值(其中PM2.5、PM10为24 小时平均浓度)来计算出空气质量分指数(Individual Air Quality Index,简称IAQI);然后通过从各项污染物的IAQI中选择最大的值确定为AQI,当AQI大于50时将IAQI 最大的污染物确定为首要污染物;最后是根据AQI 分级标准,确定空气质量级别、类别及对公众表示的颜色、健康影响与建议应采取的防护措施。传统的空气质量预测模型和方法已然不能满足和符合当前社会的需求,对空气质量的预测算法和监测需要更为高效准确的方法。
机器学习算法是通过大数据分析自动获得规律,然后利用获得的规律(数学模型)对未知的数据进行预测与评估的算法。机器学习已广泛应用在经济、农业、交通等多个领域,对人类社会发展做出了卓越贡献。目前国内外虽然对环境空气质量指数(AQI)的计算方法有所不同,但已经引起了各个国家的重视。如大气污染防治方面,通过利用IBM认知计算、大数据挖掘分析技术以及信息物联网技术的优势,获取并分析大量的环境监测站和气象卫星传送的实时数据,依靠自学能力和超级计算处理能力,向公众社会提供未来的高精度环境质量预报,实现对大城市地区的主要污染物来源分析和分布状况的实时监测。微软亚洲互联网工程院2014年发布的人工智能机器人技术就是基于城市大数据预测大气质量的技术,第一时间对PM2.5进行预测。因此利用机器学习对空气质量进行研究分析是一种可行方案。
本研究提出将机器学习、气象要素与各种污染物相结合,通过对郑州市2019 年的空气质量及气象要素进行建模处理,结合信息技术,利用机器学习算法,对海量数据进行处理分析,实现了空气质量预测的准确性和及时性,为大气污染防治提供了一定的科学技术支撑。
1 系统介绍
1.1 机器学习
随着气象信息化的不断发展,气象每天都会产生海量的气象数据,如何能够从海量的数据中获取更有价值的信息,并通过这些信息更好地服务天气预测对气象领域的研究起到关键作用。机器学习及数据挖掘技术的发展为以上问题提供了更好的途径和方法。
1.2 数据来源
本研究所使用的数据为2019 年的河南省生态环境厅空气质量监测站历史数据与河南省气象CIMISS 历史气象数据。空气质量监测站历史数据和历史气象数据为逐小时数据,共8 760 组。通过数据的融合,主要包括了站号、时间、空气质量指数、二氧化硫、二氧化氮、可吸入颗粒物、细颗粒物、一氧化碳、臭氧、温度、相对湿度、风速、能见度、小时雨量等14 个特征,其中站号和时间在本研究中作为无效特征值,在机器学习建模的时候不为所用,其他特征为机器学习建模所用。
1.3 模型结构
图1为模型结构示意图。
图1 模型结构
2 预测模型的建立
2.1 数据预处理
在本研究中,环境数据和气象数据各个特征的量纲不同,为了减小对建立数据模型产生的影响,可以通过数据归一化算法的离差标准化(min-max标准化),来提高机器学习对未来数据预测的速度和准确性。数据归一化是将不同特征的数据统一映射到[0,1]区间上。离差标准化公式如式(1)。
式中:Xnorm设为数据经过归一化的特征值,X为数据的原始特征值,Xmax 和Xmin 为原始的数据集中对应特征的最大值和最小值。通过对疑误值、缺测值以及数据归一化的处理,数据总共8 760组,截取的部分数据如图2所示。
图2 数据预处理
2.2 数据分析
经过前期数据的预处理,采用皮尔逊相关系数对环境和气象数据的各个特征值进行相关性的分析[8]。皮尔森相关系数是用于度量两个变量(X和Y)线性相关程度的统计量。相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r值介于-1 到1 之间,绝对值越大表明两个变量的相关性越强。图3 为空气质量、空气污染物、气象因子的相关系数,图4 为空气污染物与气象因子的相关性,从图3 和图4 中可以看出,空气质量与PM2.5、PM10、CO 的相关性分别为0.95、0.9、0.73,空气质量与气象要素中的能见度(VIS)相关性为0.53,与气温(TEM)相关性为0.43。空气质量与PM2.5、PM10、CO 三者的相关性最强,跟这三者有着最直接的关系。空气污染因子与气象要素因子的相关性,其中PM10与能见度(VIS)的相关性为0.46;SO2与气温(TEM)的相关性为0.48;NO2与气温(TEM)的相关性为0.46,与风速(WIN)的相关性为0.54,与能见度(VIS)的相关性为0.46;CO 与气温(TEM)的相关性为0.49,与能见度的相关性为0.68;O3与气温(TEM)的相关性为0.71,与湿度(RHU)的相关度为0.44,与能见度(VIS)为0.45。可得出空气质量直接影响因子是空气污染物因子,但是空气污染物因子又与气象中的气温、风速、能见度、湿度又有直接关系。
图3 空气质量、空气污染物、气象因子的相关系数
图4 空气污染物与气象因子的相关性
3 机器学习预测模型
回归分析[3]是通过因变量和自变量相互依赖的定量关系,来确定两个变量之间的因果关系,从而实现回归模型的建立,并通过实际测量数据来对回归模型的各个参数进行求解,最后对回归模型进行评价,来确认该模型能否很好地拟合实际测量数据。如果拟合效果良好,便可以根据自变量进行下一步预测。本研究通过多个机器学习中的回归算法[多元线性、SVM(支持向量机)、随机森林]来对空气质量进行模型的建立。
3.1 线性回归
Y为因变量,X1,X2,…,Xk为自变量,如果当自变量与因变量之间具备线性关系时,多元线性回归模型表达为式(2)。
式中:b0为常数项,b1,b2,…,bk为回归系数,Y为空气质量指数(AQI),X1,X2,…,Xk为空气污染因子和气象要素。通过Python 语言件对数据进行回归分析,分析结果得到常数项和回归系数,以下为预测模型。最佳拟合线为式(3)。截距为-0.017 659 648 736 074 673,回归系数为[0.452 175 73-0.080 567 37 0.019 650 93 0.014 091 73 0.097 509 53 0.755 848 22-0.038 128 07 0.005 530 39 0.002 335 67 0.028 013 76 0.021 300 94]。图5为多元线性回归真实值与预测值对比。
图5 多元线性回归真实值与预测值对比
3.2 支持向量机
支持向量机方法[9]是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中,以期获得最好的推广能力。图6为支持向量机真实值与预测值对比。
图6 支持向量机真实值与预测值对比
3.3 随机森林
随机森林属于机器学习的一大分支——集成学习方法,随机森林最小的单元是决策树,通过集成学习的思想,将许多决策树整合到一起构成随机森林,且森林中的每一棵决策树之间没有关联,模型的最终输出由森林中的每一棵决策树共同决定。处理回归问题时,则以每棵决策树输出的均值为最终结果。图7为随机森林真实值与预测值对比。
图7 随机森林真实值与预测值对比
4 模型评估
交叉验证是在通过机器学习建立模型后,使用的最普遍最经典的验证模型参数时常用的方法。本研究在使用交叉验证时,首先将归一化和处理过的数据集分为了训练数据集和测试数据集两个部分,分别占80%和20%,然后通过使用训练数据集来构建各个模型,最后通过测试数据集用来判断所建模型的泛化能力,也就是该模型是否对于未知数据具有精确的预测能力。
回归模型评估指标有三种方法,分别是:平均绝对值误差、均方误差和R平方值。平均绝对误差(Mean Absolute Error,MAE)是所有单个观测值与算术平均值的偏差的绝对值的平均,主要是用来评估真实数据集和预测结果两者的接近程度,如果两者的拟合效果越好,其值就越小。均方误差(Mean Squared Error,MSE)该指标计算的是拟合数据和原始数据对应样本点误差的平方和的均值,如果该值越好,则说明拟合的效果越好。R平方值,其含义是也是解释回归模型的方差得分,其取值范围是[0,1],越接近于1,表明回归平方和占总平方和的比例越大,回归线与各个观测点越接近,用自变量的变化来解释因变量变化的部分越多,回归的拟合程度就越好。
通过回归模型评估指标的三种方法进行对比(见表1),其中关于平均绝对值误差,随机森林的绝对值最小,真实数据集合预测结果接近,拟合的效果好;关于均方差,误差越大,该值越大,线性回归模型相对较好;关于R平方值,随机森林的R 平方值最大,回归的拟合程度就越好。综合来说,空气质量和空气污染物因子、气象要素因子更适合选用随机森林来建立数学模型。
表1 各个模型评估结果对比
5 结语
本研究提出了基于机器学习的空气质量模型的分析与研究,选取郑州市2019 年全年空气质量和气象的逐小时数据,分别分析了空气质量与空气污染物因子的相关性以及空气污染物因子与气象要素的相关性。最终选取空气污染物和气象要素作为输入因子,采用线性回归、支持向量机、随机森林等方法分别建立了多个回归模型,通过对回归模型的评估算法的结果选取合适的预测模型。但该方法目前只适应于站点的模型建立与预测,下一步应继续进行深度研究,从站点来繁衍出格点的实况预测模型。