APP下载

基于决策树的臭氧污染的预测

2019-04-05王怡馨

青年与社会 2019年7期
关键词:环境污染

王怡馨

摘 要:世界的空氣质量逐日下降,先前人们关注的PM2.5逐渐被臭氧污染取代。全国各地屡屡曝出臭氧污染警报,但是人们对臭氧污染的危害的意识还不够强烈,各地提出的防范措施也不够到位。因此为了知晓臭氧浓度是否超标,便有了臭氧八小时这个概念。臭氧八小时是指一天中臭氧浓度最大的连续八小时的平均值,根据此平均值判断当天是否有臭氧污染。而本文将会利用决策树算法建模,利用风速、温度、海平面压力、降水量等数据,利用ID3算法进行对臭氧水平浓度的预测,从而较可靠、准确地对是否有臭氧污染做出预告,保护人民的财产利益与身体健康。

关键词:臭氧八小时;环境污染;决策树算法

随着温度的升高以及空气质量的下降,臭氧污染已经成为全国大气污染的一个突出问题,随着臭氧污染的日益加重,我国可能面临颗粒物和臭氧污染双重污染的局面。臭氧()作为一种二次污染物,在常温下是一种有特殊臭味的淡蓝色气体,在日照强、温度高的夏季秋季最容易累积。臭氧是由于汽车尾气,工业生产排放出的氮氧化物(NOx)和某些挥发性有机化合物(VOCs)在光照的作用下发生光化学反应形成的。而氮氧化物以及挥发性的污染大多来自人们无节制地向空中排放化工业废气。由于臭氧本身较强的氧化性和腐蚀性,近地面的臭氧浓度若较大对人体和某些有机物有害。臭氧的毒性主要来源于它较强的氧化性,可以破坏细胞壁,故而它引发的危害大多都是急性的,对人体的主要危害是影响人的呼吸系统,容易引起肺气肿和哮喘病。它也会毒害神经中枢。臭氧也会影响植物的生长与光合作用。臭氧的腐蚀性主要在于建筑材料和有机布料,它可以加速橡胶和塑料氧化,使纺织品褪色,所以臭氧浓度过高也会对人的生产生活造成不良影响。而本文通过划定1979年规定的臭氧的安全标准0.15ppm为界来判断是否有臭氧污染。

由于臭氧不像PM2.5等颗粒物可以通过空气的能见度来大致判断污染程度,在有臭氧污染时,人们往往会看到蓝天、晴空,并且人们不可能通过戴口罩来避免吸入臭氧,所以臭氧的预测显得尤为重要。然而现在世界上还没有一套成熟的体系来预测臭氧的水平浓度,所以本文将通过决策树算法,利用数据集中风速、温度等数据对臭氧水平浓度进行一个合理、准确的预测。这样人们可以通过臭氧浓度的预告来做出预防措施,减少户外运动,最大程度地保护人们的身体健康与个人利益。

一、国内外研究现状

近年来,国内外对臭氧水平浓度的预测大致可分为“化学分析法”、“物理分析法”、“物理化学分析法”三类。其中化学检测法包括碘量法、比色法、检测管法。碘量法利用和的化学反应,根据反应物的浓度来推算出臭氧的浓度,但此方法易受其他氧化物的影响。而比色法和检测管对设备的要求很高,不易实现。物理检测方法主要是紫外线吸收法,它是利用臭氧对某个特定波长的紫外线特征吸收,通过比尔-朗伯定律制造出的分析仪器,该种方法的原理是根据比尔-朗伯定律l=loe-klc控制的紫外线辐射被某种液体或气体吸收,这种方法已被我国作为环境空气中测定臭氧的标准方法,但由于这种方法需要对物质在已知波长下k值,即吸收物质对该光线波长的比吸收系数的精确了解,故而比较繁琐。物理化学方法主要是IDS分光光度法或化学发光法。分光光度法通过分光光度计的测量以及计算得出臭氧浓度,但是这种方法比较复杂,常用于检测低浓度的臭氧,所以用此法预测是否有臭氧污染不切合实际。化学发光法利用乙烯或一氧化氮与臭氧发生化学反应发光再通过测出发光光强来计算出臭氧浓度,由于此方法准确率较低,故已被紫外线吸收法取代。

而本文将会通过决策树算法建模,对以上方法的劣处做出调整,从而实现利用ID3算法,通过测量的降水量、温度、风速等数据,对是否有臭氧污染进行一个合理、可靠、准确的预测。

二、数据的处理与模型假设

本文选取了2535条地面臭氧水平数据,及一些可能影响臭氧水平的因素的数据,可以较全面地反应在不同温度、风速、压强下地面臭氧水平浓度与一些可能影响臭氧水平的因素的关系。

将数据集中各个特征所代表的含义整理成表格,如下表

三、基于决策树的臭氧污染的预测

(一)决策树的基本概念

决策树(Decision Tree)是一种归纳学习的算法,它可以将一组无顺序、无规则的数据集进行分类,使之有序最终得到满意的结果。它通过测试样本的属性来吸取各属性之间的关系,继而对样本进行分类用以实现数据内在规律的探究和新数据对象的分类预测。由于决策树具有能够直接体现数据的特点,使得它易于理解和实现,成为一种常用的数据挖掘技术。决策树一般都是自上而下生成的,由内部节点、枝干和叶子组成,把这样由节点延伸的枝干画出来,形成的图像很像一棵树,如图所示,故称为决策树。

决策树是一个预测模型,它代表的是对象属性与对象值之间的一种映射关系,即一条枝干对应一种结果。而枝干上的节点又分为:决策点、状态节点、结果节点。决策点是面对几种可能的方案做出选择,最后选择出最佳方案。状态节点代表备选方案的期望值,通过期望值的对比,按照一定标准即可选出最佳方案。结果节点通俗来说就是树的树梢,即是在自然状态下一条枝干延伸下来所得到的结果。

(二)决策树的发展及历史

决策树根据选择特征的评估标准,从上至下递归地生成。最早最常用的ID3算法利用计算出最大信息增益的方法来选取节点,但当ID3算法遇到某个具有相当多数据的特征时,其余的特征的数据很少,那么就会算出该特征的信息增益值最大,从而出现误判的情况,但实际上是该节点的分支太多,而利用该算法的决策树模型的泛化能力有限,判断出了错误的节点。所以在此基础上,ID3算法的创始人Quinlan又提出了C4.5算法,该算法提出了一个新的概念信息增益率,即信息增益与分裂信息值的比,利用此方法可以较有效地改进ID3算法出现的问题。决策树的主要算法还包括CART算法,CART算法引进了基尼系数这个概念,基尼系数越小样本的混乱度越小,从而选择出节点,大大减少了计算量。本文将通过ID3算法选取决策树模型的节点,实现对臭氧污染的预测。

(三)ID3算法模型

目前绝大多数决策树算法是以著名的ID3算法和C4.5算法为基础,ID3算法通过循环处理,精益求精,不存在无解的风险。ID3算法的缺点是只能处理离散型属性,并且倾向于选择取值较多的属性,否则效率会明显下降。剪枝使决策树停止分支的方法之一,可以消去能引起人满意的不纯度增长。而本文是基于ID3决策树的臭氧污染预测模型。在决策树算法中,ID3的算法应用最为广泛,该算法是一种基于奥卡姆剃刀原理的贪心算法,以信息论为基础,以信息熵的下降速度和信息增益度为衡量的标准,从而实现对数据的划分和归纳。在信息论中期望信息越小,信息增益就越大,从而纯度越高。假设一个随机变量X的取值为X={...,},每取到一种x的概率为P,则,i=1,2,···,n,那么就是X的熵定義。熵越大,随机变量的不确定性就越大,从而显示了某样本集的纯度。表示在特征属性下T的条件熵,则特征属性T带来的信息增益表示在T发生的情况下,S的有无带来的信息值的差,用公式表示即为此公式则为信息增益的计算公式。

(四)构造决策树模型

本文选取了73种影响臭氧水平浓度的因素,是否有臭氧污染有两种结果,有臭氧污染用数字1表示,没有臭氧污染用数字0表示。

首先计算熵:Entropy(是否有臭氧污染),利用信息熵的计算公式计算出结果。

(1)

再计算各种划分的信息熵,即各个分支的熵。以500hPa下的南北向风、北纬向风、K-指数、风暴强度、海平面压力与降水量为例,下表是节选自数据集的部分数据

利用信息熵的计算公式

(2)

计算出各个因素的信息熵,并选取具有最大信息熵的因素T作为第一个节点。

3)运用选择出的第一个节点的特征来做划分时的信息增益值,即先计算在T发生的情况下,其余各特征的熵,然后再运用信息增益的计算公式:

(3)

算出各特征的信息增益值,并且选取具有最大的信息增益值的特征作为第二个节点。

4)依据上面的规则,递归地执行得到一棵决策树,得到的决策树的模型框架如图所示。

这样,就得到了用决策树对是否有臭氧污染进行预测的模型,即可以通过风速、温度、海平面压力、相对湿度、降水量等数据对当天是否有臭氧污染进行较为可靠合理的预测。

四、模型的改进

本文通过决策树模型对当天是否有臭氧污染进行了预测。在建模的过程中,本文用数据集中百分之七十的数据进行建模,又利用剩余的百分之三十的训练数据对模型进行了检测,发现正确率非常大,但当本文利用测试数据对决策树模型进行检测时发现错误率较高。经过对数据集的分析以及大量查找相关资料本文发现,该模型有极大可能发生了过拟合。其原因很有可能是本文的数据集中存在噪声数据,即本数据集中存在异常数据。于是,本文对异常数据进行了有效的处理,删除了异常数据,重新利用数据集建立了决策树模型。本文对模型又进行了剪枝的改进。剪枝是一种改进决策树模型的常用的方式。利用损失函数最小原则,计算子枝干的损失函数值和父枝干的损失函数值,若子枝干的损失函数值大于父枝干的损失函数值,则对该枝干进行剪枝,以保证减小决策树模型的复杂度。在进行了模型的改进后,利用训练数据和测试数据对该模型进行检测,发现该模型的正确率已经达到了相当高的值。

五、结语与展望

本文利用数据集中2535个数据建立了决策树模型,在建立模型后,发现模型与测试数据间有误差,于是本文又通过剪枝,处理异常数据对模型进行了改进,使决策树模型更加简洁明了又准确可靠。决策树模型最大的优点是效率高,可以反复使用,但决策树模型存在当特征太多时,出现错误的速率也比较大。之后,本文将会利用更多的模型,利用温度、风速、海平面压力、降水量、相对湿度等数据对是否有臭氧污染进行更加合理的预测。本文相信,利用决策树模型对是否有臭氧污染进行预测将会对臭氧水平浓度的检测与臭氧污染的防范有大幅度帮助。

参考文献

[1] 石晓荣.水中臭氧浓度的检测方法[N].河海大学常州分校学报.2007,3.

[2] 李明.决策树算法在银行电话营销中的应用[D].华中科技大学,2016.

[3] 李杰.数据挖掘技术在学生成绩分析中的应用研究[D].西安石油大学,2010.

[4] 韩丽娜.决策树算法在学生成绩分析中的应用研究[D].咸阳师范学院图形图像处理研究所,2017.

[5] 龙青云.基于决策树挖掘算法的智能型会员营销[D].上海商学院,2007.

猜你喜欢

环境污染
加强农业环境污染防治的策略
人本主义视域下的城市环境污染与治理
水环境污染现状及其治理对策
”两高”再出司法解释打击环境污染犯罪
江苏环境污染责任保险缘何“一枝独秀”?
水环境污染面临的现状及治理对策探讨
推行环境污染第三方治理应坚持三个原则
农药的环境污染及其应对策略
煤矿区环境污染及治理
黄明表示:对环境污染犯罪,绝不能以罚代刑