试论时空数据挖掘在环境保护中的应用
2013-04-29尹琦明
尹琦明
摘 要:时空数据挖掘可以将环境监测获取的海量数据信息加以抽取并展开高效分析,能够将环境影响因素与环境质量之间的关联规则迅速挖掘,因此在环境保护工作中具有极为广泛的应用。
关键词:环境保护 时空数据挖掘 应用
中图分类号:P208 文献标识码:A 文章编号:1007-3973(2013)006-140-02
近些年来,随着生活品质的提升和环保理念的深入人心,人们对于环境保护问题越来越重视。在目前展开的对环境变化进行动态的实时监测中,监测系统已经收集了丰富的环境数据,关于我国的环境状况、环境变化情况及存在问题形成了庞大而繁复的数据资源,已经超过了过去的数据处理方法所能处理的极限,导致传统的处理数据方法已不能承担起对这些环境数据进行快速而准确处理的任务,这就需要将时空数据挖掘技术加以广泛的应用。时空数据挖掘可以对大量环境数据进行分析,将其中隐藏的有用知识抽取出来,为环境保护中的环境规划与决策工作提供准确而高效的科学理论依据。
1 时空数据挖掘
数据挖掘是将海量数据内隐藏的目的知识进行分析和抽取的方法和过程,主要是对关联规则进行挖掘、进行聚类和分类等研究活动。在发展初期,数据挖掘主要是对于一些商业数据中的字符与数值形式的数据进行研究,在上个世纪的90年代中后期,该领域中对关联规则进行挖掘、预测、聚类和分类等成熟技术在空间数据和时间、序列数据进行的挖掘工作中得到了应用,以期对有价值的、关于空间和时间一些模式进行探讨。随着科技的发展,GPS、射频识别、移动设备和传感器网络等诸多设备得到了广泛的应用,使众多的移动数据被收集并得以积累。而地理信息系统与遥感卫星等技术的进步也实现了气候数据、影像等气候资料的获取。获取到的时空数据存在于相应联系的空间内部,在空间和时间上样本的自相关性极强,常常隐含局部的模式,造成了时空数据挖掘的复杂性与特殊性。对时空模式进行自动分析与抽取离不开时空数据挖掘。
时空数据挖掘是对时空数据的海量知识进行抽取的方法和过程,主要是对时空管理的规则进行挖掘,对时空聚类进行分析并展开预测。目前来说,时空数据通过对新型计算技术进行研究和应用,对高维度的海量时空数据进行分析,从而对时空数据内有用的知识进行抽取和揭示。
2 时空数据挖掘和环境保护
在现阶段的环境管理和环境保护中,涉及到的数据挖掘主要包括对关联规则进行挖掘,对数据进行分类与分析,展开聚类分析及预测分析等内容。在环境保护中,时空数据挖掘技术已经得到了较广泛的应用。Eklund和其他科学家曾对众多地理自然因素进行了选取,形成了各因素和土壤中的二次盐碱化相关类型的分类之间的规则,并对其关联度的规则展开了挖掘。在农业生产中,作为的产量受到诸多因素的制约,但是制约因素和产量之间的关系极其繁杂,不是简单的利用非线性或线性回归方法就可以将二者的关系进行准确反映的,国内外目前都利用数据挖掘技术,如模糊集和决策树等,对作物产量的制约因素进行分析,对作物的产量和土壤中的养分等因素之间的关系进行了清晰的展现。
北京已建立了对区域内的污染源进行管理的信息系统,对于环境污染有较强的分析作用和监测作用,如根据系统中的排污记录,可以对企业中排出的污染物形式加以判断,确定是废气污染还是废水污染等,对污染排放进行聚类分析可发现,在企业排污库中存在不同排污群,通过排污模式的分析,可以对企业群的相应特征进行准确刻画。在上海的长江口设置有潮滩环境的管理信息系统,对监测到的潮滩环境数据可以展开深层次的分析与挖掘,将造成潮滩环境污染的相关因素探寻出来,从而为环境治理和保护工作提供相应的理论依据和决策依托。同时,在国内外目前对于空气质量进行评估和监测的系统中,很多都用到了时空数据挖掘技术,在短时间内利用机器学习的方式对污染指数进行预测,对气象资料在时空上的关联规则进行深层次挖掘,对未来某段时间在小尺度的时间范围内,空间中污染物的分布情况进行预测,或者通过分类器对空气质量进行动态实时的评估等。
3 时空数据挖掘在环境保护中的具体应用
3.1 对气象条件与空气质量之间的关联规则进行挖掘
气象与大气污染之间互相作用、互相影响,在污染物排放条件相同时,不同的气象条件会造成不同的污染物浓度,有时甚至相差几十倍,这是因为气象因素对大气中污染物的浓度及分布有影响。对二者之间的相关性进行研究,可以对其关联程度进行揭示,便于对二者之间的关联规则进行挖掘。在挖掘关联规则时,首先要对数据进行预处理。气候监测站的数据常存在输入错误、缺失、噪声及不一致等不利干扰,要先进行必要的修整与处理后才可用于数据挖掘。在对关联规则进行挖掘时,可以利用专门的开源数据挖掘工具来展开分析,通过知识表示形式将相应的关联规则表达出来,使其具有较强的可读性。最后,还要对挖掘到的关联规则展开知识的评价与鉴别,判断其是否与实际相符,是否可以在实际中得到应用。
对气象条件和空气质量之间的关联规则进行挖掘后,可以将二者之间的关系准确的揭示,但是因为空气中污染物的分布和浓度受到多方面因素的影响,而气候条件只是其中之一,除此之外还包括地理实体、位置和人类活动等,所以还要对空间要素进行研究,判断其与空气质量之间的联系。
3.2 对污染源和空气质量空间关联的规则进行挖掘
所谓的空间关联规则,也就是空间对象彼此之间存在的非空间与空间的关联。在空间智能化分析和辅助决策方面,空间关联的规则和相关知识可以提供有力的支持。因此,在空间数据的挖掘工作中,对数据库中空间的关联规则进行分析是重要任务。空间的关联规则是描述性的模式,逻辑关系较强,可以用逻辑语言,根据空间和地理的认知进行表达及予以准确描述。在展开挖掘的过程中,首要的工作就是对挖掘任务进行明确,这就需要明确分析工作的目标,将任务予以合理分解,对涉及到的数据进行明示,并对其在事务数据库中的组织方法与存储方式加以明确。之后要从数据库中将有关的属性数据及空间数据进行提取,形成图层。对不同图层涉及到的空间对象进行分析,对这些对象彼此间的关联进行计算并进行谓词化,和相关数据进行联接并将之存于数据库。将数值型的属性进行离散化处理,形成相关数据的挖掘表,通过对于关联规则进行挖掘的相关算法,对复杂的空间模式进行挖掘,将结果存于规则数据库。最后,将不必须或多余的规则加以清除,将有价值而可靠的关联规则加以保存。在构建空间事务数据库时,可用Apriori进行构建,这一算法可以将空气质量和污染源间的空间关联规则加以明确揭示。
3.3 对于时空事件基础上的空气质量进行时空关联的规则挖掘
传统的数据挖掘中,对于关联规则进行时空的扩展,即是时空关联的规则,这类规则较为复杂,其他的关联规则在一定程度上都可看作是该规则程度不同的简化结果。在挖掘时空关联的规则时,常需对众多非空间或空间对象之间的多种关系进行计算,十分复杂,在时空关联规则的挖掘中通常是逐步求精进行计算。进行分析的程序是先对数据进行预处理,以便后续挖掘的顺利实施;之后要建立时空事务的数据库,对相关知识进行提取与储存;对时空关联的规则进行挖掘,还是使用Apriori算法进行挖掘;最后,是对时空关联的相应规则进行评价,合格后即可投入实际应用。
参考文献:
[1] 赵彬彬,李光强,邓敏.时空数据挖掘综述[J].测绘科学,2010,8(2):62-65.
[2] 李晶晶.时空数据挖掘在环境保护中的应用研究[D].湖南:中南大学,2008.
[3] 刘大有,陈慧灵,齐红,等.时空数据挖掘研究进展[J].计算机研究与发展,2013,50(2):225-239.
[4] 成伟.数据挖掘技术支持下的土壤重金属污染评价系统的研究[D].浙江:浙江大学,2009.
[5] 侯西勇,高猛,常远勇,等.基于时空数据挖掘技术的黄河三角洲——莱州湾沿岸植被覆盖变化特征分析[J].科研信息化技术与应用,2010,1(3):512-516.
[6] 朱炎,滕龙妹,徐财江,等.土地动态利用时空数据挖掘的方法及其实现[J].经济地理,2006,16(S1):237-239.