APP下载

生态环境监测的数据清洗研究

2019-12-24王志刚毛亚琼梁永春

网络安全技术与应用 2019年1期
关键词:监测数据生态检测

◆王志刚 毛亚琼 徐 越 梁永春

生态环境监测的数据清洗研究

◆王志刚1毛亚琼1徐 越2梁永春2

(1.青海师范大学 青海 810008;2.华北科技学院 河北 101601)

作为对生态监测数据质量的提高方法,数据清洗是一种有效的处理方法,本文对其的应用现状与前景进行了概述。首先对物联网在生态监测数据的数据清洗的研究背景和特点进行说明。针对监测数据清洗问题处理方法进行分类,对这几类问题的解决途径进行分析介绍。最后根据现有的处理方法的优缺点并结合生态监测采集数据特点提出了进一步数据修正改进的方案,对该领域的数据清洗研究作出展望。

生态监测;数据清洗

0 引言

生态环境监测数据依然遵从一条针对数据质量保障的原理,即“进去的是垃圾,出来的也是垃圾”。数据清洗作为提高数据质量的重要手段,已有很多研究对数据质量定义有过深度探讨[1],生态监测数据的清洗根据其自身特点,旨在解决其中的正确性(correctness)、完整性(correctness)以及最小性(minimatality)。

物联网数据清洗的方法随着机器学习等技术的发展,也在逐渐应用到数据清洗领域,本文在数据清洗方法分类上提出将数据清洗方法分为基于统计方法与数据挖掘方法,并依据监测数据特点对数据修正填补进一步制定了清洗方案。

1 生态监测数特点及相关概念

新一代的数据采集,主要来源为传感器数据、互联网数据以及行业数据三种数据来源方式。采集的数据可分为线上的行为数据与内容数据两大类。线上行为数据主要包括网页数据、提交表单数据、交互型数据以及会话数据等,而内容数据包括了电子文档数据、应用及操作日志数据、音频视频数据、社交媒体数据以及机器数据。生态监测数据的采集,属于机器数据属内容数据的范畴,因此具有自身的一些特点:

(1)生态监测数据类型固定,是由传感器转换为电信号的物理量或数字量与模拟量,与互联网等直接获取的文字性等行为数据不同,具有本质区别。

(2)数据采集方式具有周期性,通常对某一点的监测为固定时间点的瞬时数据。

(3)数据具有较强关联性,在生态环境中同一地点不同气象参数之间或不同地点同一参数的相关性大,通过数据分析方法得到的相关系数高,因此不容忽略,具有较强研究价值。

2 生态监测数据清洗方法及优化

根据生态检测数据的特点,数据清洗主要处于数据传输的实例层,通过对重复对象检测、异常数据处理以及缺失数据处理来实现数据质量的提高。本文将从三种异常处理数据的相关方法进行介绍。

2.1 重复记录

对多节点采集数据源的情况下,必然在数据集成整理时产生多个记录代表同一对象的情况,或者是同一区域非常相近的记录,这样的数据被称为重复记录。针对重复记录,在国内外大多数研究者均采用重复记录的相似度作为 判别指标。采用最多的方法是基于特征相似度(feature based similarity,FBS)[2],最终文献[3]的国内学者又采用聚集与FBS的方法得到良好的检测结果。

2.2 异常数据

监测数据的异常,通常由设备故障、人为制造不合理环境、自然灾害等特殊情况造成数据产生异常值,最多的便是离群点数据。对异常值的判定主要分为基于统计计算的方法以及数据挖掘的异常偏离点。数据中最明显的就是不符合业务规则的数据,违反生态环境规则,文献[4]在70年代就提出过较为严格的形式化模型Fellegi-Hot。

电网行业对监测数据异常做了大量工作,文献[5]在广域测量系统(wide area measurement system,WAMS)的基础上,采用高位随机矩阵模型的构建,对异常数据进行检测。最新的传感器监测数据采集方面检测方法是文献[6]提出的详细K-均值聚类的方法对异常数据检测,计算出样本中的异常因子,与回归模型结合并将其中异常样本剔除。

2.3 缺失数据

数据采集时发生数据缺失,产生原因有机器损坏造成数据存储缺失、人为疏忽会刻意篡改以及环境客观条件造成信息无法获取[8]。处理缺失值的方法分为三种,即删除整条记录、填充缺失数据与不处理数据[8]。删除元组的方法与不处理的方法虽然简单易行,但仅仅适用于极少量数据缺失的情况下,不然对信息的浪费以及数据质量影响较大。而缺失数据填充是大多数据应用领域会采取的方法,可以保证数据清洗后数据较高的可用性,一方面可由人为设置固定值取代,另一方面是采用数学统计模型以及机器学习等方法进行缺失值的预测填充。设置缺失值为固定某个值或筛选值往往以对行业数据了解为前提[9]。利用模型构建与机器算法实现虽然更接近真是数据,但针对不用数据,不同填充方法也会出现不一样的效果。宏观角度,文献[10]采用高位随机矩阵模型,在时空特性分析的基础上推导出异常检测的理论和方法。

2.4 生态监测数据特性的数据清洗

本文针对生态监测数据的特点并结合上述清洗方法,提出了监测异常数据的处理方案,侧重处理数据的修正及填充。具体步骤如下:

第一步,对采集数据的重复及异常鉴别;

第二步,进行异常处理,首先计算数据相关性。然后对数据进行分类,分为了分类变量与连续型变量,对连续型变量采取离散化处理;

第三步,对分类变量与离散化后的数据利用数据间的关联关系进行模式挖掘与查询,利用挖掘出的规则与相关性得到的阈值筛选并填补缺失值或修正异常值;

第四步,对连续型变量进一步采用同规则的向量回归计算精确的缺失或异常值。

采用此方法的优势在于适应监测数据的特点,尤其处理连续型数据,利用有限的同规则数据对缺失数据进行填补或异常修正,将具有与滑动窗口等效的占用率低以及实时性。另一方面,对数据利用统计的方法将生态监测数据的相关性作为规则挖掘的辅助信息。那么,本节清洗结构的设计在时空占用上必然略高于统计方法但低于机器学习方法,以此换来更高的数据修正精准度是可接受的。

3 结束语

在生态数据监测领域虽然目前很少有专门的数据清洗方法研究,但从上述研究分析可以看出,大多数数据清洗的方法适用于监测数据的清洗。且在很多应用研究中对监测数据的清洗已广泛应用。精准的数据清洗能够提高生态环境下监测数据的准确性;提高传感器设备的工作效率;能够及时地发现数据采集环境的异常状况或设备状态;为监测数据的进一步研究提供了可靠的数据。但是,数据异常的识别与处理,仍然在生态监测数据领域有很大的研究前景,在后续的研究中,将实现与已经非常成熟的行业同等效率的数据清洗。

综合以上不同数据清洗方法的特点,本文在生态环境数据监测的适用性方面进行进一步研究,对环境以及社会都具有深远的价值和意义。本文提出采用基础的统计方法与基于数据挖掘关联方法结合的理论,克服了统计方法的不确定性与机器学习方法的复杂度较高的缺陷。有望在采集数据领域获得更高质量的数据,在今后的研究以及应用中将进一步探索和证明。

[1]宋敏,覃正.国外数据质量管理研究综述[J].情报杂志,2007.

[2]曹建军,刁兴春,汪挺,王芳潇.领域无关数据清洗研究综述[J].计算机科学,2010.

[3]俞荣华,田增平,周傲英.一种检测多语言文本相似重复记录的综合方法[J].计算机科学,2002.

[4]陈伟,陈耿,朱文明.基于业务规则的错误数据清理方法[J].计算机工程与应用,2005.

[5]魏大千,王波,刘涤尘,罗金号,冀星沛.高维随机矩阵描述下的量测大数据建模与异常数据检测方法[J].中国电机工程学报,2015.

[6]张仁斌,许辅昊,刘飞,李思娴.基于K-均值聚类的工业异常数据检测[J].计算机应用研究,2018.

[7]王雷,张瑞青,盛伟,徐治皋.基于支持向量机的回归预测和异常数据检测[J].中国电机工程学报,2009.

[8]晔沙.数据缺失及其处理方法综述[J].电子测试,2017.

[9]唐菱,方若晨,李芙玲,李永飞.大气环境监测数据审核和分析系统的设计与实现[J].华北科技学院学报,2016.

[10]魏大千,王波,刘涤尘,罗金号,冀星沛.高维随机矩阵描述下的量测大数据建模与异常数据检测方法[J].中国电机工程学报,2015.

本文受到国家自然科学基金(No.61472137),国家重点研发计划(No.2017YFC0804108),青海省重点实验室、重点研发项目(No.2017-ZJ-752,2017-ZJ-Y21)和河北省物联网监控工程技术研究中心项目的资助(No.3142016020)。

猜你喜欢

监测数据生态检测
“不等式”检测题
“一元一次不等式”检测题
“一元一次不等式组”检测题
“生态养生”娱晚年
住进呆萌生态房
生态之旅
GSM-R接口监测数据精确地理化方法及应用
小波变换在PCB缺陷检测中的应用
GPS异常监测数据的关联负选择分步识别算法
基于小波函数对GNSS监测数据降噪的应用研究