环境自动监测网络的数据异常值标识方法及系统
2016-02-15杨瑞凤季心红
杨瑞凤 季心红
(宿州市环境保护监测站安徽宿州23400)
环境自动监测网络的数据异常值标识方法及系统
杨瑞凤 季心红
(宿州市环境保护监测站安徽宿州23400)
本文介绍一种环境自动监测网络的数据异常值标识方法及系统,方法包括:根据基站系统自动识别、基站人工审核和实时数据平台的专家识别、平台人工审核这四个数据来源对环境监测网络的数据标识体系进行统一定义,得到来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构;根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对基站层和平台层的异常值进行识别,并采用改进的数据标识同步算法实现基站层异常值和平台层异常值的同步。本方法增设了模式跟踪数据和标识演绎标识,并提出了实时数据平台的异常值识别算法,溯源效率高、精确度高、全面、可靠、科学和准确,可广泛应用于环境监测领域。
环境自动检测网络;数据异常值;识别
环境自动监测网络是环境质量科学表征的重要数据来源,其目的是获得高质量的环境监测数据,并由此推断整个环境现有的质量特征。环境自动监测网络除了拥有一般环境监测的要素外,自身还具备基站长期实时不间断监测、基站与实时数据平台数据同步对接、实时数据平台对海量数据自动分析统计等特点。针对环境自动监测网络独有的技术特点,研发异常值标识技术,将提升环境自动监测网络数据审核工作的科学性和逻辑性,极大提高了环境自动监测网络的数据质量,保证数据审核质量和效率。
1 现有技术不足
1.1 数据标识的不完善
目前对网络数据的异常值采取在其后嵌入数据标识的技术方法。这种方法可有效地避免异常值纳入数据统计,但因其对质控工作溯源时没有对异常值的原因(如仪器质控和外界环境因素等)进行垂直的追踪,平台数据管理人员无法追踪判断数据质量的真实情况。为解决此问题,数据管理人员需查询基站的工作日志和询问基站维护人员,质控工作的溯源工作效率低下且导致容易因询问导致出错[1]。
1.2 识别来源的缺失或不统一
环境自动监测网络的数据异常值的来源包括基站系统自动识别、基站人工审核和实时数据平台的专家识别和平台人工审核等,这四种来源在网络的数据审核体系里是互相联系、互相制约和不可割裂的,应作为一个系统整体的有机结合[2]。
但目前仍没有相关的技术把四类数据标识归纳统一,导致不同阶层的数据审核者往往只能考虑一个来源的数据标识,不够全面和可靠。
1.3 环境自动监测实时数据平台统计算法的缺失
实时数据平台识别异常值的技术源自统计学、软件工程和计算机科学。统计学对统计数据异常值的识别虽有很多研究成果,但大多是从数学的角度并针对一些特殊分布例如多维正态分布、r分布等来实现的。然而,环境自动监测数据大多不符合这些分布,难以直接采用这些研究成果来进行检验和识别。因此环境自动监测实时数据平台缺乏能检查和审核统计数据可靠性和准确性的统计算法[3]。
此外,目前的异常值识别技术将监测数据的异常值直接删除,很难容纳统计学理论识别异常值的方法。因为统计学理论能推算监测数据里的异常值,但不代表该异常值在真实环境是绝对错误的,如果直接删除被推算为异常的数据则不尊重客观现实,不够科学和准确。
2 解决思路及办法
2.1 总体思路
环境自动监测网络的数据异常值标识方法设计思路如图1所示。
图1 环境自动检测网络的数据异常标识方法设计思路图
2.2 概念描述
2.2.1 根据基站系统自动识别、基站人工审核和实时数据平台的专家识别、平台人工审核这四个数据来源对环境监测网络的数据标识体系进行统一定义,从而得到来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构。其中,来源类型标识根据数据的来源进行定义,包括网络命令标识、基站系统标识、基站仪器自动执行命令标识、基站人工审核标识、实时数据平台标识;所述模式标识用于对基站自动监测网络各种形式的信息进行表征、描述和分类,由信息名称的英文或汉语拼音的第一个字母的缩写组成,包括监测数据状态标识、质控质保任务标识和基站监测系统及仪器故障标识;所述删除标识,用于表示不能参与统计的监测数据,具体数据格式为:删除标识/来源类型标识。
2.2.2 根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对基站层和平台层的异常值进行识别,并采用改进的数据标识同步算法实现基站层异常值和平台层异常值的同步。其中,模式跟踪数据标识包括结果导向标识和过程导向标识;结果导向标识的数据结构为:模式标识(特征标识1,特征标识2,……,特征标识n)/来源类型标识;结果导向标识的生成过程为:选择结果导向标识的数据结构,然后把代表结果的模式标识、以及与该模式标识相关联的特征标识1到特征标识n导入到选择的数据结构中;特征标识是指基站监测系统开发者定义的关于系统、仪器的状况标识或基站采集系统的环境状况标识,特征标识1,特征标识2,……,特征标识n是指与代表结果的模式标识相关联的特征标识;过程导向标识的数据结构为:模式标识(数值基准标识1,数值过程标识1,……,数值基准标识1,数值过程标识m)/来源类型标识;所述过程导向标识的生成过程为:选择过程导向标识的数据结构;然后把代表过程的模式标识、以及与该模式标识产生过程相关联的基准标识1,数值过程标识1……数值基准标识1,数值过程标识m导入到选择的数据结构中;基准标识是指执行质控任务时所采用标准样品的浓度值,数值过程标识是执行质控任务时监测仪器测标准样品所得的结果浓度值,数值过程标识1,数值过程标识2,……,数值过程标识m是指与代表过程的模式标识相关联的数值过程标识,且数值过程标识m按数据标识产生过程的时间先后顺序排列;演绎标识是指容纳统计学理论识别异常值的标识,具体数据格式为:演绎标识/来源类型标识;所述演绎标识并不参与数据统计,只用于反映和记录计算机智能诊断出来的异常值,若人工诊断确认该异常值为真实的异常值,演绎标识会自动转为删除标识。
2.3 识别过程及步骤
根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对基站层异常值进行识别的步骤如图2所示。
图2 基站层面异常值识别流程图
步骤B中根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对平台层异常值进行识别这一步骤,其包括:
图3 平台层异常值识别流程图
步骤B中采用改进的数据标识同步算法实现基站层和平台层异常值的同步这一步骤,其包括:
S1、基站与平台建立socket连接;S2、判断是否需要同步数据标识数据库,若是,则执行步骤S3,反之,则执行步骤S4;S3、基站向平台发送修改数据标识数据库的请求,并在平台同意修改和同步标识匹配检查完成后向平台发送数据标识记录数据包,从而使平台进行应答修改;S4、平台向基站发送修改数据标识知识库的请求,并在基站同意修改后向基站发送数据标识知识库修改数据包,从而使基站进行应答修改。
上述步骤S3,包括:S31、基站向平台发送修改数据标识数据库的请求;S32、平台发出同意修改请求的响应;S33、基站接收到同意响应后向平台发送同步标识为last的数据标识数据包M;S34、平台检查数据包M是否与平台同步数据库中的同步标识为last的数据匹配,若是则执行步骤S35,反之,则顺序执行步骤S36~S38;S35、基站向平台传输同步标识为next的数据包及其后的数据,然后结束同步过程;S36、服务器向基站发送平台同步标识为last的数据包L;S37、基站在基站同步数据库中搜索与数据包L匹配的数据记录,并把搜索到的匹配数据的同步标识修改为last,同时基站把下一时刻数据记录的同步标识修改为next;S38、基站向平台传输同步标识为next的数据标识记录数据包R及其后的数据,然后结束同步过程。
其中步骤S4,包括:S41、平台向基站发送修改数据标识知识库的请求;S42、基站发出同意修改的响应;S43、平台在接收到同意的响应后向基站发送数据标识知识库修改数据包;S44、平台通知基站数据包发送完毕,基站应答;S45、基站根据修改数据包修改基站的数据标识知识库。
3 结语
3.1 一种全新结构的数据标识类型—模式跟踪数据标识,能有效地记录监测网络质控的历史过程,为质控工作的溯源提供技术依据,提高了溯源的工作效率,降低了出错率;根据基站系统自动识别、基站人工审核和实时数据平台的专家识别、平台人工审核这四个数据来源对环境监测网络的数据标识体系进行统一定义,使不同级别的数据审核者在进行审核时能整体考虑四个来源的数据标识,更加全面和可靠;增设了演绎标识,不直接删除监测数据的异常值,而是为监测数据的异常值赋予演绎标识,以辅助数据实时平台数据管理人员准确识别监测数据的异常值是否为真实的异常值,能容纳统计学理论识别异常值的方法,更加科学和准确;
3.2 采用改进的数据标识同步算法实现基站层异常值和平台层异常值的同步,能保证平台层和基站层的数据标识能同步更新以及对基站层的数据标识知识库进行修改。进一步,采用经改进带有同步标识的同步算法实现基站层异常值和平台层异常值的同步,能防止平台服务器因停电等因素而导致的数据丢失故障,而且可以对基站人工修改的数据标识进行更新,更加安全和方便。进一步,提出了环境自动监测实时数据异常值数据识别的完整算法,能很好地对负值、超出仪器量程范围的值、连续不变的值、基于箱线图统计方法判别为离群值的数据进行识别,同时能很好地容纳统计学理论在平台异常值自动识别中的运用,更加可靠和科学。
[1]李艳萍,张浩,周国栋.完善环境监测技术监督体系的思考[J].环境监测管理与技术,2014,26(6):5-8.
[2]李蔚,胡昊,徐富春,等.大数据解析技术在大气环境监测中的应用研究[J].中国环境监测,2015,31(3):118-122.
[3]魏晶茹,马瑜,白冰,等.基于PSO-SVM算法的环境监测设局异常检测和缺失补缺[J].环境监测管理与技术,2016,28(4):53-56+68.
杨瑞凤(1983—),女,汉族,安徽宿州人,本科,工程师,从事监测分析工作。