APP下载

基于兴趣度关联规则的海洋气象数据质控算法

2018-11-13李涛张灿张帅弛陆正邦

现代电子技术 2018年22期
关键词:关联规则质量控制

李涛 张灿 张帅弛 陆正邦

摘 要: 为了提高海洋漂流浮标观测数据的质量,提出一种新的基于兴趣度模型的关联规则挖掘算法。通过该关联规则算法挖掘浮标观测数据,提取出所有关联项对形成范例库,以此构建海洋漂流浮标数据质量控制模型,并与传统数据质量控制方法对比,发现基于新的关联规则算法的质量控制模型在检出率和灵敏度以及性能方面有极大提高,非常具有可行性。通过真实数据验证表明,新算法不仅能够挖掘出所有相关性很强的规则,与同类非Apriori类算法相比,在时间性能上更加优越。

关键词: 海洋漂流浮标; 兴趣度; 关联规则; 挖掘算法; 气象数据; 质量控制

中图分类号: TN011?34; TP391 文献标识码: A 文章编号: 1004?373X(2018)22?0138?05

Abstract: A new association rule mining algorithm based on the interestingness model is proposed to improve the observation data quality of the ocean drifting buoy. The association rule algorithm is adopted to mine the buoy observation data, so as to extract all the correlation pairs to form a sample database, based on which the data quality control model of the ocean drifting buoy is constructed. By comparing with the traditional data quality control methods, it is found that the quality control model based on the new association rule algorithm has improved a lot in detection rate, sensitivity and performance, which is of great feasibility. The results of the real data verification show that the new algorithm can mine all rules with strong correlation, and has more superior time performance than other non?Apriori algorithms of the same class.

Keywords: ocean drifting buoy; interestingness; association rule; mining algorithm; meteorological data; quality control

海洋漂流浮标凭借自身体积小、重量轻、便于投放等一系列特点成为海洋水文观测的重要工具之一。为了确保观测数据的准确性和实用性,对获取的海量观测数据进行科学有效的质量控制必不可少。一般而言,漂流浮标数据的质控内容有时间一致性质控、位置质控、梯度质控、极值控制等。其核心内容是对观测数据中异常值的质控。海洋数据中异常值的检测常抽象为离群数据的搜索和聚类[1]。关于时间序列异常值的判定,比较常用且具有共性特征的是基于经典统计理论的离群点检测方法[2]。该检测方法对单个异常点判断比较准确。而异常值常以连续多个的复杂方式出现,甚至在小段时间内可能超过正常数据的量。因此,基于统计理论的海洋数据异常值检测法很难对这些数据进行有效的判断。海洋观测数据种类多,而对不同类型的异常值判断没有一种普适性的异常检测方法。虽然在海洋数据质量控制方法存在大量的研究成果,但是内容主要围绕质控共性理论方法进行研究[3?4]。应用于浮标数据且具有可行性的质控方法流程比较少见。

本文从关联规则在孤立点分析和异常检测中[5?6]的应用出发,结合气象观测数据的特点以及误差等背景,提出基于关联规则的海洋浮标气象观测数据的质量控制模型。接着从相关性角度出发提出一种新的基于兴趣度的关联规则挖掘算法,通过项或项对的超集的兴趣度上界来裁剪搜索空间[7],不仅避免了传统关联规则挖掘算法的不足,而且在时间性能上提高更显著。

1 关联规则挖掘算法

2 算法与实验

2.1 算法主要思想

2.3 实验分析

分别在这两组数据集上将本文算法与未使用上界剪枝算法的运行时间做对比。如图1、图2所示,两种算法的运行时间都随着最小兴趣度阈值t的逐渐增大而减少;相比于以往算法,新算法的运行效率和时间性能显著提升。将该算法作为海洋气象观测数据质控方法的基础,提高了挖掘效率。

3 关联规则在海洋浮标数据质量控制中应用

3.1 数据准备及变换

本文使用的数据是某海域历史海洋浮标记录,实验选择了海风、海浪、海流、温度、盐度等气象要素作为考察对象。由于数据量多,首先需要对原始的数据集进行数据预处理。由于关联规则挖掘目前无法处理量化的连续数据,需要对每个要素数据进行离散化,按照每个要素的属性值划分为不同的区间。区间划分的标准为8段或9段。按照区间段为8段划分,数据预处理结果见表2。温度要素离散化可划分为{q1,q2,…,q8}。

3.2 模型总流程

使用前述基于兴趣度的关联规则算法对经过预处理后的海洋浮标观测数据进行挖掘得到关联项对,将所有关联项对作为规则集范例库。然后将植入误差后的待测数据集于规则库中进行匹配,检测出异常数据,从而达到质量控制的目的。

基于关联规则的气象观测数据质制算法主要包含了三大步骤,即数据预处理、产生关联规则、规则匹配。

1) 数据预处理阶段:数据离散化;

2) 关联规则阶段:通过挖掘算法挖掘出关联规则;

3) 规则匹配阶段:将待测数据与规则集中每条规则进行匹配。

先在当前记录中搜索当前规则的前项,如果找不到,判定此条规则不适用于该条记录,放弃匹配,转向规则集的下一条规则;如果在此记录中找到该规则的前项,则认为此条规则适用于这条记录,继续在记录中寻找当前规则中的后项,如果可以找到,那么认为此条规则匹配当前记录,判断为匹配正常;如果找不到,则认为当前记录不适用于这条规则,判断为匹配异常。

学习阶段建立的关联规则集数目较大,为了提高检测性能和效率,在匹配过程中做如下处理:

情況1:当前规则不适用于当前记录,从规则集中提取下一条规则进行匹配,直到出现情况2;若遍历所有规则集都没找到适用的规则,定位该记录为异常。

情况2:当前记录不匹配当前规则,则认为当前记录可能为异常,继续在规则集中寻找不匹配的规则,直到出现u条不匹配的规则,则定位该记录为异常。

整个规则匹配的流程图如图3所示。

实验有两个参数控制,首先根据相关系数t的设置,挖掘出相关性很高的项对;参数u设置越大异常记录越多,u设置越小,挖掘出的异常记录越少。所以这两个参数需要经过实验分析。

3.3 实验分析

首先从训练数据集中选取两条各500行的测试数据A和B。其中数据A的前18行数据和B中的前12行数据手动植入误差,使A中的第1~18行、B中的第1~12行数据是异常数据。

对于异常记录的检测效果,用检测率、误检率[10]两个参数来衡量。

1) 检测率:检测出的异常记录的概率。

2) 误检率:检测到的记录中不是异常记录的个数占总的数据异常记录的百分比。

理想状态下,检测数达到百分之百,而误检数为零。

例如测试A组数据,若结果检测到18条记录,且这18条记录就是第1~18行数据,那么此时检测率达到100%,误检率为0。

因此针对A和B两组测试数据,调整相关系数t与u不同的参数值,检测结果如表3,表4所示。

通过两组数据实验发现,当相关系数t不变时,参数u越大,则挖掘出的记录越少,同时挖掘出的异常记录也会越少,检测率也会越小。而随着相关系数t的不断增大,为了最大可能地挖掘出所有异常记录,保证高检测率和低误检率,参数u取值会不断的减小,因为随着t的增加,范例库中挖掘到关联规则数目减少,而记录不匹配规则的数目也会减少,所以参数u取值会降低。

且通过两组实验发现,每组实验都有一个最优参数值使得检测效果最好。例如A组实验中当相关系数t等于0.5时,参数u取值为14时,检测率为100%,误检率为0,它检测出了测试数据中所有的异常记录。而在B组数据实验中,巧合地发现同样在t=0.5,u=14时,检测率为100%,误检率为0,检测效果最好。为了防止出现偶然性存在,除在本文中的两组试验外,在其他测试数据上做了大量的实验对比,同样发现当t = 0.5,u在14周围取值时,检测效果最佳。通过参数优化使得浮标数据异常记录的检测率接近100%,而误检率为0。

以上是基于新的关联规则挖掘算法实现的海洋气象浮标观测数据质控模型。下面以海洋数据其他质控方法即极值控制法、一致性检验控制方法与本文提出的质控模型算法进行错误数据检测分析。表5和表6分别是针对测试数据A和B进行传统质控的结果分析。

4 结 论

本文针对传统质量控制算法的不足,提出基于关联规则算法的数据质量控制方法。通过与传统的质控方法对比发现,新的质控方法在精度和灵敏度方面都得到了很大提高,并验证了所提方法的可行性。依据这套质控算法,应用到海洋气象浮标观测数据质量检测中,准确而又快速地找到异常观测数据,具有很高的实际应用价值。

参考文献

[1] 胡莹.Argo剖面浮标数据异常检测方法研究[D].桂林:桂林电子科技大学,2016.

HU Ying. Research on buoy data anomaly detection method of Argo profile [D]. Guilin: Guilin University of Electronic Technology, 2016.

[2] 陈斌.异常检测方法及其关键技术研究[D].南京:南京航空航天大学,2013.

CHEN Bin. Research on outlier detection method and its key techniques [D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2013.

[3] 于婷,刘玉龙,杨锦坤,等.实时和延时海洋观测数据质量控制评估方法研究[J].海洋通报,2013,32(6):610?614.

YU Ting, LIU Yulong, YANG Jinkun, et al. Study on the quality control and quality assurance for the oceanographic data of real?time and delayed mode [J]. Marine science bulletin, 2013, 32(6): 610?614.

[4] 郑琳,刘艳,崔文林,等.海洋观测数据质量控制评估研究[J].海洋通报,2014,33(2):228?234.

ZHENG Lin, LIU Yan, CUI Wenlin, et al. Research on the quality assessment of marine environmental monitoring data [J]. Marine science bulletin, 2014, 33(2): 228?234.

[5] 郑忠平.基于关联规则和聚类分析的异常天气挖掘[D].成都:电子科技大学,2011.

ZHENG Zhongping. Anomaly weather mining based on association rules and cluster analysis [D]. Chengdu: University of Electronic Science and Technology of China, 2011.

[6] 温玉波.海洋环境观测数据的质量控制研究[J].农业网络信息,2014(2):35?38.

WEN Yubo. Study on the quality control of marine environment observation data [J]. Agriculture network information, 2014(2): 35?38.

[7] 李涛,林陈,王丽娜.一种改进的相关项对挖掘算法研究[J].计算机仿真,2016,33(8):223?228.

LI Tao, LIN Chen, WANG Lina. An improved algorithm research on mining correlation pairs [J]. Computer simulation, 2016, 33(8): 223?228.

[8] 吕杰林,陈是维.基于相关性度量的关联规则挖掘[J].浙江大学学报(理学版),2012,39(3):284?288.

L? Jielin, CHEN Shiwei. Mining association rules based on correlation measure [J]. Journal of Zhejiang University (Science edition), 2012, 39(3): 284?288.

[9] 彭昱忠,王谦,元昌安,等.数据挖掘技术在气象预报研究中的应用[J].干旱气象,2015,33(1):19?27.

PENG Yuzhong, WANG Qian, YUAN Changan, et al. Review of research on data mining in application of meteorological forecasting [J]. Journal of arid meteorology, 2015, 33(1): 19?27.

[10] 袁遇晴,况湘玲,凌利军.基于数据挖掘的网络入侵检测模式研究[J].计算机安全,2014,7(17):14?17.

YUAN Yuqing, KUANG Xiangling, LING Lijun, et al. Research on intrusion detection based on data mining [J]. Computer security, 2014, 7(17): 14?17.

猜你喜欢

关联规则质量控制
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
基于关联规则和时间阈值算法的5G基站部署研究
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
浅谈机车总风缸的制作质量控制
浅谈在公路桥梁施工环节的质量管理及控制
浅谈石灰土基层施工及质量控制
黄土路基台背回填的质量控制