滑坡监测动态数据挖掘方法研究
2013-02-26段功豪牛瑞卿
段功豪,牛瑞卿
(中国地质大学地球物理与空间信息学院武汉 430074)
滑坡监测动态数据挖掘方法研究
段功豪,牛瑞卿
(中国地质大学地球物理与空间信息学院武汉 430074)
为有效挖掘海量、动态的滑坡监测数据中的有用信息及规律,提出了一种利用Oracle触发器监测数据的挖掘方法。以八字门滑坡为研究对象,结合ARIMA模型对累积位移进行预测,利用触发器精炼监测数据和优化模型参数,提升预测模型的拟合精度。实验结果表明,该方法能有效改良传统静态数据挖掘结果,有助于人们认识到动态数据挖掘在滑坡灾害监测中的价值。
动态数据挖掘;滑坡监测;Oracle触发器;ARIMA
1 研究背景
随着遥感(Remote Sensing,RS)科学与技术的发展,遥感数据极大丰富,信息的时效性变得越来越短,在滑坡灾害研究中的应用经历着从单一影像资料解译向多时相、多数据源的复合分析,信息处理的手段从以往简单的静态数据源(如数据仓库)的提取向实时的动态多维监测以及动态数据挖掘(Dynamic Data Mining,DDM)发展。滑坡是一种多发性的地质灾害,对人类的生命财产安全和经济建设构成了极大的威胁,2008年我国四川汶川地震触发滑坡达15 000多处,估计造成2万人死亡,约占地震灾害造成8.8万人死亡的1/4[1]。马水山等通过对某滑坡监测资料分析,探讨滑坡体的滑动方式及其演变规律[2]。张军对数据挖掘在滑坡位移及敏感性分析中的应用进行了研究[3]。近年来,数据挖掘技术已在滑坡敏感性评价和空间预测方面有较多的应用[4-7]。而将实时监测数据作为一种动态的因子加以考虑却极少得到关注。随着滑坡所处自然环境因素的变化,时态数据的增多等因素,由历史数据推导的规则往往无法有效得到实时数据的精炼,所以对实际滑坡灾害数据源(数据库、序列数据或流失数据)进行动态数据提取并加以分析来得到相关知识是十分必要的。
本文提出一种在滑坡灾害数据库上利用Oracle触发器动态检测的方法,并在此基础上分析动态数据挖掘在滑坡预测研究中的过程。
2 动态数据挖掘原理
动态数据挖掘是一种集过去、现在与未来于一体的动态过程。其动态性体现在数据的采集、处理等环节[8]。动态数据挖掘通常以实时数据库数据作为主要来源,其核心部分是数据处理,它可以更好地挖掘动态数据中隐含的和事先未知的有用信息和知识。根据其运行机制,给定实际运行滑坡监测信息源,将其称为动态信息源(Dynamic Data Source,DDS),DDS中的数据称之为dk(k作为时序信息标识号,k∈Z+)。
设当前时间点为T,给定一个时间范围μ(μ∈R+),DDS中在T-μ时刻以前的所有dk组成的数据集合称为Dpast,由T-μ时刻到T时刻所有dk组成的数据集称为当前数据集Dnow,在T时刻以后的所有数据集视为加入的监测新数据,记为Dnew。在此前提上,本文提出的滑坡数据动态挖掘处理流程如图1所示。
图1 滑坡数据动态挖掘处理流程图Fig.1Flowchart of dynamic data mining for the landslide monitoring data
历史数据和实时数据经过数据筛选(DataSift),放入Oracle数据库中,形成初始数据集(Dataset),结合常规静态数据挖掘(DataMining,DM)的思想,利用数据挖掘软件分析现有的数据集。待新的监测数据到位,触发器(Trigger)会记录新增数据的录入,动态检验数据的特性,利用历史知识对比分析,再挖掘以适应滑坡监测环境的变化,得到最终修正的结果集。
考虑到监测数据在时间序列上的依存性,并且由于随机波动的干扰性,本文利用ARIMA模型来预测动态数据的发展规律,该模型基本思想是:将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值[9]。ARIMA模型可分为3种:①自回归模型(简称AR模型);②滑动平均模型(简称MA模型);③自回归滑动平均混合模型(简称ARIMA模型)。通过利用下一时间区间的数据特征确定选定模型的类型,调整模型的相关参数,从而使拟合得到优化。
3 触发器功能
实时更新的灾害数据库具有海量性特点,以关系数据库为基础的Oracle存储管理机制成为目前多数滑坡灾害数据的依托,本文利用Oracle触发器的理念,对数据流中的信息进行实时监控,旨在发现滑坡时态数据的特征信息,并在此基础上修正具体模型的参数,拟合出更好的预测结果。
触发器是被命名为与存储过程和函数类似的PL/SQL块,它是自动隐式运行的,既不能接受参数,也不能被调用[10],它由以下4部分组成。
(1)触发时间:触发器事件的时间次序。根据实际情况选择在触发事件之前还是在触发事件之后执行触发器。
(2)触发事件:什么操作会引起触发器触发,有3种触发条件(数据新增、数据删除、数据更新)。
(3)触发子体:触发器触发时要执行的操作。
(4)触发类型:触发器被执行的次数,本实例在每一行新加入的监测数据上执行。
动态信息源表现出与现有模型无法有效解释的规则时,依托触发器的数据敏感特性,可以有效分辨出该现象是属于噪声,或者是属于待发现的规律(知识),这相当与在数据挖掘过程的顶部增加了一个触发器模块[11],通过实时逐次的判断新增数据与历史数据的联系来不断完善现有的模型。
4 数据源及研究方法
为了避免和减轻滑坡灾害影响,要对滑坡的变形做出定量预测,根据上文分析,选取三峡库区八字门滑坡累积位移数据作为数据源,其累积位移时间序列具备递增趋势,且因为受库区季节性降雨等诱发因素影响,数据递增率出现一定的周期性,还有仪器损坏数据缺失等数据特性,这些都可能会影响规律(知识)的生成,可以利用触发器设置对数据的录入条件来预判这些特性,排除噪声,从而使精炼后的数据适合做挖掘研究。
选取ZG110监测点2003年8月到2010年11月的监测数据,按月划分时间区间,共86期数据,按照本文提供的动态挖掘思想,选取前40期作为Dpast,初步建立预测累积位移规律ARIMA模型,后20期作为Dnew一一添加至数据源中,通过触发器的逐行动态检查与完善,对后26期进行预测。
数据库中八字门GPS监测数据表结构如表1。
仅截取监测数据中时间和累积位移ΔF属性放入待挖掘的临时表中,将前40期数据存入表GPS,这样就能以表对象的形式被挖掘软件使用。
以下为通过PL/SQL Developer建立触发器过滤数据的过程,其部分代码为:
在触发器tr_test编译成功后,内部可以通过2个相关的标识符“:old”和“:new”访问正在处理中的行级数据,“:old”表示已存在表中的数据,“:new”代表新的检测数据,它们是一种特殊的PL/SQL绑定变量,一旦表对象GPS发生数据插入行为时,预先过滤掉因仪器损坏或其他环境的变化造成的噪声数据,在本实例中,由于是按月监测的,若出现隔月监测的现象,出于对整体建模的考虑,也要过滤掉不连续月份的数据,本文先利用前期数据作为训练,通过数据挖掘软件SPSS Clementine中的时间序列模块,建立初始累积位移ARIMA模型,流程见图2。
表1 监测点元数据Table 1Metadata of monitoring points
图2 ARIMA模型构建流程图Fig.2Flowchart of ARIMA model establishment
在模型构建过程中,将地下水累积位移数据作为原始数据源,筛选出ZG110监测数据作为输入变量,按月作为时间推进量,给出可查看的累积位移序列,利用时序模型ARIMA挖掘预测累积变形的规则,构建预测模型,并将结果描绘成预测散点图进行对比分析。
建立的初始拟合模型结果如图3所示。
图3 未考虑触发器约束的累积位移拟合效果图Fig.3Fitting results of accumulative displacement in the absence of trigger constraints
监测仪器损坏、人为记录的遗漏等原因,“C3”代表实际不连续的值,证明原始未经过滤的监测数据存在着不连续情况,另一条“$TS-C3”是根据不连续的监测值利用原始模型参数拟合的连续预测值。从图3可以粗略的看出,在开始时,预测数据与实测值相互差异还不够明显,滑坡变形较大时,拟合效果相对较差,在2007年到2009年间由于数据存在噪声或遗漏,预测效果差。预测准确度通常以预测误差的方差最小为准则,可以重点参考式平均绝对误差(MAE)的值,计算公式为
图3中绝对误差(MAE)为5.67,对残差序列进行检验,显著性为0.244。
本实验采用触发器的动态约束监测,在建立模型之前,考虑到该时间序列具有明显的上升趋势且具有强烈季节变动,将会有高度的自相关。每当表中有新的数据录入,触发器自动求出该序列自相关系数,据此来识别时间序列特性,对于具有趋势性和季节性的非平稳时间序列一般用ARIMA(p,d,q) (P,D,Q)s模型来描述,其中参数的优化设置通常需要个人经验和不断反复试验才能得出最优解。本次试验中由元数据属性中的时间属性,编译好的触发器据此时间属性的月份周期变化来监测季节变化趋势和自相关系数的影响。为了研究方法的可行性,根据历史经验法,定其他参数值为默认设置,实验中仅讨论参数q的确定,通过对序列进行d阶差分消除趋势性,p和q为非季节性自回归阶数和移动平均阶数,D阶s步差分对季节性消除,P和Q为季节性自回归阶数和移动平均阶数,得到最终模型。自相关系数计算公式为
它表示序列中相隔k期的2项之间的相关程度,本实例中k=1,代表相邻2项之间的相关程度,即每个月位移监测数据之间的相关程度。触发器将得到的各自相关系数总体存入临时表,对该表内容作为输入变量进行显著性检验,构造置信区间的值,将该对称置信区间的值作为范围,逐一判断临时表中各相关系数是否在此区间内,设置变量m记录不在此范围内自相关系数的个数,将移动平均数设置为q,参数确定完毕。
最终的修正模型如图4所示,小圆点代表经过筛选的实际值,连续曲线是拟合值,从图上可以清晰地看到在2007—2009年期间,经过触发器调整的数据曲线也能保持连续状态,排除了未检测月份空数据的干扰,绝对误差(MAE)为3.823,对残差序列进行检验,显著性为0.684。拟合效果相比未考虑触发器约束的结果要好,表明用该方法构建的模型较理想。
图4 带触发器约束的累积位移拟合效果图Fig.4Fitting results of accumulative displacement inthe presence of trigger constraints
综上所述,利用触发器改良监测数据挖掘的拟合结果是有效果的,它能较好地响应数据源的变化给出相应的处理,同时结合现有的数据挖掘软件,使动态数据挖掘在滑坡灾害数据研究中发挥一定的作用。
5 结论
本文利用三峡库区八字门滑坡累积位移数据源作为对象,利用基于Oracle触发器动态监测的方法,结合ARIMA模型做预测研究。与传统静态数据挖掘相比,使用触发器的编程重视了动态挖掘知识的过程,改良了最终预测的拟合结果。本文提出的实时监测与动态挖掘的流程能有效地分析积累下来的变化数据,较好优化了待挖掘的数据精度与模型参数,从而为进一步的滑坡预警提供了方法支撑。但需要指出的是该实验因所获资料的限制,随着环境条件的变化,各因素是不断变化的,如何添加一个方便的接口,实时地把变化规则加入触发器中进行更进一步处理也是后续工作的方向。
[1]殷跃平.汶川八级地震滑坡特征分析[J].工程地质学报,2008,17(1):29-38.(YIN Yue-ping.Features of Landslides Triggered by the Wenchuan Earthquake[J]. Journal of Engineering Geology,2008,17(1):29-38. (in Chinese))
[2]马水山,王志旺,张漫.滑坡监测资料的因子分析[J].岩石力学与工程学报,2002,21(7):1003-1006.(MA Shui-shan,WANG Zhi-wang,ZHANG Man.Factor Analysis on Monitoring Data of Landslide[J].Chinese Journal of Rock Mechanics and Engineering,2002,21(7):1003-1006.(in Chinese))
[3]张军.数据挖掘在滑坡位移及敏感性分析中的应用研究[D].武汉:武汉大学,2005.(ZHANG Jun.Application of Data Mining to Analyzing Landslide Displacement and Sensitivity[D].Wuhan:Wuhan University,2005.(in Chinese))
[4]殷坤龙,陈丽霞,张桂荣.区域滑坡灾害预测预警与风险评价[J].地学前缘,2007,(6):85-97.(YIN Kun-long,CHEN Li-xia,ZHANG Gui-rou.Regional Landslide Hazard Prediction and Risk Assessment[J].Earth Science Frontier,2007,(6):85-97.(in Chinese))
[5]WANG H B,LIU G J,XU W Y,et al.GIS-Based Landslide Hazard Assessment:An Overview[J].Progress in Physical Geography,2005,29(4):548-567.
[6]NEFESLIOGLU H A,SEZER E,GOKCEOGLU C,et al. Assessment of Landslide Susceptibility by Decision Trees in the Metropolitan Area of Istanbul,Turkey[J].Mathematical Problems in Engineering,doi:10.1155/2010/901095.
[7]蒋征,张正禄.滑坡变形的模式识别[J].武汉大学学报(信息科学版),2002,(2):127-132.(JIANG Zheng,ZHANG Zheng-lu.Model Recognition of Landslide Deformation[J].Journal of Wuhan University(Information Science Edition),2002,(2):127-132.(in Chinese))
[8]滕明鑫,熊忠阳,张玉芳.动态数据挖掘研究[J].计算机应用,2008,28(增1),160-162.(TENG Ming-xin,XIONG Zhong-yang,ZHANG Yu-fang.Research on Dynamic Data Mining[J].Journal of Computer Applications,2008,28(Sup.1):160-162.(in Chinese))
[9]李贵斌.ARIMA模型差分阶估计方法的比较[J].应用概率统计,1994,(4):353-362.(LI Gui-bing.Estimation of Parameters in ARIMA Models[J].Acta Mathematicae Applicatae Sinica,1994,(4):353-362.(in Chinese))
[10]GREENWALD R,STACKOWIAK R,DODGE G,et al. Professional Oracle Programming[M].US:Wiley Publishing,Inc..
[11]邬少飞,韦司滢.动态工作流中利用触发器监控信息与数据流[J].计算机工程与设计,2007,28(23):5765-5766.(WU Shao-fei,WEI Si-ying.Monitoring Data Flows and Information Using Triggers in Dynamic Workflow[J]. Computer Engineering and Design,2007,28(23):5765-5766.(in Chinese))
(编辑:曾小汉)
A Method of Dynamic Data Mining for Landslide Monitoring Data
DUAN Gong-hao,NIU Rui-qing
(Institute of Geophysics and Geomatics,China University of Geosciences,Wuhan430074,China)
To efficiently excavate the knowledge from substantial and dynamic landslide monitoring data,we put forward a data mining approach using oracle trigger to monitor data.In order to improve the fitting precision of forecasting model,the time series model ARIMA(Autoregressive Integrated Moving Average Model)was employed to forecast the accumulative displacement and the Oracle trigger was used to refine the monitoring data and optimize the model parameter.Bazimen landslide was taken as a case study.The results indicate that the method improves the mining result of traditional static data and helps people to realize the value of dynamic data in landslide prevention.
dynamic data mining;landslide monitoring;Oracle trigger;ARIMA
X4
A
1001-5485(2013)05-0038-04
10.3969/j.issn.1001-5485.2013.05.0092013,30(05):38-41,50
2012-04-30;
2012-06-11
国家973计划资助项目(2011CB710601);国家863计划资助项目(2012AA121303);国土资源部重大科学研究项目(SXKY3-3-2)
段功豪(1988-),男,湖北武汉人,硕士研究生,主要从事遥感影像数据挖掘、海量影像数据库系统研究,(电话)15071278896(电子信箱)vipdgh@163.com。