APP下载

水文时空数据挖掘方法及其应用评述

2018-03-21袁定波熊传圣

水利信息化 2018年1期
关键词:水文时空数据挖掘

袁定波 ,艾 萍 ,2,熊传圣

(1. 河海大学水文水资源学院,江苏 南京 210098;2. 河海大学计算机与信息学院,江苏 南京 211100)

0 引言

随着对地观测技术的发展,以及计算机运算存储能力的不断提高,数据产生和采集的速度越来越快,数据量级越来越大,因此亟需能够从海量数据中快速提取信息的技术和方法,以揭示隐藏在这些数据背后的潜在有用信息,为决策部门在决策制定过程中提供重要的参考依据。为了解决这个在信息领域具有普遍性的“知识发现”问题(KDD,Knowledge Discovery in Database),数据挖掘(DM,Data Mining)技术应运而生[1]。水文学研究的对象是水文现象,是降水和蒸发等气象现象与地形、地貌、土壤、植被、水文地质等下垫面条件共同作用或相互作用的产物。水文现象作为地球上最复杂的自然现象之一,具备很强的时间和空间属性。时空序列(Space-Time Series)是时间序列在空间上的扩展,指在空间上有相关关系的多个时间序列的集合[2]。水文时空序列分析是揭示和认识水文过程变化特性的有效手段和重要途径。时空数据挖掘是指从时空数据中提取出隐含的、未知的、有用的信息及知识的过程,然而,时间和空间维度增加了其挖掘过程的复杂性。

将数据挖掘技术应用于水文时空序列数据分析领域,可发现时空序列数据中蕴藏的相似性,能够更合理地反映区域水文时空变化规律和趋势。利用数据挖掘技术建立水文时空序列分析理论和模型,发现各类水文要素在时间和空间维度的变化规律,为有效预测水文情势的变化提供相关依据,在防汛抗旱、水资源分配与调度、水资源管理等方面具有重要参考价值和现实指导意义。

1 时空数据挖掘技术进展

数据挖掘是从大量、不完全、有噪声、模糊、随机的数据集中提取隐含在其中的,人们事先不知道的,但却又是潜在有用的信息和知识的过程,所提取到的结果可表示为概念、规则、规律和模式等形式。数据挖掘是一种决策支持过程:分析各组织原有的数据,做出归纳推理,从中挖掘出潜在的模式。数据挖掘方法结合了数据库技术、机器学习、统计学等领域的知识,常见的数据挖掘方法有关联规则、决策树、神经网络、粗糙集法、分类聚类方法、遗传算法和统计分析方法等。在不同的应用领域,需要针对具体的问题采用不同的数据挖掘技术和方法。

自地理信息系统诞生以来,空间分析的方法框架和技术体系逐渐建立并完善,已成为地理信息系统应用的核心,而其中所涉及的空间和时间序列分析方法是水文时空序列分析与建模的基础[3]。时空数据挖掘方法是在有效组织时空数据的基础上,采用各种数据分析工具、技术和模型研究和挖掘时空数据库中隐含的信息和规律[4]。按照挖掘的任务,时空数据挖掘可分为以下主要几类:时空的模式挖掘、聚类、分类、异常检测等。挖掘时空数据中有价值的模式,如频繁、周期、共现、关联等模式,一直是时空数据挖掘研究中的重要课题。人们感兴趣的是从一个时空序列里发现频繁重复的路径,即时空频繁模式。时空共现模式是指 2 种(或 2 种以上)对象实例在空间和时间上处于近邻。时空关联模式主要研究空间对象随时间发生变化的规律,即在传统关联分析的基础上加上时间和空间约束,发现时空数据中处于一定时间间隔和空间位置的关联规则。时空数据聚类是指基于空间和时间相似度把具有相似行为的时空对象划分到同一组中,使组间差别尽量大,而组内差别尽量小,时空聚类可用于天气预测、交通拥挤预测、动物迁移分析、移动计算和异常点分析等方面。时空分类主要是基于时空对象的特征构建分类模型预测时空对象所属类别和对象所在的具体空间位置。若某一个对象和它在空间上相邻并在一段连续时间内出现的邻居有着显著的差异,则称该对象为时空异常对象。

国外学者在时空序列数据挖掘方面的研究比较早,数据挖掘最通用的方法主要包括人工神经网络、决策树、遗传算法和最近邻算法[5]。Babovic基于城市供水管网爆裂数据库所记录的管网使用寿命、直径、材料、土壤类型、温度和交通负荷等数据,利用数据挖掘方法确定区域供水管网爆裂的风险[6]。Bessler 通过利用 C5.0 决策树方法挖掘研究区域的水库调控规则,结果表明,不同决策树方法决定了数据挖掘结果的好坏[7]。Kim 使用数据挖掘算法和实时数据了解环境因素对建筑能效设计和评分的影响,并选用了亚利桑那州立大学的 3 座建筑物作为实时能源实验数据进行了验证分析[8]。Han和 Koperski 开发了一个空间数据挖掘系统原型:GeoMiner[9]。一些传统的数据挖掘算法往往在时空数据挖掘方面表现得很差,Shekhar 发现当参数假设检验(如正态分布)不通过时,参数分类器如最大似然分类器(MLC)要比非参数分类器的表现更逊色;当特征自相关时,基于像素的分类器性能要比马尔科夫随机域的性能差[10]。时空数据的挖掘需要有明确的主题和问题导向[11]。Vaswani 使用了一种改进的 K 均值聚类算法,通过考虑聚类要素的各方面因素,进行了空间数据的挖掘[12]。Kovashka 利用领域特征的时空层次结构分析人类行为[13]。Fasbender基于 Bayesian 数据融合方法对柏林的 NO_2 在时空尺度上进行了的预测[14]。Ghaemi 利用数据挖掘技术和机器学习算法对公共交通中的时空数据进行了分析,并指出针对具体应用的相关度量是未来研究的方向[15]。Anderson 等利用 HELCOM 富营养化评估工具(HEAT3.0)挖掘了波罗地海富营养化的时间和空间趋势[16]。Boschetti 通过分析中等分辨率遥感影像序列数据中的光谱指数挖掘研究区水稻在时空趋势,并实现了基于卫星时序数据的水稻时间和空间信息的自动提取[17]。Dube 等使用 Landsat 卫星数据分析了土地退化的时空特性,并验证了 Landsat 数据和机器学习算法用于土壤侵蚀时空特征挖掘的可行性[18]。Yusof 使用多维序列模式挖掘绘制了风速剖面模式的时空特征[19]。Andrade 等基于社交网络Twitter 挖掘巴西圣保罗市的降雨时空模式,结果表面,雨量站的时序数据与推特上相关的降雨时序数据并不同步,存在一个(-10~+10)min 的时间延迟[20]。目前,移动位置服务、遥感信息处理、精细农业、智能交通、气象等研究领域已经成为时空挖掘的重要应用部分,各行业和领域对时空数据挖掘技术的巨大需求也推动了时空数据挖掘理论和方法的不断发展和完善。

2 时空数据挖掘在水文分析中的应用

著名水文学家 Yevjevich 认为水文时间序列主要包括确定性和随机性成分,因此,在进行水文时空序列数据挖掘的时候必须考虑挖掘对象的确定性和随机性。确定性成分主要基于一定的物理机制形成,例如地球公转和自转使水文时空序列数据包含确定性(年、月和日)周期成分;人类活动、气候变化等影响流域产汇流模式,使水文序列存在趋势和跳跃等暂态成分。随机成分是由许多随机和不确定性因素综合作用引起的不规则震荡,很难从物理机制的角度加以解释和描述。具有水文信息的时空序列数据(尤其各类传感器、遥感数据)与一般的时间序列和空间数据相比,不仅组成复杂,而且特性也复杂多变,具有海量、动态、高维、多尺度、时空相关和异构性、时空异质性、非线性等特征。将数据挖掘的思想和方法引入到水文时空序列分析中,从水文时空序列中挖掘相关隐含特性,从而获取正确、有潜在价值和可理解的水文模式,这个过程叫做水文时空序列数据挖掘,其目的是从水文时空数据集中发现有用的规律和知识。水文时间序列数据挖掘包括水文序列的相似性查找、洪峰传播时间估计、水文时间序列中关联规则的发现、水位和流量序列的异常模式检测等。由于水文学科的特殊性,结合时空数据挖掘理论与算法,构造水文时空数据挖掘模型的技术要点主要包括 3 个环节:

1)水文时空序列相似性分析。水文时空序列相似性分析也称水文时空序列相似性查找,即在归一化处理后的水文时空序列中找出各类相似的序列。这种相似性包括了气候特征、流域下垫面等与流域水文循环相关要素的特点和发展趋势,可用于降雨径流过程的预测、水文过程规律分析等方面。而水文时空序列相似性分析的关键技术问题主要有时空序列的模式识别(特征提取)和相似性度量的距离标准 2 个方面。

2)水文时空数据建模。水文时空序列的预测主要依靠预测模型来进行,预测模型的实质是一个基于线性回归的多维扩展模型,原理可用如下公式表示:

式中:系数βij是自变量Xij在i时刻的第j个系数,表示自变量Xij对于目标变量Yij的影响程度;Zij作为线性拟合残差,是目标变量变化中用自变量线性组合无法表示的部分,可用于在自回归(Autoregressive,AR)模型中捕捉时间自相关性,进而用于描述空间的相关性。

3)水文时空数据预测。回归分析是定量分析多要素之间关系常用的方法,由于时空变量的诸多特殊性质,在很多情况下不能直接用回归分析方法研究时空问题,因此,分析水文时空变量之间的关系需要在回归分析模型的基础上建立能够描述时空变量特征的回归分析模型。基于时空自回归移动平均模型建模的原理和方法,从模型识别、参数估计、模型检验、精度评估等方法构造适合水文时空数据分析的时空数据预测模型,用来预测未来一段时间在分析范围中任何地理位置上的水文信息目标值,如区域水资源分布时空变化趋势等。

3 结语

事实证明,试图依赖现有的物理定律和数学方程认识、预测、预报复杂的水文现象依旧困难重重,人们已经发现“大数据”技术在分析水文现象时空分布特征,揭示水文特征在时空维度与地貌特征之间的关系,构建真正的分布式或者精细流域水文模型等方面所拥有的巨大优势。随着遥感技术的发展,以及多源遥感影像在水文分析应用中的普及,其所蕴藏的信息也越来越丰富,因此,可构造面向某一具体水文业务应用的水文时空序列集合,并使用数据挖掘技术进行时空信息的挖掘,从大量数据中提取所隐含的特征与规则,发现以前未知的模式,从而预测未来的趋势和行为。

数据挖掘技术在水文时空序列的应用研究中发展空间巨大,应用大数据技术分析水文现象的变化规律,为相关决策提支撑信息均有着重要的指导意义。随着数据挖掘技术尤其是时空数据挖掘技术的发展与完善,数据挖掘技术在水文时空序列的应用研究中将得到进一步的扩展和提高,而与水文时空序列研究的具体结合,也将推动数据挖掘技术本身的发展,使大数据体系中的数据挖掘技术在水文科学发展中凸显出更加真切的价值和意义。目前,时空数据挖掘还缺乏一个令人满意的理论框架,可度量和不可度量的空间关系,以及时间关系都需要在未来的数据挖掘中加以考虑,而这也将会是未来时空数据挖掘重点研究的方向之一。

[1] FAYYAD U M, PIATETSKY-SHAPIRO G, SMYTH P, et al. Advances in knowledge discovery and data mining[M].Menlo Park: AAAI, 1996.

[2] RODDICK J F, SPILIOPOULOU M. A bibliography of temporal, spatial and spatio-temporal data mining research[J].ACM SIGKDD Explorations Newsletter, 1999, 1 (1): 34-38.

[3] MILLER H J, HAN J. Geographic data mining and knowledge discovery[M]. Boca Raton: CRC Press, 2009.

[4] BECKER R A, EICK S G, MILLER E O, et al. Dynamic graphics arrangement for displaying spatial-time-series data:United States, 5623590 [P]. 1997.

[5] SATHIYAMOORTHI V. Data mining and data warehousing:introduction to data mining and data warehousing[M]. Hershey:IGI Global, 2017: 312-337.

[6] BABOVIC V, DRÉCOURT J, KEIJZER M, et al. A data mining approach to modelling of water supply assets[J].Urban Water, 2002, 4 (4): 401-414.

[7] BESSLER F T, SAVIC D A, WALTERS G A. Water reservoir control with data mining[J]. Journal of water resources planning and management, 2003, 129 (1): 26-34.

[8] JONGHOON K, JIN-YOUNG H, WAI K C, et al. Understanding the effects of environmental factors on building energy efficiency designs and credits: Case studies using data mining and real-time data[J]. Journal of Engineering, Design and Technology, 2017, 15 (3): 270-285.

[9] HAN J, KOPERSKI K, STEFANOVIC N. GeoMiner: a system prototype for spatial data mining[J]. ACM Sigmod Record: 1997, 26 (2): 553-556.

[10] SHEKHAR S, LI Y, ALI R Y, et al. Spatial and Spatiotemporal Data Mining[M]. Chapman & Hall/CRC, 2011: 10-12.

[11] MENNIS J, GUO D. Spatial data mining and geographic knowledge discovery—An introduction[J]. Computers,Environment and Urban Systems, 2009, 33 (6): 403-408.

[12] VASWANI K, KARANDIKAR A M. An algorithm for spatial data mining using clustering[J]. International Journal of Computer & Mathematical Sciences, 2017, 6 (8): 226-231.

[13] KOVASHKA A, GRAUMAN K. Learning a hierarchy of discriminative space-time neighborhood features for human action recognition[J]. Computer Vision and Pattern Recognition,2010, 23 (3): 2046-2053.

[14] FASBENDER D, BRASSEUR O, BOGAERT P. Bayesian data fusion for space-time prediction of air pollutants: The case of NO_2 in Belgium[J]. Atmospheric Environment,2009, 43 (30): 4632-4645.

[15] GHAEMI M S, AGARD B, NIA V P, et al. Challenges in spatial-temporal data analysis targeting public transportÕ[J]. IFAC-PapersOnLine, 2015, 48 (3): 442-447.

[16] ANDERSEN J H, CARSTENSEN J, CONLEY D J, et al.Long-term temporal and spatial trends in eutrophication status of the Baltic Sea[J]. Biological Reviews, 2017, 92 (1):135-149.

[17] BOSCHETTI M, BUSETTO L, MANFRON G, et al.PhenoRice: A method for automatic extraction of spatiotemporal information on rice crops using satellite data time series[J]. Remote Sensing of Environment, 2017, 194:347-365.

[18] DUBE T, MUTANGA O, SIBANDA M, et al. Use of Landsat series data to analyse the spatial and temporal variations of land degradation in a dispersive soil environment:A case of King Sabata Dalindyebo local municipality in the Eastern Cape Province, South Africa[J]. Physics and Chemistry of the Earth, Parts A/B/C, 2017,100: 112-120.

[19] YUSOF N, ZURITA-MILLA R. Mapping frequent spatiotemporal wind profile patterns using multi-dimensional sequential pattern mining[J]. International Journal of Digital Earth, 2017,10 (3): 238-256.

[20] ANDRADE S C D, RESTREPO-ESTRADA C, DELBEM A C B, et al. Mining rainfall spatio-temporal patterns in twitter: A temporal approach[C]//NR Modala. International Conference on Geographic Information Science. Berlin:Springer, 2017: 19-37.

猜你喜欢

水文时空数据挖掘
跨越时空的相遇
继往开来 守正创新——河北省水文工程地质勘查院
探讨人工智能与数据挖掘发展趋势
镜中的时空穿梭
水文
水文水资源管理
玩一次时空大“穿越”
水文
基于并行计算的大数据挖掘在电网中的应用
时空之门