APP下载

大数据关键技术在滑坡监测预警系统中的应用

2018-03-14赵久彬刘元雪宋林波刘佳鑫

关键词:数据挖掘滑坡数据库

赵久彬,刘元雪,宋林波,刘佳鑫

(1.陆军勤务学院 军事设施系, 重庆 401331;2.岩土力学与地质环境保护重庆市重点实验室, 重庆 401331)

我国是山体滑坡灾害易发国家,西南、西北等一些山区、丘陵地貌的区域是滑坡高发区域。随着我国现代化进程的快速推进,加上施工工艺的提高,很多大型工程对山体自然特征进行了破坏,人类的活动对滑坡灾害的影响作用也大大提高。根据国家有关地质部门统计:2016年我国共发生了9 710起地质灾害,造成直接经济损失31.7亿元人民币,共有370人死亡、35人失踪、209人受伤。2017年6月24日,四川省阿坝州茂县叠溪镇新磨村连续降雨超过半个月,发生了大型高位山体滑坡,产生了1 800万立方米的滑坡方量,造成 40余间房屋和100余人被滑坡体掩埋,并在3日后发生了二次垮塌,塌方量约200~300立方米。地质灾害主要集中在滑坡、坍塌和泥石流等方面,近年来滑坡灾害发生数量增多,监测预警是降低地质灾害风险的重要措施,具有广阔的研究前景和应用意义。

滑坡监测的传统方法主要是对滑坡易发地区设置水文、地质和气象等传感器,数据传送系统将传感器采集的信号传输到处理中心,得出分析结论和预测结果。将灾害信息通知到部门群众,做好预防工作[1-2]。滑坡监测需要监测的对象有很多,比如有位移监测、应力监测、气象监测等,采用的仪器设备也不同,产生的数据格式和参数各式各样。监测时间持续较长,采集次数多,产生了类型各异、数据量大的监测数据。

滑坡监测数据有着以下特点:工期较长、测点数量较多、测点类型较多、产生的数据量大、数据来源复杂多样且多媒体化,包括了数、字、图、表等数据类型[3]。这些数据不断累积增长,而且要求在较短时间内进行实时处理,用传统数据库进行处理面临相当大的挑战。可将大数据技术与滑坡监测预警技术结合起来进行研究,运用大数据的理论、机制、模型和方法,采用统计学、机器学习等方法得出可靠性较高的预警信息。本文介绍了目前应用广泛的大数据技术,并对滑坡监测预警大数据系统进行了架构设计。

在地理信息系统、数据存储技术及物联网等技术高速发展的信息时代,工业、医疗、交通运输、网络社交等领域都产生了PB乃至EB级大数据,这些数据影响着人们认识社会、理解社会的方式,并推动社会发展,成为了信息社会的巨大财富[4]。大数据的特点可以总结为以下4个:体积巨大(volume)、类型繁多(variety)、生成快速(velocity)、价值巨大但密度很低(value)[5-8]。大数据的关键技术在于使设计成本可以接受的,可以通过快速采集、发现、分析等工具和方法的,从数据量大、类型多样的数据集中发掘有用价值的体系架构。

1 滑坡监测预警大数据系统关键技术应用

1.1 系统架构设计

滑坡监测预警大数据系统是滑坡灾害应急中心实施会议召开、分析磋商、调度指挥的信息化平台。图1为滑坡监测预警大数据系统的体系架构,主要采用分布式计算架构,结合并行数据库技术,有效搭载各类滑坡信息数据,支持大数据的流处理和批处理模式,能够实现滑坡大数据的海量存储与维护和跨层级分布式业务处理,为系统功能的柔性从组提供一个松耦合的集成框架。

基础设施层是指硬件基础,包含计算机、网络、中间件、虚拟服务器、数据库及集群软件,是滑坡监测预警大数据系统所需的资源载体。数据源层为滑坡监测大数据系统提供需要的数据源头,并提供各类专业知识和参数等。数据接口层是对数据来源的特征开发设计转换适配器,是根据行业规范,对数据进行清洗、转换、处理的转换层。处理后的数据存入大数据存储系统中。

大数据的平台层是整个系统最重要的部分。Hypervisor/VMs的作用是连接物理设备层和虚拟软件层,为服务器能够在物理设备与虚拟软件之间实现预定功能提供协调并得到实施。通过网络层这个媒介连接存储系统和处理系统,并连接大数据系统的访问框架。平台采用HDFS作为底层数据存储框架。大数据的访问框架包括了Pig、Hive、Sqoop等系统,其中:Pig是计算机编程语言,适合用于Hadoop和Map/Reduce平台来查询大型半结构数据集;Hive是数据仓库,通过HQL语言实现MapReduce的快速统计;Sqoop的作用是用来与关系型数据库实现数据交换,如Mysql、Oracle等关系型数据库。大数据的调度框架包括以下3个系统:Hbase是列存储非关系型数据库,提供可靠性高并有分布式数据库功能的作用;日志收集的系统Flum,其作用是收集各类数据发送方的相关资料日志,并收集数据集;分布式闭锁组建Zookeeper,其作用是高效和可靠地协同工作系统,提供分布式锁之类的作用,用于构建分布式应用,减轻应用程序所承担的协调任务[9]。系统应用层则是滑坡监测预警大数据系统的功能实现系统,具有稳定性分析、智能决策、可视化交互等功能。

图1 滑坡监测预警大数据系统的系统架构

1.2 分布式文件存储架构和数据接口

目前的大数据时代,传统的关系型数据库在处理非关系型、数据量庞大、读写高发及海量存储的数据集时已经力不从心。于是产生了NoSQL非关系型数据库。目前,大数据多数应用都基于Apache开发的Hadoop(图2)。Hadoop适应了时代需求,其成本低廉,适合大型企业和小型企业采用,并有可靠、容错率高的特征。Hadoop采用分布式对大数据集进行处理的软件框架。用户利用Hadoop开源特性开发程序,可充分发挥计算机集群高速存储与计算的优势,因此其越来越在各个领域得到广泛应用[10]。

图2 平台数据存储技术结构

支持传统的滑坡监测数据数据库是大数据平台储存的基础需求,因为日常监测产生的数据都具有统一规范和格式,所以存储在传统关系型数据库更有优势,另外一些数据无法或不适宜转存到分布式存储,本文采用了典型的关系型开源数据库MYSQL作为底层存储支持。对于一些文本、图片、遥感照片和分析报告等数据,需要存储在NoSQL非关系型数据库。平台在开源的基础上进行二次开发,采用HBASE作为技术支持,结合HDFS的特点,将HBASE部署于HDFS之上配置其运行环境[11],从而搭建了滑坡监测数据非关系型数据库,从而使大数据平台存储问题得以解决。

平台数据存储技术解决后,需要提供后端数据接口技术支持。平台对关系型数据库采用JDBC作为兼容大数据平台技术。在此基础上采用Thrift支持,为Java、C++Python等语言访问非关系型数据库提供接口。对于Hadoop和Spark生态圈,利用Hive、Yarn和Spark Stream提供数据接口引擎支持。

1.3 平台的后端开发工具和算法实现支持

平台后端开发的中心思想是以Java为逻辑主控,C++作为兼容型辅助开发工具,Python作为算法和计算的高级编程语言。在此基础上,引入公用的算法计算库。目前比较流行的有2个算法库,即Hadoop生态圈的Mahout和Spark生态圈的Spark MLlib。Mahout是基于Hadoop的经典机器学习算法合集,对这些算法进行封装和开发,可以为平台提供强大的机器学习计算分析能力;Spark MLlib是Spark计算框架的机器学习算法库,包括分类、回归、聚类、协同过滤、降维等部分。引入Python、Scala、Pig编程支持,从而为更多机器学习算法提供实现方案。

1.4 大数据分析挖掘关键技术

大数据时代核心需求是从纷繁复杂的各类异构数据中,发掘出利于研究和开发的规律和价值。如何在Hadoop中实现基于滑坡数据的机器学习和智能判别预测目标,需要一些数据挖掘算法、统计分析和可视化等工具实现。

1.4.1 数据挖掘

数据挖掘的许多算法已经在人工智能、模式识别、机器学习、统计与数据库中得到应用实现。目前国际上比较流行的数据挖掘方法有很多,包括SVM、C4.5、Apriori、k-means、PageRank、EM、KNN、AdaBoost、CART和朴素贝叶斯等,覆盖了聚类、关联、分类、统计与回归等[12]。另外,一些先进的算法如基因算法和神经网络算法等也被充分应用到不同领域的数据挖掘中,取得了很好的效果。

1.4.2 统计分析

统计分析属于应用数学的一个分支领域,在统计理论中,事件的模糊性和随机性都由概率统计理论计算。统计分析技术分为两类:应用描述性统计对数据集进行描述;应用推断性统计对数据集统计分析后,得出推断结论,并给出结论发生的概率。进一步的多元统计分析还包括因子分析、多元回归、判别和聚类等。

1.4.3 数据可视化

数据可视化以一目了然的图像方式将信息传递给客户,地图和图表可以用来帮助用户快速理解知识信息。滑坡可视化可采用图表、地图和模拟动画等方式展现。然而,当数据量达到大数据级别时,传统的电子表格技术已无法处理。大数据可视化技术可以采用HTIM5、Apache Zeppelin等技术开发,Zeppelin由NFLAB开发,可提供Web界面,类似于iPython的Notebook,可以用于数据分析和可视化,也可结合SAS、SPSS、R、Geph等工具进行展示。

2 系统平台应用

2.1 滑坡大数据的集成

滑坡大数据来源于多源异构,种类多样:有现场监测仪器产生的数据(如GNSS设备、气象监测器、裂缝传感器、应力应变计等监测的数据),与国家和地方地质数据进行共享的地质环境信息数据(如遥感图像、地形地貌图等),滑坡易发地区的历史滑坡数据等。根据滑坡数据的来源,可归为以下5类:地质环境信息、各类历史滑坡资料、地质内部数据、地质外部数据、其他数据源(表1)[13]。以上这些数据为多源异构型,需要进行处理。首先进行数据清洗和转换,并对这些数据进行统一的建模,存储于大数据平台的储存框架中,为对数据进行挖掘分析做好准备,并允许跨平台交互和共享。

表1 滑坡数据分类

2.2 滑坡大数据挖掘与滑坡空间性预测

影响滑坡灾害的因素很多,要预先获得滑坡区域的地质构造情况数据,并掌握滑坡体的力学模型先验知识,实时采集各类监测数据和外界影响因素(如人类活动),通过统计大量的、不同区域的、时间不同的历史滑坡大数据,采用统计学、信息原理分析的技术手段,筛选出其中的重要条件和因素(如地质构造相似度),按类比原则将海量滑坡数据分为地段性滑坡数据类,此类滑坡具有类似的易滑坡作用条件和影响因素。根据自然斜坡或是滑坡的地质构造情况,将其归属到相应的地段性滑坡类中,在此滑坡类中,将大数据集的滑坡类数据分为训练集和验证集,采用机器学习的数据挖掘技术,发现潜在有用的规则,对待预测的此滑坡类的滑体进行规则判定,预测其稳定性。如:周科平等[14]利用数据挖掘的粗糙集技术,分析了影响滑坡的稳定性的主要影响因素;赵建华[15]利用决策树数据挖掘算法,分析了多种影响因素对滑坡的作用,并得到了划分评价滑坡危险区域的模型。

滑坡灾害空间预测指的是对于一定区域内的滑坡体进行稳定性预测,保护人类空间活动的安全性,为国家和社会的土地资源利用提供科学指导,防止生命财产受到威胁破坏。

在大数据系统提供滑坡灾害空间预测功能时,例如在对重庆某滑坡频发的区县地域进行空间预测时,需要提供大样本数据作为训练集。为了在下一步大数据平台中设计数据挖掘方案,本文进行了上机试验,选取了重庆某县区域20个露天120个矿岩质边坡数据资料,利用SQL Server软件提供的Apriori算法,对数据进行泛化处理,模型计算后,形成规则用于预测判断。Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。将滑坡数据库中准备好的数据集载入,输入最小支持度阀值min-supp和最小置信度minconf,系统扫描数据库,通过连接步和剪枝步产生频繁项集。

产生的频繁项集再通过最小置信度产生关联规则,步骤如下:

1) 对于每个频繁项集l,产生l的所有非空子集。

2) 对于l的每个非空子集s,如果下式条件成立:

则输出规则“s⟹(l-s)”。

由表2、3可知:数据库中考虑了10个影响破坏类型的因素,基本包含了影响滑坡发生的因素。在进行数据挖掘的过程中,由用户设置最小支持度minsupp和最小置信度minconf。当发现规则过多或过少时,还需要重新调整设置值。本文设置了支持度8%和置信度99%,发现了117条规则,根据专家的经验进行过滤后,得到了18条有用的规则,例如:岩石单轴抗压强度取值为80~90 MPa,地下水为5 H,岩体结构类型为块状,那么边坡发生双滑块折线型破坏,并有支持度18%,置信度99%。这个结果与专家经验结论基本相符。

在下一步大数据集的训练样本下,训练得到的知识规则将会有更高的可信度和置信度,所以用大数据进行划分和评价区域性滑坡时,将会取得更加有效的研究成果。

表2 用于挖掘的数据样本

注:σb为岩石的单轴抗压强度;α为结构面倾角;A为结构面与边坡面的关系;B为地下水条件;C为岩体结构类型;D为可能破坏的类型;c为内摩擦角;h为边坡高度;n为安全系数;β为边坡角。

表3 用于检验的样本

注:F为岩体结构类型(实际值);G为岩体结构类型(预测值),其他符号同表1。

2.3 场地性滑坡监测与滑坡稳定性预测

场地性滑坡监测分析指对存在滑坡隐患灾害的边坡进行监测预测工作,需要当地的地质勘察资料,并结合实时监测数据进行。对于单个场地滑坡体的监测工作,需要提供不同类型的测量设备,实现位移、应力、地下水、降雨量、温度场等实时监测数据,通过采集融合人工监测数据,半自动化、全自动化设备的数据,用有线或无线的传输技术,将监测数据传输到数据处理中心,对其进行去噪、清洗和转换,最后把可用于大数据平台数据挖掘的数据(数据仓库)存储在系统中。

在数据挖掘过程中,需要采用相关的理论分析方法作为基础,将数值计算方法作为手段,从数据集中找到某种规律,进而建立数学模型。对于数据准确完整、模型简单的场地性滑坡稳定性分析,可以结合较为完善的力学分析方法和数值模型方法验算;对于影响因素多样、数据不完整、结构复杂的场地性滑坡,采用神经网络模型和灰色模型等方法。如周科平等[16]采用频繁项集算法中的Apriori算法,利用滑坡现场得到的数据,分析得到了某矿山滑场发生的影响因素,并有效预测了其稳定性;张治强等[17]也采用了Apriori算法,把某采场的地形地貌、岩体性质和外在影响因素进行统一考虑,建立稳定性评价模型。

通过建立的稳定性分析模型,用以计算此滑坡在外界作用下的稳定性系数,或是利用可靠性分析模型预测此滑坡的破坏机率,为滑坡稳定性分析提供定量依据。

为了在大数据平台建立针对某场地的预测滑坡稳定性模型,本文利用Matlab模糊工具箱提供的ANFIS函数进行神经网络的参数学习算法上机试验。模糊神经网络常将常规的RBF神经网络和Hopfied神经网络中模糊地进行赋予输入和权值,进行参数学习。例如全反馈神经网络:

(2)

其中:X=(X1,X2,…,Xn)为输入样本;Y=(Y1,Y2,…,Yn)为实际输出;Wij为连接权值;θj控制阀值。通过3种方式调整输入和权值:① 实数输入,模糊权值;② 模糊输入,实数权值;③ 模糊输入,模糊权值。以此达到全局逼近的效果,参数学习的结果得到全局优化。我们收集了某高边坡工程2年的监测数据,利用Matlab软件中的模糊神经网络工具箱,研究开挖、支护和外在因素对孔口位移的影响。表4为孔口位置相关监测资料。

将前17组作为训练集,后5组作为检验集,得出预测位移与实测位移的对比关系,见表5,表内的预测值和实测值误差在20%以内。通过实例分析,神经网络等机器学习方法用于研究滑坡位移、应力、稳定性分析等方面具有独特的优势,采用大数据平台大数据量、高运算速度的优势,可以有效、并在很短时间内得到预测值,用于滑坡监测预警前景可观。

表4 某孔口位移监测基本资料

表5 计算位移与实测位移对比

2.4 地理信息系统(GIS)与滑坡地质全景可视化

GIS系统的坐标系采用了严格的地理坐标系,以经纬度存储单位,并可以进行坐标投影与转换,支持图形和数据的双向检索,具有强大的数据库分析功能,集成了GPS、CAD、RS技术,将GIS技术结合大数据平台进行应用,对于滑坡稳定性分析和展示将会发挥独特的优势。

该研究可集成国家和地区相关部门的滑坡灾害信息资料,利用地理信息系统(GIS)进行相关信息管理和可视化动态展示,通过大数据平台挖掘出来的结果用地理信息系统呈现出来,给客户直观地展示评价情况,这将成为大数据分析滑坡稳定的一种趋势。

3 结束语

由于滑坡的监测预警工作涉及到海量数据,传统的监测预警方法已不能满足现代化监测预警的需要。本文首先对大数据数据处理和数据挖掘等关键技术进行了总结,然后对滑坡监测预警大数据系统的整体架构、功能应用及其应用进行了阐述。随着大数据系统技术的发展,一些基于Hadoop平台的开源运算框架如Apache Spark等得到较快的发展,大数据平台的性能将得到大幅度提升,滑坡监测预警大数据技术的应用前景广阔。

[1] 陈铁军,陈华方,胡杨超,等.基于CC2480的山体滑坡监测系统[J].计算机工程与设计,2010,31(20):4512-4515.

[2] 刘东旗,刘新中,卜令俊,等.基于无线传感器网络的远程抄表系统信息智能传输的实现[J].电测与仪表,2009,46(12A):46-50.

[3] 唐亚明,张茂省,薛强,等.滑坡监测预警国内外研究现状及评述[J].地质论评,2012,58(3):533-541.

[4] 郭宇栋,李生林.大数据关键技术在基建营房综合管理系统中的运用[J].军事物流,2016,35(5):169-175.

[5] WIKIPEDIA.BigData[EB/OL].(2013-08-05) [2013-09-08].http://zh.wikipedia.org/zh/%E5%A4%A7%E6%95%B0%E6%8D%AE.

[6] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.

[7] 王树良,丁刚毅,钟鸣.大数据下的空间数据挖掘思考[J].中国电子科学研究研学报,2013,8(1):8-17.

[8] 郑玲微.大步跨入大数据时代][J].信息化建设,2013,173(1):11-13.

[9] 王逸飞,张行,何迪,等.基于大数据平台的电网防灾调度系统功能设计与系统架构[J].电网技术,2016,40(10):3213-3219.

[10] 王浩,覃卫民,焦玉勇.大数据时代的岩土工程监测折与机遇[J].岩土力学,2014,35(9):2634-2641.

[11] 李学龙,龚海刚.大数据系统综述[J].中国科学(信息科学),2015,45(1):1-44.

[12] WU X,KUMAR V,QUINLAN J R,et al.Top 10 algorithms in data mining[J].Knowledge & Information Systems,2007,14(1):1-37.

[13] 殷坤龙.滑坡灾害预测预报分类[J].中国地质灾害与防治学报,2003,14(4):12-18.

[14] 周科平,向仁军.基于粗糙集理论的数据挖掘方法在边坡稳定性分析中的应用[J].矿业研究与开发,2003,23(6):11-14.

[15] 赵建华,陈汉林,杨树锋,等.基于决策树算法的滑坡危险性区划评价[J].浙江大学学报(理学版),2004,31(4):465-470.

[16] 周科平,罗周全,史秀志.基于数据挖掘的采场稳定性的知识获取与应用[J].矿业研究与开发,2002,22(5):1-4.

[17] 张治强,蔡嗣经,马平波.数据挖掘在岩质边坡稳定性预测中的应用[J].北京科技大学学报,2003,25(2):103-106.

猜你喜欢

数据挖掘滑坡数据库
滑坡推力隐式解与显式解对比分析——以河北某膨胀土滑坡为例
探讨人工智能与数据挖掘发展趋势
滑坡稳定性分析及处治方案
基于并行计算的大数据挖掘在电网中的应用
数据库
浅谈公路滑坡治理
数据库
数据库
“监管滑坡”比“渣土山”滑坡更可怕
数据库