APP下载

基于粗糙集理论的区域降雨型滑坡预测预报

2017-05-15曹洪洋任晓莹

水文地质工程地质 2017年2期
关键词:约简粗糙集降雨量

曹洪洋,任晓莹

(河北地质大学勘查技术与工程学院,河北 石家庄 050031)

基于粗糙集理论的区域降雨型滑坡预测预报

曹洪洋,任晓莹

(河北地质大学勘查技术与工程学院,河北 石家庄 050031)

选择四川省雅安市雨城区为研究区域,以该区降雨型滑坡为数据样本,结合粗糙集理论,提取了研究区域的降雨因子和地质因子作为条件属性因子,利用粗糙集的计算机挖掘和智能知识发现功能,分析得到了预测降雨型滑坡发生与否的有价值的规则集。所生成的决策规则能够实现该区域滑坡的预测预报。研究结果表明:本方法较传统的统计方法更符合降雨型滑坡预测的非线性关系,而且考虑了地质因素的影响,较单纯降雨阈值的预测方法有更高的空间分辨率。

粗糙集理论;降雨型滑坡;预测预报

降雨型滑坡是在一定地质、地形、地貌等条件下水与斜坡岩土体相互作用的结果。岩土体具有各种尺度的不均匀性,地形、地貌等也存在复杂性和空间变化性;不同时段的斜坡,其内在稳定性不同,触发滑坡的降雨量也不同。滑坡发生的概率是随不同地质、地形位置和降雨分布变化的[1]。

基于上述降雨型滑坡的复杂性,近几年对降雨型滑坡的预报或预测研究已经成为国际灾害地质领域的一个热点课题,部分学者对此进行了深入研究,大多研究成果主要集中在降雨阈值上,从降雨量和降雨强度方面结合数学模型得到所研究区的降雨阈值[2~3]。但对于一个地区而言,不同的地质因子的滑坡触发阈值是不一样的,因此降雨滑坡的预报需要考虑降雨因子和地质因子的共同作用。刘磊等[4]提出了运用TRIGRS模型,通过岩土体物理力学参数的不确定性进行各栅格失稳概率的求解,此方法实现了区域滑坡和单体滑坡之间的连接,但是在获取大范围内的水文参数和物理参数时较为困难。亓星等[5]提到了用降雨入渗模型考虑黄土滑坡的预警,但是此方法需要测得土体含水量、孔隙水压力、地下水位等相关参数随降雨过程的变化情况,众多参数的测量对于区域降雨型的滑坡预警还是有一定的难度。丁继新等[6]提出了“双因素”分级叠合方法对降雨型滑坡预报进行了研究,将“地质条件影响因子”和“降雨影响因子”进行分级叠合,得到易滑程度判别因子。此方法的基本思想基于危险度区划的思路,把降雨影响因子作为其中一个因子进行叠加,但是地质因子和降雨因子之间非线性耦合关系不能明确反映。曹洪洋等[7]提出了利用神经网络模型和地理信息系统技术对降雨型滑坡进行预报,基于神经网络的黑箱优化系统的特点,对于因素之间的内在关联还是不能很好地区分。如何在当前的区域降雨预报和降雨监测条件下,综合利用地质、地形和地貌等信息细化对滑坡预报的空间分辨率,则是当前对降雨引发的滑坡进行预报面临的一个挑战[1]。

我国近几年开展了县级的地质灾害调查工作,积累了大量的滑坡数据,如何从海量数据中挖掘出知识,部分学者也在地质灾害领域进行了尝试,这些领域主要集中在滑坡危险性区划、影响因子权重确定等方面[8~9]。因此有必要寻找一种有效的数据挖掘技术为实现降雨型滑坡预测预报提供技术支持。

数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等发展到一定阶段、多学科交叉的新兴边缘学科,集统计学、人工智能、模式识别、并行计算、机器学习、数据库、知识获取、数据可视化、专家系统等技术的一个交叉性的研究领域,能够解决“空间数据爆炸但知识贫乏”的现象[10]。数据挖掘技术始于商业应用,支持商业决策和市场策略。由波兰学者Pawlak提出的粗糙集理论能够对不完整的信息进行分析处理,在数据挖掘中有较为广泛的应用。粗糙理论能从数据中获取事物的内在联系并能用知识规则表达出来[11]。这一理论在知识与数据挖掘、模式识别及人工智能方面有了较为广泛的应用,在滑坡研究中也取得了一定的成果[12~14]。将粗糙集这一数据挖掘技术引入到降雨型滑坡预测预报,区别于传统的统计学方法,能够从历史降雨量滑坡数据中挖掘出有用的知识和规则,为预报提供有益的理论支持。

本文以四川省雅安市雨城区为例,结合危险性系数、降雨量和降雨强度数据,运用粗糙集理论研究了几种因素组合的降雨型滑坡发生的规则,其规则可用于降雨型滑坡的预测预报。

1 研究区概况及基本资料处理

1.1 研究区概况

研究区位于四川省雅安市雨城区,该区滑坡较为发育,滑坡以松散土石为主,纯基岩滑坡很少,松散土石滑坡为106处,占滑坡总数的89.1%,基岩土石混合滑坡2处,占滑坡总数的1.7%,崩坡积、坡残积碎块石土堆积较厚且陡,斜坡易发生滑坡,尤其是岩层倾向与坡向一致的陡倾顺向易发生滑坡。

1.2 样本数据

雅安市雨城区于2003年雨季发生强降雨过程,据调查记录6、7和8月份降雨后发生滑坡地质灾害46处,造成了大量的人员伤亡和财产损失,此46处滑坡的降雨量数据能够精确到天。数据为实地调查和监测所得,有较高的可信度。

为了研究降雨滑坡的启动机制,还需要有一定降雨量为启动的滑坡样本作为研究对象。本文选择已发生的降雨滑坡的前期不同时段的降雨数据样本84个,共组成了130个样本(降雨滑坡数据和降雨非滑坡数据)

1.3 降雨数据处理

降雨基础数据来源为布置在雨城区20个雨量计。首先通过GIS表面插值功能,对某个时段20个雨量站点降雨数据进行插值处理,然后设定插值方法,形成一个连续表面,并创建生成等值线图。通过叠加滑坡点图层和生成的等值线图或栅格文件图,就可以得到相应时间段内每个滑坡事件和未发生滑坡时间的降雨量数值。表1为部分地点降雨数据。

表1 雨城区2003年部分地点降雨数据

1.4 地质因子数据获取

采用作者所提出的“贡献率”的方法[15~16],利用GIS空间分析技术,通过分析历史滑坡数据,确定地质因子(坡度、坡向、地层岩组、植被覆盖、高程、断层构造、斜坡类型、水系及年降雨量)对滑坡发生的敏感性;采用因子叠加法,确定危险性区划分级。具体技术路线如图1所示。

图1 危险性区划技术路线图Fig.1 Flow chart of hazard zonation

危险性区划图如图2所示,每一栅格都对应有一数值,此数值为危险性区划值,在模型中将其赋予地质因子。

图2 危险性区划等级图Fig.2 Zoning map of susceptibility

2 粗糙集理论

二十世纪八十年代,波兰数学家Pawlak教授以数学分类为基础开始着手于研究不确定性和不完整性信息。1982年Pawlak教授发表的《Rough sets》一文标志粗糙集理论的诞生,文中提出无法确认或模糊的个体都可以用上近似集和下近似集合来表示边界线的区域[17]。

2.1 集合的近似及分类

在粗糙集理论中,假设R是论域U的一个等价关系,如果对象X为R的等价类的并集,那么对象相对于R是可定义的,可定义集合R也叫精确集。如果对象不是R上这些等价类的并,那么称对象相对于R是不可定义的,不可定义集合R也叫粗糙集。

(1)正域:对象a肯定属于集合X,用POSB(X)表示。

(2)负域:对象a肯定不属于集合X,用NEGB(X)表示。

(3)边界域:对象a可能属于也可能不属于集合X,用BNB(X)表示。

2.2 属性约简

假设B′⊆B,B′是独立的,如果有IB′=IB,那么就说B′是B的一个约简,记作RED(B),一个属性可能存在多个约简规则。约简后冗余的属性对整个集合属性没有影响,可以直接在决策表内删除,论域被约简后的属性集与之前整个属性集具有相同的分类能力。

核是指属性B所有约简后的交集,核中的任何元素不能被删除,是属性集合B的最重要的属性子集。

2.3 规则生成及提取

在决策信息表S=(U,C∪D)中,集合C和集合D分别为条件属性和决策属性,并满足C∪D=A,C∩D=φ,dx表示规则,Xi和Yi表示U/C和U/D中各条件类与决策类的等价类,des(Xi)表示对等价类Xi的描述,即对各条件属性值的特定取值,des(Yi)表示对等价类Yi的描述,即对各决策属性值的特定取值,公式表示如下:

(1)

(2)

规则定义如下:

dx:des(Xi)⟹des(Yi),其中,Xi∩Yi≠φ

在决策表中,每个样本可生成一个决策规则,在经过上述属性约简后,决策表已经得到了简化处理,也就是决策规则已经删减了一部分,但是决策表中仍存在着冗余的样本数据,因此,最后要依据相应决策规则的提取算法来进一步简化决策规则。

3 基于数据挖掘的降雨型滑坡预测预报模型研究

从大量历史降雨滑坡数据中获得关于样本的分类的知识,即为上述粗糙集理论的决策规则的获取。模型建立的流程包括提取样本的条件属性和决策属性,对属性进行约简提取核,进而生成预测规则。其中条件属性为累计降雨量、当天降雨量和危险系数,决策属性为是否滑坡。

选择哪一时段的降雨数据作为预测的气象因子,学者给出了不同的解释[18]。各个学者在对滑坡预测预报研究中选择气象因子时有选择滑坡发生前几日降雨量数据的,有选择累计降雨量数据的。李铁峰[19]在研究中分别建立了前十日的逻辑回归模型和当日降雨量及累计降雨量逻辑回归模型,研究结论认为后一种模型预测精度较高。

累计有效降雨是指前期进入岩土体一直滞留,对滑坡发展有贡献的降雨量,李长江等[1]对累计有效降雨强度公式进行了详细的说明,给出了1986年Crozier给出的有效降雨指数与日降雨量之间的指数关系:

(3)

式中:Pa0——相对0天的经校正的有效前期降雨;R1——0天之前1天的降雨量;Rn——0天之前n天的降雨量;K——土层中水流量的衰减系数。

本项研究中分别选用滑坡发生前几日降雨量数据和累积降雨量数据进行分析。其中累计降雨数据的计算采用上述公式。

3.1 粗糙集分析

粗糙集的分析过程是首先将原始降雨型滑坡数据分为训练部分和测试部分,训练部分的数据利用一定的算法进行离散化,并将求得的断点保存,离散后的训练表进行粗糙集分析,按genetic algorithm或Johnsonal algorithm算法进行约简,生成可能的约简集,从约简集按一定的条件提取规则。最后通过测试部分数据按生成的规则进行学习来判断其准确率。

先考虑将滑坡发生前5日降雨量数据作为条件属性进行分析,表2为部分样本数据。

表2 部分样本数据

将130个样本中的117个数据作为训练样本,其余13个样本作为测试样本。

由于条件属性中R0、R1、R2、R3、R4和危险系数都为连续型数据,因此需要对其进行离散化,生成二维决策属性表的形式。表3 为部分样本离散化后的形式。

按遗传算法(genetic algorithm)进行约简,生成表4所示的4个约简集。

从以上4个约简集可以看出,除了R0为必不可少的子集外,其他的条件属性和结论之间都没有必要的关系。基于此结论,本研究中将R1、R2、R3、R4降雨数据以有效降雨量数据代替,粗集分析中条件属性分别为R0、累积降雨量和危险系数,决策属性为滑坡和非滑坡两类。表5为部分样本数据。

表3 离散化后样本数据

表4 基于遗传算法的约简集

表5 部分样本数据

同样按上述步骤进行离散,表6为离散后的数据。

表6 离散后的样本数据

按遗传算法(genetic algorithm)进行约简,生成了一个约简集{R0, 危险系数, 有效降雨量Pa0},可以看出所有三个条件属性都是必不可少的,条件属性不能再进行约简。

为了验证约简及生成规则的正确性,需要对测试样本按生成的规则进行学习,生成的结果如表7所示。

表7 学习情况统计矩阵图

由表7可以看出,13个测试样本根据生成的规则进行判断,其中9个非滑坡数据和3个滑坡数据判断完全正确,1个样本不能识别,准确率达到了92.3%。

3.2 决策规则的生成及筛选

经过上述分析计算后生成了31条规则,从中提取匹配频度较高的9条规则如表8所示。

抽取部分规则解释如下:

规则1对于危险因子为一般的地区[0.172 5,0.258 6),在当日降雨量为[70,90)时,累积降雨量为[70,90)时,就会发生滑坡。

规则4 对于危险因子为危险的地区[0.258 6,0.35),当日降雨量和累积降雨量均较小时,不会发生滑坡。

规则 7对于危险因子为危险的地区[0.258 6,0.35),当日降雨量和累积降雨量均超过90时,发生滑坡的可能性较规则1要大。

规则8和规则9 不管危险还是一般的区域,当日降雨量和累积降雨量均低于30时,不会发生滑坡,并且支持度较大。

表8 主要规则信息

4 结论与问题

(1)通过气象部门当天的天气预报和计算的累积降雨量数据,按照上述理论方法可对雨城区进行降雨型滑坡的预报,不同的区域对应于不同的降雨强度和累积降雨量,降雨型滑坡的启动机制和下垫层密切相关,较以往研究方法一个地区降雨阈值的方法,本方法提高了预报的空间分辨率。

(2)基于粗集理论的区域降雨型滑坡预报方法将危险性区划研究和降雨预报联系起来,并能揭示影响因素之间的内在联系,生成了知识规则,能够实现从数据到知识的提升,这较以往方法的优越之处。

需要注意的是,此方法在应用过程中,还需要不断加大样本的学习量,使得判断的精度更高,挖掘出的知识更具有普遍性。此外,在离散化过程中,断点的选择对于最后的结果有较大的影响,如何选择较为合适的断点方法,是需要进一步探讨的。

[1] 李长江,麻土华,朱兴盛.降雨型滑坡预报的理论方法及应用[M].北京:地质出版社,2008:41.[LI C J,MA T H, ZHU X S. Forecasting of Landslides Triggered by Rainfall: Theory, Methods & Applications[M].Beijing: Geological Publishing House,2008:41.(in Chinese)]

[2] Guzztti F,Peruccacci S,Rossi M,etal.Rainfall thresholds for the initiation of landslides[J].Meteorology and Atmospheric Physics,2007,98(3/4): 239-267.

[3] 唐红梅,魏来,高阳华,等. 基于逻辑回归的重庆地区降雨型滑坡预报模型[J]. 中国地质灾害与防治学报,2013,24(3):32-37.[TANG H M, WEI L, GAO Y H,etal. A prediction model for rainfall-induced landslide based on logistic regression in Chongqing area[J]. The Chinese Journal of Geological Hazard and Control,2013,24(3):32-37. (in Chinese)]

[4] 刘磊,殷坤龙,王佳佳,等.降雨影响下的区域滑坡危险性动态评价研究—以三峡库区万州主城区为例[J].岩石力学与工程学报,2016,35(3):558-569.[LIU L, YIN K L, WANG J J,etal. Dynamic evaluation of regional landslide hazard due to rainfall:a case study in Wanzhou central district,Three Gorges Reservoir[J]. Chinese Journal of Rock Mechanics and Engineering, 2016,35(3):558-569. (in Chinese)]

[5] 亓星,许强,孙亮,等. 降雨型黄土滑坡预警研究现状综述[J]. 地质科技情报,2014,33(6):219-225.[QI X, XU Q, SUN L,etal. Research Overview on Early Warning of Precipitation-induced Loess Landslides[J]. Geological Science and Technology.,2014,33(6):219-225. (in Chinese)]

[6] 丁继新,杨志法,尚彦军,等. 降雨型滑坡时空预报新方法[J]. 中国科学 D辑:地球科学,2006,36(6):579-586.[DING J X, YANG Z F, SHANG Y J,etal. A new method for warning of Precipitation-induced Landslides[J]. Science in China Ser. D Earth Seienees,2006,36(6):579-586. (in Chinese)]

[7] 曹洪洋,王禹,满兵. 基于GIS的区域群发性降雨型滑坡时空预报研究[J]. 地理与地理信息科学,2015(1):106-109. [CAO H Y, WANG Y, MAN B. Spatio-temporal prediction of the regional group-occurring rainfall-induced landslides based on GIS[J]. Geography and Geo-Information Science,2015(1):106-109. (in Chinese)]

[8] 刘鹏,田原,李亭,等. 基于空间聚集度的滑坡危险性区划补充评价——以深圳市为例[J]. 地理与地理信息科学,2015(4):47-50. [LIU P, TIAN Y, LI T. Supplemental Evaluation of Landslide Susceptibility Zonation Based on Spatial Clustering: A Case Study of Shenzhen[J]. Geography and Geo-Information Science,2015(4):47-50. (in Chinese)]

[9] 邱丹丹,牛瑞卿,赵艳南,等. 斜坡单元支持下地震滑坡危险性区划——以芦山地震为例[J]. 吉林大学学报(地球科学版),2015(5):1470-1478.[QIU D D, NIU R Q, ZHAO Y N,etal. Risk Zoning of Earthquake-Induced Landslides Based on Slope Units:A Case Study on Lushan Earthquake[J]. Journal of Jilin University (Earth Science Edition),2015(5): 1470-1478. (in Chinese)]

[10] 李德仁,王树良,李德毅,等. 论空间数据挖掘和知识发现的理论与方法[J]. 武汉大学学报(信息科学版),2002(3):221-233. [LI D R, WANG S L, LI D Y. Theories and Technologies of Spatial Data Mining and Knowledge Discovery[J]. Geomatics and Information Science of Wuhan University,2002(3):221-233. (in Chinese)]

[11] Pawlak Z. Rough Sets-Theoretical Aspects of Reasoning about Data[M]. Dordrecht: Kluwer Academic Publishers,1991:56-63.

[12] 刘吉平,刘汉青,曾忠平,等. 基于粗糙集理论滑坡影响因子评价研究——以三峡库区青干河流域为例[J]. 水文地质工程地质,2010,37(5):118-122. [LIU J P, LIU H Q, ZENG Z P,etal. Assessment of impact factors for landslides based on rough sets theory: A case study on the Qingganhe River of the Three Gorges area[J]. Hydrogeology & Engineering Geology, 2010,37(5):118-122. (in Chinese)]

[13] 牛瑞卿,彭令,叶润青,等. 基于粗糙集的支持向量机滑坡易发性评价[J]. 吉林大学学报(地球科学版),2012(2):430-439.[NIU R Q, PENG L, YE R Q,etal. Landslide Susceptibility Assessment Based on Rough Sets and Support Vector Machine[J]. Journal of Jilin University(Earth Science Edition), 2012(2):430-439. (in Chinese)]

[14] 程温鸣,彭令,牛瑞卿. 基于粗糙集理论的滑坡易发性评价——以三峡库区秭归县境内为例[J]. 中南大学学报(自然科学版),2013(3):1083-1090. [CHENG W M, PENG L, NIU R Q. Landslide susceptibility assessment based on rough set theory: Taking Zigui County territory in Three Gorges Reservoir for example[J]. Journal of Central South University(Science and Technology), 2013(3):1083-1090. (in Chinese)]

[15] 曹洪洋, 边亚东.一种新的区域滑坡影响因子敏感性分析方法研究与应用[J].湖南科技大学学报(自然科学版),2009,24(2): 49-52.[CAO H Y, BIAN Y D. Application and research of a new method on sensitivity analysis of influence factors of regional landslides[J]. Journal of Hunan University of Science & Technology (Natural Science Edition,2009,24(2):.49-52. (in Chinese)]

[16] 曹洪洋, 郝东恒, 白聚波. 区域滑坡灾害地形地貌因子敏感性分析研究[J]. 中国安全科学学报,2011,21(11):1-5.[CAO H Y, HAO D H, BAI J B. Sensitivity Analysis of Topography and Geomorphology Factor of Region Landslides[J]. China Safety Science Journal,2011,21(11):1-5. (in Chinese)]

[17] 王国胤,姚一豫,于洪.粗糙集理论与应用研究综述[J].计算机学报,2009,32(7):1229-1246. [WANG G Y, YAO Y Y, YU H. A Survey on Rough Set Theory and Applications[J]. Chinese Journal of Computers,2009,32(7):1229-1246. (in Chinese)]

[18] 张明,胡瑞林,谭儒蛟,等. 降雨型滑坡研究的发展现状与展望[J].工程勘察,2009(3):11-17. [HANG M, HU R L,TAN R J,etal. State-of-the-art Study on Landslides Due to Rainfall and the Prospect[J]. Journal of Geotechnical Investigation & Surveying,2009(3):11-17. (in Chinese)]

[19] 李铁锋,丛青威.基于Logistic回归及前期有效雨量的降雨诱发型滑坡预测方法[J].中国地质灾害与防治学报,2006, 17(1): 33-35. [LI T F, CONG Q W. A method for rainfall-induced landslides prediction based on Logistic regression and effective antecedent rainfall[J]. The Chinese Journal of Geological Hazard and Control, 2006, 17(1): 33-35. (in Chinese)

Rainfall-induced landslides prediction based on rough sets

CAO Hongyang, REN Xiaoying

(CollegeofProspectingTechniquesandEngineering,HebeiGEOUniversity,Shijiazhuang,Hebei050031,China)

The rainfall-induced landslides data in the Yucheng district,Ya’an city in Sichuang province are chosen as the sample data. Rainfall factors and geologic factor are extracted as the condition attribute of the rough sets. Based on the data mining and intelligent knowledge discovery function of the rough sets theory, the valuable rules are generated which can make judgments to rainfall-induced landslides occurrence. The decision rule can provide the prediction of regional landslides. The nonlinear characteristic and geological factors of the landslides are considered, and the method has a better predictive effect and higher spatial resolution than the traditional statistical method.

rough sets; rain-induced landslides; prediction

10.16030/j.cnki.issn.1000-3665.2017.02.18

2016-10-08;

2017-01-16

河北省自然科学基金项目资助(D2015403033);国家自然科学基金项目资助(41301015)

曹洪洋(1975-),男,博士,副教授,主要从事灾害地质和岩土工程教学和科研工作。E-mail:hongyangc@126.com

P642.22

A

1000-3665(2017)02-0117-07

猜你喜欢

约简粗糙集降雨量
降雨量与面积的关系
基于Pawlak粗糙集模型的集合运算关系
基于二进制链表的粗糙集属性约简
实值多变量维数约简:综述
基于模糊贴近度的属性约简
多粒化粗糙集性质的几个充分条件
双论域粗糙集在故障诊断中的应用
洞庭湖区降雨特性分析
两个域上的覆盖变精度粗糙集模型
罗甸县各乡镇实测降雨量分析及应用研究