河道山地灾害的卷积神经网络快速识别方法

2019-05-08赵鹏辉李俊杰

水利水运工程学报 2019年2期

赵鹏辉，李俊杰， 2，康飞

(1. 大连理工大学建设工程学部水利工程学院，辽宁大连 116024； 2. 西藏大学工学院，西藏拉萨 850000)

我国是一个多山国家，山地、丘陵和高原的面积约占国土总面积的69%。山地特有的能量梯度使泥石流、滑坡、山洪、水土流失等典型山地灾害严重危害着河道周边公路、铁路、桥梁、大型水利工程等重要基础设施的安全[1]。山区公路、铁路、大型水利工程等重要基础设施多处于江河深切割河谷地带，山坡陡峻、地质构造复杂、地层分布特殊，较差的地质条件为河道山地灾害活动，尤其是滑坡、泥石流的发生和发展提供了特定的环境和丰富的固体物质[2-3]。河道周边发生滑坡、泥石流等山地灾害往往具有体量大、破坏力强等特点，常会毁坏公路铁路等交通设施甚至村镇。大型(滑坡体体积为100～1 000万m3)和特大型(滑坡体体积大于1 000万m3)滑坡、冰湖溃决型泥石流会堵塞河道形成堰塞湖，造成湖水上涨，一旦溃决将对下游人民生命财产及重要基础设施造成巨大损失，其危害往往比滑坡、泥石流本身更严重[4]。及时发现、识别已发生的山地灾害对采取合适的应急救灾预案、及时发布疏散信息意义重大。但山区河道往往地广人稀，传统方式巡检观测河道内山地灾害具有极高的危险性和明显的时间滞后性，因此研究河道山地灾害快速识别方法成为目前迫切需求。

随着大数据时代的到来，以卷积神经网络为代表的深度学习技术相比传统机器学习技术在图像识别领域具有更强大的特征学习和特征表达能力。2012年，卷积神经网络(CNN)技术首次应用在ImageNet大规模视觉识别竞赛 (ILSVRC)中便将top-5错误率由传统机器学习技术的26%降至15%，2015年微软利用CNN技术又将ILSVRC评测的错误率降低至3.57%[5]，首次超越人眼判别错误率(约5.1%)。卷积神经网络具有参数共享的网络结构，大大降低了模型的复杂度与参数数量，避免了传统机器学习技术严重依赖于经验的特征提取与特征选择过程。在卷积神经网络中，图像像素作为网络的最底层输入，信息依次传输到不同的层，每层通过卷积核取得图像特征，这种网络结构提取到的特征对于平移、旋转、位姿变化、比例缩放具有高度不变性。受此启发，在深度学习开源框架下，利用大量现有的河道山地灾害图片数据完成了多种深度模型的训练、迁移，实现了泥石流、滑坡两种河道山地灾害的高准确率识别。

1 卷积神经网络

1.1 传统机器学习技术

传统的机器学习技术在处理图像数据完成图像分类任务时，一般按照图像采集-预处理-特征检测-特征选择-图像分类的流程进行。图像特征检测、选择是成功解决问题的关键[6]，目前一般采用方向梯度直方图、尺度不变特征变换、局部二值模式等特征检测方法。这些特征检测方法往往需要经验丰富的专家来设计，无法真正提取共性的全局特征，仅适用于固定场景图像的理解。河道山地灾害往往图像背景复杂，拍摄视角难以固定。采用传统机器学习技术进行分类时，图像特征检测方法仍需重新设计，无法实现快速识别。

1.2 卷积神经网络理论

在处理场景变化的复杂图像分类问题时，以卷积神经网络为代表的深度学习方法不需要人工设计特征检测方法，而是由机器自动学习获得，适用于复杂的图像场景，且具有良好的鲁棒性与泛化能力。

卷积神经网络是一种特殊的深度前馈网络，每层由多个特征提取平面组成，一个典型的卷积神经网络架构如图1所示。

图1 典型卷积神经网络的网络结构[7]

输入的图像通过多个可训练的卷积核进行卷积，得到C1层与卷积核数量相同的特征图，然后通过池化操作将特征图降采样得到S2层特征映射图，这些特征映射图再通过卷积得到C3层，之后又通过与S2相同的方式得到S4层，最终这些采集到的高维度特征被光栅化，在全连接层中被分类处理，得到输出。由于卷积过程中一个映射面上的神经元权值共享，在卷积核所在的区域，所有像素和卷积核对应位置相乘求和的过程中，均与同一组权重相乘，因此大大减少了参数的个数与参数初始化的难度。池化是一种统计信息提取的方式，为求出特征图上一个给定区域中能代表该区域特点的值，在深度学习中一般采用平均值池化(average-pooling)或最大值池化(max-pooling)。池化层最直接的作用是引入了不变性，在池化区域内部任何的位移都不会对结果产生影响[8]。卷积神经网络这种卷积层与池化层结合的二次特征提取结构使网络在识别时对图像样本有很高的畸变容忍能力，鲁棒性较强。

卷积神经网络将数据集中大量有标签的图像数据从原始高维特征空间映射到低维特征空间，训练分类器，具有良好的泛化能力[9- 10]。因此对于图像背景、拍摄视角无专业背景知识的需求。

1.3 卷积神经网络训练

本文的网络模型是在由伯克利视觉和学习中心(Berkeley Vision and Learning Center，BVLC)开发的高效深度学习开源框架Caffe上运行训练的。Caffe是基于C++/CUDA实现的卷积神经网络框架，提供Python和Matlab接口，是目前实现前馈卷积神经网络架构的主流深度学习框架。本文GPU使用了NVIDIA公司GeForce GTX745，主要对比了ImageNet大型视觉识别挑战赛(ILSVRC)2012年冠军AlexNet及其改进版本CaffeNet与ILSVRC2014年冠军GoogLeNet，之后又在其训练结果之上结合迁移技术进行微调测试模型识别准确率。CaffeNt与AlexNet相似，均由5个卷积层、3个全连接层组成，不同之处在于二者局部响应归一化层(Local Response Normalization，LRN)与池化层(Pooling)互换了位置。GoogLeNet是2014年Christian Szegedy提出的一种全新的22层深度学习结构，为了避免增大网络深度(层数)带来的负作用如过拟合、梯度消失、梯度爆炸等[5, 11]，提出了inception结构，在相同尺寸感受野中叠加1×1卷积核、3×3卷积核、5×5卷积核，更高效地利用计算资源，在相同计算量下能提取到更多的特征，从而提升训练效果。采用收敛速度最快的AdaDelta作为优化器，模型最终准确率也最高。

2 河道山地灾害图像来源及特征

2.1 川藏公路

川藏公路南线是我国318国道的组成部分，由四川成都至拉萨，全长2 146 km。该线路是西藏联络内地的交通命脉之一，对于发展西藏经济、加强民族团结和保障国家安全等方面均有重要的战略意义。频发的多种河道山地灾害导致该线路经常断道，严重影响了西藏经济发展。

2.2 帕隆藏布流域河道

帕隆藏布流域属念青唐古拉山系，位于N29°07′～N31°03′，E92°53′～E97°07′，山岭海拔一般在5 500～6 000 m，全流域面积28 630.9 km2，其中干流所在的波都藏布及其以上流域面积11 551.5 km2，易贡藏布13 533.4 km2，拉月曲3 141.5 km2，分别占全流域面积的40.3%，47.3%和11.0%。帕隆藏布全长266 km，落差3 360 m, 平均比降12.6‰，流域内有森林3 500 km2, 现代冰川4 638.42 km2，高山灌丛草甸及草原20 385.2 km2，分别占全流域面积的12.2%，16.2%和71.2%[12]。川藏公路从流域东南角的安久拉垭口(海拔4 468 m)进入，沿帕隆藏布干流从东南向西北，在通麦折向西南，沿拉月曲上行，经色季拉垭口(海拔4 556 m)离开该流域，全长296 km[13]。由于该流域受印度洋暖湿气流影响，降水丰富，河道侵蚀发育，河流深切，相对高差一般在2 000～4 000 m，谷坡陡峻，谷坡表面物质移动强烈，使得川藏公路在该流域沿途遭遇各种山地灾害的干扰和破坏，其中以滑坡、泥石流最为严重，从山地灾害的角度来看，该流域河道堪称山地灾害的“博物馆”。

2.3 图像数据集

图2 数据集中典型滑坡、泥石流灾害图像Fig.2Typical images of landslides and debris flows in data set

本文采用的图像数据多数为项目组人员在川藏公路帕隆藏布流域河道附近多次野外考察所得，基本涵盖土质滑坡中堆积体滑坡、残坡积层滑坡、人工填土滑坡，岩质滑坡中近水平层状滑坡、顺层滑坡、切层滑坡、逆层滑坡、楔形体滑坡，以及暴雨型泥石流、冰川型泥石流、冰碛型泥石流等滑坡、泥石流主要形式(图2)。部分来源于互联网相似图片。帕隆藏布流域河谷气候独特，是西南季风和印度洋暖流进入青藏高原的交汇处，具有充沛的降水[14]。对于滑坡、泥石流等河道山地灾害而言降水是最主要因素，因此帕隆藏布流域河道内山地灾害频发。由于水热条件优越，流域内发育了丰富的河谷亚热带北缘的常绿阔叶林、高山灌丛草甸和草原稀疏植被。森林和高山灌木丛等植被对抑制小型泥石流有很大作用，对中等规模以上的泥石流等灾害作用却不大[3]。因此该流域泥石流、滑坡发生后往往与周边植被具有明显界限，如图2所示。

图像采集设备主要采用无人机、数码相机，同时辅助使用手机、数码摄像机等。由于图像采集设备的分辨率不同，为了满足卷积神经网络对输入数据的要求，在数据采集准备阶段将图片统一归一化为256×256。本文将已采集的原始图片数据分为滑坡、泥石流、正常情景共3类各2 000张图像，受限于实地灾害图像难以取得、数量较少，难以满足卷积神经网络对数据量的要求，本文使用旋转、调整图像对比度两种方法将各类数据图像均扩充至6 000张，其中滑坡图像标签统一设置为0，泥石流图像标签设置为1，正常情景图像标签设置为2，各类图像随机选取4 800张作为训练集，1 200张为测试集。

3 网络模型训练结果分析

相同数据集下对AlexNet，CaffeNet，GoogLeNet直接训练计算结果如图3所示。

图3 3种网络训练结果对比

从图3可以看出，3种网络在约第1 200次迭代完成后均达到收敛，从测试准确率来看AlexNet网络模型的测试准确率最高达到85.2%，CaffeNet与GoogLeNet网络模型测试准确率为77.5%。从损失函数值来看，AlexNet的损失函数值下降最快，在迭代完成后达到0.38，CaffeNet与GoogLeNet完成迭代后损失函数值稳定在0.45。