基于GS-SVM的膨胀土边坡防护工程健康预测模型
2022-02-23汪磊谢彦初孙德安张磊刘传新徐永福
汪磊,谢彦初,孙德安,张磊,刘传新,徐永福
(1.上海交通大学土木工程系,上海,200240;2.上海大学土木工程系,上海,200444;3.苏交科集团股份有限公司,江苏南京,210017)
膨胀土地区的工程问题一直是岩土工程领域研究的热点,也是防灾减灾工作的重要内容。由于膨胀土富含蒙脱石、伊利石等黏土矿物,对外部环境的变化非常敏感,具有强胀缩性和多裂隙性,造成其分布地区工程事故频发[1-2]。我国是世界上膨胀土分布最为广泛的国家之一,已在全国20 多个省份发现了膨胀土的分布,在膨胀土地区的土坡如路堤、路堑、渠道边坡等经常出现滑坡灾害,如安徽省淠史杭灌区1 385 km 长的干渠发生滑坡195 处,平均每10 km 有1.4 个滑坡;湖北省引丹灌区干渠挖方渠段坍塌55 处,填方段滑坡18 处[3]。因此,对膨胀土边坡防护工程进行准确、有效、快速的健康诊断,对于膨胀土边坡滑坡灾害风险管控具有重要的意义。
近年来,机器学习由于顺应了工程界对数据进行快速、有效处理的需求,得到了快速的发展[4]。机器学习方法能很好地描述边坡稳定性与其影响因素之间复杂的非线性映射关系,在使用已有数据建立好模型之后,对于新数据使用该模型能迅速得到预测结果[5]。而山区高速公路、水渠航道等具有边坡路段多、边坡防护结构相关资料不足的特点,因此,近年来机器学习方法在边坡评价领域得到了广泛研究和应用。MEJIANAVARRO等[6]利用GIS技术对边坡进行风险评价,在评估危害程度时考虑了基岩、表层地质和结构地质等7个因素,并运用机器学习算法计算滑坡等地质灾害易发区域,形成危险区域分区图,为城市建设提供参考。GORDAN 等[7]采用粒子群算法改进优化BP 网络,该方法解决了BP 网络易陷入极小点且收敛速度慢的问题。CHENG 等[8]提出了一种以贝叶斯框架和K 近邻结合的边坡稳定性预测模型,并采用山区边坡验证了模型的可靠性,有一定的实用价值。DAS等[9]基于logistic回归的滑坡易感度分析方法,结合GIS系统对印度山区易滑坡高速公路路段进行了分析,使边坡危险等级划分更加准确。邱维蓉等[10]将4种机器学习算法应用于甘肃省平凉市灵台县的边坡安全性评价,比较了几种算法的优劣。王健伟等[11]使用网格搜索法优化支持向量机的参数,使边坡稳定性系数的预测结果更加精准、稳定。武梦婷等[12]基于机器学习融合主成成分分析法(PCA),建立了梯度提升(XGBoost)边坡评价模型,确定了边坡防护工作重点考虑的因素。刘阳等[13]以贝叶斯网络为框架,结合模糊理论和支持向量机,挖掘了样本中的非线性特征与随机性,在样本数据缺失时仍能对边坡作出评估,提高了模型的实用性。黄发明等[14]使用自组织映射神经网络对滑坡易发性进行聚类分析,最后采用支持向量机模型对滑坡易发性进行评价,提高了模型的预测精度。王伟等[15]使用卡方检验和多重共线性分析方法对敏感因子进行筛选,并基于不同的机器学习算法构建了滑坡敏感性模型,为滑坡预警提供了参考。然而,目前机器学习方法主要应用于自然边坡的稳定性评价,对边坡防护工程的健康状态研究少见报道。因此,运用机器学习方法,建立一个膨胀土边坡防护工程健康预测模型,具有非常重要的工程意义。
支持向量机作为基于最小化结构风险的预测模型,其在解决数据的非线性、小样本数据、避免局部最优解等多个问题中均具有较强的适用性,已经广泛用于研究许多实际分类等领域的问题。本文作者采用支持向量机作为防护工程预测模型的基本算法,然后,运用网格搜索法优化模型的参数,并采用权重量化的方式对数据进行预处理以提高模型的预测准确率。最后,通过芜申(芜湖—上海)线高溧段航道整治工程东坝膨胀土段的42组边坡防护结构数据对所提出的模型进行应用验证,结果显示本文所建立的膨胀土边坡防护工程健康预测GS-SVM 模型具有较高的准确性,并可用于其他工程结构健康状态的预测。
1 支持向量机原理
支持向量机(support vector machines,SVM)是建立在统计学习理论基础上的一种机器学习算法,能成功处理模式识别(分类)和回归分析等诸多数据挖掘问题。它在解决小样本、非线性和高维模式识别问题中表现出许多特有的优势,并在很大程度上克服了“维数灾难”和“过学习”等问题[16]。
支持向量机基于构造风险最小理论,使离超立体最接近的元素到超平面的间隔最大。支持向量机的核心就是建立最好的分类超平面,从而提高学习分类机器的泛化处理能力。以二元分类为例,其基本思想可以概括为:先通过某种事先选择的非线性映射(核函数)将输入向量映射到一个高维特征空间,然后在特征空间中寻找最优分类超平面,使得它能够尽可能多地将两类数据点正确分开,同时使分开的两类数据点距离分类面最远,如图1所示。图1中,方形和三角形分别代表两类样本;H为最优分类超平面;H1和H2为过两类样本边界点并平行于H的直线,它们之间的距离γ为间隔。所谓最优分类线就是要求分类线不但能将两类正确分类,而且使间隔最大。距离最优分类超平面最近的向量称为支持向量[17]。
图1 SVM方法分类原理Fig.1 Classification principle of SVM method
以两类数据分类为例,SVM的求解过程如下:假设存在训练样本{xi,yi},i=1,2,…,m;xi∈Rn,,yi∈{-1,+ 1},m为样本数,n为样本特征维数。在线性可分的条件下,存在一个超平面使两类样本完全分开,记作
式中:w=(w1,w2,…,wn)为训练样本的权重向量,决定超平面的方向;x为输入向量;b为超平面与原点之间的距离。
求解最优分类超平面就是要找到最优的w和b,因此,可归结为以下二次规划问题:
为解决式(2)的二次规划问题,引入Lagrange乘子ai≥0,得到Lagrange函数[4]:
式中:a=(a1,a2,…,an)。约束最优化问题的解由Lagrange函数的鞍点决定,并且最优化问题的解在鞍点处满足对w和b的偏导为0,即
将式(4)代入式(3),则可将该二次规划问题转化为相应的对偶问题:
求解得最优a*=(a*1,a*2,…,a*m)T。由此可计算出最优权重向量w*和最优的b*:
由此得到最优分类超平面(w*·x)+b*=0,从而得到最优分类函数:
式(8)就是线性可分条件下的最优分类函数,然而,在现实任务中,原始的样本输入空间也许并不是一个能正确划分两类样本的超平面,这种情况属于线性不可分问题。对于这种情况,SVM可通过引入1 个非线性映射函数φ,将样本从原始空间映射到某个高维空间,从而转化为线性分类问题。并通过引入核函数K(x,xj)=φ(x)Tφ(xj),代替求解过程中的内积计算,降低计算难度。
通过求解线性不可分条件下的二次规划对偶问题,可以得到线性不可分问题的最优分类函数[17]:
2 GS-SVM健康预测模型
本文应用SVM 的基本原理构建膨胀土边坡防护工程的健康预测模型,运用指标权重对数据进行量化处理,再使用网格搜索法(grid search method)确定SVM模型的最优参数,实现对膨胀土边坡防护工程的高效健康预测。图2所示为基于GS-SVM 的膨胀土边坡防护工程健康预测模型流程图。
图2 基于GS-SVM的膨胀土边坡防护工程健康预测模型Fig.2 Health prediction model of expansive soil slope protection works based on GS-SVM
2.1 健康诊断指标选取
本文对膨胀土边坡防护工程的健康状态进行预测,选取的诊断指标主要反映防护工程的结构自身的破损情况,其次反映膨胀土边坡对防护结构的有害影响。根据研究区膨胀土边坡防护工程的特点,并参考行业规范[18-19]和已有研究成果,初步选取4类工程,即排水工程、坡面防护工程、支挡工程和边坡条件,14 个诊断指标,即截排水沟堵塞长度(D1)、截排水沟破损长度(D2)、骨架破损长度(S1)、骨架植物缺损面积比(S2)、护面破损面积(S3)、有害植被覆盖率(S4)、墙顶贯穿裂缝数量(R1)、贯穿裂缝最大宽度(R2)、墙顶表面破损面积(R3),墙体相对水平滑移(R4)、墙顶相对沉降(R5)、膨胀土自由膨胀率(C1)、边坡高度(C2)和边坡坡度(C3)。
2.2 数据预处理
原始样本数据由于单位、量纲、值域等存在显著差异,因此,通常先对其进行数据预处理,而相近研究中常用的数据预处理方式为标准化处理:
式中:maxj(xij)和minj(xij)分别为第j个指标的最大值和最小值;x′ij为标准化处理后的值。
本文中膨胀土边坡防护工程的健康诊断结果参考专家问卷调查结果。因此,通过专家调查法得到各诊断指标的相对重要性信息和诊断指标评价标准,求出指标数据分级矩阵D,运用改进层次分析法计算出诊断指标的主观权重向量,再结合CRITIC 法求出的客观权重向量,计算得到组合权重向量α:
式中:dij表示第i个样本的第j个指标的健康等级,1 ≤dij≤4,分别对应A,B,C 和D 这4 个健康等级。
再由权重α对分级后的指标数据进行量化处理:
式中:为经过权重量化处理的值。
通过对数据进行权重量化处理,使数据具有指标的权重信息,能提高预测模型的准确性。
2.3 训练集抽取比例
训练集是影响模型预测精确性的重要因素,因此,训练集从数据库中的抽取比例也间接影响模型的训练效果。在监督学习研究中,将常用数据库中80%的样本作为训练集。为了进一步研究训练集抽取比例对预测准确性的影响,本文将研究抽取比例确定为50%~80%,每增加10%为1 个抽取比例,共4种训练集抽取比例。
2.4 模型训练与预测
将经过量化处理的标准化数据集训练样本作为模型输入,通过网格搜索算法寻求模型的最优参数。将测试集数据输入到训练好的最优参数预测模型,获得相应的健康预测结果,并对预测结果进行评价和分析。
3 工程应用
本文以实际边坡数据为例建立基于GS-SVM的膨胀土边坡防护工程健康预测模型,模型中采用不同的数据预处理方法以及不同的训练数据抽取比例,并用预测精确率对不同条件下的预测模型进行对比分析。
3.1 模型样本数据库获取
本文数据库由42 个边坡样本组成,样本取自芜申(芜湖—上海)线高溧段航道整治工程东坝膨胀土段,位于南京市高淳区境内,样本数据来源于“芜申线高溧段航道整治工程东坝膨胀土段补充勘察工程地质勘察报告”[20]以及本文作者在现场实测结果。数据库中各样本的健康诊断结果据专家意见并通过计算得到。专家总结研究区膨胀土边坡防护工程健康状况调查结果,将防护工程健康状态分为4级,42个样本的专家意见如表1所示,各诊断指标将健康评价标准如表2所示。
表1 芜申线航道膨胀土边坡防护工程健康评级Table 1 Health rating of expansive soil slope protection project of Wu—Shen Line waterway
3.2 数据预处理
首先,对样本数据进行标准化处理,再通过专家调查法和相关规范[18-19]得到各指标之间的相对重要性信息和诊断指标评价标准(表2),将健康等级分为A,B,C 和D 共4 个等级,并求得指标分级矩阵,运用三标度层次分析法可以求得指标的权重,如表3所示。通过式(13)对样本数据进行权重量化处理。按照训练集抽取比例50%,60%,70%和80%,获得数据标准化和权重量化后的共8组训练集和测试集,用于防护工程的健康预测。
表2 健康诊断指标的评价标准Table 2 Evaluation standard of health diagnosis indexes
3.3 模型训练与预测
3.3.1 模型参数优化
在SVM模型中的惩罚参数c和核函数参数g是2 个重要参数,而参数c和g通过对训练集的训练学习确定。在本文中,训练集随着抽取比例和数据处理方式的不同而变化,因此,需要对8组训练集分别进行参数寻优。本文采用网格搜索法获取多组c和g参数组合,在各参数组合下分别进行模型训练和测试,得到每组c和g参数组合下的测试集分类准确率。当训练集抽取比例为80%时,经过权重量化数据处理的c和g参数优化结果等高线图如图3所示。最终在准确率(即正确的数与测试集总数之比)最高区域内选取最小的一组c和g作为模型的输入参数。
图3 GS-SVM参数寻优结果Fig.3 GS-SVM parameter optimization results
3.3.2 模型预测分析
将经过处理的8组训练集和测试集以及对应的最优c和g参数代入GS-SVM 预测模型,得到每种情况的预测结果,如表4所示。采用不同数据预处理方式的预测结果如图4所示。从图4可知:随着抽取比例增加,预测准确率逐渐提高,并且标准化处理数据的预测结果都低于权重量化处理数据的预测结果。其原因是在本文防护工程的健康诊断指标中,若结构健康完好,则指标取值为0,这大大影响了标准化处理的效果。而权重量化则避免了这一问题,通过对指标数据的初始分级,并经权重处理,避免了零值问题。
表4 健康预测结果汇总Table 4 Summary of health forecast results
图4 不同数据处理方式预测准确率对比图Fig.4 Comparison of prediction accuracy of different data processing methods
4 结论
1)基于GS-SVM 的预测模型能够对膨胀土边坡防护工程健康状态进行有效、精确预测。
2)通过提高模型的训练集抽取比例可以有效提高模型的预测准确率。
3)权重量化的数据处理方式有效地克服了案例中数据零值对模型训练的影响,提高了模型的预测精度。