基于KPCA-GPC的地震砂土液化预测

2018-01-09赵国彦

中国地质灾害与防治学报 2017年4期

关键词：砂土高斯液化

赵国彦，彭俊，刘建

(中南大学资源与安全工程学院，湖南长沙 410083)

基于KPCA-GPC的地震砂土液化预测

赵国彦，彭俊，刘建

(中南大学资源与安全工程学院，湖南长沙 410083)

砂土液化；特征冗余；核主成分分析；高斯过程分类；预测模型

0 引言

砂土液化是指饱和砂土在动力荷载作用下，因丧失抗剪强度而致使砂砾处于悬浮状态的现象，其极具危害性。目前，在饱和砂土地震液化判别研究方面，已发展了多种从经验到理论的判别方法，包括标准贯入试验法(SPT)、静力触探试验法(CPT)、剪切波速试验法(VS)等[1]单指标判别法，以及神经网络法[2]、支持向量机法[3]、贝叶斯网络法[4]、多元判别分析法[5-6]等多指标综合判别法。由于影响砂土液化的因素众多，从任何单一指标预测砂土液化都是不可靠的；同时，在引起砂土液化因素之间微观机制不明确的情况下，利用收集到的历史数据和试验数据进行多因素综合评判就成为当下砂土液化预测的重要手段。

在多指标综合判别法中，采用的判别因子数量一般为5～12[2-6]，文献[7]分析了多达22个判别因子。虽然判别因子越多，信息越丰富，但过多的判别因子就会造成特征冗余，进而导致结果错误[8-9]。因为冗余的特征被认为是由同一因素引起的不同表现形式，而对于判别算法而言通常将特征赋予同等重要性，这使得冗余特征背后的因素被夸大，从而导致错误的结果。文献[6]将主成分分析(PCA)引入到砂土液化预测中，通过对初始液化判别指标进行降维处理和信息提炼，然后再进行判别分析。然而，PCA只能进行线性特征提取，大量高阶统计信息往往被丢弃，基于砂土液化的非线性特性，本文引入核主成分分析方法(KPCA)对初始判别因子进行非线性特征提取。

高斯过程(Gaussian Process, GP)是基于统计学习理论发展起来的一种具有概率意义的核学习机。它对处理高维数、小样本、非线性等复杂分类和回归问题具有很好的适应性，且具有泛化能力强、计算简单、参数自适应获取等突出优点[10-11]。与一般的判别方法相比，高斯过程分类模型(GPC)不仅能反映数据库中数据间的概率关系，而且能对数据结果的可能性加以量化评价。因此，GPC模型适用于表达和分析不确定性和概率性事件，特别适用于像液化判别这样依赖多种控制因素的高度非线性复杂问题。

本文在对原始砂土液化数据进行核主成分分析之后，引入高斯过程分类模型(GPC)，构建了基于KPCA-GPC的砂土液化预测模型。

1 KPCA-GPC理论与算法

1.1 核主成分分析

KPCA的基本思想是通过非线性映射函数Φ:Rm→F把输入数据x映射到一个高维特征空间F，然后在特征空间F中进行主元分析，从而可以有效提取输入数据集的非线性结构信息[12]。

设样本集为X={x1,x2,…,xN}，其中xk∈Rm，N为样本总数，通过Φ:Rm→F，X→Φ(X)映射到特征空间F，则F空间中样本的协方差矩阵为

(1)

式中：C为协方差矩阵。对C进行特征值分解：

Cν=λν

(2)

式中：λ、v分别为C的特征值和特征向量。且：

(3)

式中：αi为常系数。引入矩阵K:Kij=Φ(xi)·Φ(xj)，于是式(2)可写为：

λNα=Κα

(4)

设αk表示λk对应的特征向量，样本Φ(x)在F中νk方向的投影

(5)

为对应于Φ的第k个主元。

在KPCA中，核函数的选择至关重要，到目前为止，仍没有成熟的理论作指导。核函数的形式很多，常用的核函数有多项式核函数(polynomial kernel)和高斯核函数(Gaussian kernel)，具体形式参见文献[13]。KPCA具体原理详见文献[8]。

1.2 高斯过程分类模型

GPC是一种基于高斯过程原理的分类方法，其分类过程见图1[11]。假定训练样本集为D={(xi,yi)|i=1,…,n}=(X,y)，X=[x1,…,xn]T为n×d输入矢量集，y=[y1,…,yn]T为n×1输出值集合，作为二分类标志yi∈{-1,1}，f=[f1,…,fn]T为n×1潜在函数值，其中fi=f(xi)。利用映射关系Sig(x)将f映射到区间[0,1]，即Sig(f)∈[0,1]，通常称映射关系Sig(x)为响应函数，其一般可取为标准正态分布的累计分布函数。

假定潜在函数f的先验分布p(f|X)服从高斯分布：

p(f|X)～N(f|m,K)

(6)

在给定潜在函数f时，观测数据y是相互独立的，则联合似然分布为：

(7)

根据贝叶斯公式可得后验分布：

图1 高斯过程二元分类模型在判别式框架中的图形描述Fig.1 The graphical representation of GPC in the discriminative framework

(8)

式(6)中：m为均值向量，m=[m1,…,mn]T，一般令m1=m2=,…,=mn=θ1；K为n×n阶协方差矩阵，Kij=k(xi,xj,θ2)，k(·)表示与θ2有关的正定协方差函数；θ={θ1,θ2}称为超参数，最优超参数可通过极大似然法来估计。

给定测试点X*，则与测试点X*对应的潜在函数值f*的后验概率为:

(9)

根据式(9)可以进一步算得对应于f*的分类预测概率:

(10)

GPC模型中，常以p(y*|X,x*,y)=0.5作为分类界限。本文中y*的预测概率大于0.5的为一类，对应的y*=+1；y*的预测概率小于0.5的为另一类，对应的y*=-1。这里只对GPC模型做简单介绍，具体原理详见文献[10]。

2 工程实例

2.1 确定砂土液化判别因子并构造样本集

砂土液化的影响因素归纳起来有3大类，X.W.Tang[7]等总结了近20年203篇中外文献中砂土液化的共计22个影响因子，即：(1)动荷条件：主要指震动的强度和效度，包括地震烈度(a)、震中距离(b)、地震方向(c)、地震频度(d)、持续时间(e)；(2)埋藏条件：包括砂层厚度(f)、砂层埋深(g)、地下水位(h)、应力历史(i)、地层结构(j)、地形(k)、地层年代(l)；(3)土性条件：包括土质组构(m)、黏粒含量(n)、平均粒径(o)、颗粒形状(p)、不均匀系数(q)、相对密度(r)、饱和度(s)、排水条件(t)、固结程度(u)、剪应力比(v)。这些因子的出现频率见图2。

图2 砂土液化影响因子引用频率Fig.2 Citation frequency of influence factors of soil liquefaction

为验证本文提出的砂土液化预测模型的可行性和实用性，以唐山地震砂土液化的25个案例为样本进行建模，原始数据见表1。表中，前19个样本为学习样本，首先对其进行核主成分分析，然后利用GPC进行训练，得到砂土液化的高斯过程分类模型，最后以余下6个样本进行检验。

2.2 特征冗余分析

一般，引起数据特征冗余的原因主要有两种[8-9]：①数据之间具有较强的相关性；②无关数据或低贡献数据的引入。对表1中的数据进行Z-score标准化处理(处理后，每个判别指标均值为0，标准差为1)，各项因素之间相关系数矩阵见表2。由表2可知：判别因子之间有显著的相关性，如X5与X2、X4与X3、X3与X2、X4与X2等。同时采用互信息[14](Mutual Information)方法计算每个判别因子对实测结果的相关性，结果见图3，计算所得标准化互信息值(MI)越大，则表明该影响因子对实测结果的作用越强。由图3可知，8个因子的MI值大体相同，故样本中不涉及无关数据或低贡献数据。所以，针对本文样本数据，特征冗余主要由影响因子之间的相关性引起，故对原始样本进行去相关处理以精简和提炼数据。

表1 样本数据及实测结果Table 1 Sample data and measured results

注：“-1”代表液化，“1”代表非液化。

图3 砂土液化影响因子互信息值Fig.3 The mutual information of influence factors of soil liquefaction

2.3 核主成分分析及高斯过程分类

分别以高斯核函数、二次多项式核函数和三次多项式核函数对学习样本进行核主成分分析，同时进行主成分分析，前4个主成分的特征值、贡献率及累计贡献率见表3。采用一次多项式核函数进行核主成分分析其实质就是进行主成分分析。由表3可知：采用3次多项式为核函数进行核主成分分析后，前三个主成分的累计贡献率已达到87.31%，超过85%[6]，且每个主成分的贡献率均大于与PCA相应的每个主成分的贡献率，这3个主成分可以反映原变量的绝大部分信息，故本文选取这3个主成分作为GPC训练输入指标。

以核主成分分析后的前19个样本(每个样本为4维向量，包括3维主成分输入指标和1维分类标志指标)作为训练样本进行高斯过程分类学习。GPC作为一种具有概率意义的分类模型，其分类效果如图4所示(图中两类数据分别用“○”，“+”表示，曲线为概率等值线)。

图4 GPC模型分类示意图Fig.4 Sketch map of classification from GPC model

指标X1X2X3X4X5X6X7X8X110000X20015610000X3005610806010000X400264079100866010000X50026809228076450641910000X6-00642-04516-06444-03991-0530710000X7-01741-02835-02277-02347-028780002010000X8-0022903165024960222701929-01359-0250210000

表3 主成分特征值、贡献率及累计贡献率Table 3 Eigen values, contribution rate and cumulative contribution rate of principal components

借助MATLAB工具箱GPML Version 4.0[15]，预测样本的识别情况见表4。从识别结果来看，6个预测样本全部正确识别。表中同时给出了GPC法、KPCA-DDA法、DDA法(距离判别分析)、Seed法的判别结果。单独使用DDA和GPC时，均出现判别失误，而当采用KPCA-GPC和KPCA-DDA时，全部正确判别，这就说明了对原始数据进行去冗余和精简提炼的必要性。从KPCA-GPC法的预测概率中可以看出，24号样本的识别概率接近0.5，这说明GPC法对此样本不十分肯定，实际中还需要进一步调查研究，这体现了GPC法相较其它确定性判别方法的优势，如DDA、SVM、BP、Seed法等除了获得单一的识别结果外，无法再获得任何有关识别正确性方面的信息。

表4 预测样本判别结果Table 4 Discriminant results of forecast samples

2.4 判别因子敏感性分析

基于傅立叶振幅灵敏度分析方法(Fourier Amplitude Sensitivity Test, FAST)分别对初始判别因子和核主成分判别因子(Y1,Y2,Y3)进行灵敏度分析，以探讨砂土液化对上述因素的敏感性。应用FAST可以计算出影响模型输出值的各参数的一阶灵敏度指数(First Order Sensitivity Index, FOSI)，FOSI表示仅由一个参数的变异对模型输出值的变异所做出的贡献。

图5 初始判别因子FOSIFig.5 The FOSI of initial influence factors

图6 核主成分判别因子FOSIFig.6 The FOSI of kernel principal components

由图5可知，针对本文选用的8个判别因子，砂土液化对IF8(剪应力与有效上覆应力比，X8)最为敏感，其次是IF6(震中距离，X6)和IF5(地震烈度，X5)，对其它影响因子不敏感。由图6可知，针对核主成分判别因子，沙土液化对IF1(Y1)最为敏感，其次是IF3(Y3)，最后是IF2(Y2)。Nhat Duc Hoang等[16]针对3个不同的沙土液化数据库(分别从不同地点收集)进行了敏感性分析，3个数据库的大部分影响因子相同，结果发现不同的数据库沙土液化较为敏感的影响因子并不相同；此外，Adel M. Hanna[17]等也曾对上述其中一个数据库进行过敏感性分析，其分析结果与Nhat Duc Hoang等有较大差异，这反映出沙土液化的高度非线性和地点的差异性。

3 结论

(1) 在地震砂土液化多指标综合判别法中，采用的判别因子数量一般为5～12，为防止特征冗余，采用核主成分分析(KPCA)或主成分分析(PCA)算法对原始数据进行去冗余和精简提炼处理是非常有必要的，其可提高判别准确率；与PCA相比，KPCA更能提取判别因子间的非线性结构信息。

(2) 基于KPCA，本文构建了地震砂土液化预测的高斯过程分类模型，工程实例研究表明，该模型是可行的。GPC克服了常规方法只能进行确定性评判的局限性，可获得具有概率意义的砂土液化预测结果。

(3) 砂土液化是一个复杂性的灾变演化问题，各个影响因素之间具有较强的非线性相互作用，多指标综合判别法的适用性与可信度在很大程度上取决于原始资料的典型性和代表性。在实际工程应用中，应根据具体情况，广泛收集工程实例资料，建立相应的样本数据库，增强模型的识别能力。

[1] 中华人民共和国建设部. GB/50021—2001 岩土工程勘查规范[S]. 北京: 中国建筑工业出版社, 2009.

Ministry of Housing and Urban-Rural Development of the People’s Republic of China. GB/50021—2001 Code for investigation of geotechnical engineering [S]. Beijing: China Architecture & Building Press, 2009.

[2] 薛新华, 陈群. 基于GRNN的砂土液化危害等级评价模型研究[J]. 四川大学学报(工程科学版), 2010, 42(1): 42-47.

XUE Xinhua, CHEN Qun. Study on hazard degree evaluation of sand liquefaction based on the generalized regression neural network[J]. Journal of Sichuan University (Engineering Science Edition), 2010, 42(1): 42-47.

[3] 刘勇健. 基于聚类—二叉树支持向量机的砂土液化预测模型[J]. 岩土力学, 2008, 29(10): 2764-2768.

LIU Yongjian. Support vector machine model for predicting sand liquefaction based on clustering binary tree algorithm[J]. Rock and Soil Mechanics, 2008, 29(10): 2764-2768.

[4] 胡记磊, 唐小微, 裘江南. 基于贝叶斯网络的地震液化概率预测分析[J]. 岩土力学, 2016, 37(6): 1745-1752.

HU Jilei, TANG Xiaowei, QIU Jiangnan. Prediction of probability of seismic-induced liquefaction based on Bayesian network[J]. Rock and Soil Mechanics, 2016, 37(6): 1745-1752.

[5] 禹建兵, 刘浪. 不同判别准则下的砂土地震液化势评价方法及应用对比[J]. 中南大学学报(自然科学版), 2013, 44(9): 3849-3856.

YU Jianbing, LIU Lang. Two multiple discriminant methods to evaluate sand seismic siquefaction potential and its comparison[J]. Journal of Central South University (Science and Technology), 2013, 44(9): 3849-3856.

[6] 宫凤强, 李嘉维. 基于PCA-DDA 原理的砂土液化预测模型及应用[J]. 岩土力学, 2016, 37(S1): 448-454.

GONG Fengqiang, LI Jiawei. Discrimination model of sandy soil liquefaction based on PCA-DDA principle and its application[J]. Rock and Soil Mechanics, 37(S1): 448-454.

[7] TANG Xiaowei, HU Jilei, QIU Jiang-nan. Identifying significant influence factors of seismic soil liquefaction and analyzing their structural relationship[J]. KSCE Journal of Civil Engineering, 2016: 1-9.

[8] 杨胜凯. 基于核主成分分析的特征变换研究[D]. 浙江: 浙江大学, 2014.

YANG Shengkai. Research on feature transformation based on kernel principal component analysis[D]. Zhejiang: Zhejiang University, 2014.

[9] 杨先勇, 周晓军, 张文斌, 等. 基于局域波法和KPCA-LSSVM的滚动轴承故障诊断[J]. 浙江大学学报(工学版), 2010, 44(8): 1519-1524.

YANG Xianyong, ZHOU Xiaojun, ZHANG Wenbin, et al. Rolling bearing fault diagnosis based on local wave method and KPCA-LSSVM[J]. Journal of Zhejiang University (Engineering Science), 2010, 44(8): 1519-1524.

[10] RASMUSSEN C E, WILLIAMS C K I. Gaussian processes for machine learning[M]. Cambridge: MIT Press, 2006.

[11] NICKISCH H, RASMUSSEN C E. Approximations for binary Gaussian Process classification[J]. Journal of Machine Learning Research, 2008(9): 2035-2078.

[12] XU Yong, ZHANG David, SONG Fengxi, et al. A method for speeding up feature extraction based on KPCA[J]. Neurocomputing, 2007, 70(4-6): 1056-1061.

[13] WANG Quan. Kernel principal component analysis and its applications in face recognition and active shape models[J]. Computer Science, 2014.

[14] 童楚东, 史旭华. 基于互信息的PCA方法及其在过程监测中的应用[J]. 化工学报, 2015, 66(10): 4101-4106.

TONG Chudong, SHI Xuhua. Mutual information based PCA algorithm with application in process monitoring [J]. CIESC Journal, 2015, 66(10): 4101-4106.

[15] RASMUSSEN C E, NICKISCH H. The GPML Toolbox version 4.0[EB/OL]. [2016-10-28]. http://www.gaussianprocess.org/gpml/code/matlab/doc/manual.pdf.

[16] NHAT D H, DIEU T B. Predicting earthquake-induced soil liquefaction based on a hybridization of kernel Fisher discriminant analysis and a least squares support vector machine: a multi-dataset study[J]. Bulletin of Engineering Geology and the Environment, 2016: 1-14.

[17] HANNA A M, URAL D, SAYGILI G. Neural network model for liquefaction potential in soil deposits using Turkey and Taiwan earthquake data[J]. Soil Dynamics & Earthquake Engineering, 2007, 27(6):521-540.

Predictionmodelofseismic-inducedsandliquefactionbasedonKPCA-GPCprinciple

ZHAO Guoyan, PENG Jun, LIU Jian

(SchoolofResourcesandSafetyEngineering,CentralSouthUniversity,Changsha,Hunan410083,China)