APP下载

基于最优k值k-means聚类分析的湖相沉积土层岩土参数分布研究

2023-05-30阮永芬李鹏辉张虔朱强王勇闫明

关键词:检验法粉土正态分布

阮永芬 李鹏辉 张虔 朱强 王勇 闫明

摘 要:对岩土参数进行传统的k-means聚类分析时,因无法确定k值,而导致无法有效剔除误差数据。为得到岩土参数可靠取值范围,基于最优k值的k-means算法进行研究,通过量化样本内距离和聚类紧密性来确定聚类数目k值,避免了传统k值的随机选取。对粉土的三个基本物理力学指标:黏聚力c、内摩擦角φ、压缩模量Es进行空间聚类分析。通过比较不同k值时的EE值,确定最优k值为5。聚类完成后,原样本被划分为5类子样本。样本数量最多的一类为最优子样本,这类子样本与原样本分布一致,且数量偏离程度及变异性较小。对除最优类外的其他四类子样本进行分布检验,可知A-D检验法适用于小样本,而K-S检验法适用于大样本。根据偏度系数c值,调整合适的区间长度,进一步优化参数取值范围,并与工程实际采用值对比,检验方法的可行性。该分析方法实现由小样本代替大样本进行参数统计分析求取可靠的取值区间,简化计算,提高工作效率。

关键词:k-means;粉土;正态分布;对数正态分布;K-S检验;A-D检验

中图分类号:TU443

文献标志码:A

昆明滇池流域场地土形成的湖相沉积土层受多种因素影响且具有多层结构,在现勘察的深度范围内表层为人工填土,其下为黏土、泥炭质土、粉土、粉砂及粉质黏土互层呈层状分布,从而形成了一种特殊的区域性软土地层,而这类软土层中的粉土分布范围广,变异系数较大,而变异系数决定了指标分布的范围。由于粉土的指标分布范围太大给工程勘察时参数选取带来了很多困难。目前,已经有很多学者对这种特殊区域粉土特性进行了研究。阮永芬等[1]以昆明盆地粉土为例,对高黏粒、高砂粒、低粉粒含量的特征值进行分析和利用,确定粉粒含量与物理指标间关系。GUO等[2]基于静力触探试验,研究了粉土敏感性与超固结比之间关系。HAN等[3]分析粉土液化时孔隙水压力变化情况,解决了淤泥砂基振动液化难题。ZHANG等[4]研究了干密度对粉土液化特性的影响。由此可见,基于昆明粉土的特殊性,对缩小昆明粉土物理力学标分布范围,以求取参数可靠区间范围方面研究是很有必要的。

随着岩土样本参数逐渐增大,样本逐渐集中到某一范围之内,且样本逐渐满足某种分布。但粉土的离散性及空间变异性较大,其参数样本分布很不规律,据此许多学者致力于用聚类算法研究岩土参数分布的推断。蔡国军[5]首次将k-means聚类引入岩土工程去划分土层界面。郭帅等[6]将k-means聚类算法用于地震属性的划分。阮永芬等[7]将k-means方法用于岩土参数分析中,通过剔除误差数据,来获得正态分布样本。孔令奇等[8]采用模糊c-均值聚类进行样本分类,根据样本的分布规律,确定其概率密度函数,但这种方法只适用于小样本。GE等[9]应用层次分析法和聚类分析法去评价软黏土的地震沉降,但因算法比较复杂,不适合数据量大的计算。分析上述学者的研究内容可知,k-means算法简单、快捷,能高效率处理大数据,适合岩土参数大样本研究,而其他聚类方法不适用大样本计算。故本文基于k-means聚类分析岩土参数。

现采用昆明会展中心场地大量地勘资料,将基于最优k值的k-means空间聚类分析引入到岩土参数分析中,通过比较各类簇内的距离与簇间距离的比值,来确定最优k值,将样本划分为k类,采用Origin做出所有k值下的样本频率直方图,通过对比各类的分布情况,确定最优分类情况下的各类的频率直方图。根据宫凤强等[10]提出的针对不同情况区间长度原则,将岩土参数取值范围进行优化。通过与实际工程实测值的对比分析,来检验将岩土参数进行空间聚类分析方法的可行性及合理性。通过研究可为工程勘察节约成本,同时,可通过参数统计分析实现由小样本代替大样本得到可靠的取值区间,方便工程设计施工时参数取值。

2 案例分析

2.1 粉土参数样本总体分析

粉土是昆明地区广泛分布的主要土层之一,昆明粉土黏粒、砂粒含量高,粉粒含量低,地区特点很明显,黏粒含量虽高,但砂性特征更加明显[1]。粉土取样场地位于昆明会展中心4、8号场地,此场地地表下75 m范围内共分布5层粉土,对该场地工程勘察报告中5层粉土的黏聚力c、内摩擦角φ、压缩模量Es共3种物理力学指标进行整理,每种指标数量为200。而k-means聚類分析可研究的样本数量远大于200,因样本数量有限,对该场地200个物理力学指标统计分析。样本总量统计表如表1所示。

用Origin软件分别做出c、φ、Es三个指标的频数直方图及样本密度分布函数图如图1所示。

图1可看出,用正态分布概率密度曲线可很好地描述力学指标c、φ的样本分布,对数正态分布可很好地描述力学指标Es的样本分布[15-16]。

2.2 粉土参数聚类分析

将所有样本作为一大类进行分析时, k-means聚类分析中k=1时,式(1)中的数据观测矩阵对粉土来说,为以c、φ、Es三个物理力学指标形成的3列200行的一个矩阵,对所有样本进行k>1次的聚类分析时,由于物理力学指标量纲和数量级不同,需先对三个指标进行极差归一化处理[17]。即:

xRi=(xi-min1≤k≤nxk)/(max1≤k≤nxk-min1≤k≤nxk)(7)

式中,max1≤k≤nxk、min1≤k≤nxk分别为每组测试样本的最大、最小值。

对表1的指标进行k-means均值聚类分析,分类的个数取决于前面所提EE的大小。通过对不同k值的聚类分析得到的EE值比较可知,随着k值的增大,其EE值减少。当k>5,个别簇内样本数量较少,可忽略不计,且最大样本数量趋于稳定,不再发生变化。综合考虑多方面的因素,最后选取k=5,表2表示不同k值下的聚类效果的好坏。

对样本进行k=5的聚类分析后,样本数量由1增加到5,为得出聚类后的5类样本中最优子样本,对这5类样本的个数、均值、标准差、变异系数四个方面进行统计分析。通过比较,可得出k=5时聚类分析最优分类。结果如表3所示。

由表3可知,聚类分析后的每类样本的数量各不相同,第1类样本数量最多,第5类样本数量最少。第1类样本参数c、φ、Es与其他4类样本相比在均值、标准差、变异系数三个方面都具有优势,因此,可将其认为是最优子样本,且将此类样本与其他4类样本对比分析。

3 聚类结果分析

3.1 第一类粉土参数结果分析

通过图1分析可知,把原样本进行聚类分析,即k=5,借助Origin软件做出k=5时第1类样本的频数分布图,并且通过观察后绘出最优概率密度分布曲线图,如图2所示。

通过k=5聚类分析可知,第1类样本在所有分类中数量最多,且第1类样本聚类效果最好。由表3可知,通过聚类后,第1类样本参数的均值更接近原样本的均值,数据偏离程度以及变异程度较之前变小。由图2(a)—(c)可知,3个子类样本概率分布均与原样本概率分布一致,且样本区间有很大程度的集中。由图1(a)与图2(a)对比可知,原样本c值区间范围集中在[20,30]kPa之间,子样本c值区间范围集中在[21,29]kPa之间。对比可知,子样本的区间范围与原样本集中数据范围相差不大。同理,对其他两种参数指标进行分析可知,子样本的区间范围均与原样本的集中数据范围一致。在这种聚类分析中,不仅可将大样本区间范围进行缩小,并且使小样本数据集中在大样本中出现频率较高的数据范围之内。

3.2 其他4类粉土参数分析

同理,做出k=5时其他4类样本的频数分布图,由图3、4、5和6可知,其他4类的部分岩土参数指标分布与原样本分布不一致,若按照原样本的频率分布研究其他几类的频率分布将会导致参数选取的错误[18]。故采用K-S检验法和A-D检验法分别对每类每个参数进行正态、对数正态检验。检验结果如表4所示。

同理,对第3、4、5类样本进行检验,限于篇幅,不再赘述。对5类检验结果进行总结分析可知,当样本数据少于50时,A-D检验法与K-S检验法的结果不一致。以第二类样本的c为例,采用K-S检验法接受样本c符合正态和對数正态分布,而A-D检验法排除样本c符合正态和对数正态分布。而从图3(a)可看出样本分布不规律,不符合正态和对数正态分布。同时,图4(a)—(c)等存在相同的问题。分析验证了在样本数量较少时,A-D检验法具有很好的检验效果,而K-S检验法对数据不敏感,会导致检验结果的错误,为后面的正态检验法选取提供了新的思路。

4 基本指标区间范围确定

在实际工程中,岩土参数的分布在有限范围之内,岩土参数下限不可能为负值,上限不可能无限大,用现有的分布函数进行拟合岩土参数的实际分布时,存在区间不匹配的困难。为解决这个问题,宫凤强等[19]提出了截尾法并通过5种方法去确定岩土参数的可信区间。阮永芬等[7]基于样本参数为正态分布时,对3σ和C33原则改进且提出了C11和1σ原则,得到更可靠的参数取值区间。由图2(a)—(c)可知,第1类3种物理力学指标分布分别符合正态与对数正态分布。考虑到聚类的目的是为得到岩土参数的合理取值区间,对失误数据进行剔除。故可借鉴其中的1σ和C11原则,结合实际情况对其进行调整,使各类指标范围满足工程要求。

1σ原则:若参数符合正态分布,且0<σ≤1,区间长度为[μ-σ,μ+σ],并将此区间作为样本的可靠区间。该方法默认样本分布为对称分布。

C11原则:若参数符合正态分布,且1<σ,故在1σ基础上,引入偏度系数c将区间双侧调整为[μ-(1-c)σ,μ+(1+c)σ],其中c=μ/σ3,μ为样本正态分布均值,σ为标准差。

在C11原则中,因c与σ3成反比,σ越小,c越大。当μ与σ比值过大时,导致c值过大,调整后的区间下限会被放大,而上限比实际更大,与偏度调整方法相违背。故根据c值大小进行调整区间长度。调整结果如表5所示。

同理,对符合对数正态分布的样本调整区间长度,对数正态分布并不和正态分布一样以均值对称的分布。因其曲线一般呈左偏或右偏,样本数据集中范围比正态分布小。故可采用C1 原则,根据样本分布的偏移方向来进行单侧调整。若样本分布偏移方向靠左,增大上限,此时样本区间为[μ-σ,μ+(1+c)σ]。同理,若样本分布偏移方向靠右,减少下限,此时样本区间为[μ-(1-c)σ,μ+σ]。

将此方法引入文献[20]中,对泥炭质土、粉土、黏土的c、φ力学指标进行可靠区间取值,并与通过工程采用值进行比较,检验该方法的可行性。检验结果如表6所示。

由图2(a)、(b)可知,粉土的c、φ样本分布均为正态分布,由于σ<1,且c>3,采用表5所提σ13原则确定其取值区间,计算后纳入表7。同理,由图2(c)可知,粉土的Es样本分布为对数正态分布,采用C1原则确定参数的取值区间,计算后同样纳入表7。

由表6可知,优化后的参数取值区间范围比实际工程采用值小,取值更加方便。偏度系数c的大小,决定参数区间长度。偏度系数越小,区间长度也越小,得到的区间范围越小,优化效果更好。同理,结合图1、2及表3、7可知,通过对采用σ13原则下的子样本与总样本相比,最优分类c、φ、Es的参数取值区间与总样本取值区间相差不大,符合工程实际采用值,验证将岩土参数通过空间k-means聚类分析方法后得到的小样本可代替大样本进行参数统计的可行性。综上,岩土参数空间聚类方法相当于从大样本中划分一个主要信息相同的小样本,小样本与大样本分布一致,且小样本数据更加稳定。根据样本的分布类型及σ与c值的大小,通过选取不同的区间长度原则确定样本参数建议值,实现在工程中小样本代替大样本确定可靠取值区间。

5 结论

通过对昆明粉土3种基本参数的聚类分析,可得以下结论:

1)对于离散的随机数据,可以采用数据间某种距离进行分类,分类后总有一类能保持原数据的主要信息,作为参数选择的依据。

2)通过对岩土参数进行空间k-means聚类分析,可同时划分3个参数,利用量化样本内距离和聚类紧密性来确定最优k值,避免多次k值的分析,明显提高工作效率。

3)分类后的最优子类样本与原样本分布一致,数据范围在原样本数据集中范围之内,且参数统计指标相近。引入优化后的区间长度原则,得到可靠的取值区间,验证了小样本代替大样本确定取值区间的可行性,工程意义显著,为勘察数据处理提供了一种新方法。

4)对聚类后除最优类外其他类进行统计分析,验证了K-S检验法在小样本情况下出现数据不敏感,导致分析结果错误,可采用A-D检验法替代其进行正态检验。

5)在1σ和C11原则基础上,考虑偏度系数过大时,根据样本分布与标准差σ及偏度系数c值的大小对岩土参数选取合适的区间长度,进一步优化区间范围,满足工程实际值。后续可对其他土的物理力学指标取值进行研究,确定参数的可靠取值区间。

参考文献:

[1]    阮永芬, 刘岳东. 昆明盆地粉土的特性研究与利用[J]. 岩土力学, 2003(S2): 199-202.

[2] GUO L, LIU X S, YANG Z N, et al. CPT-based analysis of structured soil characteristics and liquefaction failure of the Yellow River Subaquatic Delta[J]. Marine Georesources & Geotechnology, 2022, 40(3): 308-320.

[3] HAN C P, LI J H, F J C, et al. Analysis on the anti vibration and liquefaction properties of silt sands[J]. International Journal of Earth Sciences and Engineering, 2016, 9(6): 2724-2730.

[4] ZHANG C L, JIANG G L, SU L J, et al. Effect of dry density on the liquefaction behaviour of Quaternary silt[J]. Journal of Mountain Science, 2018, 15(7): 1597-1614.

[5] 蔡國军, 刘松玉, 童立元, 等. 基于聚类分析理论的CPTU土分类方法研究[J]. 岩土工程学报, 2009, 31(3): 416-424.

[6] 郭帅, 陈莹, 杨海长, 等. 少井区基于地震属性聚类的沉积相分析方法: 以白云凹陷始新统文昌组为例[J]. 海洋地质前沿, 2018, 34(5): 48-55.

[7] 阮永芬, 魏德永, 高骏, 等. K-means聚类分析高原湖相沉积软土参数[J]. 昆明理工大学学报(自然科学版), 2020, 45(1): 85-91.

[8] 孔令奇, 李翠娟. 岩土参数概率分布的系统推断研究[J]. 工业建筑, 2022, 52(1): 129-136,97.

[9] GE Y F, TANG H M, HUANG L. New evaluation for seismic settlement in soft clay based on analytic hierarchy process and clustering[J]. International Conference on Ρiρelines and Trenchless Technology, 2014, 15(5): 458-468.

[10]宫凤强, 侯尚骞, 李夕兵. 岩土参数截尾分布的正态信息扩散推断方法[J]. 武汉大学学报(工学版), 2016, 49(5): 661-667, 673.

[11]XUE L Y, WANG J G. Improved K-means algorithm based on optimizing initial cluster centers and its application[J]. International Journal of Advanced Network, Monitoring and Controls, 2018, 2(2): 9-16.

[12]殷瑞刚, 魏帅, 李晗, 等. 深度学习中的无监督学习方法综述[J]. 计算机系统应用, 2016, 25(8): 1-7.

[13]廖纪勇, 吴晟, 刘爱莲. 基于相异性度量选取初始聚类中心改进的K-means聚类算法[J]. 控制与决策, 2021, 36(12): 3083-3090.

[14]孙林, 刘梦含, 徐久成. 基于优化初始聚类中心和轮廓系数的K-means聚类算法[J]. 模糊系统与数学, 2022, 36(1): 47-65.

[15]阮永芬, 魏德永, 杨均, 等. 用Bayes法及后验分布极限确定土力学参数[J]. 岩土工程学报, 2020, 42(3): 438-446.

[16]蒋水华, 冯泽文, 刘贤, 等. 基于自适应贝叶斯更新方法的岩土参数概率分布推断[J]. 岩土力学, 2020, 41(1): 325-335.

[17]赵扬锋, 王进铭, 潘一山, 等. 基于质量寻优与归一化STA/LTA方法的微震P波到时拾取技术研究[J]. 岩石力学与工程学报, 2022, 41(8): 1610-1625.

[18]李红英, 谭跃虎, 赵辉. 某滑坡体岩土参数概率分布统计分析方法研究[J]. 地下空间与工程学报, 2018, 58(3): 659-665.

[19]宫凤强, 黄天朗, 李夕兵. 岩土抗剪强度参数的最优概率分布函数推断[J]. 岩土工程学报, 2016, 38(S2): 204-209.

[20]魏德永. 滇池湖相软土固结渗透试验及参数取值研究[D]. 昆明: 昆明理工大学, 2021.

(责任编辑:于慧梅)

Study on the Distribution of Geotechnical Parameters in Soft Soil Layer

of Lake Deposition Based on Optimal K-means Clustering Analysis

RUAN Yongfen1, LI Pengehui*1, ZHANG Qian1, ZHU Qiang2, WANG Yong3, YAN Ming4

(1.Faculty of Civil Engineering and Mechanics, Kunming University of Science and Technology, Kunming 650500, China;

2.China Railway 16th Bureau Group Beijing Metro Engineering  Co., Ltd., Beijing 101100, China; 3.Kunming Junlong

Geotechnical Engineering Co., Ltd., Kunming 650214, China; 4.China Railway 20th Bureau Group No.5 Engineering Co., Ltd., Kunming 650200, China)

Abstract:

In the traditional k-means clustering analysis of rock and soil parameters, the error data cannot be effectively eliminated because the k value cannot be determined. In order to obtain the reliable value range of rock and soil parameters, the k-means algorithm based on the optimal k value was used to study the clustering number k value by quantifying the in-sample distance and clustering tightness, avoiding the random selection of traditional k value. Three basic physical and mechanical indexes of silty soil, cohesion c, internal friction Angle φ and compression modulus Es were analyzed by spatial cluster analysis. By comparing EE values of different k values, the optimal k value was determined to be 5. After clustering, the original sample was divided into five subsamples. The subsample with the largest number of samples is the optimal subsample, which is consistent with the distribution of the original sample and has a small degree of deviation and variability. The distribution test of the other four subsamples except the optimal one shows that the A-D test method is suitable for small samples, while the K-S test method is suitable for large samples. According to the skewness coefficient c value, the appropriate interval length was adjusted to further optimize the parameter value range, and the feasibility of the method was verified by comparing with the actual engineering value. In this method, small samples are used to replace large samples for parameter statistical analysis to obtain reliable value interval, simplify calculation and improve work efficiency.

Key words:

k-means clustering analysis; silt; normal distribution; log-normal distribution; K-S test; A-D test

收稿日期:2022-08-02

基金項目:云南省重点研发计划基金资助项目(2018BC008)

作者简介:阮永芬(1964—),女,博士,教授,研究方向:岩土工程,E-mail:rryy64@163.com.

通讯作者:李鹏辉,E-mail:1017343481@qq.com.

猜你喜欢

检验法粉土正态分布
水泥-沥青粉复合稳定粉土的强度及渗透特性
饱和粉土三轴等p应力路径试验特性研究
PCR 检验法和细菌培养法用于阴道细菌检验的效果
基于对数正态分布的出行时长可靠性计算
正态分布及其应用
固化剂稳定粉土路基的应用研究
正态分布题型剖析
χ2分布、t 分布、F 分布与正态分布间的关系
大同地区天然粉土工程特性试验研究
关于协方差的U统计量检验法