基于PCA-RA 的滨海矿井水源识别技术研究
2021-04-17陈绍杰刘久潭周景奎唐鹏飞高宗军
陈绍杰, 刘久潭,汪 锋,周景奎,唐鹏飞,高宗军
(1.山东科技大学 能源与矿业工程学院,山东 青岛 266590; 2.山东能源龙口矿业集团 梁家煤矿,山东 龙口 265700;3.山东科技大学 地球科学与工程学院,山东 青岛 266590)
0 引 言
我国煤矿水文地质条件复杂,煤炭开采过程中矿井水害时有发生,严重威胁着煤矿的安全生产,因此,开展矿井水水源识别研究意义重大[1-3]。 地下水在径流过程中,与周围岩土发生着复杂的水文地球化学反应,其水化学组分含量也会相应变化,形成了特有的物理化学特征,这些水化学特征承载着含水层的大量信息,可为矿井水水源判别提供重要依据[4-6]。
目前,水源识别的方法较多,主要包括水温水位法[7]、水 化 学 分 析 法[8-9]和 数 理 统 计 分 析 法[10-11]等。 通常,在水文地质条件分析的基础上,利用水化学进行水源识别简单而有效[12]。 近年来,不少学者利用水化学数据,基于新技术和新的数学方法,建立了水源识别模型,为煤矿水害的防治工作做出了很大贡献。 王亚等[13]利用激光诱导荧光技术获取水样的荧光光谱并提取特征信息后,基于极限学习机构建了水源的快速识别模型。 王心义等[12]在熵权法和模糊可变集理论的基础上,建立了矿井突水水源识别模型。 杨中元等[10]结合主成分分析(PCA)和灰色关联分析(GRA),建立了PCA-GRA 突水水源判别模型。 然而,不同矿区水文地质条件复杂程度不同,不同识别方法均存在一定的优势和局限性[12,14]。
笔者以我国最大的滨海煤矿龙口梁家煤矿为例,利用矿井水的主要离子测试数据,基于水化学和主成分分析-残差分析(PCA-RA)识别矿井水补给来源的数量和类型,为滨海煤矿区的水害防治提供科学参考。
1 研究区概况
梁家煤矿(图1)位于山东省龙口市,西至龙口渤海,北与北皂煤矿相邻,东北与桑园井田相接,东靠洼东煤矿,面积47.49 km2。 矿区内地形平坦,由东南向西北逐渐降低。 流经该区的地表水系主要有中村河和小恒河,均为季节性河流。
煤田内的含水层由上而下主要有:第四系砂砾层、泥灰岩、泥岩与泥灰岩互层、煤1、煤2 及底板砂岩、煤3 至煤4 间砂岩等。 第四系砂砾石层由细、中、粗砂及砾石组成,富水性极强。 泥灰岩和砂岩等含水层富水性弱或中等,水化学类型主要为HCO3-Na、HCO3·Cl-Na 或Cl·HCO3-Na。 区内各煤层内生节理较发育,局部因构造影响裂隙发育,使煤岩中储存着裂隙水,但裂隙率小补给量不大,富水性弱。含煤地层的底部无强富水性含水层。 区域内煤系地层含水层不直接接受大气降水的补给,主要接受南、东面山区基岩裂隙水侧向补给,煤田内部断裂虽较发育,但断裂带多被泥质岩类充填,其富水性和导水性弱,而各含水层的富水性也较弱,地下水从南、东向西北径流极为缓慢,正常情况下泄入渤海。 矿井排水为煤系地层直接充水含水层的主要排泄途径。
2 材料与方法
2.1 水样采集与测试
2.2 数据分析方法
利用主成分分析-残差分析(PCA-RA)确定水源数量和类型[6],思路如下:先基于PCA 法将水化学数据进行压缩,确定主成分数量。 然后利用RA将PCA 结果以重构离子浓度的形式表现出来,并与原始浓度进行相关性分析。 若离子浓度残差均表现为随机分布特征,说明已提取所有的有效信息。 最后,对每个主成分进行合理解释,确定矿井水的补给来源类型。
图1 梁家煤矿位置及取样点分布Fig.1 Location of Liangjia Coal Mine and sampling points
2.2.1 主成分分析(PCA)
PCA 是利用数学手段对原始水质数据进行降维,并提取水质数据多变量中的关键信息,用少数的新变量表征原始变量,但获得的新变量之间无相关关联,是广泛应用于多种学科的多元统计分析方法[15-17]。 PCA 的数学模型[15]如下:
假设原始数据矩阵X的p个向量的线性组合为Y=AX,即
简化为:Yi=a1ix1+a2ix2+…+apixp
其中,Yi,Yj之间互不相关(i≠j;i,j=1, 2,…,p),且各方差之间满足如下关系:Y1>Y2,Y2>Y3,Y3>Y4,以此类推。
PCA 包括5 个步骤:①数据标准化处理,②计算相关系数矩阵,③计算特征值,④选取主成分,⑤计算主成分得分。 在进行PCA 时,应首先确定其适用性,可采用Kaiser -Meyer -Olkin(KMO) 和Bartlett 球度检验进行适用性确定。 Bartlett 球度检验法是以相关系数矩阵为基础,而KMO 检验统计量则是比较变量间简单相关系数和偏相关系数的指标,表明原始变量的整体性,KMO 检验计算公式[18]如下:
式中:rij为变量之间简单相关系数;pij为偏相关系数。
2.2.2 残差分析(RA)
在运用PCA 法解决实际问题时,常常会面临保留几个主成分来表征原始数据的问题。 通常是以保留特征值大于1 或方差的累计贡献率大于85%的主成分为准则,但可能会导致原始数据中有价值的信息被遗漏,所选取的主成分不能很好地表征原始信息[6]。 因此,可利用RA 法来检验保留主成分数量的合理性[19],其计算公式如下:
其中:x′ij为标准化的水质数据,xij为原始数据;为第j个指标的平均含量;Sj为j个指标含量的标准差。 将水质数据表示在主成分分析的前m维子空间上,如下:
3 结果与讨论
3.1 水化学特征
图2 不同水体离子浓度Fig.2 Ion concentration in different water bodies
3.2 矿井水水样主成分分析
3.2.1 主成分分析适用性检验
图3 不同水体水化学类型Durov 图Fig.3 Durov diagram of different water bodies
表1 Kaiser-Meyer-Olkin 和Bartlett 球度检验Table 1 Test of Kaiser-Meyer-Olkin and Bartlett
3.2.2 结果分析
主成分特征值和方差贡献率见表2。 由表2 知共有3 个主成分的特征值超过1,因此基于特征值大于1 的准则可得到前3 个主成分。 该3 个主成分解释了81.103%的原始数据信息。
然而,将3 个主成分投影到平面上(图4),根据平面上点的空间分布特征,可以看出3 个主成分并不能很好地表征原始数据的信息,应该还有另外2 个主成分。 由表2 知,基于累计方差贡献率大于85%的准则,也仅能得到前4个主成分。
图4 矿井水样品在PC1-PC3 平面和PC2-PC3 平面上的投影Fig.4 Projection of mine water sample on PC1-PC3 and PC2-PC3 planes
3.3 矿井水水样残差分析
为进一步识别水源数量,在主成分分析的基础上,进行残差分析。 选用逐渐增加主成分数量的方法对离子浓度进行重构,并计算残差。当残差呈现出明显的结构性特征时,表明所提取的主成分数量不足以表征原始数据的全部信息[6]。
表2 主成分分析结果Table 2 Results of principal component analysis
3.4 水源数量与类型
图5 保留第1 个主成分(红色)和前两个主成分(绿色)后残差与原始离子质量浓度的相关性Fig.5 Correlation between residual and original ion concentration after retaining the first PC (red) and the first two PCs (green)
综上所述,PCA 中仅基于特征值大于1 或是累计方差贡献率大于85%的准则,不能很好地表征原始数据的全部信息。
利用PCA-RA 法,确定5 个主成分,可解释94.28%的原始数据信息,即梁家煤矿矿井共有5 个补给来源,分别为海水、富HCO3基岩水、塌陷区积水、混合水(海水、第四系水和塌陷区积水)和第四系水。 基于水化学和PCA-RA 法,可有效处理和表征原始水质数据信息,可更加合理地确定矿井水的补给来源类型和数量。
图6 保留前三个(蓝色)、前四个(粉色)和前五个(黄色)主成分后残差与原始离子质量浓度的相关性Fig.6 Correlation between residual and original ion concentration after retaining the first three PCs (blue), first four PCs (pink) and first five PCs (yellow)
4 结 论
1)梁家煤矿区内第四系水、地表塌陷区积水和矿井水中的主要化学组分含量差别较大,Cl-和Na+为优势阴、阳离子,水化学类型以Na-Cl 型为主,且受到了海水入侵作用的影响。
2)在PCA 中,仅依据特征值大于1 或累计方差贡献率大于85%的准则来确定主成分的数量,并不能很好地表征原始数据的全部信息。
3)选取矿井水的主要离子浓度数据,利用水化学和PCA-RA 法,确定了梁家煤矿矿井水共有5 个补给来源,即海水、富HCO3基岩水、塌陷区积水、混合水和第四系水。
4)基于水化学和PCA-RA 法,可有效地处理和表征原始水质数据的有效信息,可更加合理地确定矿井水的补给来源类型和数量。