基于神经网络的河北平原区黏土矿物空间分布定量研究
2020-05-30汪海城张生元宋泽峰陈文静
任 钰,汪海城,张生元,宋泽峰,陈文静
(1.河北地质大学 信息工程学院,河北 石家庄 050031;2. 河北地质大学 资源与环境工程研究所,河北 石家庄 050031)
0 引言
黏土矿物是在地表风化作用中形成的,在沉积和埋藏作用下容易发生转变,其形成与转化与所处环境有密切关系[1-2]。黏土矿物的膨润性、离子交换性、强吸附性等特殊属性,使得黏土矿物在气候、石油勘探、环境等学科研究中具有重要意义。利用不同地区黏土矿物组合差异性可以推测出当时的成岩或气候条件,恢复古气候[3-8]。黏土矿物平面分布可以反应储层沉积体系的复杂性,利用黏土矿物可以对储层敏感性进行评价[9-11]。受源区母岩类型、环境气候及成土时间等因素的影响,不同地区的黏土矿物含量分布有较大的差异,因此黏土矿物的分布特征具有空间异质性和复杂性,黏土矿物的空间分布模式已成为黏土矿物的重要研究方向之一。黏土矿物分析数据较少,若重新采样分析,周期长、成本高,因此获取黏土矿物大范围的含量分布较为困难[12]。目前国内积累了覆盖大部分面积的中大比例尺地球化学数据,具有分析元素多、精度高的特征,而黏土矿物是由多种水合硅酸盐和一定量的氧化铝、碱金属氧化物和碱土金属氧化物组成,并含有石英、长石、云母及硫酸盐、硫化物、碳酸盐等杂质,是地球化学元素的复杂组合,地球化学元素含量与黏土矿物组成之间有内在联系,可以利用地球化学元素含量开展区域黏土矿物分布预测研究。BP神经网络模型作为机器学习领域经典模型之一,具有强大的非线性适应性信息处理能力,已被广泛应用于地球科学数据处理中,并取得良好的效果[13-17]。本研究基于BP神经网络建立河北平原区的高岭石、绿泥石和伊利石三种主要黏土矿物与地球化学含量之间的非线性预测模型,实现对河北平原区高岭石、绿泥石和伊利石含量的预测,为后续相关研究或开发利用提供科学依据和技术支撑。
1 研究区域概况
研究区位于华北东部,东濒渤海、南界黄河、西依太行山脉、北依燕山山脉的整个河北平原区,主要由黄河、海河、淮河、滦河冲积而成,被北京和天津分割为太行山山前平原区、北三县平原区、冀东平原区三个区域,面积约15万平方千米[18-19]。区内出露地层发育,从太古界至第四系均有分布,以第四系覆盖为主,覆盖率约占97%(图1)。自太行山山前平原至冀东平原,对应冲积扇平原、冲积平原、海积平原、洪积平原等地貌类型组合,依次出现潮土、滨海盐土、褐土等土壤类型。其中冲积扇平原主要由洪积冲积物组成,冲积平原主要由冲积物组成,滨海地区主要由海积物组成,平原区的湖沼、洼地有部分湖积物,洪积平原主要由洪积物组成。全区水系发育,主要属于海河水系,主要五大支流分别为漳卫河、子牙河、永定河、大清河和潮白河,其次是冀东地区的滦河水系。研究区受古气候、古地理沉积环境及新构造运动等因素影响,地下水的富水性、循环交替强度、水化学类型等水文地质特征发生相应的变化。地下水系统虽是具有一定时空分布特征的复杂动态系统,但具有明显的边界和层次结构。依据地下水系统的水文地质条件和地球化学特征及地下水的垂向运动的各种因子,将河北平原区地下水划分为冀东沿海诸河地下水系统、子牙河地下水系统、大清河地下水系统、漳卫河地下水系统、古黄河地下水系统等8个地下水系统[20]。
2 材料与方法
2.1 数据介绍
本研究收集了河北平原区多目标地球化学调查项目1∶20万的土壤地球化学数据,共20 029个土壤样本。每个样本分析其中21个地球化学元素,包括SiO2、Al2O3、MgO、Fe2O3、K2O、CaO、Na2O共7个主量元素,以及Mn、Ti、P、S、Cu、Pb、Zn、Co、Ni、Cr、Cd、As、Hg、Sn共14个微量元素。在此基础上,此项目在不同地貌单元中与地球化学样品同位置处采集了111个土壤样本,并通过X-射线衍射分析方法获取了111个土壤样本中高岭石、绿泥石、伊利石等主要黏土矿物含量。整个河北平原区中冀东平原区、北三县平原区、太行山山前平原区部分元素含量的均值、标准差以及变异系数统计(表1)显示3个平原区元素的平均值基本一致,说明三部分平原区地球化学元素背景值近似,3个平原元素的标准差和变异系数有较大差异,其中冀东平原元素的变异系数相对其他两个平原的变异系数较大,表明该区域元素数据的离散程度较大,较高值区域和较低值区域差异明显。
图1 河北平原区地质简图
表1 河北平原区地球化学元素统计表
注:测试单位为河北省地矿实验室;主量元素量单位为wB/%,微量元素量单位为wB/10-6。
2.2 神经网络模型
神经网络是一种模拟人脑系统的建模方法。1943年,McCulloch和Pitts等提出了一种模拟生物神经元结构的模型,被称作莫克罗—彼特氏神经模型(M-P模型),该模型是对生物神经元信息处理模式的数学简化,为后续的研究工作提供了理论依据。多层M-P神经元模型的叠加,引入了更多的非线性变换,使模型具有更好的拟合能力,各领域学者根据研究需要已提出了多种衍生模型,如感知机、玻尔兹曼机、受限的玻尔兹曼机、BP神经网络等。神经网络广泛应用于预测、语音识别、组合优化、图像处理等领域[21-32]。
神经元是神经网络系统的基本单元,其功能相当于1个处理单元,神经元以多层结构排列,使得神经网络包括1个输入层、1个或多个隐藏层和1个输出层。由于信息分布于网络中的各个神经元中,神经网络具有较强的鲁棒性和容错性,对数据分布要求不严格,具备处理数据遗漏或者错误的能力,能够处理由于地球化学元素数据缺失或错误等引起的轻微扰动。神经网络具有较强的信息综合能力,可协调多种输入信息关系,充分逼近很多复杂的非线性关系,以此可模拟黏土矿物与地球化学元素之间复杂的关系[33]。神经网络可利用新样本进行自我训练,调整参数,得到新的预测模型,减少一些由于样本数据量大引起的不必要开销问题,这是传统学习方式不具备的能力[34]。本研究采用单隐含层神经网络建立黏土矿物与地球化学元素之间关系的模型,其网络结构见图2。其中,神经网络的输入为地球化学元素,输出为黏土矿物含量预测值。
图2 神经网络模型结构图
预测模型决定预测结果准确性,1个合适的模型能够更充分表示数据的内在数学关系,有利于对未知数据进行准确预测。可以通过建立1个验证集对预测模型的泛化能力进行评估[35-36],本研究将收集到的111个黏土矿物数据样本划分为训练集和验证集,分别用于模型的训练和评估。由于数据样本的黏土矿物含量分布不均匀,采用留出法将数据集划分为两个互斥的集合可能会造成网络性能偏向样本较多的数据,并采取分层抽样对数据集进行划分。统计每种黏土矿物各个含量范围的样本个数,分别提取70%的样本作为训练集,用于神经网络的训练学习,其余样本作为验证集,用于评估训练好的神经网络模型。由于地球化学元素的数量级差别较大,神经元的输出通常都被限制在一定的范围内,因此需要对原始数据进行归一化处理,将数据映射到[0,1]范围内处理,避免神经元过饱和,提升模型的收敛速度和精度[37-38]。
为了保证神经网络的非线性能力,在神经网络中引入激活函数,使神经网络具有强大的拟合能力,可以逼近很多非线性函数[35]。为了防止梯度消失和样本过少导致的过拟合问题,本研究在神经网络的隐含层采用ReLU函数[式(1)],ReLU函数的引用同时可提高模型收敛速度[39]。为了防止样本过少导致的预测值为负数问题,在输出层中采用Sigmoid函数[式(2)],将输出值固定在(0,1)范围内。
(1)
(2)
神经网络用损失函数来判断预测值与真实值的接近程度,神经网络的训练过程就是最小化损失函数的过程,损失函数越小,说明模型的预测值与真实值越接近。本研究采用了累积均方误差作为神经网络模型的损失函数。损失函数[式(3)]中yi表示第i个样本的真实值,y'i表示第i个样本的预测值,n为样本个数。
(3)
神经网络通过梯度下降调整权重与偏置,使损失函数不断趋近于最小值,本研究采用AdaGrad自适应梯度下降算法,为各个参数分配自适应的学习率,加快模型收敛、减小过拟合现象。AdaGra自适应梯度下降算法[式(4)]中w表示权重,t表示训练次数,η表示学习率,g表示梯度。
(4)
3 预测河北平原区黏土矿物
3.1 预测模型的建立结果及分析
利用训练集对神经网络进行训练,在迭代训练过程中累积均方误差的值不断减小,经过多次实验选择合适的训练次数,减少过拟合情况的发生。在进行多次训练之后,训练集中样本的预测值与实际值比较接近:高岭石预测值在训练5万次时累积均方误差为0.18,绿泥石预测值在训练5万次时累积均方误差为0.14,伊利石预测值在训练2万次时累积均方误差为0.13(表2)。
表2 三种黏土矿物累积均方误差
通过验证集检验神经网络预测模型的泛化程度,高岭石、绿泥石和伊利石三种黏土矿物的真实值与预测值对比折线图(图3、图4、图5)显示,三种黏土矿物验证集的真实值与预测值在部分极高值和极低值处差异较大,极值处差异可能是由于模型受样本数量限制导致,但整体数据趋势基本一致,因此模型可用于河北平原区高岭石、绿泥石以及伊利石的分布预测。
图3 高岭石真实值与预测值对比折线图
图4 绿泥石真实值与预测值对比折线图
3.2 黏土矿物预测及分析
基于建立的黏土矿物预测模型对河北平原区多目标地球化学调查的20 029个土壤样品的元素数据进行区内高岭石、绿泥石、伊利石三种主要黏土矿物的空间分布预测。河北平原区高岭石预测分布图显示(图6),高岭石在整个冀东平原区和北三县平原区含量普遍偏低;高岭石在冀东平原和太行山山前平原区的冲积扇平原含量偏高,该区域主要土壤类型为潮土,潮土黏土矿物组成一般以水云母为主,蒙脱石、蛭石、高岭石次之,可能区内矿业过度开发,导致风化作用加速,高岭石富集;高岭石在太行山山前平原区的冲积平原含量高,冲积平原是由黄河、漳河、永定河等河流冲积物堆积而成,地势平缓,土壤土体内外排水不良,地下水位高,易生成潮土,高岭石含量高,该区域可能受到漳卫河、古黄河两个地下水系统影响,导致高岭石含量增高;高岭石在海积平原含量低,该区域土壤类型主要为滨海盐土,高岭石在该区域含量偏低;高岭石在洪积平原含量低,该区域主要由褐土组成,其黏土矿物以水化云母和水云母层钾离子释放而形成的蛭石为主,蒙脱石次之,少量的高岭石出现;高岭石在保定和唐山等地区富集,此区域受到地下水长期超量开采影响,在地下水和一氧化碳作用下,能使岩石中的长石和云母等矿物演变为高岭石、绢云母和其他黏土矿物,此外大量工程建筑增加、矿业开发等人类活动也可能导致高岭石矿物的富集。
图5 伊利石真实值与预测值对比折线图
河北平原区绿泥石预测分布图显示(图7),绿泥石在整个冀东平原区和北三县平原区含量普遍偏低,但在冲积扇平原含量偏高,该区域主要土壤类型为潮土,导致绿泥石含量高,此外该地区频繁矿业活动,亦会导致岩石风化加速,使绿泥石含量发生变化;在太行山山前平原区,受漳卫河和古黄河两个地下水区域影响,导致绿泥石在冲积平原含量高;绿泥石在海积平原含量较高,该区域有渤海湾,西部的塘沽是重要的港口,推测可能由于工程建筑增加或者沿海新近填土等人类活动引起绿泥石增加,或是受到海潮高潜水位、高度矿化的影响都可能导致绿泥石增加;绿泥石在洪积平原含量低,该区域土壤类型主要为褐土,褐土中的绿泥石含量低;绿泥石在保定、石家庄、邯郸、邢台、沧州等城市地区周围有富集,这可能与该区域的人类活动有关。
图6 高岭石矿物空间分布与第四纪覆盖物叠加图
Fig.6 Superimposition map of spatial distribution of kaolinite mineral and Quaternary cover
图7 绿泥石矿物空间分布与第四纪覆盖物叠加图
河北平原区伊利石预测分布图显示(图8),伊利石在整个研究区含量较高;由于伊利石为过渡性黏土矿物,且河北平原区受气候灾害频繁,导致伊利石分布呈现斑点状;伊利石在冀东平原的冲积扇平原以及海蚀高台地、海蚀低阶地含量偏高,该区域的冲积扇平原土壤类型主要为潮土,该区域海蚀高台地、海蚀低阶地的海水侵蚀作用可能导致伊利石富集;此外伊利石含量也可能受到人类活动影响,在唐山、保定、邯郸、衡水、沧州等城市及周边地区局部富集。
对比高岭石、绿泥石、伊利石三种黏土矿物相同位置实测值和预测结果(图9),结果显示高岭石、绿泥石以及伊利石的真实值与预测值除部分极高值和极低值误差较大,两组数据整体趋势一致,预测结果较好。三种黏土矿物预测值与真实值均值、标准差以及变异系数统计显示(表3),三种黏土矿物的真实值与预测值的均值较接近,两组数据的标准差相近,但预测值的变异系数较小,说明预测值变异性较小,可以呈现研究区的三种黏土矿物的空间分布趋势。
4 结论
基于地球化学元素的黏土矿物空间分布预测为黏土矿物相关研究提供了新的思路,预测模型是利用地球化学元素开展黏土矿物含量分布预测的基础,而机器学习算法已发展为建立复杂空间关系模型的有效工具。本研究利用经典BP神经网络模型建立了河北平原区黏土矿物与地球化学元素之间的预测模型,实现了研究区高岭石、绿泥石、伊利石三种主要黏土矿物含量的预测,其预测结果对河北平原区的农业、环境土壤污染等领域研究具有一定的参考意义。研究主要结论:
1)作为机器学习算法的BP神经网络模型可以较为准确地描述河北平原区地球化学元素与黏土矿物之间的非线性关系。
2)河北平原区高岭石、绿泥石、伊利石等的黏土矿物空间分布与研究区地貌特征、土壤类型以及人为因素等都有联系。河北平原区的伊利石含量较高,黏土矿物含量受到母岩类型、气候条件、沉积环境等主控因素影响,在整个冀东平原区和北三县平原区含量普遍偏低,在太行山山前平原区含量普遍偏高;黏土矿物在冲积扇平原、冲积平原含量偏高,在洪积平原含量较低。河北平原区的黏土矿物在保定和唐山等地区富集,可能受到人类活动的影响。研究中发现黏土矿物的空间分布受到多个因素的影响,今后工作将结合环境影响因子和遥感异常信息等对黏土矿物的空间分布开展深入研究。
图8 伊利石矿物空间分布与第四纪覆盖物叠加图
Fig.8 Superimposition map of spatial distribution of illite mineral and Quaternary cover
图9 河北平原区111个土壤样本真实值与预测值对比
表3 三种黏土矿物平均值、标准差与变异系数统计
致谢:在论文撰写过程中,得到了河北地质大学资源与环境工程研究所栾文楼教授的很多建设性意见,此外审稿专家也对本文提出了宝贵的修改意见,在此表示衷心的感谢。