APP下载

机器学习在煤的地球化学中的应用

2022-06-03王志玮

煤炭学报 2022年5期
关键词:灰分对数阈值

许 娜,黄 斌,李 强,朱 伟,王志玮,汪 茹

(中国矿业大学(北京) 地球科学与测绘工程学院,北京 100083)

研究煤中元素的赋存状态有助于准确评价有害元素对环境的影响,推断煤中元素的赋存状态,为从煤和煤灰中回收关键金属元素提供技术指导,从而提高煤的高效加工和利用效率;同时,可以帮助理解泥炭沉积和煤化作用过程,对煤中矿物质的富集成因解释也有重要意义。然而,煤的物质组成来源和成煤过程复杂,导致煤中元素赋存状态多样,给赋存状态的精准确定造成很大困难。

研究煤中元素赋存状态的方法可分为直接方法和间接方法,直接方法主要包括光学显微镜、各种显微探针方法(电子、离子和X射线探针)、扫描电镜+能谱、透射电镜+能谱、穆斯堡尔谱(价态)、同步辐射X射线荧光和谱学方法(如X射线吸收精细结构谱方法)等;间接方法包括数理统计方法、浮沉试验方法和化学方法(如逐级化学提取试验方法)。常用的统计学方法有相关分析、聚类分析、因子分析和多元判别分析等,其中相关分析是基于灰分、常量元素质量分数与微量元素质量分数的相关性来判断元素的赋存状态(如计算煤的灰分与煤中元素质量分数之间的相关系数),但是该方法在判别煤中元素赋存状态时有诸多问题,例如不同基准下(全煤基和灰基)煤中元素之间相关性有时表现不一致,据此推断的赋存状态有较大差异。由于煤中元素的质量分数是成分数据,属于非欧式空间,常用的数据转换算法有非对称对数比转换方法、对称对数比转换方法、等距对数比转换方法、枢轴坐标方法和加权对称的枢轴坐标方法;数据点间距离的计算方法有欧式距离和皮尔逊相关系数;层次聚类常用的算法有平均链接、全链接、单链接和质心链接,不同的层次聚类算法在判别煤中元素的赋存状态时也会有诸多问题,例如不同的层次聚类算法可能会导致煤中元素赋存状态的结果不同。一些学者也指出了上述存在的述问题,但是尚未找到根本的解决方法。随着人工智能的出现,尤其是机器学习的发展为上述问题的解决提供了可能。笔者讨论上述问题存在的原因、机器学习解决上述的方案;同时,机器学习在煤中关键金属和有害元素地球化学中研究中也表现出了良好的应用前景,笔者以机器学习算法预测了在运用四级杆电感耦合等离子体质谱方法测试煤中微量元素过程中钡(Ba)对关键金属元素铕(Eu)干扰的临界值,以及确定了基于CART算法确定煤中放射性核素铀对环境和人体健康辐射危害的安全阈值为例。

1 传统统计方法在煤中元素赋存状态研究中存在的问题与解决方案

1.1 不同基准(全煤基和灰基)下的煤中元素相关性不一致研究

煤中元素质量分数的表达方法有2种基准,灰基(ash basis)和全煤基(whole coal basis)。灰基指高温灰的基准(如815 ℃)。煤中元素的质量分数可以在全煤基和灰基之间实现互相转换:[]=([]×灰分)。虽然煤中元素质量分数在2种基准下能够实现互相转换,但是当质谱分析并非通过煤的高温灰化进行,2种不同基准下元素与灰分的相关系数可能会不一致,例如,内蒙古大青山煤田阿刀亥煤中AlO质量分数和灰分的相关系数在全煤基准下为0.89,但在灰分基准下为-0.3。这2种基准下的相关性分析,虽然已经被众多煤地质学家所采用,然而2种基准下元素之间、元素和灰分之间的相关性不一致的问题给煤中元素赋存状态和富集成因的解释带来困扰,甚至会得出错误的解释。虽然之前的很多研究都对此问题进行了阐述,但尚未得到很好的解决。为了解决该问题,提出改进的非对称对数比转换方法。由于煤中元素含量是成分数据,属于非欧式空间,导致了不同基准(全煤基和灰基)下的煤中元素相关性不一致。

1.2 机器学习算法解决煤中元素数据相关性不一致的问题

为解决不一致性的问题,需将成分数据从非欧式空间转换至欧式空间,其中应用最广泛的成分数据转换方法有非对称对数比转换方法(alr)、对称对数比转换方法(clr)和等距对数比转换方法(ilr)。

(1)非对称对数比转换方法(alr)的表达式为

(1)

其中,为一个样本中元素的数量;为第个元素的质量分数;为任意元素的质量分数,其中的选择具有很强的主观性,需要根据实际情况选择。为了消除这种主观性,对称对数比转换方法和等距对数比转换方法被提出。

(2)对称对数比转换方法(clr)是在alr转换方法的基础上提出的,其分母用几何平均值来表示,表达式为

(2)

(3)等距对数比转换方法(ilr)是根据成分数据的几何结构提出的转换方法,其核心是用标准正交基定义新数据,表达式为

(3)

笔者提出改进的非对称对数比转换方法(ialr)是将alr转换方法中的用比其他元素更加稳定的常量元素Al和微量元素Zr替代,煤中常量元素的转换表达式为

(4)

煤中微量元素的转换表达式为

(5)

以内蒙古大青山煤田大炭豪煤矿和阿刀亥煤矿晚古生代主采煤层的样品(共106个)为例,对该算法进行了性能验证,结果如图1,2所示。

改进的非对称对数比变换模型比常用的非对称对数比变换、中心化对数比变换、等距对数比变换以及稳定性在煤中元素赋存状态的预测结果方面更为准确,尤其是在稀土元素(REE)、常量元素(Ca,Mg,Mn和Fe)、微量元素(Sr和Ba,Nb和Ta)、Cd和Zn元素的聚合性能更好,有效解决了煤和煤灰不同基准下元素之间、元素和灰分之间相关性不一致的问题。

1.3 基于机器学习算法的煤中元素赋存状态及其来源研究

运用传统的数理统计方法(如计算煤灰分与煤中元素质量分数之间的相关性)所推断煤中元素赋存状态,几乎都是采用全部样本一并进行统计,从而得出单个相关系数。但是,煤中灰分变化范围宽(1%~50%),很多元素在不同灰分的煤中的赋存状态变化很大,其赋存载体不一,因此众多样本一并统计,可能会出现赋存状态推断的偏差。同时,不同灰分的煤中元素特定的赋存状态,可能指示其物质来源或保存环境。因此,根据煤中灰分的动态变化来推断元素的赋存状态,可以避免因为灰分变化范围大而造成赋存状态推断的偏差,同时还可以提供元素来源和富集保存的有用信息。

(6)

图1 大炭豪煤矿煤炭元素的聚类分析Fig.1 Cluster analysis for coal element data from the Datanhao Mine

图2 阿刀亥煤矿煤炭元素的聚类分析Fig.2 Cluster analysis for coal element data from the Adaohai Mine

(7)

以内蒙古哈尔乌素露天矿晚古生代主采煤层为例,应用两段式聚类算法判别出煤中元素不同来源的临界点为9%,如图3所示。其中,该样本组被选择的原因是:① 煤中含有相对简单的矿物组合,以高岭石和勃姆石为主,含有少量的方解石、黄铁矿和石英;相对简单的矿物组合为精准确定煤中元素的赋存状态提供了可能;② 矿物来源单一,主要矿物高岭石和勃姆石主要以碎屑或溶液形式来源于蚀源区;③ 通过直接方法,如X射线衍射分析、带能谱仪的扫描电子显微镜和光学显微镜对矿物进行赋存状态研究并进行了交叉验证,确定了煤中大部分元素的赋存状态;④ 用X射线荧光光谱和电感耦合等离子体质谱测定了煤中常量元素和微量元素的含量,其结果与矿物学结果一致,表明了地球化学分析和矿物学分析的可靠性;⑤ 该煤的灰分范围大(3.66%~46.56%),为不同灰分下的煤中元素赋存状态的渐变分析提供了可能。

图3 部分元素与灰分相关系数[25]Fig.3 Correlation coefficient of some elements and ash yield[25]

通过研究分析发现:① 以煤灰分9%为临界点划分的高灰分和低灰分煤中元素的赋存状态差异明显;低灰分煤中大部分元素以有机态为主,高灰分煤中相应的元素以矿物态为主。② 以煤灰分9%为临界点,低灰分煤中的元素主要来源是成煤植物本身和沉积环境,高灰分煤中元素的主要来源为蚀源区(阴山古陆以及盆地北缘隆起的风化壳铝土矿)。

1.4 基于层次聚类算法的煤中元素的赋存状态预测

层次聚类算法是机器学习最常用的方法之一,应用不同的层次聚类算法会显示不同的煤中元素的组合。为分析不同层次聚类算法的有效性,笔者对煤中元素的层次聚类算法的有效性进行了对比分析。

转换算法有枢轴坐标(Pivot Coordinates,PC)和加权对称的枢轴坐标(Weighted Symmetric Pivot Coordinates,WSPC)。4种常见的层次聚类算法有平均链接(Average-Linkage)、全链接(Complete-Linkage)、单链接(Single-Linkage)和质心链接(Centroid-Linkage)。数据点间距离计算方法有欧式距离(Euclidean distance)和基于皮尔逊相关系数的距离。根据转换算法、簇间距离和数据点之间距离计算方法的不同,可以组合得出不同的层次聚类算法(表1)。

等距对数比坐标(isometric log-ratio coordinates,olr)可以将数据从单纯形空间映射到欧几里德空间。对olr坐标的一种特殊的基准选择产生了枢轴坐标(PC),其定义如下:

(8)

式中,含义同,表示枚举;为的范围上限。

表1 不同组合的层次聚类算法

(9)

(10)

以研究程度较高的内蒙古大青山煤田大炭豪矿和阿刀亥矿的晚石炭世煤中元素为例,验证不同的层次聚类算法对元素进行聚类并由此进行赋存状态分析。可以得出:

(1)在对原始数据、枢轴坐标转换后的数据和加权对称枢轴坐标转换后的数据的层次聚类分析中,相关性距离都要比欧氏距离好,如图4,5所示。

(2)对于使用相关性距离的层次聚类结果,加权对称的枢轴坐标转换比枢轴坐标转换略好,且比原始数据转换要好,如图5~7所示。

图4 使用欧式距离对阿刀亥矿数据(枢轴坐标)的聚类结果Fig.4 Clustering result of Adaohai data (pivot coordinates)with Euclidean distance

图5 使用Pearson相关对阿刀亥矿数据(枢轴坐标)进行聚类Fig.5 Clustering result of Adaohai data (pivot coordinates) with Pearson correlation

图6 用Pearson相关对阿刀亥矿数据(加权对称坐标) 进行聚类Fig.6 Clustering result of Adaohai data (WSPC) with Pearson correlation

(3)单链接、全链接、平均链接和质心链接的4种常见的分层聚类算法具有相近的聚类性能,但是平均链接算法的效果相对要好,因为它可以更好地揭示元素的地球化学特征,如图4~7所示。结果表明,在基于原始数据和转换后数据的聚类分析中,基于皮尔逊相关系数的距离度量都要比欧几里德距离好。一般来说,基于枢轴坐标进行转换后的数据优于原始数据,而加权对称的枢轴坐标又优于枢轴坐标。

2 机器学习在煤中关键金属和有害元素的地球化学中研究的应用实例

机器学习在解决上述传统数理统计方法展现出了明显的优势,同时,机器学习在煤中关键金属和有害元素地球化学中研究中也表现出了良好的应用前景,以煤中稀土元素的检测和煤中铀的危害为例进行讨论。

2.1 Ba对关键金属元素Eu的干扰阈值的确定

Eu测定过程中Ba的干扰

Eu是煤中最重要的稀土元素之一,不仅经济价值高,而且根据煤中Eu的异常,可以判定煤中矿物质的来源和煤层所经受的地质作用,由此可以提供区域地质历史演化的煤地球化学方面的信息。检测煤和煤燃烧产物中的稀土元素(包括Eu)的试验方法包括X射线荧光光谱、仪器中子活化分析、电感耦合等离子体质谱和激光诱导击穿光谱。在这些试验方法中,四级杆电感耦合等离子体质谱(ICP-MS)已经被广泛用于煤中稀土元素和其他微量元素的测试。然而,四级杆ICP-MS测定煤和煤灰样品中稀土元素Eu的质量分数经常受到Ba的氧化物和氢氧化物等干扰,导致Eu的测定结果可能偏高,进而会导致煤中稀土元素开发利用评估以及煤中矿物质来源推断的偏差。判断ICP-MS检测过程中Eu质量分数是否受到Ba的干扰以及干扰程度是困扰煤地球化学家的难题之一,而实验室内去除Ba从而避免Ba对Eu干扰的方法复杂、耗时长,因此Ba对Eu干扰阈值对精准评估煤中稀土元素的质量分数,以及根据Eu的异常判定煤中元素的来源具有重要的理论和现实意义。YAN等提出利用阳离子交换树脂方法分离Ba和Eu,从而避免Ba对煤、煤燃烧产物和沉积岩中的Eu的干扰。YAN等和LOGES等在进行Ba和Eu质量分数、Ba/Eu质量分数比、Ba对Eu干扰的试验数据分析基础上,发现当样品中的Ba/Eu质量分数比大于1 000时,如果不进行Ba和Eu的分离,样品中的Ba会对Eu的测试结果造成影响,从而会导致样品中Eu的测试结果出现错误。

图7 用Pearson相关对阿刀亥矿数据进行聚类Fig.7 Clustering result of Adaohai data with Pearson correlation

机器学习算法预测Ba对关键金属元素Eu干扰的临界值

由于Ba对Eu干扰的临界值1 000是根据经验得出的估计值,为了准确实现Ba对Eu干扰的临界值,XU等应用机器学习算法预测Ba对Eu干扰的临界值。通过分析Ba,Eu,Ba/Eu和目标变量Ba对Eu的干扰,笔者发现它们之间的关系是复杂且非线性的,应用线性回归的方法构建预测模型会有困难,因此采用树回归的方法构建预测模型。Ba对Eu干扰临界值的预测模型构建过程如下:

(1)构建Ba,Eu,Ba/Eu和Ba对Eu的干扰临界值的训练数据集,并分析特征。

(11)

式中,为一个算法运算过程中计算得到的量,且随着算法的进行会更新;,为被划分出来的相关量的数量。

(3)性能分析。128个煤样品(包括内蒙古、云南临沧、云南镇雄县热水河)被用于验证该阈值的准确性并进行比较,发现预测阈值363比Ba对Eu的干扰经验阈值1 000更为准确。

2.2 基于CART算法我国煤中铀的辐射危害阈值的确定

煤炭中的放射性核素在燃烧后会在煤灰中发生富集。当含有放射性核素铀(U)、钍(Th)及其衰变子元素的煤在燃烧后产生的煤灰被用于建筑材料中时,会对人体产生危害。根据联合国原子辐射效应科学委员会报告,评价室内放射性核素对人体的影响的指标是镭当量浓度(Ra)。

(Ra)=(Ra)+143(Th)+0077(K)

(12)

其中,(Ra),(Th),(K)为对应的3种放射性核素的放射性活度,Bq/kg。当Ra当量浓度超过370 Bq/kg时,建筑材料中所含有的U和Th及其衰变产生的放射性核素所散发出的伽马射线会对室内的居民产生潜在的健康风险。

在评估对人体危害程度的研究中,LAUER等收集了中国的8个富铀煤矿的相关煤样数据,计算得出当原煤中铀的质量分数超过10 mg/kg时,其燃烧产生的煤灰被用作建筑材料时会对居民身体健康产生影响,但是由于其研究所用煤样本少,得出的结果精确度不高,不具有代表性。

获得U在原煤中的质量分数阈值后,经分析得出东北地区,只有内蒙古自治区乌兰图加煤田的U质量分数超过阈值。西藏滇西地区临沧煤田的U平均质量分数为59.01 mg/kg,西藏滇西地区禄劝煤田的U平均质量分数为34.05 mg/kg。北部地区的煤中平均U质量分数为5.68~27.50 mg/kg,远低于南部地区。与北部地区相比,南部地区煤中的U质量分数显著增加。南部地区U平均质量分数为7.50~303.04 mg/kg。该区U质量分数超标的煤主要分布在重庆、贵州、广西和云南东部。在所有这些煤田中,有3个煤田的U平均质量分数超过100 mg/kg。重庆磨心坡煤田煤中的U质量分数最高,约为303.4 mg/kg。

3 结 论

(1)非对称对数比转换方法,有效解决了煤和煤炭不同基准下元素之间、元素和灰分之间相关性不一致的问题。

(2)在4种常见的分层聚类算法中,平均链接算法的效果相对要好,在基于原始数据和转换后数据的聚类分析中,基于皮尔逊相关系数的距离度量都要比欧几里德距离好, 基于枢轴坐标进行转换后的数据优于原始数据,而加权对称的枢轴坐标又优于枢轴坐标。

(3)经分析,Ba对关键金属元素Eu影响的阈值为363,128个煤样品(包括内蒙古、云南临沧、云南镇雄县热水河)被用于验证该阈值的准确性,并与干扰经验阈值1 000进行比较,发现预测阈值363比干扰经验阈值1 000更为准确。

(4)经分析得出在灰分小于20%,Ra当量浓度超过370 Bq/kg时,U在原煤中的质量分数阈值为5.28 mg/kg。在灰分大于20%,Ra的值超过370 Bq/kg时,U在原煤中的质量分数阈值为7.98 mg/kg。

猜你喜欢

灰分对数阈值
武夷岩茶总灰分研究
非平稳声信号下的小波变换去噪方法研究
非均匀光照下文本图像分割算法研究
明晰底数间的区别,比较对数式的大小
比较底数不同的两个对数式大小的方法
利用迭代软阈值方法抑制恒时演化类核磁共振实验中的采样截断伪峰
活用对数换底公式及推论
神奇的对数换底公式
X—荧光光谱法测定聚丙烯灰分含量的研究
两种改进的局部阈值分割算法