基于稳健估计不同权函数的氧化铝光谱值对比
2022-05-11戴佳乐汪金花
戴佳乐,汪金花
(华北理工大学 矿业工程学院,河北 唐山 063210)
引言
高光谱检测具有无损、快速、环保的特点,是物质定性检测的一种重要手段。高光谱检测时,目标光谱反射曲线是属性识别的特性参量之一。
光谱数据的线性回归分析可以反映光谱反射率与化合物质量之间的线性关系,拟合方程的准确性会直接影响化合物定性与定量的数据分析效果。在光谱数据采集的过程中,由于测量角度、光源、距离等干扰因素,导致测得的光谱反射率会存在粗差,影响拟合方程。一般在数据不存在粗差的情况下使用多最小二乘进行数据处理。由于测量中多数存在粗差的影响,因此引入了稳健估计对粗差进行降权处理,最后得到拟合方程。稳健估计中利用多种权函数进行降权处理,以此改善数据处理结果。
近几年,稳健估计多应用于沉降监测、变形监测以及高程拟合中,多位学者发现在处理变形监测数据时,稳健估计的抗差能力优于最小二乘[1];程开端利用稳健估计结合总体最小二乘的方法,对地铁沉降监测进行多项式曲线拟合,并对实测数据进行预测,结果显示,稳健估计结合总体最小二乘拟合法能较好地拟合监测数据,其预测结果比最小二乘拟合法绝对误差和相对误差小[2]。程帅[3]等人采用稳健估计理论分析风电塔筒垂直度,结合最小二乘法拟合塔筒截面测量值的圆心及半径,通过Huber迭代权函数,逐步消除测量值序列存在的粗差、偶然误差等异常测点的影响,结果表明,稳健最小二乘法拟合风电塔筒垂直度具有较强的抗差能力,可有效避免粗差、偶然误差等异常测量值的影响。但是,在光谱数据处理中引入稳健估计的研究较少,董元[4]等采用稳健估计和最小二乘回归分析的方法,分别对水泥的胶砂试块光谱值进行抗差能力分析,结果表明,在含有噪声时,稳健估计的抗差效果较好;刘暑明[5]等对硫酸钙数据进行处理,选取5个吸收峰的光谱值与质量进行回归分析,在含有粗差的情况下稳健估计因为抗差能力较强建立的预测方程更为可靠。从上述研究发现,稳健估计的抗差能力优于最小二乘,但是不同权函数的选择尤为重要,因此本研究对比不同权函数的抗差效果。
该研究对氧化铝质量和光谱反射率建立拟合方程,选取10种质量的氧化铝,筛选相关性大的波长,采用多元线性回归和不同权函数下的稳健估计构建回归模型并对比抗差能力。
1实验方案
1.1 材料准备
实验原料是氧化铝粉末,氧化铝作为重要的催化剂物质,在大量的矿物实验中需要使用其作为催化剂,因此氧化铝的特性研究显得尤为重要。
氧化铝光谱数据采用美国ASD公司生产的ASD Field Spec4光谱仪进行测量,该光谱仪光谱波段测量范围为350~2 500 nm,光谱采样间隔在350~1 000 nm波段范围时为1.4 nm,1 000~2 500 nm波段范围时为2 nm。
表1 氧化铝的性质
1.2 数据采集
首先将氧化铝粉末称重,选取不同质量的氧化铝测量其光谱曲线,分别选取3 g、6 g、9 g、12 g、15 g、18 g、21 g、24 g、27 g、30 g共10份不同质量的10组数据进行采集。将氧化铝粉末样品放置于光谱反射率极低的黑色实验盒中,为减少样本表面凹凸不平产生的散射光对测量精度的影响,将粉末压平。首先,需要将ASD光谱仪提前开启进行预热准备,时间为30 min左右,在测量之前进行白板校正。实验时,需要在黑暗的环境下进行,并且使用探照灯模拟日照环境。矿物测量探头应与被测物体所在水平面的法线的夹角保持在±10°左右,准备工作结束后,依次测量每个氧化铝粉末样本的光谱,各获取5条样本光谱曲线,以消除测量过程中的不稳定性。利用View Spec Pro光谱处理软件查看各样本光谱并剔除异常光谱曲线,并对各样本计算得到光谱反射率平均值,同时将其作为原始光谱反射率值。然后对其进行断点修复、平滑、求均值等预处理工作。最后进行光谱分析,在ENVI软件中进行去包络线得到实验数据。
1.3 数据预处理
将使用光谱仪采集的数据进行光谱曲线数据预处理,再进行去包络线处理,得到如图1所示去包络线的光谱曲线。从下图中看的,不同质量的氧化铝光谱曲线吸收位置基本一致,随着质量的增加反射率值也呈现规律的变化趋势。
图1 氧化铝粉末去包络线处理
2原理分析
1.1 相关性分析
(1)
其中,COV(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。X为自变量本文是不同波段的反射率值,Y为因变量是质量
相关性分析法是研究2个或2个以上处于同等地位的随机变量间的相关关系的统计分析方法。相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。经过相关性分析,选择敏感波段进行处理。
2.2 最小二乘原理
(2)
式中:V是观测值的改正数,X是未知参数的近似值,B为观测值构成的系数矩阵,L是近似值和观测值之差。解得参数X如下:
X=(BTPB)-1BTPL
(3)
2.3 稳健估计的原理
稳健估计有多种,分为M估计、R估计和L估计,该研究采用了稳健估计法中的M估计的选权迭代法。
(4)
解得参数X如下:
(5)
2.4 稳健估计权函数公式
实验中采用了Huber、Fair、Cauchy和Welsch等常用的稳健估计方法的权函数进行对比分析,在上述公式中,w(u)代表权函数,c为权函数权重阈值。稳健估计达到目的的方法是剔除粗差或者达到减弱粗差的效果,想要达到这个效果与权重函数的选取及阈值的改变有着密切的联系,权函数不同阈值的改变都会出现不同的稳健估计效果。
(1) Huber函数
(6)
(2) Fair函数
(7)
(3) Andrews
(8)
(4)Welsch
(9)
(5)Cauchy
(10)
图1为计算过程流程图,最小二乘与稳健估计的区别主要在于权函数上,稳健估计多了使用权函数降权处理,因此有效减少粗差带来的影响,从而有效建立回归方程。稳健估计中用多种权函数进行降权处理,降权的效果不同,抗差能力也有所不同。
图2 流程图
3实验结果
3.1 相关性分析
图3为经过相关性分析从700多个波段中选择5个敏感波段作为自变量,与氧化铝粉末的质量进行方程拟合。
图3 敏感波段选取
用ASD4测出光谱曲线,并进行基本的预处理,去包络线。由光谱曲线可以看出几个较为明显的吸收峰位置,这几个波段是直接影响光谱曲线走势的特定位置。首先对这几个吸收峰位置进行分析,计算其特征参量,包含对称性参数D、SAI值、宽度以及深度,分析4个吸收峰的特征参量。
表2 光谱曲线特性
经过对几个吸收峰位置进行相关性分析,从700个波段中筛选出较为敏感的5个波段,分别是531、1 802、1 395、1 940和2 221波段作为自变量,将质量作为因变量进行多元线性回归分析以及稳健估计,建立回归方程。表3所示为筛选数据。
表3 筛选数据
对表3中数据进行相关性分析,得出表4中每个变量对与质量之间的相关性。由计算的相关系数可以知道,X1呈负相关,其它都是正相关,其中X3,、X4的相关性最大,但是与其它的相比相差不大,因此都用于建立回归方程进行计算。
表4 因变量相关性
3.2 残差剔除
图4 数据残差图
进行多元回归分析,首先在Matlab中绘制残差图,由图4可知,数据中出现了2组粗差,因此将2组粗差进行剔除。用于多元线性回归以及稳健估计数据计算。
3.3 数据结果对比分析
表5所示为不同权函数预测值及真值对比。
表5 不同权函数预测值及真值对比
用3组数据作为验证数据,由表5可以看出,Fair函数和Logistic函数的预测值较高,fair、logistic函数与真值相差在0.5之内,最小二乘的预测值与真值也较为接近相差在1之内;其中其它的预测数据值跟真值之间的差距较大,其中Talwar、Welsch、Bisquare函数与真值相差在1.5左右。结合预测值对比分析可知稳健估计的预测准确效果高于最小二乘。
表6 不同权函数中误差对比
从表6可以看出不同权函数的中误差是有区别的,但是中误差的差别不是很明显。其中最小二乘的中误差是0.78,稳健估计的Fair、Logistics函数是0.721和0.711,效果是优与最小二乘的结果,与预测结果一致,稳健估计的这两种权函数在数据抗差能力明显强于最小二乘。
3.4 方程拟合效果分析
将原始数据以及稳健估计和最小二乘建立拟合方程图,选择效果较好的Fair函数和Logistics函数,可以看出稳健估计的折线与最小二乘的几乎重合,这是由于存在的粗差过小无法体现出稳健估计的优势,但是与原始数据相比存在一些波动。图5所示为方程拟合图,由图5可知,不同权函数在方程拟合图上,与最小二乘的效果接近,在图像的表示上很难区分,只存在细微的差距,从计算的中误差和真值可以判断,稳健估计部分权函数的拟合效果优于最小二乘。
图5 方程拟合图
4结论
(1)本文通过实验及对比分析发现,当光谱数据存在一定粗差的情况中稳健估计的中误差小于最小二乘,并且预测值更接近真值,其中稳健估计的Fair、Logistics两种权函数的数据处理能力更优。
(2)稳健估计能减弱粗差对高光谱数据的影响,同时可以反演出氧化铝粉末的质量。