高维最小二乘投影算法在NIR中的应用*
2019-10-15罗逸平肖翠娥傅建辉
罗逸平,肖翠娥,傅建辉
高维最小二乘投影算法在NIR中的应用*
罗逸平,肖翠娥,傅建辉
(湖南城市学院 理学院,湖南 益阳 413000)
针对高维复杂的近红外光谱(NIR)数据,提出了一种新的基于高维最小二乘投影的变量筛选方法(HOLPPLS)。首先计算高维最小二乘投影系数并对系数的绝对值进行排序,系数的绝对值越大,对应的变量就越重要;然后结合PLS进行变量筛选。HOLPPLS是结合了高维最小二乘投影和PLS的向前变量选择算法。实际数据集的实验分析表明,HOLPPLS能有效提高模型的预测性能。
高维最小二乘投影;偏最小二乘;NIR;变量选择
针对复杂的近红外光谱数据含有大量的冗余信息,同时具有很高的共线性[1],提出了一种新的基于高维最小二乘投影的偏最小二乘算法(HOLPPLS)。
高维最小二乘投影理论由WANG等2016年提出,他们指出在没有强相关假设的条件下能够给出可靠的变量选择,计算复杂度较低[2]。
偏最小二乘(Partial Least Squares,PLS)算法由WOLD提出[3],已经成为近红外光谱数据分析的最流行的方法之一。HOLPPLS算法结合了距离相关和PLS各自的优势,实际的光谱数据集的实验和分析表明,与常用的SRPLS算法比较,HOLPPLS方法的预测性能有明显改进。
1 偏最小二乘回归(PLSR)
PLSR是一种新型的多元统计数据分析方法,能够有效地解决多维共线性问题,它已广泛地应用在近红外光谱(NIR)分析中。
设为和的线性组合,表示得分矩阵;为组合系数向量;为对最小二乘回归系数向量。于是有下列公式:
=
=+=+=+(1)
式(1)中:为随机误差向量;==[1,2,…,p]t为维的系数向量。
2 高维最小二乘投影方法(High dimensional ordinary least squares projection,HOLP)
设光谱数据包个样本,个变量,令={1,2,…,p},j=(1j,2j,…,nj)T(=1,2,…,)。是包含感兴趣的属性的维列向量。表示向量或矩阵的转置。
在多元回归分析中,经常考虑线性模型=+,=(1,2,…,p)T是回归系数向量。高维最小二乘投影方法由XIANG等2016年提出,能够有效地克服利用相关性大小来选择变量的一些不足。高维最小二乘投影方法关系数计算公式为=T(T)-1。有关高维最小二乘投影方法的理论请参阅文献[2]。值得注意的是,高维最小二乘投影筛选变量利用了中分量的大小排序,这一思想与使用同因变量的相关性大小来选择变量是一致的。
3 高维最小二乘投影的偏最小二乘算法(HOLPPLS)
光谱数据往往包含噪声、背景等无用信息。通常使用的PLS方法在建模时包含了所有的变量,这些可能会降低模型的预测精度。结合高维最小二乘投影和PLS的优点,提出了一种新变量选择方法HOLPPLS。
HOLPPLS算法总结如下:①光谱数据矩阵和被标准化。令={1,2,…,p}表示整个的变量集。②计算高维最小二乘投影系数,依次挑选系数绝对值最大对应的一个变量,建立PLSR模型,然后记录RMSE。这样得到个PLSR模型和个RMSE。③选择个RMSE值中最小的那个对应的变量集,然后在这个变量集上建立最后的PLS回归模型。
4 数据与结果讨论
选择一个实际的近红外光Gasoline数据集[4]来评估HOLPPLS算法的性能。作为参考标准,SRPLS(selectivity ratio pls)被用来作比较。
Gasoline数据是另一个近红外光谱数据集,它包含60个样本,近红外谱根据漫反射度的函数log(1/R)从900 nm 到1 700 nm 中并以in 2 nm 为间隔测量出来的,于是一共有401个变量或波长(wavelengths)。60个样本被随机地分成训练集(train set,35)、优化集(optimization set,15)和测试集(test set,15)。
数据集Gasoline的预测结果如表1所示。表1描述了Gasoline预测的结果。HOLPPLS方法比SRPLS获得了更好的预测精度,选择的变量数也更少。
表1 数据集Gasoline的预测结果
MethodsnLVnVarRMSE_OPTRMSEP_TESTThreshold SRPLS102610.1010.3430.012 HOLPPLS81080.0940.3190.036
HOLPPLS和SRPLS选择的变量与波长区间如图1所示。这些结果说明采用高维最小二乘投影系数筛选变量能够改进PLS模型的预测性能。HOLPPLS算法是基于R语言(版本3.5.3)编写的。
5 结论
利用近来提出的高维最小二乘投影方法,结合PLS的优点,提出了一种新的变量筛选方法HOLPPLS算法。
数据实验表明HOLPPLS算法可以提高变量选择和模型的预测性能。
图1 SRPLS和HOLPPLS选择的波长变量
[1]LIANG Y Z,WU H L,YU R Q.Handbook of analytical chemistry 10 chemmometrics[M].3rd ed.Beijing:Chemical Industry Press,2016.
[2]XIANG Y W,CHEN L L.High-dimensional ordinary least-squares projection for screening variables[J].Journal of the Royal Statistical Society B,2016(78):589-611.
[3]WOLD S,ERIKSSON L.PLS-regression:a basic tool of chemometrics[J].Chemometrics and Intelligent Laboratory Systems,2001(58):109-130.
[4]ANDERSEN C M.Variable selection in regression-a tutorial[J].J Chemometr,2011(24):728-737.
O657.33
A
10.15913/j.cnki.kjycx.2019.18.037
2095-6835(2019)18-0092-02
湖南省教育厅项目“基于流形学习的统计建模方法在高维谱数据中的应用研究”(编号:16C0295)
罗逸平,男,湖南益阳人,硕士,讲师,主要从事统计理论、数据分析等方面的工作。
〔编辑:严丽琴〕