数据预处理方法对油页岩含油率近红外光谱分析的影响
2013-08-16王智宏王婧茹孙玉洋
王智宏,刘 杰,王婧茹,孙玉洋,于 永,林 君
(吉林大学 仪器科学与电气工程学院,长春 130026)
0 引 言
油页岩含油率测定的常规方法是低温干馏法(SH/T 0508-92)[1],该方法需要在实验室进行,过程繁琐,效率低,无法满足油页岩资源的勘查和开采中样品检测的要求。因此Passey[2]、宋宁等[3]、贺君玲等[4]利用现有的测井数据,研究了评价含油率的间接方法,但此方法对于没有进行地质钻井勘探的地区无法使用。Snyder等[5]、Alstadt等[6]、Shoval等[7]、谢芳芳等[8]提出采用漫反射傅立叶中红外光谱分析技术进行油页岩含油率及矿物成分分析,Romeo等[9]也提出采用漫反射近红外光谱分析法预测油页岩含油率,这些方法相对低温干馏法速度快、精度高,但所用为实验室仪器、非便携式,而且样品需要粉碎等制样处理,无法实现原位测量。
近红外光谱(760~2526nm)主要是有机分子中含氢基团(包括C-H、N-H、O-H 等)的倍频与合频的吸收光谱,可获得物质的分子结构、组成、状态等信息。便携式近红外光谱技术将实验室仪器带到野外进行现场检测,它具有如下特点:不破坏样品,不用试剂,不污染环境;可直接对目标进行测定;测量精度高,分析速度快;投资及操作费用低[10]。
页岩油主要由液体烃类组成[11]。烃类的分子键C-H在近红外区具有明显的吸收特征,尤其是其1600~1800nm的一级倍频吸收带与油页岩中其他成分——水分和矿物质的吸收带(约1400、1900、2200nm)不同[12]。因此便携式近红外光谱分析技术可作为一种高效的检测方法用于油页岩含油率的现场检测。
近红外光谱分析需要先在涵盖被测样品成分的样品数据库基础上采用化学计量学方法建立分析模型,才能对未知样品成分及含量进行检测。模型的精度直接影响分析的准确性。数据库数据(包括已知样品的近红外光谱数据和成分数据)的准确性和有效性是影响模型精度的关键因素。而油页岩样品成分复杂、光谱数据变化范围大、干扰多,需采用适当的数据处理方法以提高数据库数据的准确性和有效性。
本文针对油页岩样品和矿物与油的合成样品数据库,结合光谱和矩阵2类数据预处理方法,展开光谱数据处理方法实验和偏最小二乘法(PLS)建模实验,研究不同处理方法及其组合对光谱数据的一致性和PLS模型精度的影响,以确定其最佳处理方法。
1 实验材料与方法
1.1 材料与仪器
油页岩固体样品:实验室收集,产地不详,含油率为23%。高岭土的产地为吉林省舒兰县;成分(X衍射分析)为高岭石72.4%、石英26.5%、明矾石1.05%;旋风磨粉碎,过140目孔筛。机油为美国壳牌公司喜力HX510W-40。
按比重配制30个粉末样品:分别按机油所占质量比为1%~20%(见表1),用天平称取高岭土粉末和机油,二者倒入玛瑙研磨器中充分研磨混合。所得样品的颜色随机油所占质量比的增加而加深。
表1 合成样品机油配比Table 1 Weight ratio of engine oil to proportioning samples
自制便携式近红外光谱仪(PISA-2),光谱范围为1200~2500nm,采样间隔为4nm,取样方式为积分球漫反射,光谱数据单位为反射率。
1.2 实验方法
1.2.1 样品测量
对油页岩固体样品:直接置于仪器样品窗口测量其相对参比(漫反射镀金板)的反射率光谱数据。
对合成的粉末样品:取15mL烧杯装样,置于仪器样品窗口测量其相对参比(实验材料中的高岭土粉末)反射率光谱数据。
测量地点为实验室,时间无限制,不连续。
1.2.2 构建建模数据库
建模数据库baseoil1.mat包括30个合成样品的反射率光谱数据和对应的机油配比值(1%~20%)组成的2个矩阵:光谱矩阵(30行、325列)和成分矩阵(30行、1列)。
1.2.3 建模预处理方法
(1)光谱预处理:针对光谱数据,用以消除光谱数据之间的差异。采用如下8种光谱预处理方法,对光谱矩阵中的每个样品的光谱数据进行处理,即行处理:
式中:y′为y处理后的数据;y-为y的平均值;std()、max()、min()分别为标准偏差、最大值、最小值函数。
式(1)(2)(3)中的数据为某一样品的光谱数据。
④平滑:采用Savitzky-Golay三阶7点卷积平滑。
⑤消噪:采用symlets8小波进行三层分解并用heursurc软阈值进行小波系数阈值量化后低频重构。
⑥消基线:采用外包络线消除基线。
⑦一阶导数:采用Savitzky-Golay三阶7点卷积平滑曲线的一阶微分。
⑧二阶导数:采用Savitzky-Golay三阶7点卷积平滑曲线的二阶微分。
(2)矩阵预处理:针对建模数据(包括光谱矩阵和成分矩阵),用以改变数据变化域,提高建模数据的相关性。采用3种矩阵预处理方法,对光谱矩阵的每个波长点或成分矩阵的成分数据进行处理,即列处理:
①中心化:公式同式(1)。
②正则化:公式同式(2)。
③归一化:公式同式(3)。
此时式(1)(2)(3)中数据为建模数据中的光谱矩阵中所有样品光谱在某一波长点对应的值,或成分矩阵中所用样品某一成分对应的含量值。
1.2.4 实验过程
对经多次测量的油页岩固体样品的反射率光谱数据,分别采用8种光谱预处理方法进行处理,得8组新的光谱数据。为保证各组数据的可比性,对各组数据进行整体归一化后再求各组数据的方差与均值之比RNS,RNS值越小,该组光谱数据间的差异越小、一致性越好。上述过程采用Matlab编程实现。
分别采用2类数据预处理方法的不同组合,对建模数据进行1~12主成分数的留一校验PLS建模,共12个模型,计算每个建模留一校验预测结果的平方相关系数R2。求12个模型的R2最大值R2max,其对应的模型为最佳模型,其主成分数为最佳主成分数Hopt。上述过程采用Matlab编程实现。
2 结果与讨论
2.1 光谱预处理方法
图1为油页岩固体样品在不同时间进行的18次测量所得的反射率光谱数据,对其进行光谱预处理结果见表2。
图1 油页岩样品18次测量光谱数据Fig.1 18times measured spectra of an oilshale sample
表2 光谱预处理方法处理结果Table 2 Results of spectrum data processing
2.1.1 数据分析
表2中RNS均值由小到大排序为:一阶导数(0.0267)<正则化(0.0320)<中心化(0.0390)<归一化(0.0459)<平滑(0.0590)<消噪(0.0595)<不处理(0.0598)<二阶导数(0.0606)<消基线(0.0827)。由此可以得出以下结论。
(1)与不采用光谱数据预处理方法对比,一阶导数、正则化、中心化这三种方法能较好地消除相同样品的光谱数据的差异;归一化也能消除相同样品的光谱数据的差异。
(2)平滑和消噪方法的结果与不采用预处理方法的结果相当,表明这两种方法对相同样品的光谱数据的差异没有明显改善。
(3)消基线方法的结果明显大于不采用预处理方法的结果,表明该方法不能改善相同样品的光谱数据的差异,反而加大了相同样品的光谱数据的差异。
(4)二阶导数处理方法的均值虽然大于未处理的,但其最大值是表2中数据最小的、其最小值是表2中数据第二小的,说明该方法能改善相同样品的光谱数据的差异。
2.1.2 方法分析
由于其在不同时刻测量时存在温度、噪声、仪器稳定性的影响,导致多次测量的油页岩样品光谱数据中会存在差异。设yt为标准光谱,考虑测量时各种因素的影响,测试样品某次测量的反射率光谱y可表示为
式中:a为光谱常数项差异系数;b为光谱一次项差异系数;nR为光谱噪声。
对8种光谱预处理方法作如下分析。
(1)中心化,将式(4)代入式(1)得:
(2)正则化,将式(4)代入式(2)得:
(3)归一化,将式(4)代入式(3)得:
由式(5)(6)(7)可知,处理后光谱数据均消除了常数项的差异,正则化和归一化还同时消除了一次项的差异。
(4)平滑和消噪:均可减小式(4)中的nR,但对常数项和一次项的差异没有作用。
(5)消基线:采用外包络线消除基线的处理方法,可减小常数项和一次项的差异中与波长相关的部分,而对于常量型的常数项和一次项差异无法消除。
(6)一阶导数,由式(4)可知:
该方法可消除光谱数据中的常数项差异。
(7)二阶导数,由式(4)可知:
该方法可消除光谱数据中常数项和一次项的差异。
由图1可知,对于该油页岩样品的光谱数据,其存在较为明显的随机纵向漂移,可视为常数项差异引起。因此采用上述8种方法中能消除常数项差异的方法进行处理可获得较好的效果,如一阶导数、中心化、正则化、归一化、二阶导数,而平滑、消噪和消基线这三种方法不能消除常数项差异。
2.1.3 方法改进
考虑到平滑、消噪和消基线的处理情况,对这三种方法进行改进,分别加入中心化光谱处理方法,重新进行光谱预处理方法实验,所得结果见表3。可见,表3中数据均小于表2中的,因此采用上述改进后的组合光谱处理方法的处理效果好于单一方法。
表3 光谱预处理改进方法处理结果Table 3 Results of improved spectrum data processing
2.2 建模
表4为Baseoil 1合成样品PLS建模实验结果,其中baseoil 1.mat为建模数据库中光谱矩阵的数据(见图2)。
表4 baseoil1合成样品PLS建模实验结果Table 4 PLS modeling results with data of proportioning samples
图2 配比样品光谱数据Fig.2 Spectra data of proportioning samples
2.2.1 数据分析
由表4中数据可知:
(1)各处理方法PLS建模的预测精度为16%~98%,均值为91.39%,最大为98.47%。
(2)结合最佳主成分数,采用各种处理方法所建模型的精度与不采用处理方法的模型精度进行对比。考虑到建模样品为高岭土粉末和机油2种原料的合成样品,所以其主成分数的合理值应为Hopt=2。表4中满足 Hopt=2且R2max>97.68%的有5个:4种光谱预处理(中心化、一阶导数、平滑+中心化、消噪+中心化)分别与中心化矩阵预处理组合,一阶导数光谱预处理与正则化矩阵预处理组合。这5种组合方法可以提高合成样品油页岩含油率PLS模型的精度。
2.2.2 数据预处理方法对比
由表4中的R2max数据对比可得:
(1)对比的R2max值各行,第2、8、9、10、11、12行(即光谱预处理采用中心化、一阶导数、二阶导数、平滑+中心化、消噪+中心化、消基线+中心化这六种光谱预处理方法)对应的PLS模型精度的 均 值 分 别 为 97.43%、97.55%、94.01%、97.42%、97.43%、96.94%,大于表4中其他方法的均值(91.39%)。
在上述6种光谱预处理方法中,第1和8行(即中心化和一阶导数)R2max的各数据相当,且较大,考虑Hopt,一阶导数的效果更好;平滑+中心化(第10行)、消噪+中心化(第11行)与单一中心化(第2行)这3行各列对应数据相当,说明这两种改进的组合光谱预处理方法相对单一中心化光谱预处理方法,对PLS模型精度没有改善;而第12行的数据中出现表中的最大值(大于98.2%),但其值 Hopt≥6,不合理。
(2)对比R2max值的各列,第2、3列(即矩阵预处理采用中心化和正则化)的值相当,均值分别为95.90%、95.85%,且大于其余两列的值。
由上述分析对比可得,提高合成样品油页岩含油率PLS模型精度较为有效的数据预处理方法可以考虑三种:中心化光谱预处理与中心化矩阵预处理组合、一阶导数光谱预处理与中心化矩阵预处理组合,一阶导数光谱预处理与正则化矩阵预处理组合。
2.2.3 光谱数据预处理方法评价分析
由表2和表3中的均值数据可得,在光谱预处理实验中光谱数据预处理方法处理效果好的依次为:一阶导数、消基线+中心化、正则化、消噪+中心化、平滑+中心化、中心化。
由表4中的均值数据可得,在建模实验中光谱数据预处理方法处理效果好的依次为:一阶导数、中心化、消噪+中心化、平滑+中心化、消基线+中心化和二阶导数。
表2~表4表明:实验与建模结果并不完全一致,分析其可能原因如下:在光谱预处理实验中,评价光谱数据预处理方法处理效果的标准是减小相同样品光谱数据的差异,而在建模时处理效果好的光谱数据预处理方法也会消除不同样品光谱数据的差异,这对于建模精度是不利的。因此能够较好地减小相同样品光谱数据差异的光谱预处理方法(如正则化、消基线+中心化)不一定能有效地提高PLS建模的精度。
3 结 论
(1)11种光谱预处理方法中,可明显提高相同样品光谱数据间一致性的光谱预处理方法有3种,按一致性误差由小到大依次是:一阶导数、正则化和中心化;采用适当的组合方法:如平滑、消噪和消基线后加中心化等,也可明显提高相同样品光谱数据间的一致性。
(2)建模时,单独采用一阶导数、中心化这2种方法比其他6种单独方法和不采用处理方法的PLS模型精度高。而3种组合方法对提高模型精度的效果不明显。能够较好地减小相同油页岩样品光谱数据差异的光谱预处理方法不一定能够提高合成样品油页岩含油率PLS建模的精度。
(3)对于3种矩阵预处理方法,采用中心化、正则化这两种方法比归一化方法和不采用处理方法的PLS模型的精度高。
(4)根据最佳主成分数合理值为2,有3种数据预处理组合方法(中心化光谱预处理与中心化矩阵预处理组合、一阶导数光谱预处理与中心化矩阵预处理组合,一阶导数光谱预处理与正则化矩阵预处理组合),可提高合成样品含油率的PLS模型精度。
[1]中华人民共和国石油化工行业标准.油页岩含油率测定法——低温干馏法[S].SH/T 0508-92,1992.
[2]Passey Q R.A practial model for organic richness from porosity and resisitivty logs[J].AAPG Bulletin,1990,74(12):1777-1794.
[3]宋宁,侯建国,王文军.利用测井评价苏北盆地生油岩[J].海洋石油,2001,21(1):8-13.Song Ning,Hou Jian-guo,Wang Wen-jun.Well logging application on source rock evaluation in Subei basin[J].Offshore Oil,2001,21(1):8-13.
[4]贺君玲,邓守伟,陈文龙,等.利用测井技术评价松辽盆地南部油页岩[J].吉林大学学报:地球科学版,2006,36(6):909-914.He Jun-ling,Deng Shou-wei,Chen Wen-long,et al.Evaluation of oil shale in the southern Songliao basin using logging technique[J].Journal of Jilin U-niversity(Earth Science Edition),2006,36(6):909-914.
[5]Snyder R W,Painter P C,Conauer D C.Development of FT-IR procedures for the characterization of oil shale[J].Fuel,1983,62:1205-1214.
[6]Alstadt Kristin N,Katti Dinesh R,Katti Kalpana S.An in situ FTIR step-scan photoacoustic investigation of kerogen and minerals in oil shale[J].Spectrochimica Acta,2012,89:105-113.
[7]Shoval Shlomo,Nathan Yaacov.Analyzing the calcination of sulfur-rich calcareous oil shales using FTIR spectroscopy and applying curve-fitting technique[J].Journal of Thermal Analysis and Calorimetry,2011,105(3):883-896.
[8]谢芳芳,王泽,宋文立,等.吉林桦甸油页岩及热解产物的红外光谱分析[J].光谱学与光谱分析,2011,31(1):91-94.Xie Fang-fang,Wang Ze,Song Wen-li,et al.FTIR analysis of oil shales from huadian jilin and their pyrolysates[J].Spectroscopy and Spectral Analysis,2011,31(1):91-94.
[9]Romeo M J,Adams M J,Hind A R,et al.Near infrared prediction of oil yield from oil shale[J].Journal of Nearinfrared Spectroscopy,2002,10(3):223-231.
[10]陆婉珍.现代近红外光谱分析技术[M].2版.北京:中国石化出版社,2006:1-11,30-31,306-334.
[11]钱家麟,尹亮.油页岩——石油的补充能源[M].北京:中国石化出版社,2008:1-3,69-76.
[12]严衍禄.近红外光谱分析基础与应用[M].北京:轻工业出版社,2005:395-440.