基于稳定一致波长的烟叶总植物碱近红外光谱定量模型传递
2020-07-02李永琪倪力军陈栋骅朱敏敏张立国
黄 雯,李永琪,葛 炯,倪力军,陈栋骅,朱敏敏,张立国*
1.上海烟草集团有限责任公司技术中心理化实验室,上海市杨浦区长阳路717 号 200082
2.华东理工大学化学与分子工程学院,上海市徐汇区梅陇路130 号 200237
传统的烟叶总植物碱含量(质量分数)检测方法操作繁琐、费时费力[1]。近年来,随着检测技术与计算机技术的迅猛发展,近红外光谱(NIR)检测技术因其快速、无破坏性、相对准确、多组分可同时测定[2]等优点,已成为烟草行业应用较广的光谱分析检测技术之一[3]。建立稳定、可靠的NIR模型通常需要使用海量具有代表性的样本,且模型建立和维护工作量大[4],而样本测量环境差异及仪器间光谱响应不一致等因素可能导致基于主机样本构建的NIR 模型在其他从仪器(子机)上无效[5],因此,多台仪器共享一个NIR 模型一直是光谱快检技术追求的目标之一[6]。
一般而言,模型传递方法[7]可通过采用各种算法来克服样本在不同仪器间测量信号的不一致性,从而使主机模型传递到从机后误差尽可能减小。通常需要一定数量的样本作为转移集来实现模型从主机到从机的传递。而采用各种数学方法对光谱信息进行预处理,使主、从机间光谱信号尽可能一致的无标样传递方法的可应用场景有限[8-9]。迄今,烟叶化学成分定量近红外光谱模型的共享(移植、传递、转移)研究中,从机(子机)通常不超过2 台,大多为1 台[10-12]。各模型转移方法在多台仪器间模型转移中的适用性研究少见报道。近年来,NIR 模型主要是在谷类[13]、饲料行业[14]的某些特定机型上实现了模型共享。
为了使用和管理的方便,烟草企业通常采购同一厂家同一型号甚至同批次生产的近红外光谱仪,使模型能在多台仪器间共享[15],但是烟叶总植物碱NIR 模型在多台同厂家、同型号仪器间的共享仍存在较大难度。以分段直接校正(Piecewise Direct Standardization,PDS)为代表的有标样模型转移方法需要一定数量的烟叶样本作为转移集,鉴于样本在存放过程中会发生性能改变,不能长期作为标样,且标样在不同用户间传送时存在较多不便,模型转移到从机时需要校正从机光谱或校正模型参数,因此,此类方法在实际应用中仍有较大局限性。
据文献[16-17]报道,通过同类型不同仪器间光谱方差和精密度测试方差的比较分析,可以筛选出仪器间信号一致性好且稳定的波长(SWCSS),从而建立稳健可共享的NIR 模型。为此,本研究中采用该方法在主机上建立预测烟叶总植物碱的NIR 最小二乘模型(SWCSS-PLS),考察其在上海烟草集团有限责任公司另外4台代表性从机上的转移效果,并与全光谱模型、PDS校正后全光谱模型的传递结果进行对比,旨在提升近红外校准模型的稳健性和可共享性,为近红外光谱检测技术在烟叶质量测定中的应用提供方法参考。
1 材料与方法
1.1 仪器和样本
选取3 套烟叶样本数据集,其中,A 套数据集由灭活处理后的20 个烟叶样本的光谱组成,这些光谱在5 台Antaris Ⅱ近红外仪器(赛默飞世尔科技有限公司)上、在相同测试条件以及前处理条件下测得,用于筛选一致性好且稳定的光谱信号的波长;B 套数据集由2011—2013 年积累的78 个烟叶样本的光谱组成,这些光谱分别在上述5 台近红外光谱仪上、在相同测试条件以及样本前处理条件下测得,对应的总植物碱含量信息已知;C 套数据集由企业2005—2014 年积累的1 070 个烟叶样本的光谱组成,这些光谱在Antaris Ⅱ近红外光谱仪B 仪器(主机)上测得,用于建立烟叶总植物碱NIR 模型,对应的总植物碱含量已知。
1.2 烟叶样本光谱信息的采集
采用YC/T 160—2002[1]测定每个样本的总植物碱含量,其含量在0.55%~6.30%之间。对3 套烟叶样本进行近红外光谱采集,实验条件为:将烟叶样本干燥处理后粉碎,并过40 ~60 目(380 ~250 μm)筛;取约4 g 样本置于石英杯中进行光谱测量;采集样本前预热1 h,仪器扫描范围3 800~10 000 cm-1,设置分辨率为8 cm-1,扫描64 次,增益值2,温度(22±4)℃,相对湿度30%~80%。
1.3 稳定一致光谱波长的筛选
根据SWCSS 方法[16-17],选取5 个代表性样本,测试其主、从机光谱,定义这些样本主、从机差异光谱在波长j 下的标准方差SDDSIj与主机的精密度测试光谱的标准偏差SDPDSj的比值为一致度参数:
式中:n 为波长个数。通常情况下,SDPDS 反映短时间内仪器噪声、测试误差的波动水平,SDDSI 反映主从机之间差异光谱的波动范围;一般情况下,SDDSIj大于SDPDSj。bj越接近1,表明仪器间光谱的差异越小,即该波长下不同仪器间光谱信号的一致性越好。在实际应用中,可设置合理的bj阈值进行波长筛选。
SWCSS 方法剔除了SDDSI 过高的波长,主机与每台从机之间信号一致性好的波长集被记录为U1、U2、…、Uk,这些集合的交集称为Uc;从Uc中剔除SDPDS 值过大的波长,进一步可获得稳定一致的波长集Usc。
1.4 烟叶中总植物碱SWCSS-PLS 模型的建立
本研究中,同一烟叶样本在3 800~4 000 cm-1的精密度测试光谱的方差SDPDS 较大,表明该区间的光谱信号不稳定,另外,9 000 cm-1后的光谱基本为水平线,说明信息含量较低,因此,选取4 000~9 000 cm-1波数范围作为稳定一致波长筛选的区间及全光谱模型建模区间。采用标准正态变换(SNV)结合一阶导数进行31 点平滑对样本的近红外光谱进行预处理,消除因散射和背景漂移引起的光谱误差;通过蒙特卡洛离群值检测方法筛选离群值[18],采用SPXY(Sample set partitioning based on joint x-y distance)方法[19]选取C 套数据集中的前2/3 样本作为建模集,分别基于全波长和Usc光谱集的信息建立预测烟叶总植物碱含量的全光谱PLS 模型和SWCSS-PLS 模型,C 套数据集的后1/3 样本作为内部检验集。以建模集均方根残差(RMSEC)评价模型的拟合性能,以验证集的均方根残差(RMSEP)、平均相对误差(MRE)、模型预测值与实际值的相关系数(R)评价模型的预测性能[4]。采用累积贡献率高于99.95%来选择最佳潜在变量数。所有算法均采用MATLAB2015b 软件完成。
2 结果与讨论
2.1 烟叶样本光谱信息
A 套数据中的20 个灭活烟叶样本在5 台近红外光谱仪上的平均NIR 光谱和采用标准正态变换(SNV)结合一阶导数进行31 点平滑处理后的平均NIR 光谱见图1。可以看出,原始平均光谱和预处理后的平均光谱均未完全重叠,且在波峰和波谷处呈现较大差异。
图1 20 个灭活烟叶样本在5 台近红外光谱仪上的原始平均光谱和预处理后的平均光谱图Fig.1 Original average spectra and pretreated average spectra of 20 inactive tobacco leaf samples tested on five NIR spectrometers
2.2 信号稳定一致波长集合
在A 套样本中采用SPXY 方法选取前5 个样本,基于这5 个样本在5 台仪器的光谱筛选稳定一致波长集。由图1 可知,C1 和C2、P1 和P2 之间的光谱接近,因此求得主机B 和C2 间这5 个样本的SDDSI1 光 谱、B 和P2 间的这5 个 样本的SDDSI2光谱。以烟叶中总植物碱指标的PLS 模型对主机验证集样本的预测RMSEP 最小为标准选择适宜的b 值。根据主机B 和从机C2 得到的不同一致度参数b1下各波长集合建立主机模型,预测主机检验集样本中总植物碱含量的RMSEP 随b1值的变化见图2。当b1取1、2 时,未满足SDDSI1/SDPDS<b 的波长。由图2 可知,选择RMSEP 最低时对应的b1值为6。b2的选择过程与b1类似,为简化运算,统一选择b=6 来进行波长筛选。
图2 主机样本总植物碱的RMSEP随一致度参数b1的变化Fig.2 Variation of RMSEP of total alkaloid in master samples with consistency parameter b1
根据主机B 和从机C2 间的SDDSI1 光谱和SDPDS 光谱比值小于6 得到的波长集合U1中包含618 个波长;根据主机B 和从机P2 间的SDDSI2 光谱和SDPDS 光谱比值小于6 得到波长集合U2中包含355 个变量;U1、U2的波长交集Uc包含278 个变量,Uc中没有SDPDS 值过大的波长点。因此,筛选出的集合Usc包含278 个信号稳定一致的点,如图3 所示。
由图3 可知,SWCSS 所选择的波长点主要位于SDDSI1 的波谷区,表明主从仪器之间的光谱信号在这些波长吻合度较好(即一致性好),SWCSS方法剔除了SDDSI1 值大的波长。B、C2 和P2 的导数平均光谱在某些区域存在较大差异,例如4 038 ~4 127、4 393 ~4 482、4 721 ~5 022、5 207 ~5 296 和6 869~7 232 cm-1区域,这些区域的波长无法通过SWCSS 筛选。可见,建立在所选波长集合上的PLS 模型在不同光谱仪上具有良好的共享性,而无需校正从机光谱或调整模型参数。
图3 B 和C2 仪器间标准偏差光谱(SDDSI1)以及B、C2 和P2 的SNV+一阶导数平均光谱图Fig.3 Standard deviation spectra between instrument B and C2(SDDSI1)and SNV+derivative mean spectra on B,C2,and P2
2.3 不同方法建立的烟叶中总植物碱NIR 模型传递结果比较
基于SWCSS 方法筛选的278 个波长点,在主机B 上建立总植物碱的SWCSS-PLS 模型,用该模型根据C1、C2、P1 和P2 近红外光谱仪上测试的B套78 个外部验证集样本光谱,预测其总植物碱含量,并与用全光谱PLS 模型(Whole Wavelength PLS,WW-PLS)以及PDS 校正后的全光谱PLS 模型传递结果进行对比,见表1。
由表1 可知,主机WW-PLS 模型对于总植物碱的模型预测MRE 小于4%,该模型直接预测4 台从机样本的总植物碱含量时,预测误差显著增加,MRE 均大于9%,WW-PLS 模型转移到C1 仪器时MRE 达到了主机MRE 的4 倍。SWCSS-PLS 模 型对主机样本的预测误差略高于全光谱模型,但该模型转移到4 个不同从仪器时各指标均较WW-PLS 模型有显著改善,SWCSS-PLS 模型预测从机样本总植物碱含量的MRE 能达到企业对总植物碱预测平均误差小于6%的内控要求。PDS校正后模型预测C2、P2 从机样本总植物碱的MRE低于6%,但预测从机C1、P1 样本总植物碱的MRE高于6%。WW-PLS 模型和PDS 校正后的WW-PLS模型的MRE 分别为9.01%~11.68%和5.43%~8.69%。可见,SWCSS-PLS 模型较全光谱模型及PDS 校正后的全光谱模型具有更好的稳健性和适应性。
表1 烟叶中总植物碱不同近红外模型的传递结果①Tab.1 Transfer results of different NIR models for predicting total alkaloid in tobacco leaves
与全光谱模型、PDS 校正后的全光谱模型相比,SWCSS-PLS 模型更加稳健。但利用本方法及PDS 方法将模型转移到上海烟草集团另一台同型号仪器(A3)上时,MRE 均高于6%,在稳定一致波长基础上进一步采用其他波长筛选方法优化波长组合后得到了可在该仪器上直接共享的PLS 模型[9]。根据本研究结果及文献[9]报道可知,当仪器台数增多,仪器情况更为复杂时,即使是同型号仪器之间的模型传递,也很难找到一种广泛适应的模型传递方法。
本团队前期研究表明,当模型转移方法不适用时,在建模集中加入适当数量的从机样本建立全局稳健共享模型是一个不错的解决方案[20]。SWCSS 方法由于不使用转移集进行光谱或模型校正,不适合于不同类型光谱仪之间的模型转移。利用具有稳定一致信号的波长建立稳健性好且可共享的近红外模型的思路也可为其他类型分子光谱模型转移提供借鉴。
3 结论
根据有代表性的主机B 和C2、P2 两台从机的A 套样本光谱信息,利用SWCSS 方法筛选得到了仪器间光谱信号一致性好且较稳定的、包含278 个波长的集合Usc,基于Usc建立的烟叶总植物碱含量NIR 模型可在所考察的5 台同类型、不同批次NIR光谱仪上直接共享,且本方法模型在转移过程中不需要转移集,无需校正从机光谱或模型参数。SWCSS-PLS 模型对4 台从机上78 个外部验证样本的平均相对误差(MRE)为5.22%~5.60%,对烟叶总植物碱含量的预测误差满足<6%企业内控要求。