APP下载

波长选择算法在中药质量在线检测中的应用研究

2014-09-17申永祥赵秋菊

科技与创新 2014年14期
关键词:近红外光谱在线检测

申永祥 赵秋菊

摘 要:为了研究NIR光谱的不同波长选择算法在中药质量在线检测中的应用,应用自编的化学计量学软件THUNIR对两大类6种波长选择算法进行建模。在模型评价上,以留一法交叉验证均方根误差(RMSECV)或测试集均方根误差(RMSEP)最小为最优。实验表明,Filter波长选择方法与Wrapper波长选择方法的RMSECV值均比全谱的RMSECV值要小的多,用于建模的波长数也比全谱也少的多。可见,NIR光谱的波长选择方法不仅可以简化模型,还可以提高模型的预测能力。

关键词:近红外光谱;波长选择算法;中药质量;在线检测

中图分类号:R284;O433 文献标识码:A 文章编号:2095-6835(2014)14-0113-03

近红外(Near Infrared,NIR)光谱技术是近几十年内发展较快的新型分析检测技术,具有快速、简便、准确、易于实现在线分析和非破坏性的特点,已在食品、烟草和石油化工等领域得到广泛应用。

近红外光谱主要是有机分子的倍频与合频吸收光谱,倍频与合频吸收带比基频吸收带宽得多,这使得多组分样品的近红外光谱在不同组分的谱带、同一组分中不同基团的谱带和同一基团不同形式的倍频、合频谱带发生严重的重叠。因此,选择代表样本信息的波长是近红外光谱建模需要解决的重要问题。

在NIR结合PLS方法建模中,传统观点认为,PLS具有较强的抗干扰能力,可全波长参与多元校正模型的建立。但采用全谱建立多变量校正模型时,不仅计算工作量大,而且校正模型的预测精度未必能达到最优值。其中,建模波长的不同将直接影响模型的测量精度。在建模光谱中,不同谱区内包含的指定待测量信息是不同的,因而必须选择有效信息率最高的谱区用于建模,才能提高模型的预测效果。随着对PLS算法的深入研究和应用,通过特定方法筛选特征波长或波长区间,有可能得到更好的定量校正模型。波长选择可以简化模型,更主要的是由于不相关或非线性变量的剔除,可以得到预测能力强、稳健性好的校正模型。

1 特征选择方法概述

特征选择可以看作是一个优化问题,其关键是建立一个评估标准来区分哪些特征组合有助于分类,哪些特征组合存在冗余性、部分或者完全无关,不同的评估函数可能会给出不同的结果。根据评估函数与分类器的关系,特征选择方法分成过滤器(Filter)和封装器(Wrapper)两种模式。Filter方法与分类学习算法无关,一般直接利用所有训练数据的统计性能评估特征,例如距离度量、一致性度量、相关性度量、信息度量等,因此,Filter方法具有时间复杂度低的优点。但Filter方法没有考虑特征集与分类器学习算法之间的关联和影响,所以精度不高。相反,Wrapper方法采用分类器的分类错误率或正确率来评估特征子集,可对不同的分类器选出最适应的近似最优的特征子集。Wrapper方法选出的特征子集比Filter方法选出的效果更好,但其计算量比Filter方法大得多,因而需要更多的时间。

2 Filter方法

在自编的化学计量学建模软件THUNIR中,比较了常用的两种Filter波长选择方法,即相关系数法和相关成分法。

2.1 相关系数法

相关系数法是将校正集光谱矩阵中每个波长对应的吸光度向量 与性质矩阵中的待测组分性质向量 进行相关性计算,相关系数越大的波长,其包含的信息也越多。因此,可结合经验知识,给定一个初始阈值,选取相关系数大于该阈值的波长参与建模;再根据模型的精度调整阈值,从而确定最优的波段。也可采用网络搜索算法,确定用于建模的最优波段。

6 结束语

实验结果表明,波长选择方法不仅能够简化模型,而且能够提高模型的预测能力。基于Wrapper模式的4种迭代优化波长选择方法所建模型的波长数比全谱减少60%~80%,而且预测精度能够提高50%左右,但需要较长建模时间。2种Filter方法所需优化时间与全谱相当,但其建模结果与预测精度比全谱能提高20%左右。用户可以按照实际需要(精度或时间度)选择相应的波长选择方法。

参考文献

[1]刘严.多元线性回归的数学模型[J].沈阳工程学院学报(自然科学版),2005(02).

[2]罗批,郭继昌,李锵,等.基于偏最小二乘回归建模的探讨[J].天津大学学报(自然科学与工程技术版),2002(06).

[3]尹力,刘强,王惠文.偏最小二乘相关算法在系统建模中的两类典型应用[J].系统仿真报,2003(01).

[4]王惠文,吴载斌,孟洁.偏最complexity小二乘回归的线性与非线性方法[M].北京:国防工业出版社,2006.

[5]王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社,1999.

[6]陈孝敬,吴迪,虞佳佳,等.一种用于可见-近红外光谱特征波长选择的新方法[J].光学学报,2008(11).

[7]谷筱玉,徐可欣,汪曣.波长选择算法在近红外光谱法中药有效成分测量中的应用[J].光谱学与光谱分析,2006(09).

[8]刘辉军,林敏,施秧,等.遗传算法在绿茶叶近红外光谱分析中波长选择的应用[J].理化检验-化学分册,2008(03).

[9]国家药典委员会.中华人民共和国药典(一部)[M].北京:中国医药科技出版社,2010.

〔编辑:李珏〕

Abstract: In order to study the NIR spectra of different wavelengths selection algorithm used in traditional Chinese medicine quality on-line detection, application self chemometric software THUNIR two types of six kinds of wavelength selection algorithms for modeling. On the model evaluated to leave a root mean square error of cross validation(RMSECV)or test set RMSE(RMSEP)minimum for the best. Experiments show, Filter wavelength selection methods and RMSECV value Wrapper wavelength selection method RMSECV value than the full spectrum of much smaller, the number of wavelengths used for modeling are also much less than the full spectrum. Visible, NIR spectral wavelength selection method can not only simplify the model, you can also improve the predictive ability of the model.

Key words: near-infrared spectroscopy; wavelength selection algorithm; medicine quality; online testing

摘 要:为了研究NIR光谱的不同波长选择算法在中药质量在线检测中的应用,应用自编的化学计量学软件THUNIR对两大类6种波长选择算法进行建模。在模型评价上,以留一法交叉验证均方根误差(RMSECV)或测试集均方根误差(RMSEP)最小为最优。实验表明,Filter波长选择方法与Wrapper波长选择方法的RMSECV值均比全谱的RMSECV值要小的多,用于建模的波长数也比全谱也少的多。可见,NIR光谱的波长选择方法不仅可以简化模型,还可以提高模型的预测能力。

关键词:近红外光谱;波长选择算法;中药质量;在线检测

中图分类号:R284;O433 文献标识码:A 文章编号:2095-6835(2014)14-0113-03

近红外(Near Infrared,NIR)光谱技术是近几十年内发展较快的新型分析检测技术,具有快速、简便、准确、易于实现在线分析和非破坏性的特点,已在食品、烟草和石油化工等领域得到广泛应用。

近红外光谱主要是有机分子的倍频与合频吸收光谱,倍频与合频吸收带比基频吸收带宽得多,这使得多组分样品的近红外光谱在不同组分的谱带、同一组分中不同基团的谱带和同一基团不同形式的倍频、合频谱带发生严重的重叠。因此,选择代表样本信息的波长是近红外光谱建模需要解决的重要问题。

在NIR结合PLS方法建模中,传统观点认为,PLS具有较强的抗干扰能力,可全波长参与多元校正模型的建立。但采用全谱建立多变量校正模型时,不仅计算工作量大,而且校正模型的预测精度未必能达到最优值。其中,建模波长的不同将直接影响模型的测量精度。在建模光谱中,不同谱区内包含的指定待测量信息是不同的,因而必须选择有效信息率最高的谱区用于建模,才能提高模型的预测效果。随着对PLS算法的深入研究和应用,通过特定方法筛选特征波长或波长区间,有可能得到更好的定量校正模型。波长选择可以简化模型,更主要的是由于不相关或非线性变量的剔除,可以得到预测能力强、稳健性好的校正模型。

1 特征选择方法概述

特征选择可以看作是一个优化问题,其关键是建立一个评估标准来区分哪些特征组合有助于分类,哪些特征组合存在冗余性、部分或者完全无关,不同的评估函数可能会给出不同的结果。根据评估函数与分类器的关系,特征选择方法分成过滤器(Filter)和封装器(Wrapper)两种模式。Filter方法与分类学习算法无关,一般直接利用所有训练数据的统计性能评估特征,例如距离度量、一致性度量、相关性度量、信息度量等,因此,Filter方法具有时间复杂度低的优点。但Filter方法没有考虑特征集与分类器学习算法之间的关联和影响,所以精度不高。相反,Wrapper方法采用分类器的分类错误率或正确率来评估特征子集,可对不同的分类器选出最适应的近似最优的特征子集。Wrapper方法选出的特征子集比Filter方法选出的效果更好,但其计算量比Filter方法大得多,因而需要更多的时间。

2 Filter方法

在自编的化学计量学建模软件THUNIR中,比较了常用的两种Filter波长选择方法,即相关系数法和相关成分法。

2.1 相关系数法

相关系数法是将校正集光谱矩阵中每个波长对应的吸光度向量 与性质矩阵中的待测组分性质向量 进行相关性计算,相关系数越大的波长,其包含的信息也越多。因此,可结合经验知识,给定一个初始阈值,选取相关系数大于该阈值的波长参与建模;再根据模型的精度调整阈值,从而确定最优的波段。也可采用网络搜索算法,确定用于建模的最优波段。

6 结束语

实验结果表明,波长选择方法不仅能够简化模型,而且能够提高模型的预测能力。基于Wrapper模式的4种迭代优化波长选择方法所建模型的波长数比全谱减少60%~80%,而且预测精度能够提高50%左右,但需要较长建模时间。2种Filter方法所需优化时间与全谱相当,但其建模结果与预测精度比全谱能提高20%左右。用户可以按照实际需要(精度或时间度)选择相应的波长选择方法。

参考文献

[1]刘严.多元线性回归的数学模型[J].沈阳工程学院学报(自然科学版),2005(02).

[2]罗批,郭继昌,李锵,等.基于偏最小二乘回归建模的探讨[J].天津大学学报(自然科学与工程技术版),2002(06).

[3]尹力,刘强,王惠文.偏最小二乘相关算法在系统建模中的两类典型应用[J].系统仿真报,2003(01).

[4]王惠文,吴载斌,孟洁.偏最complexity小二乘回归的线性与非线性方法[M].北京:国防工业出版社,2006.

[5]王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社,1999.

[6]陈孝敬,吴迪,虞佳佳,等.一种用于可见-近红外光谱特征波长选择的新方法[J].光学学报,2008(11).

[7]谷筱玉,徐可欣,汪曣.波长选择算法在近红外光谱法中药有效成分测量中的应用[J].光谱学与光谱分析,2006(09).

[8]刘辉军,林敏,施秧,等.遗传算法在绿茶叶近红外光谱分析中波长选择的应用[J].理化检验-化学分册,2008(03).

[9]国家药典委员会.中华人民共和国药典(一部)[M].北京:中国医药科技出版社,2010.

〔编辑:李珏〕

Abstract: In order to study the NIR spectra of different wavelengths selection algorithm used in traditional Chinese medicine quality on-line detection, application self chemometric software THUNIR two types of six kinds of wavelength selection algorithms for modeling. On the model evaluated to leave a root mean square error of cross validation(RMSECV)or test set RMSE(RMSEP)minimum for the best. Experiments show, Filter wavelength selection methods and RMSECV value Wrapper wavelength selection method RMSECV value than the full spectrum of much smaller, the number of wavelengths used for modeling are also much less than the full spectrum. Visible, NIR spectral wavelength selection method can not only simplify the model, you can also improve the predictive ability of the model.

Key words: near-infrared spectroscopy; wavelength selection algorithm; medicine quality; online testing

摘 要:为了研究NIR光谱的不同波长选择算法在中药质量在线检测中的应用,应用自编的化学计量学软件THUNIR对两大类6种波长选择算法进行建模。在模型评价上,以留一法交叉验证均方根误差(RMSECV)或测试集均方根误差(RMSEP)最小为最优。实验表明,Filter波长选择方法与Wrapper波长选择方法的RMSECV值均比全谱的RMSECV值要小的多,用于建模的波长数也比全谱也少的多。可见,NIR光谱的波长选择方法不仅可以简化模型,还可以提高模型的预测能力。

关键词:近红外光谱;波长选择算法;中药质量;在线检测

中图分类号:R284;O433 文献标识码:A 文章编号:2095-6835(2014)14-0113-03

近红外(Near Infrared,NIR)光谱技术是近几十年内发展较快的新型分析检测技术,具有快速、简便、准确、易于实现在线分析和非破坏性的特点,已在食品、烟草和石油化工等领域得到广泛应用。

近红外光谱主要是有机分子的倍频与合频吸收光谱,倍频与合频吸收带比基频吸收带宽得多,这使得多组分样品的近红外光谱在不同组分的谱带、同一组分中不同基团的谱带和同一基团不同形式的倍频、合频谱带发生严重的重叠。因此,选择代表样本信息的波长是近红外光谱建模需要解决的重要问题。

在NIR结合PLS方法建模中,传统观点认为,PLS具有较强的抗干扰能力,可全波长参与多元校正模型的建立。但采用全谱建立多变量校正模型时,不仅计算工作量大,而且校正模型的预测精度未必能达到最优值。其中,建模波长的不同将直接影响模型的测量精度。在建模光谱中,不同谱区内包含的指定待测量信息是不同的,因而必须选择有效信息率最高的谱区用于建模,才能提高模型的预测效果。随着对PLS算法的深入研究和应用,通过特定方法筛选特征波长或波长区间,有可能得到更好的定量校正模型。波长选择可以简化模型,更主要的是由于不相关或非线性变量的剔除,可以得到预测能力强、稳健性好的校正模型。

1 特征选择方法概述

特征选择可以看作是一个优化问题,其关键是建立一个评估标准来区分哪些特征组合有助于分类,哪些特征组合存在冗余性、部分或者完全无关,不同的评估函数可能会给出不同的结果。根据评估函数与分类器的关系,特征选择方法分成过滤器(Filter)和封装器(Wrapper)两种模式。Filter方法与分类学习算法无关,一般直接利用所有训练数据的统计性能评估特征,例如距离度量、一致性度量、相关性度量、信息度量等,因此,Filter方法具有时间复杂度低的优点。但Filter方法没有考虑特征集与分类器学习算法之间的关联和影响,所以精度不高。相反,Wrapper方法采用分类器的分类错误率或正确率来评估特征子集,可对不同的分类器选出最适应的近似最优的特征子集。Wrapper方法选出的特征子集比Filter方法选出的效果更好,但其计算量比Filter方法大得多,因而需要更多的时间。

2 Filter方法

在自编的化学计量学建模软件THUNIR中,比较了常用的两种Filter波长选择方法,即相关系数法和相关成分法。

2.1 相关系数法

相关系数法是将校正集光谱矩阵中每个波长对应的吸光度向量 与性质矩阵中的待测组分性质向量 进行相关性计算,相关系数越大的波长,其包含的信息也越多。因此,可结合经验知识,给定一个初始阈值,选取相关系数大于该阈值的波长参与建模;再根据模型的精度调整阈值,从而确定最优的波段。也可采用网络搜索算法,确定用于建模的最优波段。

6 结束语

实验结果表明,波长选择方法不仅能够简化模型,而且能够提高模型的预测能力。基于Wrapper模式的4种迭代优化波长选择方法所建模型的波长数比全谱减少60%~80%,而且预测精度能够提高50%左右,但需要较长建模时间。2种Filter方法所需优化时间与全谱相当,但其建模结果与预测精度比全谱能提高20%左右。用户可以按照实际需要(精度或时间度)选择相应的波长选择方法。

参考文献

[1]刘严.多元线性回归的数学模型[J].沈阳工程学院学报(自然科学版),2005(02).

[2]罗批,郭继昌,李锵,等.基于偏最小二乘回归建模的探讨[J].天津大学学报(自然科学与工程技术版),2002(06).

[3]尹力,刘强,王惠文.偏最小二乘相关算法在系统建模中的两类典型应用[J].系统仿真报,2003(01).

[4]王惠文,吴载斌,孟洁.偏最complexity小二乘回归的线性与非线性方法[M].北京:国防工业出版社,2006.

[5]王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社,1999.

[6]陈孝敬,吴迪,虞佳佳,等.一种用于可见-近红外光谱特征波长选择的新方法[J].光学学报,2008(11).

[7]谷筱玉,徐可欣,汪曣.波长选择算法在近红外光谱法中药有效成分测量中的应用[J].光谱学与光谱分析,2006(09).

[8]刘辉军,林敏,施秧,等.遗传算法在绿茶叶近红外光谱分析中波长选择的应用[J].理化检验-化学分册,2008(03).

[9]国家药典委员会.中华人民共和国药典(一部)[M].北京:中国医药科技出版社,2010.

〔编辑:李珏〕

Abstract: In order to study the NIR spectra of different wavelengths selection algorithm used in traditional Chinese medicine quality on-line detection, application self chemometric software THUNIR two types of six kinds of wavelength selection algorithms for modeling. On the model evaluated to leave a root mean square error of cross validation(RMSECV)or test set RMSE(RMSEP)minimum for the best. Experiments show, Filter wavelength selection methods and RMSECV value Wrapper wavelength selection method RMSECV value than the full spectrum of much smaller, the number of wavelengths used for modeling are also much less than the full spectrum. Visible, NIR spectral wavelength selection method can not only simplify the model, you can also improve the predictive ability of the model.

Key words: near-infrared spectroscopy; wavelength selection algorithm; medicine quality; online testing

猜你喜欢

近红外光谱在线检测
二次表在石油树脂粘度检测中的应用
基于度分布的流量异常在线检测方法研究
基于近红外光谱法的藜麦脂肪含量快速检测
新型过滤器箱体的国产化研发
基于可见光谱的非接触式金属离子水质监测原理研究
利用油水稳定化和支持向量回归增强近红外光谱测定油中水分的方法
基于一元线性回归的近红外光谱模型传递研究