高光谱成像技术结合特征波长优化对苍术颗粒剂生产厂家的可视化判别研究
2020-11-04杨红霞李晓丽
黄 晔,刘 丽,梁 晶,杨红霞,李晓丽,徐 宁*
1. 浙江省皮肤病防治研究所药剂科,浙江 德清 313200 2. 浙江工业大学药学院,浙江 杭州 310014 3. 湖州市食品药品检验研究院,浙江 湖州 313000 4. 浙江大学食品及生物工程学院,浙江 杭州 310058
引 言
中药配方颗粒因便于服用、保存和携带等优点,已经广泛流通于全国医院。目前已获得各类中药配方颗粒试点资质的企业高达57家,然而颗粒剂的生产工艺及质量控制还没有建立统一的国家标准。同一品种因生产企业不同仍存在较大差异。苍术为菊科植物茅苍术或北苍术的干燥根茎,具有燥湿健脾、祛风散寒、明目等功效[1]。苍术颗粒剂无法像饮片一样通过性状、显微鉴别区分品种和产地信息,亦无法通过高效液相色谱法对苍术素有效定量。主要采用薄层色谱法(thin layer chromatography,TLC)、水分测定法、浸出物测定法等,对其有效成分与含量进行初步的质量检测,因此开拓新的有效的质量控制方法具有重要意义。
高光谱成像技术具有高效准确,无损、无污染的优点[2-3]。国内外学者已尝试通过高光谱成像技术应用于中药材的质量控制,包括中药年份鉴别、品种鉴别等。有报道研究了高光谱技术结合化学计量学对不同年份及放置方式的陈皮建立鉴别模型,预测准确率达98.33%,为陈皮年份无损鉴别提供了新的技术参考。Tankeu等[4]利用高光谱成像技术结合偏最小二乘判别分析,区分出粉防己和广防己这两种外观形态相似、实则来源不同科属、化学成分截然不同的两种植物,可以有效防止广防己混入粉防己。大多数的研究集中于简单区分与防伪,探索高光谱成像技术应用于中药现代化快速无损分析的过程中,如何优选样品光谱特征波段,建立准确度高、预测效果好的模型仍是亟需解决的问题。仅李超等[5](Fourier transform infrared spectroscopy, FTIR)对国内8省份18产区的苍术样品建立了红外指纹图谱,而高光谱成像的苍术配方颗粒研究尚无报道。
本工作研究了在高光谱874~1 734 nm区域3个不同生产厂家的苍术配方颗粒图谱信息,结合9种波段数据分别建立4种判别模型来寻找潜在的信息,对不同厂家的苍术颗粒剂进行快速区分,并将结果可视化。
1 实验部分
1.1 材料和仪器
浙江惠松制药有限公司(厂家A,浙江杭州)、江阴天江药业有限公司(厂家B,江苏江阴)、华润三九医药股份有限公司(厂家C,广东深圳)的苍术配方颗粒各50份,共150份样本。
高光谱成像系统主要包括分辨率为672×512的CCD相机(C8484-05, Hamamatsu Photonics, Hamamatsu City, Japan),分辨率为2.8 nm的光谱仪(ImSpector N17E; Spectral Imaging Ltd, Oulu, Finland),线光源(Fiber-Lite DC950, Dolan Jenner Industries Inc, Boxborough, MA),计算机,暗箱和电控移动平台。高光谱图像采集前,首先获取暗电流和参考板的高光谱图像数据,用于数据处理前对原始高光谱图像的校正。电控移动平台移动速度为17 mm·s-1,工作距离为20.5 cm,曝光时间2.4 ms,采集在874~1 734 nm范围样本的高光谱信息。
1.2 薄层色谱
薄层色谱法步骤参照《中国药典》2015年版四部 通则0502。
1.3 光谱数据及图像处理
苍术颗粒剂样本分别置于96孔板中,保证每个样本在同一高度。黑白校正后设置样本区域作为感兴趣区域(region of interest,ROI),计算出每个样本ROI范围内874~1 734 nm的平均光谱。采用偏最小二乘判别分析(partial least square discrimination analysis,PLS-DA)、最小二乘支持向量机(least-squares support vector machine,LS-SVM)、反向人工神经网络(back propagation neural network,BPNN)、邻近算法(k-nearest neighbor,KNN)、竞争性自适应重加权采样法(competitive adaptive reweighted sampling,CARS)、随机蛙跳算法(random frog,RF)[6]、连续投影算法(successive projections algorithm,SPA)、序列前向选择算法(sequential forward selection,SFS)[7]以及相关性分析(correlation analysis,CA)采用Matlab R2018a(The Math Works, Natick, USA)处理。
2 结果与讨论
2.1 苍术颗粒剂的薄层色谱鉴定及平均高光谱
对应苍术对照药材薄层色谱的相同位置,各样品的荧光斑点颜色一致,见图1(a)。虽然三个样品的薄层色谱有些许差别,但不能确认样品的生产商。
苍术颗粒剂高光谱敏感波段大都集中在1 100~1 650 nm附近,见图1(b)。1 100~1 300 nm归属于C—H伸缩振动的二级倍频[8],1 300~1 400 nm归属于C—H伸缩振动的组合带[9],1 450 nm归属于O—H伸缩振动的一级倍频,和苍术颗粒剂中存在的水分有关[8],1 480 nm附近归属于O—H伸缩振动的二级倍频[9]。1 250~1 680 nm含有的信息和苍术颗粒剂中的氨基酸有关。
图1 苍术颗粒剂(a)薄层色谱鉴定结果,(b)平均高光谱
2.2 不同厂家苍术颗粒剂全波段建模区分及特征波长优化
2.2.1 CARS及RF
基于全波段所建立的判别模型,KNN模型的总体判别率为96%,Kappa系数为0.937 8。BPNN,LS-SVM以及PLS-DA模型判别率都为100%,Kappa系数为1。
随样本运行次数增加,所选特征波长数目先迅速减少,随后趋于平缓,见图2(a),表明在CARS中已经实现了快速选择、双阶段选择及精选选择。由图2(b)可以看见,随样本运行次数增加,消除了部分冗余信息后RMSECV开始缓慢减少;当样本运行次数为25次后,消除了部分关键波长下的光谱信息RMSECV开始缓慢增长;图2(c)中“*”线表示RMSECV达最低值之最佳点,当样本运行25次时,RMSECV值最小,获得19个特征波长。RF方法可检测每个波长下高光谱信息对不同厂家苍术颗粒剂区分的重要性。波长被选择几率越大,表明该波长下高光谱信息与不同厂家的苍术颗粒剂样本区分的相关性可能较大[见图2(d)]。基于RF方法将波长被选择的概率从大到小排列,筛选出前10个波长组成波长数目从1~10的10组数据,并建立判别模型[图2(e)和图2(f)]。随着波长数目的增加,模型的总体判别率以及Kappa系数总体均呈上升趋势。当波长数目大于等于5时,除KNN外的另外三种模型总体判别率均达到了100%、Kappa系数达到了1且保持恒定。
2.2.2 相关性分析及优化的波段
继续计算选择出的两个敏感波长之间的皮尔森相关系数,两个波长相关系数的值高于0.9的,只保留一个。
经CARS-CA,RF-CA,SFS-CA以及SPA-CA分别筛选得到了4个、2个、4个以及3个最佳波长(表1)。
954 nm归属于C—H,N—H,O—H伸缩振动的三级倍频[10],975,1 476和1 483 nm归属于O—H伸缩振动的二级倍频[11],1 005 nm归属于N—H伸缩振动的二级倍频[9],1 122 nm归属于C—H伸缩振动[12],1 220,1 126,1 146,1 237,1 294,1 348,1 365和1 368 nm为C—H的伸缩振动的二级倍频[13],1 372 nm归属于1 412 nm,1 415 nm归属于芳香烃的C—H拉伸振动[14]。
CARS选择的特征波长,在1 100~1 300,1 360~1 420以及1 430~1 480 nm位置,和相关性分析结果一致。CARS-CA,RF-CA,SFS-CA和SPA-CA得到的最优波长分别有2个(1 220和1 476 nm),1个(1 442 nm),1个(1 584 nm)、1个(1 146 nm),均分布在对应的平均光谱差异度较大的区域,见图3(a,b,c)。其中1 476,1 442与1 584 nm的信息都和苍术颗粒剂中的氨基酸有关。
图2 (a)CARS采样变量数量的变化趋势,(b)RMSECV值,(c)随着采样运行的增加每个变量的回归系数,(d)通过RF选择特征波长的结果,不同波长数目下不同模型的(e)总体判别率和(f)Kappa系数
图3 苍术颗粒剂厂家区分研究中(a)初步筛选特征波长,(b)CA筛选波长选择结果,(c)基于CARS选择的敏感波长之间的相关性分析
表1 基于高光谱技术的苍术颗粒剂厂家区分特征波段选择
2.3 基于特征波长建立的判别模型
基于CARS-CA,RF-CA,SFS-CA和SPA-CA选择的最优波长,和原始数据的256个波长变量相比,分别减小了98.44%,99.22%,98.44%和98.83%的变量,大大增加了模型的运算效率。
从表2可知,基于四种最佳波段建立的KNN以及BPNN模型的总体判别率均没有达到100%,Kappa系数也没有达到1。基于四组最佳特征波长建立的PLS-DA以及LS-SVM模型的总体判别率为100%以及Kappa系数为1的占比分别为25%以及50%,可以得出LS-SVM模型判别效果优于其他三种。基于CARS-CA所建立的四种模型,总体判别率为100%以及Kappa系数为1的占比为50%,优于其他三组最佳特征波长。综上所述,CARS-CA-LS-SVM模型在总体判别率为100%以及Kappa系数为1的情况下,大大减少了模型的输入变量,提高了运算效率,为区分不同厂家苍术颗粒剂的最优模型。
表2 基于特征波长建立的区分不同厂家苍术颗粒剂的模型判别Table 2 Model discrimination based on characteristic wavelengths in the distinguish study of Atractylodes Lancea granules from different manufactures
图4 基于CARS-CA-LS-SVM模型的不同厂家苍术颗粒剂区分结果图
2.4 基于最优模型建立的判别模型结果可视化
所有的苍术颗粒剂样本都能被正确识别(如图4所示),并且很容易与其他厂家区分。然而,厂家B的苍术颗粒剂样本有4个样本的一些像素点被预测成了厂家C,本来应该被预测为黄色的一些像素点被预测成了红色。其原因可能是该像素点的光谱携带了超出厂家C范围的苍术颗粒剂信息,当使用基于样本平均谱的模型来预测相应的像素谱时,这些光谱特征会偏离样本平均谱的预测集。整体来看,4个样本所有像素点的颜色,还是预测为厂家B黄色的像素点较多,是准确的。
不同厂家苍术颗粒剂的区分可视化是基于最优模型和特征波长建立的鲁棒性和代表性的判别模型,结果证明是可行的。为今后开发苍术颗粒剂和其他中药的综合质量实时监测系统提供了可能。
3 结 论
高光谱技术结合CARS和CA法进行二次特征波长选择,可有效实现不同厂家的苍术颗粒剂可视化判别,实现了三个不同厂家苍术颗粒剂的区分。剔除不相关或非线性变量的输入变量,降低了计算量,提高了运算效率,为解决苍术颗粒剂的无损质量控制和产品溯源问题提供了参考。为开发基于特征波长的中药制剂产品溯源多光谱检测系统提供了科学支持。
下一步将进行更多生产厂家区分以研究参数的有效性,并拟扩大样本数做进一步验证和完善以建立更稳定、更普遍适用的判别模型。