红外光谱的不同产地黑果腺肋花楸果实鉴别
2024-04-08杨承恩王天赐王金玲李雨婷
杨承恩, 李 萌, 王天赐, 王金玲, 李雨婷, 苏 玲
1. 吉林农业大学食药用菌教育部工程研究中心, 吉林 长春 130118
2. 吉林农业大学生命科学学院, 吉林 长春 130118
3. 长春职业技术学院现代农学系, 吉林 长春 130504
4. 国药一心制药有限公司质检部, 吉林 长春 130600
引 言
黑果腺肋花楸(Aroniamelanocarpa)又名黑涩石楠、 不老莓, 属蔷薇科植物, 是我国新引进的小浆果果树, 引进后在我国黑龙江、 吉林、 辽宁等东北地区最先种植, 并逐步发展为我国最大的黑果腺肋花楸种植基地, 河北、 河南等省也已形成了规模化种植基地[1-2]。 黑果腺肋花楸果实富含多酚、 花青素、 多糖、 黄酮等活性成分, 其中花青素含量尤为突出, 远高于葡萄、 黑枸杞、 蓝莓等高花青素植物, 具有抗氧化、 防治心血管疾病、 降血糖、 抗血小板凝集等多种生物活性[3]。 国家卫健委于2018年9月12日发布公告, 批准黑果腺肋花楸进入新食品原料名单, 也加速了黑果腺肋花楸深加工产业的发展。 目前已开发的黑果腺肋花楸产品包括酒类、 饮料、 功能食品、 化妆品等60余种。 深加工产业的不断扩大, 使得对黑果腺肋花楸原料的需求量及品质要求越来越高。 研究表明, 不同种植地区的温度、 土壤等气候及环境条件的差异, 导致黑果腺肋花楸果实多酚、 黄酮、 多糖等主要成分含量差异显著, 果品品质参差不齐[4-6]。 为加强对黑果腺肋花楸果品的规范、 有序管理, 打造具有地区特色的品牌, 需要建立可实现简单、 快速、 低成本的黑果腺肋花楸果实产地鉴别方法。
当前国外研究者主要开展了黑果腺肋花楸果实及其次级代谢物临床试验研究工作及其酚类化合物在食品、 化妆品中作为添加剂的应用, 国内开展黑果腺肋花楸果实的研究起步相对较晚, 近年来采用超高效液相色谱-质谱法鉴定黑果腺肋花楸果实花青素成分, 并通过DPPH、 ABTS及总抗氧化离实验, 发现不同产地黑果腺肋花楸果实的抗氧化活性差异, 但国内外都尚未开展黑果腺肋花楸果实产地鉴别的研究工作。 傅里叶变换红外光谱(Fourier translation infrared spectroscopy, FTIR)具有操作简便、 样本需求少、 价格低廉等优点, 适用于有机物快速分析[7]。 研究证实, 将红外光谱技术与化学计量学方法结合可实现对农作物种类、 产地的快速、 准确鉴别。 陈文静等人采用红外光谱对12座茶山的古树晒青茶进行鉴别研究, 发现不同茶山茶叶间具有一定差异[8]; 李嘉仪等基于红外光谱技术结合Fisher判别分析方法, 建立不同产地茯苓块识别模型, 实现了对茯苓块产地的快速无损鉴别[9]; 安淑静等采用红外光谱结合化学计量学方法建立山茱萸产地鉴别模型, 实现了对7个省份山茱萸的准确高效鉴别[10]。
本研究将中红外光谱与化学计量学结合, 采集15个产地共750份黑果腺肋花楸果实样品的红外光谱数据, 采用化学计量学方法进行数据分析, 建立可快速、 准确识别黑果腺肋花楸产地的鉴别方法, 为黑果腺肋花楸产业的健康发展提供技术支持。
1 实验部分
1.1 材料与设备
收集黑龙江省七台河、 伊春、 双鸭山、 佳木斯等4市; 吉林省白山、 蛟河、 通化、 延边朝鲜族自治州等4市、 州; 辽宁省鞍山、 大连、 丹东、 锦州等4市; 河北省秦皇岛市、 河南省安阳市以及俄罗斯等15个地区的黑果腺肋花楸果实, 每个地区样品50份, 共750份。
主要设备: Nicolet is10 傅里叶变换红外光谱仪(美国Thermo scientific), HY-12型压片机(天津天光光学仪器有限公司), DKZ恒温水浴锅(上海一恒技术有限公司), 8453紫外分光光度计(美国Agilent), CS-700型超帅高速多功能粉碎机(浙江武义海纳电器有限公司), 200目不锈钢筛等。
1.2 红外光谱数据
黑果腺肋花楸果实冷冻干燥、 粉碎、 过200目筛。 分别精密称取1.8 mg样品, 加入190 mg溴化钾于75 ℃恒温干燥箱内干燥, 研磨均匀, 压片, 扫描样品400~4 000 cm-1间红外光谱, 设定分辨率4 cm-1, 扫描次数16, 重复3次取平均光谱。 光谱采集过程中, 保持室内温度25 ℃, 湿度35% RH。
1.3 样品划分与光谱预处理
采用K-S检验法(kennard-stone, K-S), 对符合样本分布规律并具有代表性的训练集光谱数据进行划分[11]。 由于样品、 光散射及基线漂移等因素, 采集的光谱信息出现的随机偏差需经过光谱预处理方法进行修正。 在与原始光谱对比的基础上, 使用The Unscrambler X 10.4软件对采集的原始光谱进行多元散射校正(multiplicative scatter correction, MSC)、 标准正态变量变换(standard normal variable transformation, SNV)、 移动平滑(smoothing, SG)、 一阶导数(first derivative, FD)、 二阶导数(second derivative, SD)等处理。
1.4 主成分分析
主成分分析(principal component analysis, PCA)是统计分析法中的一种重要方法, 通过线性变换将原始数据转换为一组各维度线性无关的特征成分, 可用于提取数据的主要特征分量, 进行聚类分析的算法。
1.5 光谱特征信息提取
1.5.1 竞争性自适应重加权采样法
竞争性自适应重加权采样法(competitive adapative reweighted sampling, CARS)是参照达尔文的“适者生存”理论, 结合PLS与蒙特卡洛采样的光谱特征信息提取方法[12], 通过减去权重小的波长点, 保留绝对值大的波长点, 找出交互验证均方根误差(root mean square error of cross validation, RMSECV)最低的子集, 选出最优变量组合。
1.5.2 连续投影算法
连续投影算法(successive projections algorithm, SPA)是采用矢量空间共线性最小化原则的光谱特征波长筛选算法, 可以从冗长的光谱数据中提取出既具有代表性又冗余信息含量最少的特征波长。
1.6 模型构建
1.6.1 支持向量机
支持向量机(support vector machine, SVM)是光谱定量与定性分析的常用方法[13]。 该方法通过把数据从低维度映射到高维度特征空间, 再通过线性与非线性映射关系构造一个N维超平面来解决数据分析问题。
1.6.2 随机森林
随机森林(random forest, RF)是一种具有集成思想的分类与预测算法[14]。 将每一个单独的决策树汇集成决策森林, 从而产生“好而不同”的个体学习器, 并在保持准确性和多样性方面做出最优的分类与预测选择。
1.6.3 极限学习机
极限学习机(extreme learning machine, ELM)是基于经典神经网络改进后的快速学习算法[15]。 在训练阶段采用随机的输入层权值和偏差, 能够以极快的速度进行较好泛化工作, 具有选择参数少、 学习效果好、 适用性强的特点。
1.6.4 偏最小二乘-判别分析
偏最小二乘判别分析(partial least squares-discriminant analysis, PLS-DA)是多变量数据分析技术中的判别分析法, PLS经常用来处理分类和判别问题, 并以PCA为理论基础在自变量存在多重相关性的条件下进行分类或回归建模。
2 结果与讨论
2.1 红外光谱分析
图1 黑果腺肋花楸原始光谱
2.2 样品划分
根据K-S法按照训练集和测试集样品数量比例4∶1, 划分750份样品, 得训练集样品600个, 测试集样品150个。
2.3 预处理方法对比与归一化
采用SVM对不同预处理方法获得的红外数据进行建模对比, 获得黑果腺肋花楸果实产地模型识别结果如表1, 并使用PCA对原始光谱数据和MSC光谱数据进行聚类分析对比, 如图2(a, b)。 经预处理优化后, 光谱数据识别效果均高于84%, 明显优于未处理光谱数据模型的识别效果。 其中, MSC模型识别效果最佳, 训练集识别率与测试集识别率均为93.33%, 能够有效对不同产地黑果腺肋花楸果实进行鉴别。 同时, 对比原始光谱数据和MSC光谱数据的PCA聚类效果, 发现MSC预处理后的光谱数据聚类效果更好, 故将MSC预处理后的光谱作为样品最优预处理光谱。 将MSC光谱数据进行映射范围为0~1的归一化处理, 见图3。
表1 光谱预处理方法对比
图2 PCA聚类可视化的结果
图3 归一化后的黑果腺肋花楸光谱数据
2.4 光谱特征信息提取
2.4.1 CARS分析
通过Matlab2014b软件对归一化后光谱数据进行CARS算法的特征波长筛选, 蒙特卡罗采样次数设置为100次, 波长筛选结果如图4。 图4(a)为选择波长过程中的变量变化过程, 当运行次数在1~54次之间, 特征波长数量迅速下降, 在54~100次之间下降缓慢。 图4(b)为特征波长选择中RMSECV的变化趋势, 可知在第54次时筛选时RMSECV值为最低。 图4(c)中各线表示随着运行次数增加各波长变量回归系数的趋势, 红线所对应位置为RMSECV值最小即第54次采样。 遵循RMSECW值最小原则, 选择第54次采样获得的91个波长变量子集为最优波长变量数。
图4 CARS算法筛选特征波长的过程
2.4.2 SPA分析
通过Matlab2014b软件对归一化后的光谱数据进行SPA降维, 设定波长数为1~30, 计算不同特征波长数下的均方根误差, 如图5。 由图5(a)经过迭代后, 可知均方根误差最小值为1.5602, 最终选取16个波长数作为最优波长数。 光谱选取波长变量如图5(b)所示。 这16个波长点所对应的特征波长分别为7、 12、 580、 820、 1 067、 1 201、 1 600、 2 275、 2 409、 2 576、 2 649、 2 732、 4 517、 5 240、 6 247和6 721 cm-1。
图5 SPA算法筛选特征波长的过程
2.5 建模结果及建模方法对比
将归一化后的MSC全段光谱(full spectrum, FS)与经CARS、 SPA降维后的红外光谱数据作为输入变量, 建立RF、 ELM、 SVM、 PLS-DA的不同产地黑果腺肋花楸果实识别模型, 结果见表2和图6(a, b)。
图6 最优模型识别结果
由表2可知, 在RF模型中当决策树棵树为4324时SPA-RF识别效果最佳, 其训练集识别率为100%, 测试集识别率为99.33%, 仅有一个样品发生错误识别。 在ELM模型中SPA-ELM识别效果最佳, 其训练集识别率为99.5%, 有3个样本识别错误, 测试集识别率为100%。 在SVM模型中测试集识别率均为100%, 但FS-SVM训练集识别率仅为99.33%稍低于CARS-SVM与SPA-SVM训练集识别率。 在PLS-DA模型中PLS-DA-SPA模型识别效果最佳, 其训练集识别率为99.67%, 有2个样本识别错误, 测试集识别率为100%。
综合比较模型识别率和建模速度, 可知CARS-SVM和SPA-SVM识别效果最佳, 训练集与测试集识别率均为100%, 但SPA-SVM建模数据仅需16个波长点, 低于CARS-SVM建模数据的91个波长点, 因此选择c=2.824、g=2, RBF核函数时的SPA-SVM作为最优识别模型。
3 结 论
采用中红外光谱结合化学计量学方法, 提出一种对不同产地黑果腺肋花楸果实快速鉴别的方法。
红外光谱数据经不同方法预处理后, 结合SVM建模, 确定MSC光谱预处理方法效果最佳, MSC-SVM模型训练集识别率为93.33%, 测试集识别率为92.67%, 能有效减少光谱采集过程中的随机偏差。
归一化后的光谱数据, 再经CARS和SPA光谱特征信息提取后, 结合RF、 ELM、 SVM、 PLS-DA建模都有良好的识别效果, 测试集和训练集识别率均高于97.33%。 其中CARS-SVM、 SPA-SVM模型识别效果最佳, 测试集和训练集识别率均为100%, 但从模型识别率和建模速度, 选择仅需16个波长点的SPA-SVM模型为最佳模型。
中红外光谱结合化学计量学方法, 特别是SVM模型能够更准确地鉴别不同产地的黑果腺肋花楸果实, 此方法可为其他种类的小浆果产品来源鉴别提供参考。