近红外光谱结合主成分分析和灰色关联分析的苦荞产地溯源
2019-11-07张智峰韩小平秦刚宋海燕
张智峰,韩小平,秦刚,宋海燕
(山西农业大学 工学院,山西 太谷,030800)
苦荞麦是一种食药两用的小杂粮,素有五谷之王的美称,在我国各地都有广泛的栽培种植,主要集中在云南、四川、贵州、陕西、山西、内蒙古等高寒地区,其籽粒含有高营养价值和多种保健功能的蛋白质、膳食纤维、抗性淀粉、生物类黄酮、不饱和脂肪酸(如亚油酸和亚麻酸)、维生素以及丰富的钙、磷、铁、锌、铜、镁、硒等人体所必需的矿物质[1]。已有研究证实,荞麦富含 18 种氨基酸,其中8种必需氨基酸的组成比例较好[2-3]。芦丁是荞麦独有的生物类黄酮主要成分,具有较高的营养和医用价值,近年来得到了人们广泛的关注。
近红外光谱定量分析技术具有样品制备简单,分析速度快,可以同时进行多组分测定,实现无损和在线检测,被广泛应用[5-6]。马续莹等[7]应用近红外光谱漫反射技术,采用偏最小二乘法和留一全交叉验证方法对燕麦和苦荞样品中膳食纤维的含量进行预测,相关系数达到0.927 2。结果表明,采用近红外光谱漫反射方法能够对燕麦、苦荞等产品中膳食纤维含量进行快速定量或半定量分析。席志勇[8]采用近红外光谱技术结合主成分分析和神经网络分别建立荞麦蛋白质、淀粉和总黄酮含量预测模型,其中总黄酮相关度较高,能够达到荞麦总黄酮含量预测的目的。张晶等[9]采集其近红外漫反射光谱图,结合化学计量学软件对光谱进行主成分分析(principal components analysis, PCA),可明显区分甜荞粉、苦荞粉、小麦粉和燕麦粉;利用偏最小二乘(partial least squares,PLS) 模型可以半定量判别荞麦粉掺假。由此可见,近红外光谱分析技术可以实现苦荞及相关产品的定性判别和内部品质定量检测。此外,由于有机硒以半胱氨酸和硒蛋氨酸2种形式共价结合在蛋白质中[10],碳水化合物包括糖类或者淀粉,以及纤维素类型的生物分子,它们主要是带—OH的脂肪环化合物[11],一些国际学者据此为寻找对象的地域特征指标进行了积极探索,也为本文寻找特征吸收谱带和苦荞产地溯源提供了理论依据[12-13]。然而上述研究没有很深入地探讨影响其定性判别的主要品质指标。
本文对来自朔州、内蒙古、云贵高原、四川大凉山、陕西5个产地的苦荞样本进行光谱分析,结合PCA和灰色关联分析,以实现苦荞产地溯源以及确定成分对苦荞产地溯源的影响程度。
1 材料与方法
1.1 实验样品准备
从市场上购买5个不同产地的苦荞,分别来自朔州、内蒙古、云贵高原、四川大凉山、陕西,其中大凉山产地的苦荞包括2个不同品牌(安喜企业和西昌正中食品有限公司)。这6种苦荞作为待测样本,其成分参数由原产品包装给出,如表1。
表1 不同产地苦荞营养成分含量(每100 g)Table 1 Component content of tartary buckwheat from different areas
1.2 实验设备与光谱数据采集
光谱扫描实验使用ASD公司的FieldSpec3光谱仪:波长范围350~2 500 nm,扫描次数3,用于全光谱范围的原始数据采集。扫描光谱数据在室温下进行,为了避免外界因素影响,光谱采集在暗室进行。每个样本旋转2次,同时采集3次扫描光谱值[14]。
光谱数据处理软件为ViewSpecPro,将每个样本的3次光谱数据取平均值作为原始光谱,对原始光谱进行拼接校正,并且将光谱反射率转化为吸光度值。再经过ASCII Export导出数据,应用MTLAB2015a实现主成分分析和灰色关联分析分析。
1.3 基于主成分分析特征波长提取
原始光谱400 nm之前的波长段具有很大的噪声,为了减少干扰,本文研究的波长范围为400~2 500 nm。近红外光谱中包含了大量与本身性质无关或冗余信息,影响了建模和相关性分析,因此需要提取可以表征被测物体特性的特征波长,以增加分析的准确性并简化分析过程。PCA是非常有效的多变量分析技术[15-16],已有很多人实现对研究对象的产地溯源[17-18]。主成分方法可以避免信息间的互相重叠,而且进行了数据简化,从而提取最具代表性的变量子集[19]。
PCA的步骤如下:
(1)利用获得的原始光谱数据构建X=m*n阶的矩阵,其中m代表样本数目,n为原始光谱数据的维数;
(2)将m*n阶矩阵X的每一列进行归一化处理,即样本的每个属性;
(3)求出协方差矩阵D,并求解该矩阵的特征值和对应的特征向量;
(4)将求出的特征值从小到大排列,选择最大的k个,然后将其对应的特征向量组成新特征矩N;
(5)通过上述求解将原始的数据降到k维,通过计算累计贡献率得到原始数据的信息保留量。
1.4 灰色关联分析
要定量研究两个事物间的关联程度,可以用相关系数和相似系数等,但这需要足够多的样本数或者要求数据服从一定概率分布。在实际情况下,有许多因素之间的关系是灰色的,难以区分因素的密切程度,这样难以找到主要特性[20-21]。灰色系统理论就是以“信息部分明确、部分未知”的“小样本”的灰色系统为研究对象[22-24]。而灰色因素关联分析(grey relation analysis,GRA)目的是定量表征多因素之间的关联程度,从而揭示灰色系统的主要特性。关联分析是灰色系统分析和预测的基础[25-26]。其步骤为:
(1)整理苦荞成分含量和提取的特征波长对应的光谱吸收度;
(2)选定一个参考列和n个比较序列并进行归一化处理,消除量纲;
(3)计算每个参考列一个关联度得到关联矩阵,根据矩阵元素的大小分析得出结论。
2 结果与分析
图1是将不同产地的苦荞样本光谱数据取均值作为该产地的原始光谱曲线,横坐标为波长,纵坐标为吸光度。
图1 不同产地的苦荞原始光谱Fig.1 Primitive spectra of different areas
从图1可以看出,不同产地的苦荞样本光谱吸收度不同,但峰谷趋势基本一致,900 ~2 500 nm有多个明显的吸收峰,表明该波段范围对苦荞内部品质检测具有决定性意义。另外由于空气中含有水蒸气会对扫描光谱产生一定的影响,因此在1 450、1 930、2 200 nm左右波段苦荞样本的原始光谱曲线有明显的吸收峰。与ZHU等[27]得到的水分敏感波段1 400、1 940、2 250 nm相近。
2.1 主成分分析结果
将获得的原始光谱进行主成分分析,主成分属于无监督的数据降维,即得到的降维结果与因变量无关,因此不会受到变量的干扰[29-30]。进行主成分分析后得到表2和图2。
表2 前5个主成分的特征值及贡献率Table 2 Characteristic value and contribution rate of the first five principal components
从表2可以看出,前4个主成分的累计贡献率达到了99.72%,表示前4个主成分已经可以解释99.72%的原始光谱信息,因此只保留前4个主成分作为提取的特征波长。然后根据得到的主成分载荷大小顺序得到4个特征波长,分别为1 370、1 680、870、971 nm。
图2 主成分得分图Fig.2 Principal component score
从图2可以看出,除朔州产地样本中存在一个异常样本外,其余不同产地苦荞样本的聚类效果较好。由于四川大凉山的苦荞样本来自两个品牌,所以其样本聚类效果较为分散,但也能很好地与其他产地的样本进行有效区分,说明主成分分析基本可以实现苦荞产地的溯源。
2.2 灰色关联分析的结果
利用提取的特征波长分别与苦荞的6种成分进行灰色关联分析,得到表3。
表3 苦荞成分和特征波长的灰色关联度Table 3 Grey relation between characteristic wavelength and composition of tartary buckwheat
从表3可以得出,1 370、870、971 nm波长与对应苦荞成分的关联度由大到小排列为:碳水化合物>蛋白质>脂肪>钠>硒>黄酮,1 680 nm对应的关联度由大到小排列为:蛋白质>碳水化合物>脂肪>钠>硒>黄酮,根据上述关联度排序得出苦荞的6个成分中碳水化合物和蛋白质跟提取的敏感波长关联度最大。此外通过主成分分析提取的特征波长1 680 nm与杰尔·沃克提到的1 688~1 691 nm波段是折叠结构的CONH2吸收谱带基本吻合,而主成分分析提取的敏感波长971 nm与杰尔·沃克曼[11]得出糖类的二级倍频为972 nm的结果一致。
3 结论
为了实现苦荞产地溯源以及确定苦荞成分对苦荞产地溯源的影响程度,对朔州、内蒙古、云贵高原、四川大凉山、陕西5个产地的36个苦荞样本的近红外光谱数据进行了主成分分析和灰色关联分析。主要研究结论如下:
(1)主成分分析提取的4个特征波长(1 370、1 680、870、971 nm)的累计贡献率达到99.72%,主成分得分图的产地聚类效果明显,说明主成分分析可以实现不同产地苦荞的溯源;
(2)为了确定6种苦荞成分对产地溯源的影响程度,将主成分分析提取的特征波长与苦荞成分进行灰色关联分析,得到关联度由大到小为:碳水化合物>蛋白质>脂肪>钠>硒>黄酮。且从官能团层面找到了碳水化合物和蛋白质是对苦荞产地溯源影响最大的2个成分。