APP下载

基于支持向量机算法的乳制品分类识别技术研究

2020-10-14王梓笛李双妹尹延东

粮食科技与经济 2020年3期
关键词:识别支持向量机乳制品

王梓笛 李双妹 尹延东

[摘要]本文针对乳制品分类快速识别技术依旧相对匮乏的现状,获取了样品的拉曼光谱,以此作为表征样品的质量特性数据,输入支持向量机判别模型,构建高效识别技术。结果显示,乳制品拉曼光谱数据采集迅速,含水样品可直接上样测试,单个样品的数据采集时间仅需2.5min,計算机处理时间在10s以内,参数优化条件分别为小波软阈值降噪(db1小波基,分解层数N=3)、归一化处理([-1,1]区间),通过主成分分析提取80个主成分(累计贡献率99%以上),支持向量机算法(径向基核函数,惩罚系数c=32,核函数参数g=0.022 097),测试集最佳识别率可达到100%。由此可见,本文所建立的高效识别方法,具有分析速度快、流程便捷等多项优点,能够为乳制品质量安全监管提供技术参考。

[关键词]支持向量机;拉曼光谱;乳制品;识别;质量管理

中图分类号:TS252.7文献标识码:ADOI:10.16465/j.gste.cn431252ts.202003

乳制品的质量安全问题与每个人息息相关,其质量安全风险主要源于两个方面:一是有害物质或非法添加物,二是假冒伪劣、以次充好。比较典型的案例有2008年中国奶制品污染事件、2016年的假奶粉事件等[1-2]。为杜绝此类问题,监管部门制定并实施了多项产品标准、检测标准,如《食品安全国家标准 发酵乳》(GB 19302—2010)、《食品安全国家标准 灭菌乳》(GB 25190—2010)、《食品安全国家标准 巴氏杀菌乳》(GB 19645—2010)等,规定了合格乳制品的原料要求、感官要求、理化指标、污染物限量、真菌毒素限量、微生物限量和其他要求,以及与各项指标要求对应的常规检测方法。不过,现有方法也存在着一定的挑战性,主要表现在感官检验与品评者的身体、技能、经验密切相关,有一定的主观性;常规的仪器成分检测法定性、定量分析准确,但一般需要前处理步骤和专业技术人员,较为耗时耗力;部分假冒产品实为低端产品冒充质优产品,其指标可能符合国家标准的基本要求,造成高效识别困难[3-5]。此外,近年来,乳制品产量、社会需求量均逐年递增,迫切需要发展快速、高效的识别方法。

现有的快速检测方法研究主要集中于比色法、胶体金试纸条法以及计算机辅助识别技术等[6-7]。较前两种方法,计算机辅助识别技术具备快速准确、客观、信息利用率高等多种优势,成为快速检测方法研发的热点。因此,本文首先采集了不同品牌的巴氏杀菌热处理风味发酵乳的质量特性数据拉曼光谱,随后运用支持向量机模式分类算法并对该方法进行参数优化,实现了乳制品快速分类识别。该方法具有多种优势,如拉曼光谱采集速度快、对操作人员要求低、无需样品前处理、支持向量机算法运算速度快、数据处理在10s内即可完成等,为乳制品质量安全监管提供了技术参考,具备一定的潜在应用价值。

1 材料与方法

1.1 材料

实验用巴氏杀菌热处理风味发酵乳购置于当地超市,均为原味口味,选取3个品牌,分别标记为品牌ee、品牌ff和品牌gg,每种品牌随机采样30个样品,共计90个样品。

1.2 仪器与设备

便携式激光拉曼光谱仪(Prott-ezRaman-D3):美国Enwave Optronics公司,激光波长为785nm,激光最大功率约为450MW,CCD检测器,温度控制在-85℃左右,积分时间2.5min,扫描次数为1次,光谱范围250~2 000cm-1,光谱分辨率1cm-1;96孔板:美国Corning Incorporated公司。

1.3 拉曼光谱图采集方法

取适量液态发酵乳直接上样,置于96孔板的独立小孔内,保持小孔恰好处于充满状态。之后,利用激光拉曼光谱仪探头直接照射样品,测试获取信号即为发酵乳的拉曼光谱数据。

1.4 数据处理

采集样品的拉曼光谱数据后,使用SLSR Reader V8.3.9软件进行基线校正,校正后的光谱数据采用小波软阈值降噪法(wden函数)实施噪声消除处理,然后使用mapminmax函数对光谱数据进行归一化处理,归一化至[-1,1]区间,使用princomp函数进行主成分分析。本次实验选取80个主成分,累计贡献率达到99.2%。支持向量机(Support Vector Machine,SVM)分类识别算法使用Libsvm工具箱实现算法的运算,使用randperm函数实现发酵乳样品随机抽样,以总样品数的83%(每个品牌样品25个,共计75个样品)构建训练集,以剩下的17%(每个品牌样品5个,共计15个样品)样品数据作为测试集。上述函数的运算、SVM算法及绘图使用MATLAB软件实现,版本为R2016a。

2 结果与讨论

实验采集了3种不同品牌的巴氏杀菌热处理风味发酵乳,均呈液态黏稠白色试样,样品的拉曼光谱如图1所示,每个品牌随机选取了10个样品的拉曼光谱,其相互间保持了较高的一致性。此外,不同品牌拉曼光谱谱图之间,同样表现出较高的相似性,仅凭裸眼难以实现有效辨别。拉曼光谱是一种基于样品分子与辐射光作用的散射光谱,适用于表征分子振动模态,参考已有相关报道[8-10],对图1中出现的各主要拉曼光谱峰进行了信息归属,如表1所示,呈现出样品中的糖类、脂类、蛋白质等营养成分的拉曼光谱特征,如1 755cm-1主要源自于脂肪分子的C=O伸缩振动。各样品谱图间呈现出微小的峰形状、峰位置、峰高、峰比值差异[11]。据此可知,实验获得了发酵乳的拉曼光谱这一质量特性数据,为后续计算机识别模型的研究提供了必要的数据支持。

采集的样品拉曼光谱数据易出现噪声干扰,结合已有报道,对光谱数据进行了小波软阈值降噪,优化选用db1小波基,有效降低了光谱噪声的影响[12]。为消除光谱数据量纲对分类模型的影响,对光谱数据进行了归一化处理,将数据强度值校正到[-1,1]区间。为提高光谱数据分类模型运算效率,对数据进行了主成分降维,每个样品原始拉曼光谱数据有1 751个数据点,经主成分降维后,结果显示第1主成分可以达到原始数据的43.4%的解释程度,第2主成分可以达到原始数据的9.9%的解释程度,第3主成分可以达到原始数据的5.0%的解释程度。实验选用80个主成分,可代表原有信息的累计贡献率达到99.2%,既保留了原始光谱数据的主要信息又提高了运算效率。主成分分析结果如图2所示,选取了拉曼光谱原始数据提取后的第1和第2主成分。可以看出,同品牌样品间倾向于聚集,不同品牌样品间倾向于分离,揭示出尽管发酵乳制品的拉曼光谱原始数据具有较高的相似性,但是同品牌样品间数据统计的相似性要高于不同品牌样品间的相似性。

支持向量机算法是基于统计学习理论建立起来的一种模式分类识别方法,核心是建立一个分类超平面作为决策曲面,该曲面对待分类的不同种类样本进行正确分类,并使分类后的样本点距离该分类超平面最远,支持向量决定了这一最优分类界面[13-15]。本文使用LIBSVM工具箱,通过1对1法来解决多分类问题,基本思路是在任意两类样品之间设计一个2分类支持向量机,当对1个未知样本进行分类时,得票最多的类别即为该未知样本的类别。如图3所示,图中展示了以2个不同品牌的发酵乳制品光谱数据为输入,运用svmplot函数绘制出通过计算获得的样品间支持向量分布情况,(a)图显示了训练集分类情况,(b)图显示了测试集分类情况,由图显示出通过训练集获得支持向量构建的决策曲面为非线性曲面,能够实现样品分类识别。

支持向量机模式分类识别算法的实施步骤如下。将经过降噪、归一化、主成分提取后的训练集样品拉曼光谱数据导入支持向量机模型,而后选择一个恰当的核函数,常用的核函数有线性核函数、多项式核函数、径向基核函数等,本文选用应用最为广泛的径向基核函数,将样本特征从较低维输入空间映射到高维特征空间,最后根据由优化问题求解而来的支持向量得到相应的决策函数,本文使用svmtrain函数及训练集进行模型构建。核函数参数g及惩罚系数c是影响模型识别效果的关键参数,两者的选择决定了分类模型的识别精度,核函数参数g决定了输入空间映射到高维特征空间的方式,惩罚系数c决定了平衡训练误差和模型复杂度[16-17]。本文采用SVMcgForClass函数进行网格参数寻优,设置5折交叉验证法(K=5),核函数参数g和惩罚系数c的参数寻优条件是cmin=-10、cmax=10、gmin=-10、gmax=10,搜索范围是[2-10,210],步进值均为0.5,最终获得了最优核函数参数g为0.022 097,惩罚系数c为32,分类模型识别率达到最大。分类识别结果如图4所示,在优化条件下,测试集的分类模型最高识别结果可达到100%的准确率。

3 结 论

实验以巴氏杀菌热处理风味发酵乳的品牌分类识别为例,研究探讨了以拉曼光谱数据为输入,以支持向量机算法为判别手段的乳制品计算机识别技术。该技术展现出拉曼光谱快捷方便的采集优势,每个样品的拉曼光谱数据采集仅需2.5min,操作简单,可直接测样。针对实验样品拉曼光谱图表现出较高的相似性,裸眼难以判别的情况,发展了面向对象的支持向量机判别方法,经过谱图预处理和參数优化筛选后,得到适用于分类体系的优化条件为小波软阈值降噪(db1小波基,分解层数N=3),主成分分析选取前80个主成分(累计贡献率达99.2%),支持向量机(径向基核函数,核函数参数g为0.022 097,惩罚系数c为32),据此,实现了乳制品快速模式分类,识别所需时间不足10s。

参考文献

[1] 剧柠,胡婕.光谱技术在乳及乳制品研究中的应用进展[J].食品与机械,2019(1):232-236.

[2] 李思维,孙树垒,张正勇.大学生液态奶消费行为研究——以南京市仙林大学城为例[J].粮食科技与经济,2019(6):104-108.

[3] 郭文辉,袁彩霞,洪霞,等.乳制品中氰化物的快速检测[J]. 中国乳品工业,2019(2):61-64.

[4] 张群.乳制品中抗生素的荧光快速检测技术研究及应用[J].食品与生物技术学报,2018(12):1336.

[5] 张正勇,沙敏,刘军,等.基于高通量拉曼光谱的奶粉鉴别技术研究[J].中国乳品工业,2017(6):49-51.

[6] 石彬,李咏富,吴远根.氯化血红素比色法检测乳制品中土霉素[J].中国酿造,2018(7):168-172.

[7] 赵小旭,柳家鹏,柴艳兵,等.胶体金免疫层析法快速检测乳制品中重金属离子铅[J].粮食科技与经济,2018(3):51-54.

[8] Almeida M R,Oliveira K D S,Stephani R,et al.Fourier-transform Raman analysis of milk powder:a potential method for rapid quality screening[J].Journal of Raman Spectroscopy,2011,42(7):1548-1552.

[9] 张正勇,岳彤彤,马杰,等.基于拉曼光谱与k最近邻算法的酸奶鉴别[J].分析试验室,2019(5):553-557.

[10]Paulo Henrique Rodrigues Júnior,Kamila De Sá Oliveira,Carlos Eduardo Rocha De Almeida,et al.FT-Raman and chemometric tools for rapid determination of quality parameters in milk powder: Classification of samples for the presence of lactose and fraud detection by addition of maltodextrin[J].Food Chemistry,2016(196): 584-588.

[11] Zheng Yong,Zhang Dong,Dong Gui,et al.Raman chemical feature extraction for quality control of dairy products[J].Journal of Dairy Science,2019(1):68-76.

[12] 张正勇,李丽萍,岳彤彤,等.乳粉拉曼光谱表征数据的标准化与降噪处理研究[J].粮食科技与经济,2018(6):57-61.

[13] 李志豪,沈俊,边瑞华,等.机器学习算法用于公安一线拉曼实际样本采样学习及其准确度比较[J].光谱学与光谱分析, 2019(7):2171-2175.

[14] 陈思雨,张舒慧,张纾,等.基于共聚焦拉曼光谱技术的苹果轻微损伤早期判别分析[J].光谱学与光谱分析,2018 (2):430-435.

[15] Lijuan Du,Weiying Lu,Zhen Zhen,et al.Rapid detection of milk adulteration using intact protein flow injection mass spectrometric fingerprints combined with chemometrics[J].Food Chemistry,2018(240):573-578.

[16] 张文雅,范雨强,韩华,等.基于交叉验证网格寻优支持向量机的产品销售预测[J].计算机系统应用,2019(5):1-9.

[17] Li Guozhang,Xin Zhang,Li Junni,et al.Rapid identification of adulterated cow milk by non-linear pattern recognition methods based on near infrared spectroscopy[J].Food Chemistry,2014(145):342-348.

猜你喜欢

识别支持向量机乳制品
市场监管总局:鼓励企业标注乳制品食用期限
要不要改喝全脂乳制品?
全球乳制品交易价格指数上升3.1%
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
论犯罪危险人格的识别