基于拉曼光谱-层次聚类分析的葡萄酒品质控制研究
2019-03-11张正勇李晓烨姜逸雪王海燕
张正勇, 李晓烨, 龙 宸, 姜逸雪, 沙 敏, 王海燕, 刘 军*
(1.南京财经大学管理科学与工程学院,江苏南京 210023; 2.湖南大学化学生物传感与计量学国家重点实验室,湖南长沙 410082; 3.浙江工商大学管理工程与电子商务学院,浙江杭州 310018)
葡萄酒是以葡萄为原料并经过特定生产工艺酿造而成的一种果酒,其营养物质含量丰富并具有多种保健功能,深受消费者的喜爱。但在酿造过程中,由于葡萄种类、产地、栽培技术、发酵工艺、保存方法、环境条件等不同,葡萄酒产品表现出品牌差异及品质差异。随着人民生活水平的不断提高,葡萄酒产品的生产量和销售量逐年上升,出于经济利益的诱惑,加之近年来葡萄酒产品产地、品种和年份概念的滥用和炒作,假冒行为、伪劣产品时有发生,对于普通消费者而言,限于经验和鉴别技术的匮乏,常常难以做出准确的判别[1 - 2]。目前,关于葡萄酒品质鉴别控制方法,主要包括基于品酒专家的感官鉴别法和基于理化分析技术的特征物质判别法。通过对葡萄酒的色泽、澄清程度、起泡程度、香气、滋味以及典型性的感官检验,品酒专家借助其丰富的经验和专业知识积累可以对葡萄酒质量安全水平予以判别,是目前葡萄酒品质分析的重要技术手段,也是葡萄酒新产品研发、质量改进的重要技术支撑,不过面临的风险在于品酒专家的数量有限,难以满足庞大市场的品控需求[3 - 5]。基于理化分析技术的特征物质判别法,是通过色谱、原子吸收光谱、紫外-可见光谱、滴定分析等理化分析手段,定量分析葡萄酒所含有的如总糖、挥发酸、铁、铜、甲醇等特征物质,以特征物质含量进行葡萄酒品质判断。该方法可准确定量特定物质含量,可客观评价葡萄酒产品质量等级,面临的问题在于分析过程较为复杂,需要必要的前处理过程,耗时耗力,难以满足葡萄酒品质快速鉴别控制的市场需求[6 - 9]。
本研究针对上述需求与问题,发展了一种基于拉曼光谱并结合层次聚类分析的葡萄酒品质控制快速检测方法。以张裕干红葡萄酒为例,系统分析考察了同品牌不同系列,以及不同品牌间品质差异情况,并进行了实验参数优化,以利于模型的推广。
1 实验部分
1.1 实验材料
张裕干红葡萄酒、张裕酿酒师赤霞珠干红葡萄酒、张裕干红葡萄酒(佐餐级)购于烟台张裕葡萄酒酿酒股份有限公司;王朝干红葡萄酒购于天津王朝葡萄酿酒有限公司;长城干红葡萄酒购于中粮酒业有限公司。
1.2 仪器与采集参数
Prott-ezRaman-D3激光拉曼光谱仪(美国,恩威公司(Enwave Optronics))。仪器参数设置:激光波长785 nm,激光功率450 mW,积分时间为1~5 s,间隔步长为1 s,波数范围250~2 339 cm-1,分辨率1 cm-1。数据分析运算平台:MATLAB R2016a。
1.3 数据分析方法
1.3.1层次聚类分析(1)距离度量方法:通过计算对象间距离的方法评估相似度,距离越大相似度越小。本文采用欧氏距离(基于matlab的euclid函数)、标准欧氏距离(seuclid函数)、曼哈顿距离(cityblock函数)和余弦距离法(cosine函数)。(2)创建聚类树的方法:本文采用层次聚类分析,基本过程是首先将每个对象分作一个单独的类,然后逐次地合并相似度高的对象或类,直到所有的对象都被分在同一类中,或者达到了终止条件则停止合并,得到最终的分类。基于层次的聚类算法将样品聚类分析后绘成一棵聚类树,简单直接地展示了数据样本间的关系以及各类的层次结构。创建系统聚类树时不仅需要衡量不同对象之间差异,还需要计算不同类之间的距离。本文采用并分析了最短距离法(基于matlab的single函数)、最长距离法(complete函数)、平均距离法(average函数)、重心距离法(centroid函数)和离差平方和法(ward函数)。
1.3.2同表象型相关系数根据(1)距离度量方法,计算各类之间的距离以用于构建聚类树。层次聚类分析的同表象型相关系数定义为聚类树中获得的相似值的同型距离之间的线性相关系数。其计算公式为:
(1)
该系数是层次聚类对数据拟合程度的标准度量,可以用来评价聚类树结果的准确程度。采用不同的距离度量和聚类策略,将会产生不同的同表象型相关系数,该值越接近1,则聚类分析效果越理想,据此来选择最佳距离计算方式和聚类方法[10 - 11]。
1.3.3数据归一化由于拉曼光谱数据各样品间在不同波数上的信号强度差别较大,为统一量纲,也为方便样本间距离的计算,在进行层次聚类分析前对样本数据进行归一化处理。本文采用的是Matlab的mapminmax归一化函数。其基本原理如下:假定minA和maxA分别为观测信号的最小值和最大值,则最小—最大归一化通过计算:
(2)
将x的值映射到区间[new_minA,new_maxA]中的x′。
在本文中,将数据归一化到[0,1]区间内,即new_minA=0,new_maxA=1。
2 结果与讨论
2.1 葡萄酒的拉曼光谱分析
拉曼光谱是表征分析待测物质分子振动、转动能级的重要手段,可用于分子特征结构分析[12]。如图1A所示是张裕干红葡萄酒拉曼光谱图,激光积分时间为1~5 s。可以看出:首先,随着激光积分时间的增加,激光照射样品的累积时间相应增加,张裕干红葡萄酒拉曼光谱信号表现出在1 s时,出现1个荧光峰和2个弱拉曼谱峰,2 s时拉曼谱峰信号增加,荧光峰信号强度也增加,3 s及之后荧光峰信号强度进一步增强,超出了仪器的信号检测上限并掩盖了拉曼谱峰信号。荧光峰的出现原因在于葡萄酒成分中含有丰富的酚类、氨基酸等成分,其中富含荧光基团,在一定的激发光照射下可获得荧光,最佳荧光激发波长约为240 nm[13],并且有研究表明荧光峰的强度与葡萄酒的品质间存在一定的相关性[14]。本文使用的是785 nm的激光器,已经远离红酒的最佳荧光激发波长,但是拉曼信号本身较弱,故需使用功率约450 mW的激光,使得红酒的荧光信号产生难以避免。拉曼光谱图中出现的2个拉曼光谱峰,~885 cm-1可归属于C-C伸缩振动峰,~1 005 cm-1可归属于环振动峰(源自苯丙氨酸)[15 - 16]。实验进一步观察了张裕干红葡萄酒6个样品的拉曼光谱数据,同品种样品的拉曼光谱图间表现出较高的相似性。在同样的实验条件下,获取了同品牌不同系列的张裕酿酒师赤霞珠干红葡萄酒和张裕干红葡萄酒(佐餐级)的拉曼光谱数据,结果显示随着激光积分时间的增加,张裕酿酒师赤霞珠干红葡萄酒和张裕干红葡萄酒(佐餐级)的拉曼光谱也表现出荧光峰和拉曼峰强度增加的趋势,不过,在谱峰形状、强度上,不同系列酒间存在不同。
图1B、图1C分别为王朝干红葡萄酒,长城干红葡萄酒的拉曼光谱图,可以看出王朝干红葡萄酒的拉曼光谱信号随着激光积分时间的增加,表现出荧光峰和拉曼峰强度增加的趋势,且随着激光积分时间的增加,拉曼谱峰表现出1~4 s信号愈发清晰的现象,而到5 s时由于荧光信号增加,减弱了拉曼峰信号的清晰趋势。长城干红葡萄酒的拉曼光谱信号随着激光积分时间的增加,也表现出荧光峰和拉曼峰强度增加的趋势。上述分析表明,激光积分时间的不同,针对不同样品体系呈现出的拉曼谱峰信息存在差异,且这种差异与各自品牌红酒样品间存在一致性,因此,拉曼光谱信息可用以红酒样品的特征表征,但具体最佳积分时间有必要进一步探讨,以利于模型的实际推广应用。
图1 张裕干红葡萄酒(A)、长城干红葡萄酒(B)和王朝干红葡萄酒的拉曼光谱图(C)Fig.1 Raman spectra of Zhang Yu dry red wine(A),Dynasty dry red wine(B) and Great Wall dry red wine(C)
2.2 葡萄酒的层次聚类分析
实验进一步采用层次聚类分析法定量研究了张裕同品牌不同系列葡萄酒以及不同品牌葡萄酒在不同激光积分时间条件下的分类判别情况。如表1所示,首先针对张裕干红葡萄酒及其同品牌不同系列的张裕酿酒师赤霞珠干红葡萄酒,张裕干红葡萄酒(佐餐级),在激光积分时间4 s时的距离度量和聚类树创建方法的同表象型相关系数值展开分析。该相关系数是层次聚类对数据拟合程度的标准度量,该值越接近1,则聚类分析效果越理想。表1结果显示,欧式距离结合平均距离法,以及欧式距离结合重心距离法的同表象型相关系数值(即C值)可达0.9920,综合考虑激光积分时间1~5 s情况,欧式距离结合平均距离法的聚类效果较其他方法要好。
表2所示,比较研究了欧式距离结合平均距离法在激光积分时间1~5 s条件下的聚类树判别结果,显示出在激光积分时间1~5 s时,识别正确率达到94.44%,其中4 s和5 s的C值均超过0.99,分别达到0.9920和0.9932。激光积分时间4 s,使用欧式距离结合平均距离法可实现优化的张裕干红葡萄酒同品牌3个不同系列葡萄酒的判别,判别效果如图2所示。可以看出,张裕干红葡萄酒的6个不同样品可有效聚类,说明本文方案适用于目标对象张裕干红葡萄酒的品质控制鉴别使用,同时,结果也发现张裕酿酒师赤霞珠干红葡萄酒6个样品中,其中编号为9的样品性质与张裕干红葡萄酒(佐餐级)有较大相似,原因可能在于此2个系列酒间的生产工艺、原料来源等较为相近有关。
表1 不同距离度量和聚类树创建方法的同表象型相关系数
表2 欧氏距离结合平均距离法绘制聚类树的判别结果
表3所示,比较研究了张裕干红葡萄酒与王朝干红葡萄酒,长城干红葡萄酒,在欧式距离结合平均距离法在激光积分时间1~5 s条件下的聚类树判别结果,显示出在激光积分时间1~4 s时,识别正确率可以达到100%,其中4 s时的C值达到0.9892,5 s时的C值达到0.9895,但是识别率出现了降低。据此,激光积分时间4 s,使用欧式距离结合平均距离法可实现优化的判别,判别效果如图3所示。可以看出,张裕干红葡萄酒的6个不同样品可有效聚类,各品牌酒间也可有效区分。
表3 欧氏距离结合平均距离法绘制聚类树的判别结果
图2 张裕干红葡萄酒(Ⅰ,编号为1-6)、张裕酿酒师赤霞珠干红葡萄酒(Ⅱ,编号为7-12)、张裕干红葡萄酒(佐餐级)(Ⅲ,编号为13-18)的聚类树图Fig.2 The clustering tree of Zhang Yu dry red wine(Ⅰ,No.1-6),Zhang Yu Cabernet Sauvignon dry red wine(Ⅱ,No.7-12) and Zhang Yu dry red wine(table level)(Ⅲ,No.13-18)(Euclidean distance and average distance method,laser integration time 4 s)
图3 张裕干红葡萄酒(Ⅰ,编号为1-6)、王朝干红葡萄酒(Ⅳ,编号为7-12)、长城干红葡萄酒(Ⅴ,编号为13-18)的聚类树图Fig.3 The clustering tree of Zhang Yu dry red wine(Ⅰ,No.1-6), Dynasty dry red wine(Ⅳ,No.7-12) and Great Wall dry red wine(Ⅲ,No.13-18)(Euclidean distance and average distance method,laser integration time 4 s)
3 结论
实验以张裕干红葡萄酒为主要研究对象,综合运用仪器分析技术与模式识别技术,获取了样品的拉曼光谱数据,并运用层次聚类分析法,研究了张裕干红葡萄酒同品牌3个系列间,以及与王朝干红葡萄酒、长城干红葡萄酒不同品牌间的快速鉴别控制情况。结果显示张裕干红葡萄酒同批次间性质相似度高,可有效聚类,优化方案显示激光积分时间4 s,使用欧式距离结合平均距离法可实现张裕干红葡萄酒同品牌3个不同系列葡萄酒,以及不同品牌葡萄酒间的高效判别。实验结果有效的论证了新快检方法的应用潜力,并具有采样速度快,无需样品前处理,计算机处理简单,智能化程度高等优点。