APP下载

利用高光谱图像技术鉴别庐山云雾茶产地

2014-04-11艾施荣吴瑞梅吴彦红严霖元

江西农业大学学报 2014年2期
关键词:云雾茶庐山产地

艾施荣,吴瑞梅,吴彦红,严霖元

(1.同济大学 软件学院,上海 200096;2.江西农业大学 软件学院,江西 南昌 330045;3.江西农业大学 工学院,江西 南昌 330045)

庐山云雾茶原产地为江西庐山,是绿茶中的精品,以“味醇、色秀、香馨、液清”而久负盛名。但目前庐山云雾茶的状态是产品鱼目混珠、假冒伪劣、以次充好、售价混乱,导致庐山云雾茶在茶业界的地位逐渐下降,如2008年庐山云雾茶落选中国十大名茶,2010年又错失“世博十大名茶”之称。长期以来,茶叶品质鉴别主要有感官评判和理化分析方法。感官审评方法相对简单,能对茶叶的品质特征进行鉴别和描述,但感官审评结果取决于评茶员的经验,主观性强,一致性差,不利于茶叶流通过程中的快速鉴别。理化分析方法是一种化学检测手段,检测步骤繁琐、耗时长、费用高。因此,为便于规范庐山云雾茶市场秩序,重新打造其名优茶品牌,有必要建立一种快速、准确的庐山云雾茶产地溯源技术。

茶叶产地鉴别的研究多集中在近红外光谱技术[1-2]、电子鼻和电子舌技术[3]、X 射线技术[4]。近红外光谱技术、电子鼻和电子舌技术通过获取茶叶的内部成分特征来鉴别其产地,X射线技术是通过获取茶叶的外部品质特征来鉴别其产地。不同产地茶叶,其内部和外部品质特征都会存在细微差异,利用以上技术鉴别其产地会失去茶叶的部分特征信息。高光谱图像技术是一种既能获取待测物的外部信息又可获取其内部信息的快速无损检测技术[5-8],利用高光谱图像技术可同时获取茶叶的外部形状特征又可获取其内部成分特征,可大大提高检测的准确度。陈全胜等[9-10]利用高光谱图像技术快速鉴别茶叶等级,提取了基于灰度矩的6个纹理特征,建立了茶叶的快速鉴别模型,模型预测识别率达到94%。吴瑞梅等[11]利用高光谱图像技术量化分析茶叶的外形感官品质。本文针对地理标志庐山云雾茶和广西、四川、福建产云雾茶,采用高光谱成像技术分别获取4个产地的高光谱数据,分别利用基于灰度矩法和灰度共生矩阵法提取特征图像的纹理特征,结合BP神经网络技术,研究快速鉴别云雾茶产地的方法。

1 试验材料与方法

1.1 仪器设备

试验采用基于成像光谱仪的高光谱图像系统采集高光谱图像,由CMOS相机(BCi4-U-M-20-LP,vector international,belgium)、光纤卤素灯系统(Fiber-Lite DC950 Illuminator,dolan-jenner industries Inc,MA,USA)、高光谱摄像机(ImSpector,V10E,specim spectral image Ltd.,Oulu,Finland)、移动平台输送装置(Zolix,SC30021A,北京)等部件组成。光谱仪的测量光谱范围为400~1050 nm,分辨率为2.8 nm,平均间隔为1.22 nm。高光谱数据分析采用ENVI4.6(ITT,USA)和Math Works(Natick,USA)完成。

1.2 样本来源及图像获取

试验材料采用江西九江市场收集不同产地(江西庐山、福建、广西、四川等)云雾茶样本,其中江西庐山是庐山云雾茶的产地标志,每个产地30个样本,共120个样本。

图像采集在暗室环境中进行,以减少其他光照影响。对每个样本,分别称取(10±0.5)g茶叶,将茶叶均匀平铺到自制正方体盒子中(6 cm×6 cm×1 cm),盒子里面贴上黑色衬底防止反光。调整摄像机曝光时间为30 ms,以确保采集过程中图像清晰不失真,输送装置线速度为1.25mm/s,以避免图像尺寸失真。共采集到512个波长下的图像,每个波长下的图像分辨率为500×1280,则每个样本获得500×1280×512的高光谱图像数据块。

1.3 高光谱图像标定

高光谱图像在采集过程中,因摄像头传感器中存在暗电流以及各波段下的光源强度分布不均匀,会使高光谱图像数据存在较大噪音,不同波长下的图像亮度值也存在较大差异。在数据分析前,需对茶叶高光谱图像进行标定,标定过程如下[11]:在设定的图像采集参数条件下,采集标准白色校正板(99%光照反射的白板)的标定图像(W);随后,关闭摄像机快门,采集全黑的标定图像(B);再按公式(1)对高光谱图像数据进行标定校正,将采集的绝对图像(I)转换成相对图像R。

(1)式中,R为标定后的高光谱图像,I为原始高光谱图像,B为全黑标定图像,W为全白标定图像。

2 结果与讨论

图1为4个产地茶样在400~1050 nm内的光谱曲线,由图可看出,4种产地云雾茶在450 nm以上的光谱曲线存在差异,在450 nm以下波段有明显尖峰噪音。选择450~1050 nm,共464个波数点的高光谱图像数据进行研究。

2.1 特征波段的选取

采集的高光谱图像数据块比二维图像和一维光谱信息的数据量大,且相邻波段下的两幅图像之间相关性较强。在数据分析前,利用ENVI软件截取450~1050 nm波段下的高光谱图像数据,共提取464张图像,每张图像大小为500×500,得到一个500×500×464 的三维数据块,再用主成分分析法(principal component analysis,PCA)在此三维数据块中优选高光谱图像的特征波长。将4种产地云雾茶的原始高光谱图像经主成分分析后,得到前4个主成分图像PC1、PC2、PC3和 PC4(图2)。图中 PC1图像最接近真实图像,且该主成分图像的方差贡献率占所有原始图像信息的93.13%,能解释原始高光谱图像的大部分信息,而从PC2图像开始出现噪音信息。因此根据PC1图像来寻找特征波段图像。

图1 庐山、福建、四川、广西4个产地茶叶高光谱图像在不同区域的光谱曲线Fig.1 The hyper-spectral curves of teas from Lushan,Fujian,Sichuan and Guangxi regions

图2 由主成分分析获取的前4个主成分图像Fig.2 The first four principle component images by PCA

各个主成分图像是由原始高光谱图像数据中所有波段下的图像经线性组合而形成的新图像:

(2)式中,PCm为第m个主成分图像,αi为该主成分的权重系数,Ii为第i个波段下的原始图像。在该线性组合中,绝对值最大的权重系数αi所对应波长下的图像贡献也大,则该波段下的图像为特征图像[9]。在 PC1 图像的 464 个权重系数中,792.20,831.47,870.97 nm 波长处的权重系数最大,选择此3个波长为特征波长。利用ENVI软件,提取这些波长下的特征图像,见图3所示。

2.2 特征提取

从图3可看出,庐山、广西和四川产云雾茶的外形很相似,而福建产地云雾茶的外形与其他3个产地差异较大,可通过提取茶叶的纹理特征来鉴别其产地。利用基于灰度统计方法中的灰度直方图和灰度共生矩阵法提取特征图像的纹理特征。随机截取每个特征波段图像中的300×300像素区域,采用灰度统计矩法提取茶叶的平均灰度值(m)、标准差(δ)、平滑度(R)、三阶矩(μ3)、一致性(U)和熵(e),共6个纹理特征参数值,各参数的计算公式参照文献[12]。3个特征波长下共提取了18个基于灰度统计矩的纹理特征变量。

灰度共生矩阵反映了图像灰度在方向、相距间隔、在相距间隔上变化幅度的综合信息。在基于灰度共生矩阵法提取的纹理特征参数中,同质性、惯性矩、相关性和能量是最重要的4个纹理特征[13],这些特征参数值跟相邻两点间的距离和角度有关。同样随机截取每个特征波段图像中的300×300像素区域,设定相邻间距为1,分别在0°、45°、90°和 135°方向上,共提取 16 个特征参数值:0°同质性、0°惯性矩、0°相关性、0°能量;45°同质性、45°惯性矩、45°相关性、45°能量;90°同质性、90°惯性矩、90°相关性、90°能量;135°同质性、135°惯性矩、135°相关性、135°能量,计算公式参照文献[13],3 个特征波长下共提取48个基于灰度共生矩阵的纹理特征参数。这样每个茶样共提取66个纹理特征变量。

图3 由主成分分析法提取的3个特征波长下的4个产地茶叶灰度图像Fig.3 Gray images of Lushan,Guangxi,Sichuan and Fujian teas from three feature wavelengths extracted by PCA

2.3 模型建立与结果

从每种产地茶样中随机选20个作为校正集,剩余10个为预测集,则有80个茶样进行训练建立识别模型,40个茶样用来验证模型性能。选用BP神经网络方法建立识别模型,网络模型的参数设计为:模型的作用函数为Sigmoid型函数,初始权重为0.3,权重修正动量为0.1,学习速率为0.1,目标误差为0.001,最大训练次数为2000。

图4 不同主成分数下训练集和预测集的识别结果Fig.4 Discrimination results in training set and prediction set with different PCs

由于从每个茶样提取的特征变量之间存在一定的相关性,采用主成分分析法消除各变量间的冗余信息,该网络模型的输入层单元数为特征变量个数。现有研究表明[14-15],用于训练网络模型的主成分数对网络模型的稳定性影响很大,需优化出最佳主成分数。图4为采用不同主成分数作为网络模型的输入时网络模型的训练和预测结果,图中显示,随着主成分数的增加,训练集和预测集中的识别率越来越高,当主成分数为8时,模型识别率变化不大,主成分数继续增大,模型识别率反而降低。前8个主成分的累计方差贡献率达到98.45%,解释了所有变量的绝大部分信息。因此,选用前8个主成分数作为网络模型的输入变量,最终网络的拓扑结构为8-8-1。

表1和表2是主成分数为8时,网络模型对各产地样本的回判和预测结果。从表1可知,模型训练时,1个庐山产云雾茶错判为四川产地,1个广西产云雾茶错判为庐山产地,总体回判率为97.5%。从表2可知,1个庐山产云雾茶错判为四川产地,1个庐山产地错判为广西产地,1个广西产地错判为四川产地,总体回判率为95%。说明该模型对庐山云雾茶产地鉴别是可行的。从图3可看出,庐山、四川和广西3个产地的云雾茶纹理较接近,分析表1和表2结果也得出是庐山、四川和广西3个产地的茶样之间错判,这主要是由于这3个产地云雾茶的外形差异较小,造成错判现象。

表1 训练集中4个产地云雾茶的差别结果Tab.1 Discriminating results of four origins of tea in training set

表2 预测集中4个产地云雾茶的差别结果Tab.2 Discriminating results of four origins of tea in prediction set

3 结论

各种名优茶的伪品茶的外形与真品相似,普通消费者难以识别。本文探讨了基于高光谱图像技术的地理标记庐山云雾茶和广西、四川、福建其他3个产地云的快速无损鉴别方法,利用主成分分析方法优选了最能表达云雾茶产地的3个特征波段,通过提取各个特征波长图像的纹理特征,建立了识别庐山云雾茶的BP神经网络模型,模型训练时的总体回判率为97.5%,预测时的总体识别率为95%,说明利用高光谱图像技术能快速追溯庐山云雾茶产地。

由于高光谱图像数据量大,处理时间长,不适合实时在线检测。在今后研究中,由本试验方法优选的特征波长,根据相应特征波长设计出用于茶叶原产地鉴别的多光谱成像装置,以实现茶叶原产地鉴别的快速实时检测装置。

[1]Chen Q S,Zhao J W,Lin H.Study on discrimination of green tea(Camellia sinensis L.)according to geographical origin by FT-NIR spectroscopy and supervised pattern recognition[J].Spectrochemica Acta Part A,2009,72(4):845-850.

[2]张龙,王飞娟,潘家荣,等.近红外光谱和模式识别技术在西湖龙井与浙江龙井茶叶鉴别中的应用[J].红外,2012,33(3):44-48.

[3]Kovács Z,Dalmadi I,Lukács L,et al.Geographical origin identification of pure Sri Lanka tea infusions with electronic nose,electronic tongue and sensory profile analysis[J].Journal of Chemometrics,2010,24(3):121-130.

[4]Rao X Q,Ying Y B,Shi Z,et al.Identification of tea from different regions using X-ray fluorescence[J].Spectrosc Spectral Anal,2009,29(3):837-839.

[5]吴彦红,严霖元,吴瑞梅,等.利用荧光高光谱图像技术无损检测猕猴桃糖度[J].江西农业大学学报,2010,32(6):1297-1230.

[6]赵杰文,陈全胜,林颢.现代成像技术及其在食品、农产品检测中的应用[M].北京:机械工业出版社,2010:63.

[7]Naganathan G K,Grimes L M,Subbiah J,et al.Visible/near-infrared hyperspectral imaging for beef tenderness prediction[J].Computers and Electronics in Agriculture,2008,64(20):225-233.

[8]Boldrini B,Kessler W,Rebner K,et al.Hyperspectral imaging:a review of best practice,performance and pitfalls for in-line and on-line applications[J].Journal of Near Infrared Spectroscopy,2012,20(5):483-508.

[9]陈全胜,赵杰文,蔡健荣,等.利用高光谱图像技术评判茶叶的质量等级[J].光学学报,2008,28(4):669-674.

[10]Zhao J W,Chen Q S,Cai J R,et al.Automated tea quality classification by hyperspectral imaging[J].Applied Optics,2009,48(19):3557-3564.

[11]吴瑞梅,吴彦红,艾施荣,等.茶叶外形品质的高光谱图像量化分析[J].江西农业大学学报,2013,35(2):413-418.

[12]冈萨雷斯.数字图像处理[M].2 版.北京:电子工业出版社,2008:224-275.

[13]Dobrowski S Z,Greenberg J A,Ramirez C M,et al.Improving image derived vegetation maps with regression based distribution modeling[J].Ecological Modelling,2006,192(1):126-142.

[14]Barma S D,Das B,Giri A,et al.Back propagation artificial neural network(BPANN)based performance analysis of diesel engine using biodiesel[J].Journal of Renewable and Sustainable Energy,2011,3(1):1-12

[15]Balabin R M,Safieva R Z,Lomakina E I.Comparison of linear and nonlinear calibration models based on near infrared(NIR)spectroscopy data for gasoline properties prediction[J].Chemometric and Intelligent Laboratory Systems,2007,88(2):183-188.

猜你喜欢

云雾茶庐山产地
庐山云雾茶场
警惕“洗产地”暗礁
做一次庐山客
食物离产地越远越好
测定不同产地宽筋藤中5种重金属
江苏连云港喜采花果山明前云雾茶
毛泽东登庐山
《李白 庐山谣》
加强产地检疫实现以检促防