茶叶外形品质的高光谱图像量化分析
2013-04-11吴瑞梅吴彦红艾施荣刘木华赵杰文严霖元
吴瑞梅,吴彦红,艾施荣,刘木华,赵杰文,严霖元
(1.江西农业大学 工学院,江西 南昌 330045;2.江西农业大学 软件学院,江西 南昌 330045;3.江苏大学食品与生物工程学院,江苏 镇江 212013)
茶叶是一种有益于人体健康的保健饮料。目前,茶叶品质好坏、等级划分、价值高低决定主要由人工感官审评进行,该方法相对简便,能对茶叶的风味特征进行鉴别和描述,但感官审评结果由评茶师的经验决定,具有明显的随意性和不确定性,主观性强,一致性差。研究采用科学仪器量化茶叶的品质指标,可有效避免感官评定方法存在的缺陷,提高茶叶品质评价的准确性、稳定性和一致性。
茶叶品质包括茶叶外形、汤色、香气、滋味和叶底5个评价指标,其中茶叶外形是最直观的评价指标,茶叶外形指标评价包括对茶叶外形形状和外形颜色2个方面。一些文献研究采用色差计来量化分析茶叶的外形色泽[1-2],但色差计所测视角直径只有8mm,代表性受到影响。茶叶外形品质不仅包括外形色泽,茶叶外形的形状、嫩度、整碎等审评因子对其品质评价影响也很大[3],因此采用测色技术难以实现茶叶外形的形状特征分析。近年来,文献研究表明,利用计算机视觉技术能很好的鉴别茶叶的品质[4-5],但这些研究只是利用计算机视觉技术实现茶叶品质的定性鉴别,并未将仪器参数与人工感官审评结果相关联。高光谱图像技术具有计算机视觉技术和光谱技术的优点,获取的高光谱数据中,既有特定波长下的二维图像信息,又有待测物内部品质的光谱信息[6]。茶叶品质是茶叶内部成分的综合反映,而茶叶的高光谱图像中的光谱信息能反映出其内部成分信息,图像信息能反映出茶叶的色泽和外形特征。因此,可利用高光谱图像对茶叶品质进行客观分析。陈全胜等[7-8]将高光谱成像技术结合适当的模式识别方法鉴别茶叶等级,模型达到了很好的预测效果。为探讨采用高光谱成像技术来量化分析茶叶外形感官品质的可行性,以碧螺春名优绿茶为对象,研究了茶叶的高光谱图像数据与人工感官审评得分值之间的相关关系,旨在为茶叶品质的仪器化表征提供基础。
1 材料与方法
1.1 茶叶样本收集
试验材料选用不同生产日期的苏州洞庭山碧螺春茶(采集时间为2011年3月19日到2011年4月20日),共采集75批茶样,每批样本200 g,由江苏三万昌茶叶有限公司提供。
1.2 茶叶外形品质的感官审评
75批茶样的外形品质感官审评实验在安徽农业大学茶学系感官审评实验室完成,由4位审评专家,按照茶叶感官审评标准(GB/T 23776—2009)和碧螺春茶(NY/T 863—2004)农业行业标准,采用集体评分和密码审评形式进行。各评茶师以该实验室的标准碧螺春茶样品作为参照,对各茶样的外形形状和外形颜色按百分制分别给出评分,取4位评茶师的得分平均值。各茶样的外形得分值为其形状得分和颜色得分的平均值,以各茶样的评分值作为外形品质优劣的数值依据。
1.3 茶叶的高光谱图像采集
利用基于光谱仪的高光谱图像系统采集茶叶高光谱图像,该系统由基于图像光谱仪的高光谱摄像机(ImSpector,V10E,Specim Spectral Image Ltd.,Oulu,Finland)、CMOS相机(BCi4 -U -M -20 -LP,Vector International,Belgium),一套 150 W 的光纤卤素灯系统(Fiber- Lite DC950 Illuminator,Dolan -Jenner Industries Inc,MA,USA),移动平台输送装置(Zolix,SC30021A,北京)和计算机等部件组成。光谱仪的光谱范围为408~1117 nm,光谱分辨率为2.8 nm,光谱采样间隔为0.67 nm。
试验时,对每批茶样,采用四分法称取(10±0.5)g作为一个样本,将其均匀平铺在长×宽×高分别为6 cm×6 cm×1 cm的正方体盒子中。将盛放茶叶的盒子放在载物台上,采集其高光谱图像。为使高光谱图像采集过程中不产生失真,经试验反复尝试,最终确定高光谱摄像机曝光时间为30 ms,输送装置的线速度为1.25mm/s,图像分辨率为500×1280,采集得到1024个波长下的图像,得到大小为500×1280×1024的高光谱图像数据块。
1.4 高光谱图像标定
由于高光谱摄像头传感器中存在暗电流,且光源强度在各波段下的分布不均匀,导致在光照强度分布较弱的波段下,获得的高光谱图像噪音较大,不同波长下的图像亮度值差异也较大[7]。因此,在数据分析前需对茶叶高光谱图像进行标定,其标定过程如下[8]:在茶叶高光谱图像采集的参数条件下,首先,扫描标准白色校正板(99%光照反射的白板),得到全白的标定图像(Iwh);然后,关闭摄像机快门采集图像,得到全黑的标定图像(Ibl);最后,按公式(1)对高光谱图像进行标定校正,使采集得到的绝对图像Iim转换成相对图像R。
(1)式中,R为标定后的高光谱图像;Iim为原始的高光谱图像;Ibl为全黑的标定图像;Iwh为全白的标定图像。
2 结果与讨论
2.1 高光谱图像区域选择
图1为75个茶样高光谱图像在指定位置10×10像素区域的平均光谱图。由图1可看出,光谱两端存在噪声,这是因为高光谱相机在该光谱区间内的信噪比较低,校正后容易将噪声放大,因此必须去除噪声波段以提高模型的稳定性。由图1可知,在460 nm以上区域各样本的光谱差异较大,460 nm以下光谱区域的反射值变化不大,且在415 nm附近存在明显的尖峰噪音;在1000 nm以上的光谱曲线也存在噪音,且光谱趋势不规则,故选择460~1000 nm范围,共540个波数点的高光谱图像数据进行研究。
2.2 特征波长图像的选取
试验采用ENVI软件在原始高光谱图像数据中重新采样,在460~1000 nm波段,共提取418张图像,图像大小为500×500,得到1个500×500×540的高光谱数据块。该数据块中去除了大部分噪音信息,但相邻波段下的两幅图像之间相关性较强,在重新得到的三维数据块中仍有大量冗余信息。因此,必须从这些数据中提取最能表征茶叶外形品质的特征波长图像。主成分分析法(principal component analysis,PCA)是一种最常见的线性变换投影方法,该方法沿协方差最大的方向,由高维数据空间向低维数据空间投影。原始数据经主成分分析后,得到一组互不相关的新变量(主成分),消除大量冗余信息[9]。研究采用主成分分析法来优选高光谱图像的特征波长,经PCA分析后得到新的主成分图像,从中找到最能表征原始信息的主成分图;且方差贡献率越大的主成分图像,能解释原始高光谱图像中的信息越多。由主成分分析法原理可知,各个主成分图像是由原始高光谱图像数据中各个波长下的图像经线性组合后形成的新图像,线性组合公式见式(2)。
图1 茶叶高光谱图像在10×10像素区域的平均光谱曲线Fig.1 The mean spectra of 10 ×10 regions from hyper-spectral images of teas
(2)式中,PCi为第i个主成分图像,αi为各主成分的权重系数,Ii为第i个波段下的原始图像。在该线性组合中,绝对值最大的权重系数αi所对应波长下的图像即为特征图像[8]。
图2 由主成分分析获取的前4个主成分图像Fig.2 The first four principle component images by PCA
图2为经主成分分析后,得到的前4个主成分图像 PC1、PC2、PC3和 PC4,第一主成分图像(PC1)、第二主成分图像(PC2)、第三主成分图像(PC3)和第四主成分图像(PC4)的方差贡献率分别为97.14%、2.62%、0.18%和0.02%。从图2可看出,第一主成分图像与原始图像最接近(与图3提取的灰度图像对比),且第一主成分图像的方差贡献率占了所有原始信息的97.14%,解释了原始高光谱图像的绝大多数信息;从第二主成分图像开始出现小量噪音,而在第三、第四主成分图像中能看到明显噪音。因此本研究根据第一主成分图像寻找特征波长图像。
经比较不同样本的第一主成分图像的418个权重系数,发现权重系数较大者出现在768.74 nm,827.54 nm和886.83 nm波长处,因此选择这3个波长作为本研究的特征波长。在ENVI软件中,提取此3个特征波长下的灰度图像(简称特征图像),用于后续的图像特征信息提取。优选出的3个特征波长下的灰度图像见图3。
图3 由主成分分析法提取的3个特征波长下的茶叶灰度图像Fig.3 Gray images of tea from three feature wavelengths extracted by PCA
2.3 特征波长图像的颜色特征和纹理特征提取
本研究利用高光谱图像量化分析茶叶的外形感官品质。茶叶外形感官品质包括茶叶的形状和颜色2个方面,从特征图像中分别提取颜色特征和纹理特征。由于单个波长下的图像是灰度图像,其颜色特征只能提取该波长下灰度图像的亮度均值和标准差2个特征变量。图像的纹理特征提取,分别采用灰度统计矩法、频谱法和灰度共生矩阵法,其中基于灰度统计矩的纹理特征参数有6个,分别为:平均灰度值(m)、标准差(δ)、平滑度(R)、三阶矩(μ3)、一致性(U)和熵(e);基于频谱的纹理特征参数有6个,分别为:圆周向谱 t(ρ)能量的幅值(Aρ)、均值(mρ)、方差(δρ)和径向谱能量(s(θ))的幅值(Aθ)、均值(mθ)、方差(δθ);基于灰度共生矩阵的纹理特征提取参照文献[10-11],有16个,分别为:0°惯性矩、0°相关性、0°能量、0°同质性;45°惯性矩、45°相关性、45°能量、45°同质性;90°惯性矩、90°相关性、90°能量、90°同质性;135°惯性矩、135°相关性、135°能量、135°同质性。这样每个特征波长下的灰度图像提取了2个颜色特征,28个纹理特征,共30个特征,各特征参数的计算公式参见文献[12]。每个茶样的高光谱数据块中,分别优选出了3个特征波长下的灰度图像,因此每个茶样最终提取了90个特征变量。
2.4 BP神经网络模型建立及预测
茶叶品质由评茶员通过感觉器官完成,人体感觉器官机理复杂,且茶叶品质是茶叶内部成分的错综复杂作用结果,在茶叶品质与感官评分间可能是复杂的非线性关系。BP神经网络(back-propagation artificial neural network,BP-ANN),该网络采用最小均方差学习方式,以反向传播的学习算法来调整各权重值,能很好的解决模糊,非线性复杂问题[13-14]。
表1 校正集和预测集绿茶外形品质感官审评实际得分值结果Tab.1 The sensory appearance scores of tea samples by the tea tasters and sample numbers in calibration and prediction set
本试验选用BP神经网络方法建立茶叶外形感官品质与高光谱图像特征变量之间的相关模型,采用3层BP网络结构(包括:输入层,隐含层,输出层),输出层为茶叶外形感官审评得分值。从75个样本中选取50个作为校正集,建立校正模型,余下的25个样本为预测集,用来评价模型性能,校正集和预测集样本的外形品质感官审评实际得分值统计结果见表1。
由2.3节共提取了90个特征变量,这些特征变量中,有些对茶叶外形品质贡献不大或无贡献,有些特征变量间存在一定相关性,因此,模型建立前必须去除冗余信息和无关信息,以提高模型的精度和稳定性[8]。研究采用主成分分析法(PCA)提取有效特征信息,由提取的主成分数作为网络模型的输入。网络模型的参数设计如下:输入层到隐含层、隐含层到输出层的传递函数都采用正切S形函数,权重修正动量设为0.1,初始权重设为0.3,学习速率设为0.1,目标误差设为0.001,最大训练次数为1000。研究表明,主成分数的多少作为网络模型的输入,对网络模型性能影响很大;主成分数选择过少,会损失部分特征信息,降低模型的精度;而主成分数选择过多,一些无关和冗余信息会引入模型中,从而降低模型的鲁棒性,网络训练的时间也会更长。因此,在校正集中采用交互验证法确定最佳主成分数,最小的交互验证均方根误差(RMSECV)所对应模型使用的主成分数作为网络模型的输入。图4显示采用不同主成分数训练网络模型的RMSECV值。由图4可看出,采用13个主成分数训练网络模型时,RMSECV值最小。因此,研究使用前13个主成分作为网络模型的输入,最终网络的拓扑结构为13-14-1。用该网络训练校正集样本,模型校正集的预测值与实际评分值之间的相关系数为0.875,RMSECV为3.376。用预测集25个独立样本检验模型性能,模型预测值与实际评分值之间的相关系数为0.859,预测均方根误差(RMSEP)为3.611。
2.5 模型准确度验证
为验证所建模型的准确度,对预测集中25个样品的实际评分值与模型预测值进行配对t检验,检验结果如表2。表2中,实际评分值&模型预测值是指25个茶叶样本的外形感官评分值与模型预测值相互配对。由表2可知,实际评分值与模型预测值的配对差的均值为0.850,t统计量的值为1.187,对应的概率P 值为0.247(P=0.247 >0.05),表明实际评分值与模型预测值之间无显著差异。说明所建模型用于未知茶叶外形感官得分值的预测,其预测结果是准确、可靠的。
图4 校正集中不同主成分下训练BP-ANN模型对应的RMSECVFig.4 RMSECV of BP-ANN models at different PCs in the calibration set
表2 实际评分值与模型预测值配对样本t检验结果Tab.2 T-test result between the reference values and the prediction values
3 结论
本研究表明,基于高光谱图像数据建立茶叶外形感官品质评价模型是可行性,所建模型的预测值与实际评分值之间无显著差异,说明所建模型用于茶叶外形感官品质的量化评价是准确、可靠的。茶叶种类不同,其品质各有差异,本文只研究了一种茶叶,为探讨该方法的普适性,将进一步研究其他多种大宗茶和名优茶的感官品质的仪器化表征方法,为茶叶品质的量化评价的仪器化开发提供方法支持。
[1]赖国亮,吴金桃,兰永辉.测色技术在炒青绿茶品质评价中的应用[J].中国茶叶,1999(2):19-21.
[2]严俊,林刚,叶付刚,等.测色技术在工夫红茶品质评价中的应用研究[J].中国农学通报,1997,13(6):24-26.
[3]陆松侯,施兆鹏.茶叶审评与检验[M].3版.北京:中国农业出版社,2001:6.
[4]Wu D,Yang H Q,Chen X J,et al.Application of image texture for sorting of tea categories using multi- spectral imaging technique and support vector machine[J].Journal of Food Engineering,2008,88(4):474 -483.
[5]Chen Q S,Zhao J W,Cai J R.Identification of tea varieties using computer vision[J].Transaction of the ASABE,51(2):623-628.
[6]赵杰文,陈全胜,林颢.现代成像技术及其在食品、农产品检测中的应用[M].北京:机械工业出版社,2010,63.
[7]陈全胜,赵杰文,蔡健荣,等.利用高光谱图像技术评判茶叶的质量等级[J].光学学报,2008,28(4):669-674.
[8]Zhao J W,Chen Q S,Cai J R,et al.Automated tea quality classification by hyperspectral imaging[J].Applied Optics,2009,48(19):3557-3564.
[9]许禄,邵学广.化学计量学方法[M].北京:科学出版社,2006,163 -174.
[10]于海鹏,刘一星,张斌,等.应用空间灰度共生矩阵定量分析木材表面纹理特征[J].林业科学,2004,40(6):121-129.
[11]Dobrowski S Z,Greenberg J A,Ramirez C M,et al.Improving image derived vegetation maps with regression based distribution modeling[J].Ecological Modelling,2006,192(1):126 -142.
[12]冈萨雷斯.数字图像处理[M].2版.北京:电子工业出版社,2008:224-275.
[13]Barma S D,Das B,Giri A,et al.Back propagation artificial neural network(BPANN)based performance analysis of diesel engine using biodiesel[J].Journal of Renewable and Sustainable Energy,2011,3(1):013101 -1:12
[14]Balabin R M,Safieva R Z,Lomakina E I.Comparison of linear and nonlinear calibration models based on near infrared(NIR)spectroscopy data for gasoline properties prediction [J].Chemometric and Intelligent Laboratory Systems,2007,88(2):183-188.
[15]王文杰,罗守进,黄建琴,等.电脑测定茶叶色泽的方法研究[J].茶叶科学,2005,25(1):37-42.