APP下载

基于无监督可能模糊学习矢量量化的近红外光谱生菜品种鉴别研究

2016-06-15武小红蔡培强

光谱学与光谱分析 2016年3期
关键词:生菜矢量光谱

武小红, 蔡培强, 武 斌, 孙 俊, 嵇 港

1. 江苏大学电气信息工程学院, 江苏 镇江 212013

2. 江苏大学机械工业设施农业测控技术与装备重点实验室, 江苏 镇江 212013

3. 江苏大学京江学院, 江苏 镇江 212013

4. 滁州职业技术学院信息工程系, 安徽 滁州 239000

基于无监督可能模糊学习矢量量化的近红外光谱生菜品种鉴别研究

武小红1, 2, 蔡培强3, 武 斌4, 孙 俊1, 2, 嵇 港1

1. 江苏大学电气信息工程学院, 江苏 镇江 212013

2. 江苏大学机械工业设施农业测控技术与装备重点实验室, 江苏 镇江 212013

3. 江苏大学京江学院, 江苏 镇江 212013

4. 滁州职业技术学院信息工程系, 安徽 滁州 239000

为解决模糊学习矢量量化(FLVQ)对噪声数据敏感问题, 在无监督可能模糊聚类(UPFC)基础上提出一种无监督可能模糊学习矢量量化(UPFLVQ)算法。 UPFLVQ用UPFC的隶属度和典型值来更新学习矢量量化网络的学习速率, 计算类中心矢量。 UPFLVQ 属于无监督机器学习算法, 适用于无学习样本情况下的样本分类。 研究了UPFLVQ用于近红外光谱生菜品种鉴别的可行性。 采用FieldSpec@3型便携式光谱分析仪获取波长范围为350~2 500 nm的三种生菜样本的短波近红外光谱和长波近红外光谱, 然后采用主成分分析(PCA)进行近红外光谱的维数压缩, 取前三个主成分, 累计可信度达97.50%, 将2151维的近红外光谱压缩为三维数据。 再运行模糊C-均值聚类(FCM)至迭代终止, 并以FCM的类中心作为UPFLVQ的初始聚类中心, 最后运行UPFLVQ得到隶属度和典型值以实现近红外光谱的生菜品种鉴别。 同时, 运行UPFC进行近红外光谱的生菜品种鉴别。 实验结果表明: UPFLVQ和近红外光谱技术相结合的模型具有检测速度快, 鉴别准确率高, 对生菜不造成损坏等优点, 可实现不同品种生菜的鉴别。 UPFLVQ是将UPFC和FLVQ相结合的聚类算法, 利用UPFLVQ建立近红外光谱的生菜品种鉴别模型时无需学习样本, 适用于线性可分的数据聚类, 为快速和无损地鉴别生菜品种提供了一种新的方法。

近红外光谱; 生菜; 品种鉴别; 无监督机器学习

引 言

生菜是人们经常食用的主要蔬菜之一, 它营养价值高, 含有膳食纤维, 蛋白质, 维生素和莴苣素等营养成分[1]。 不同品种的生菜其外部品质和内部品质都不相同, 如何选择产量高, 品质高的生菜品种是农业科技工作者研究的重要课题, 因此研究一种简单、 快速、 非破坏的生菜品种鉴别方法是非常必要的。

近红外光谱是研究红外光与物质分子之间相互作用的吸收光谱, 是鉴定化合物和分析有机物结构的有效工具。 近红外光谱技术属于无损检测技术, 具有检测速度快, 检测效率高, 可在线分析等优点, 广泛应用于农产品(包括谷物、 饲料、 水果、 蔬菜等)成分的快速检测[2-5]。 近红外光谱射向生菜后得到漫反射光谱, 在不同品种的生菜上获得的漫反射光谱是不同的, 利用这个原理, 可以实现生菜品种的鉴别。 近红外光谱仪器采集的原始光谱中除了包含与样品组成有关的信息外, 也包含了来自背景和检测过程中产生的噪声信号[6]。 噪声信号混杂在近红外光谱信息中, 消除这些噪声信号比较困难, 导致不能正确建立样本的数据模型和实现对样品组成成分或性质的预测。

模糊学习矢量量化是建立在模糊C-均值聚类(FCM)和Kohonen聚类网络基础上的聚类方法[7]。 模糊学习矢量量化利用模糊C-均值聚类的隶属度作为学习网络的学习速率。 但是FCM建立在可能性约束条件(即同一个样本对所有类别的隶属度之和为1)基础上, 对噪声数据敏感, 影响聚类结果[8]。 模糊学习矢量量化(FLVQ)建立在FCM基础上, 其得到的隶属度值也要满足可能性约束条件, 所以FLVQ对噪声数据敏感[9]。 噪声数据会影响FLVQ的隶属度值从而影响聚类准确率。

目前, 在应用近红外光谱技术进行农产品、 果蔬品种鉴别时所采用的主要鉴别方法有: 偏最小二乘判别分析(PLSDA)[10], 软独立模式分类(SIMCA)[11], 人工神经网络(ANN)[12], 支持向量机(SVM)[13]、 K-近邻法(KNN)[14]等。 这些鉴别方法属于有监督的模式识别方法, 需要提供训练样本集供分类器学习, 学习后再对测试集样本进行分类。 在没有学习样本, 或者学习样本比较少的情况下运用以上方法难以实现生菜品种的正确鉴别。

为了实现在含噪声数据的近红外光谱上建立准确的定性分析模型, 同时解决模糊学习矢量量化的噪声敏感性问题, 本工作在无监督可能模糊聚类(UPFC)基础上提出一种无监督可能模糊学习矢量量化(UPFLVQ)算法。 UPFC集成了可能聚类算法和FCM, 实现了对含噪声数据的聚类而不会出现一致性聚类问题[15]。 UPFLVQ用UPFC的隶属度和典型值来更新学习矢量量化网络的学习速率, 计算类中心矢量。 UPFLVQ采用UPFC方法因而它能够聚类含噪声数据。 实验结果表明, 用UPFLVQ建立的近红外光谱无监督学习定性模型对生菜品种的鉴别具有良好的预测效果。

1 实验部分

1.1 材料

在生菜成熟期, 采集香港玻璃生菜, 意大利全年耐抽苔生菜和大禹奶油生菜三个品种样本, 每个品种样本数为40个。 将采集的生菜叶片表面清理干净后, 置于温度和湿度相对恒定的实验室12 h以上, 使样品温度与实验室温度基本相同。

1.2 近红外光谱采集

采用美国ASD (Analytical Spectral Devices., Inc)公司的FieldSpec@3型便携式光谱仪, 其光谱测量范围350~2 500 nm, 在短波近红外(350~1 000 nm)光谱区采样间隔为1.4 nm, 分辨率为3 nm; 在长波近红外(1 000~2 500 nm)光谱区采样间隔为2 nm, 分辨率为10 nm。 用光谱仪测试生菜样本之前需测试标准反射板和黑背景以减少误差。 实验室温度保持在(15±2)℃, 相对湿度在70%左右, 将生菜叶片放置于黑色绒布上, 每片叶片测量3次, 取平均值作为后续实验用的光谱数据。 120个生菜样本的漫反射近红外光谱图如图1所示。

Fig.1 Raw NIR spectra of lettuces

2 无监督可能模糊学习矢量量化原理

给定一个无标记的含有n个样本的数据集X={x1,x2, …,xn}, 无监督可能模糊学习矢量量化通过以下迭代运算将数据集X划分为c(2≤c

初始化:

(1)固定生菜近红外光谱样本类别数c(+∞>c≥2), 初始权重指数m0(+∞>m0>1)和p0(+∞>p0>1), 最大迭代数rmax, 误差上限值ε, 固定参数a(+∞>a>0),b(+∞>b>0)和样本数n;

迭代计算:

建立基于无监督可能模糊学习矢量量化的近红外光谱生菜品种鉴别模型主要包括以下环节:

(1)生菜样本近红外光谱的采集;

(2)采用主成分分析方法(PCA)对生菜样本近红外光谱进行降维处理;

(3)运行模糊C-均值聚类以得到初始聚类中心;

(4)用无监督可能模糊学习矢量量化方法进行生菜品种的鉴别。

3 结果与讨论

采集到的每个生菜样本的近红外光谱为2 151维的高维数据, 需要用主成分分析方法(PCA)将高维数据降维成低维数据, 分别选取前L个主成分得到其累计可信度如表1所示(累计可信度=前L个主成分特征值之和除以总的特征值之和)。 本实验取前三个主成分, 则累计可信度达97.50%(见表1)。 前三个主成分的得分图如图2所示, 第一主成分(PC1), 第二主成分(PC2)和第三主成分(PC3)组成图2的三个坐标轴。 在图2中, “·Iceberg”表示香港玻璃生菜, “∘Bolting resistance”表示意大利全年耐抽苔生菜和“* Butter”表示大禹奶油生菜。 从图2中可看出, 三种生菜数据中有一些不同品种生菜数据存在重叠现象, 这给品种鉴别带来一定的难度。

Table 1 The total accumulative contribution rate of

Fig.2 Scores plot of PC1, PC2 and PC3

对降维后得到的三维近红外光谱数据运行模糊C-均值聚类(FCM), 得到的聚类中心如下:

该聚类中心作为UPFLVQ和UPFC的初始聚类中心。 然后设置UPFLVQ和UPFC的参数: 样本类别数c=3, 初始权重指数m0=2.0和p0=2.0, 最大迭代数rmax=100, 误差上限的值ε=0.000 01, 样本数n=120, 固定参数a=1.0,b=2.5。 运行UPFLVQ和UPFC可得到它们的模糊隶属度和典型值分别如图3和图4所示。 图3(a)和图4(a)分别为UPFLVQ和的UPFC的模糊隶属度, 图3(a)或图4(a)有3

Fig.3 (a) Fuzzy memberships from UPFLVQ; (b) Typical values from UPFLVQ

Fig.4 (a) Fuzzy memberships from UPFC; (b) Typical values from UPFC

abUPFCUPFLVQ模糊隶属度/%典型值/%模糊隶属度/%典型值/%1 02 585 885 888 388 31 02 085 885 887 587 52 03 587 585 888 388 3

个子图组成, 最上面的子图表示1~120个样本隶属于香港玻璃生菜的隶属度值, 中间子图表示1~120个样本隶属于意大利全年耐抽苔生菜的隶属度值, 最下面的子图表示1~120个样本隶属于大禹奶油生菜的隶属度值。 若第j个样本隶属于第i(i=1, 2, 3)类的隶属度值为uij, 则根据maxiuij判断第j个样本隶属于第i类。 图3(b)和图4(b)分别为UPFLVQ和的UPFC的典型值, 图3(b)或图4(b)由3个子图组成, 按照从上而下, 3个子图分别表示表示1~120个样本隶属于香港玻璃生菜, 意大利全年耐抽苔生菜和大禹奶油生菜的典型值。 若第j个样本隶属于第i(i=1, 2, 3)类的典型值为tij, 则根据maxitij判断第j个样本隶属于第i类。 UPFLVQ的模糊隶属度和典型值鉴别准确率为88.3%, UPFC的模糊隶属度和典型值鉴别准确率为85.8%。 改变参数a和b的值可得到UPFLVQ和UPFC鉴别准确率如表2所示, 由表2可知UPFLVQ的鉴别准确率高于UPFC。

4 结 论

提供了一种无监督机器学习的生菜品种鉴别方法。 该方法利用近红外漫反射光谱技术获取3个品种生菜样本的近红外光谱数据, 采用主成分分析进行光谱数据的维数压缩。 为了实现对含噪声数据的近红外光谱数据的准确分类, 本文在无监督可能模糊聚类(UPFC)基础上提出一种无监督可能模糊学习矢量量化(UPFLVQ)算法。 实验结果表明, 与UPFC比较, UPFLVQ算法建立的生菜品种鉴别模型具有更高的鉴别准确率, 为快速, 无损和准确地鉴别生菜品种提供了一种新的方法。

[1] SUN Jun, JIN Xia-ming, MAO Han-ping, et al(孙 俊, 金夏明, 毛罕平, 等). Chinese Journal of Analytical Chemistry(分析化学), 2014, 42(5): 672.

[2] Ahmed M R, Daniel E G, William K, et al. Journal of Food Engineering, 2014, 135: 11.

[3] Schmutzler M, Huck C W. Vibrational Spectroscopy, 2014, 72: 97.

[4] Ferreira D S, Pallone J A L, Poppi R J. Food Control, 2015, 48: 91.

[5] Fernández Pierna J A, Vermeulen P, Amand O, et al. Chemometrics and Intelligent Laboratory Systems, 2012, 117: 233.

[6] Xu L, Shi P T, Ye Z H, et al. Food Chemistry, 2013, 141: 2434.

[7] Tsao E C, Bezdek J C, Pal N R. Pattern Recognition, 1994, 27(5): 757.

[8] Krishnapuram R, Keller J. IEEE Transaction on Fuzzy Systems, 1993, 1(2): 98.

[9] Wu X, Fu H, Wu B, et al. Journal of Information and Computational Science, 2010, 7(3): 777.

[10] Shen F, Wu J, Ying Y B, et al. Food Chemistry, 2013, 141(4): 4026.

[11] Pholpho T, Pathaveerat S, Sirisomboon P. Journal of Food Engineering, 2011, 104(1): 169.

[12] Milton C S B, Ma I G, Javier S E, et al. Talanta, 2013, 116: 50.

[13] Shi J Y, Zou X B, Huang X W, et al. Food Chemistry, 2013, 138: 192.

[14] Luo W, Huan S, Fu H, et al. Food Chemistry, 2011, 128(2): 555.

[15] Wu X, Wu B, Sun J, et al. Journal of Information and Computational Science, 2010, 7(5): 1075.

The Identification of Lettuce Varieties by Using Unsupervised Possibilistic Fuzzy Learning Vector Quantization and Near Infrared Spectroscopy

WU Xiao-hong1, 2, CAI Pei-qiang3, WU Bin4, SUN Jun1, 2, JI Gang1

1. School of Electrical and Information Engineering, Jiangsu University, Zhenjiang 212013, China

2. Key Laboratory of Facility Agriculture Measurement and Control Technology and Equipment of Machinery Industry, Jiangsu University, Zhenjiang 212013, China

3. Jingjiang College, Jiangsu University, Zhenjiang 212013, China

4. Department of Information Engineering, Chuzhou Vocational Technology College, Chuzhou 239000, China

To solve the noisy sensitivity problem of fuzzy learning vector quantization (FLVQ), unsupervised possibilistic fuzzy learning vector quantization (UPFLVQ) was proposed based on unsupervised possibilistic fuzzy clustering (UPFC). UPFLVQ aimed to use fuzzy membership values and typicality values of UPFC to update the learning rate of learning vector quantization network and cluster centers. UPFLVQ is an unsupervised machine learning algorithm and it can be applied to classify without learning samples. UPFLVQ was used in the identification of lettuce varieties by near infrared spectroscopy (NIS). Short wave and long wave near infrared spectra of three types of lettuces were collected by FieldSpec@3 portable spectrometer in the wavelength range of 350~2 500 nm. When the near infrared spectra were compressed by principal component analysis (PCA), the first three principal components explained 97.50% of the total variance in near infrared spectra. After fuzzy c-means (FCM) clustering was performed for its cluster centers as the initial cluster centers of UPFLVQ, UPFLVQ could classify lettuce varieties with the terminal fuzzy membership values and typicality values. The experimental results showed that UPFLVQ together with NIS provided an effective method of identification of lettuce varieties with advantages such as fast testing, high accuracy rate and non-destructive characteristics. UPFLVQ is a clustering algorithm by combining UPFC and FLVQ, and it need not prepare any learning samples for the identification of lettuce varieties by NIS. UPFLVQ is suitable for linear separable data clustering and it provides a novel method for fast and nondestructive identification of lettuce varieties.

Near infrared spectroscopy; Lettuce; Identification of varieties; Unsupervised machine learning

Oct. 12, 2014; accepted Feb. 10, 2015)

2014-10-12,

2015-02-10

国家自然科学基金项目(31101082), 江苏高校优势学科建设工程资助项目PAPD(苏政办发2011-6), 江苏省高等学校大学生实践创新训练计划项目(201413986008Y)资助

武小红, 1971年生, 江苏大学电气信息工程学院副教授 e-mail: wxh_www@163.com

O657.3

A

10.3964/j.issn.1000-0593(2016)03-0711-05

猜你喜欢

生菜矢量光谱
基于三维Saab变换的高光谱图像压缩方法
脆嫩爽口的生菜
一种适用于高轨空间的GNSS矢量跟踪方案设计
矢量三角形法的应用
高光谱遥感成像技术的发展与展望
生菜怎么吃更健康
生菜?你爱吃圆的还是散叶儿的?
生菜有道
基于矢量最优估计的稳健测向方法
三角形法则在动态平衡问题中的应用