基于NMF与SVM的粘连种子分类研究
2020-05-25万路瑶叶安胜
万路瑶 叶安胜
摘 要:为促进农业向精准农业、智慧农业方向发展,针对种业中衡量种子质量的重要指标千粒重,为提高其精确度,提出基于非负矩阵分解与支持向量机的粘连种子分类算法,在利用机器视觉与图像识别等技术进行种子颗粒计数时,解决种子因严重粘连(经图像预处理、形态学操作等仍粘连)使系统出现误判,导致计数结果误差较大的问题。实验以玉米种子为研究对象,研究3种常见粘连类型。采用基于NMF的方法实现种子粘连图像有效特征的提取,再运用SVM构建多分类器,解决种子粘连类型的三分类问题,最后通过实验验证,该方法的分类准确率为98%。
关键词:非负矩阵分解;支持向量机;种子粘连;种子分类
DOI:10. 11907/rjdk. 191464 开放科学(资源服务)标识码(OSID):
中图分类号:TP317.4 文献标识码:A 文章编号:1672-7800(2020)002-0153-04
英标:Classification of Adhesive Seeds Based on NMF and SVM
英作:WAN Lu-yao, YE An-sheng
英单:(School of Information Science & Engineering, Chengdu University, Chengdu 610106, China)
Abstract: In order to respond to the national call to develop agriculture in a precise and smart way, and to measure the importance of seed quality in the seed industry and improve its accuracy, this paper proposes a classification of adhesion seeds based on non-negative matrix factorization and support vector machine. The algorithm solves the problem that the seeds are seriously adhered (image pre-processing, morphological operation, etc. still adheres) when using the techniques of machine vision and image recognition to count the seed particles, so that the error of the counting result caused by the misjudgment of the system is large. The experiment used corn seeds as the research object to study three common types of adhesions. The NMF-based method is used to extract the effective features of seed adhesion images, and then use SVM to construct multi-classifiers to solve the three-class problem of seed adhesion types. The accuracy of the classification was verified to be 98% by experimenting with 90 images.
Key Words: non-negative matrix factorization; support vector machine; seed adhesion; seed classification
0 引言
如今乡村振兴已上升至国家战略,随着信息技术的发展,农业信息化也加速推进,农业开始朝着精准农业与高效农业方向发展。种业是农业发展的决定性因素,育种创新是农业转变发展方式的前提。种子质量的提升与育种技术的发展,有利于保障国家粮食安全,促进农业增效、农民增收等。种子千粒重与种子质量有着直接关系,在千粒重指标获取与育种工作中,种子的准确计数十分关键[1]。
傳统人工计数方法效率与精确度低,之后出现了光电管计数方法如宋礽苏等[2]设计的自动光电数粒仪等,但若种子在通过光电管时存在部分交叠,很可能产生少计、漏计等情况,且成本高、过程繁琐。近年来,随着机器视觉、图像识别等技术的迅猛发展,人们也将其运用于种子颗粒计数研究中,以提高种子计数的效率、精确度与便利性,并降低成本,但对严重粘连的种子进行识别计数时依然误差较大。如Van [3]利用分水岭分割算法对严重粘连的谷物颗粒进行分割并计数,但分水岭算法易产生过分割现象,从而使结果误差较大。
为实现种子严重粘连时的精确计数,可将机器视觉等技术与机器学习算法相结合提取种子的有效特征,实现对不同品种种子的识别分类。如李冬[4]利用主成分分析方法PCA(Principal Components Analysis)[5]对稻花香种子进行有效特征提取,并利用支持向量机SVM(Support Vector Machine)[6-8]对其进行分类识别,实验结果较为理想。
种子粘连存在不同类型,类似于不同品种,因此本文提出利用非负矩阵分解NMF(Nonnegative Matrix Factor)[9-11]对种子粘连图像特征数据进行降维,实现基于NMF的有效特征提取,并采用SVM分类方法构建多分类器进行种子粘连类型分类,为实现种子精确计数提供技术支持。本文以玉米种子为例,研究其常见的3类粘连类型并实现分类。
1 种子粘连模型
种子粘连模型分类步骤大致分为3个阶段:样本获取、特征提取与模型分类。样本获取阶段即获得充足的种子粘连模型图像;特征提取阶段则通过分析图像,提取各图像中粘连种子具有的特征,并篩选出对分类有效的主要特征;模型分类阶段是将待分类的种子粘连模型进行识别分类。整个过程中,特征提取与模型分类两个阶段最为关键,决定着最终分类结果。图1为玉米种子粘连的3种模型:两粒种子粘连、三粒种子成线粘连,以及三粒种子成闭区域粘连。对不同粘连类型的种子特征进行分析,可获得粘连种子图像凹点数目、面积、周长、拓扑形状、长短轴长等12类特征[12]。由于特征多、数据量大,进行降维操作很关键,以去除与分类无关联及关联小的特征数据,减小系统运算量,实现快速分类。NMF是继PCA之后提出的一种能解决矩阵分解与降维问题的有效方法,已在人脸识别[13]、语音处理[14]等领域得到广泛运用。
分类方法主要分为非监督和监督分类两种。非监督分类不用事先知道待分类样本类别,分类决策规则是依据样本特征参数的统计特征建立的,如聚类分析[15]、高斯混合模型[16]等;有监督分类是指首先使用已知类别的样本进行训练,使训练好的分类器能对未知类别的目标进行分类,如神经网络[17]、SVM等。SVM能用较少的样本数量,获取良好的分类结果,并克服传统方法中经验风险最小化的不足。
2 相关算法
2.1 非负矩阵分解(NMF)
矩阵分解一般是将一个大矩阵分解为几个较小矩阵,而分解后的矩阵元素可能会有正负之分,如主成分分析PCA、独立成分分析ICA(Independent Component Correlation Algorithm)[18]等降维分解方法。但在常见的如图像、文本等形成的矩阵中,负数是没有意义的,所以处理类似对象时,寻求一种使分解后的矩阵元素均为非负的方法会更有现实意义。Lee&Seung[19]于1999年在《自然》杂志上提出非负矩阵分解NMF,在NMF中要求原始矩阵V的所有元素均为非负,则矩阵可以分解为两个更小非负矩阵(W,H)的乘积。该矩阵有且仅有一个此类分解,即满足存在性与唯一性。
其中,V为原始矩阵,W为基矩阵,H为系数矩阵,n为样本数,m为特征个数,通常情况下规定k NMF矩阵分解优化目标是最小化W矩阵、H矩阵乘积与原始矩阵之间的差别,利用乘性迭代方法求解W和H。在NMF问题目标函数中应用最广泛的是欧几里得距离与KL散度。本文以欧几里得距离为例,假设噪声矩阵为[E∈Rm×n],则有: 如果噪声服从不同概率分布,则通过最大似然函数会得到不同类型的目标函数。本文以噪声服从高斯分布进行说明,得到最大似然函数为: 要使对数似然函数[L(W,H)]取值最大,则要使目标函数[J(W,H)]最小。 最终,可以任意初始化W和H,通过以下迭代过程使误差减小到稳定值。 2.2 支持向量机(SVM) SVM寻求的是一个最优分界面,以将两类样本点最大程度地分开,最大间隔准则是支持向量机的最佳准则。 设有N个2类线性可分样本为:(x1,y1),(x2,y2)…(xn,yn),其中[xi∈Rn],[yi∈{+1,-1}],线性判别函数为:[gx=wTx+b]。由于样本线性可分,改变权向量的模,有如下分类规则: 将其归一化则有: 此时,支持向量样本点到最优分界面的距离[d=1w],分类间隔则为[2d]。为使分类间隔最大化,可转化成求最小的[w],等同于求解[12w2]最小化问题。用条件极值求解最优分界面,构造拉格朗日函数。 对于低维输入空间中的非线性可分训练样本,可通过核函数[20]将其映射到高维空间中,从而使其线性可分。引入核函数[K(xi,xj)=φ(xi)?φ(xj)]。 若映射后仍不能保证线性可分,可增加松弛项,以减小分界面在训练样本上的平均误差。 3 基于NMF与SVM的种子粘连类型分类 SVM分类器生成流程见图2。种子粘连类型分类流程见图3。 具体流程如下: (1)粘连种子图像训练样本集。通过相机拍摄60张如图1所示的3类种子粘连类型图像(每类20张),经过图像预处理等操作,提取各种粘连图像特征作为初始高维特征向量。 (2)有效特征提取。通过NMF对初始高维特征向量进行降维操作,得到四维的系数矩阵,最终形成一个四维特征向量。 (3)SVM多分类器构建[21]。本文需要解决一个三分类问题,SVM主要用于二分类。利用SVM构造多分类器,采用“一类对其余”与“一对一”两种方法,但前一种方法容易造成数据集偏斜,因此本文采用第二种方法。“一对一”方法即每两类之间就要构造一个SVM分类器,本文分为三类则需要[3×(3-1)2=3]个SVM分类器,若为N分类,则需要[N(N-1)2]个SVM分类器。最后采用“投票”方式,获得投票数最多的类别则为最终分类结果。 4 种子粘连类型分类实验 本文主要研究如何对如图1所示的3种常见种子粘连类型进行有效分类,为得到精确的种子颗粒计数结果奠定基础。将3种粘连类型依次重命名为I型、II型、III型粘连。实验所需图像均通过相机拍摄,样本数据为150。其中,将60张不同的种子粘连图像作为训练样本,90张作为测试样本(每种粘连类型各30张),对本文提出的分类算法进行验证,并与常用的基于PCA的SVM等方法进行比较。 在本实验中,分类准确率P是需要获得的重要参数。 [P=正确分类的样本数分类的样本总数×100%] (12) 实验运行结果示例见图4。 本实验SVM的核函数选择径向基核函数(RBF),参数为C=180,γ=0.003,利用NMF对12类粘连种子特征进行降维,得到4维系数矩阵。 根据表1结果可以明显看出,對于粘连类型最简单的I型粘连,本文算法有很好的分类效果,分类准确率达到了100%,而对于II型与III型种子粘连类型的分类结果相差不大,在30张图像样本中,分类错误的都仅为1张。综上所述,本文算法在各种种子粘连类型分类中都取得了不错的分类效果,总分类准确率为98%。 基于PCA的SVM分类结果见表2。 由表2可得出基于PCA的SVM分类方法对3种不同粘连类型的平均(总)分类准确率为: 本实验SVM的核函数选择径向基核函数(RBF),参数为C=120,γ=0.006,利用PCA对12类粘连种子特征进行降维,得到5个主成分,累积方差贡献率为90.682%。 根据表2结果可以看出,在本次实验中,基于PCA的SVM分类算法对I型粘连的分类准确率也是最高的,而对III型粘连的分类准确率最低,可能是该粘连类型相对最为复杂,导致基于PCA的特征提取效果欠佳。最终,本次实验总分类准确率为91%。 5 结语 通过实验,对比基于NMF的分类算法与传统基于PCA的分类算法,在同等条件下对3种不同类型种子粘连类型分类的综合准确率,前者为98%,后者为91%。显然,本文提出的基于NMF的SVM算法对种子粘连类型的分类效果更好。在两种分类算法下,由于I型粘连情况相对简单,分类准确率都是最高的,在本文算法的分类实验中达到了100%。对于III型粘连情况,由于粘连类型最为复杂,分类准确率在3种类型中相对较低。因为使用NMF时要求数据都为正数,而图像中包含的数据也均为正数,所以当NMF算法出现后常被用于图像数据处理中,相比于传统PCA在使用过程中会出现负数等情况,NMF更具有实际意义。在本文实验中,由于样本数量不是很大,可能会存在一些误差,但由于实验条件相同,在对算法优劣比较方面影响不大。 参考文献: [1] 高和平,江凤琼. 大豆、玉米种子的千粒重与发芽成苗关系的研究[J]. 孝感学院学报,2001(3):68-70. [2] 宋礽苏,蓝景针,夏世峰,等. ZPXG-18型转盘斜刮式自动光电数粒仪和千粒重仪的设计[J]. 浙江农业学报,2011,23(5):1023-1028. [3] VAN DEN BERG E H, MEESTERS AGCA.Automated separation of touching grains in digital images of thin sections[J]. Computers&Geosciences,2002,28(2):179-190. [4] 李冬. 基于图像的稻花香水稻种子鉴别方法的研究[D]. 大庆:黑龙江八一农垦大学,2018. [5] 于秀林,任雪松. 多元统计分析[M]. 北京:中国统计出版社, 1999. [6] 林香亮,袁瑞,孙玉秋,等. 支持向量机的基本理论和研究进展[J]. 长江大学学报:自科版,2018,15(17):48-53. [7] 陆波,尉询楷,毕笃彦. 支持向量机在分类中的应用[J]. 中国图象图形学报,2005(8):94-100. [8] 张策,臧淑英,金竺,等. 基于支持向量机的扎龙湿地遥感分类研究[J]. 湿地科学,2011,9(3):263-269. [9] 刘志扬. 非负矩阵分解及其改进方法[J]. 华侨大学学报:自然科学版,2016,37(6):782-785. [10] 王科俊,左春婷. 非负矩阵分解特征提取技术的研究进展[J]. 计算机应用研究,2014,31(4):970-975. [11] 徐泰燕,郝玉龙. 非负矩阵分解及其应用现状分析[J]. 武汉工业学院学报,2010,29(1):109-114. [12] 史中辉,赵秀艳,于广洋,等. 基于图像处理的玉米种子特征参数提取系统[J]. 农机化研究,2011,33(10):166-170. [13] 周昌军,张强,魏小鹏. 基于NMF图像重构的人脸识别[J]. 计算机工程,2008(3):217-219. [14] 胡永刚,张雄伟,邹霞,等. 改进的非负矩阵分解语音增强算法[J]. 信号处理,2015,31(9):1117-1123. [15] 孙吉贵,刘杰,赵连宇. 聚类算法研究[J]. 软件学报,2008(1):48-61. [16] MARTIS R J,CHAKRABORTY C,RAY A K. A two-stage mechanism for registration and classification of ECG using Gaussian mixture model[J]. Pattern Recognition,2009,42(11):2979-2988. [17] 卢柳叶,张青峰,李光录. 基于BP神经网络的遥感影像分类研究[J]. 测绘科学,2012,37(6):140-143. [18] 杨竹青,李勇,胡德文. 独立成分分析方法综述[J]. 自动化学报,2002(5):762-772. [19] DANIEL D L, SEUNG H S. Learning the parts of objects by nonnegative matrix factorization[J]. Nature, 1999, 401: 788-791. [20] AIZERMAN M,BRAVERMAN E,ROZONOER L.Theoretical foundations of the potential function method in pattern recognition learning [J]. Automation and Remote Control,1964,25:821-837. [21] 余辉,赵晖. 支持向量机多类分类算法新研究[J]. 计算机工程与应用,2008(7):185-189,212. (责任编辑:黄 健)