基于深度学习的植物识别原理综述
2020-02-07王永金左羽吴恋崔忠伟赵晨洁
王永金 左羽 吴恋 崔忠伟 赵晨洁
摘 要:文中对基于深度学习的植物识别技术进行了广泛研究。阐述了传统植物识别技术存在的缺陷,提出将深度学习技术应用在植物识别方向,并简要介绍了深度学习中的深度信念网络、循环神经网络、卷积神经网络等网络结构和特征以及将各自的神经网络应用在植物识别技术上的案例,并重点分析了植物识别的原理,最后指出将深度学习应用在植物识别方向上的优缺点。
关键词:深度学习;植物识别;神经网络;信念网络;网络结构;鲁棒性
中图分类号:TP305文献标识码:A文章编号:2095-1302(2020)01-00-03
0 引 言
作为地球上最多样化的生命形式,植物的种类数量已经达到令人瞠目结舌的程度,在判断植物类别时给研究人员带来了诸多不便。传统的植物识别主要依靠专家进行判别,当植物种类较多时,就需要大量专家参与,不仅工作量极大,同时分类结果也容易受专家主观因素的影响,导致判别植物种类的正确率有所不同。随着计算机图像处理技术的发展,许多研究者更倾向于将数字图像处理和模式识别技术应用于植物分类方面。近年来,深度学习的快速发展已成为图像识别领域的热点。许多研究人员在研究如何将深度学习方法应用在植物鉴定中,并取得了较好的识别效果。
1 传统方法的缺陷
在传统的植物分类识别[1]方法中,主要包括两个方面,即特征提取和分类器设计。许多研究人员在进行特征选取时[2],一般选择叶片作为特征参数,但是这种方法形式单一,背景简单,并未考虑其他复杂的背景,例如植物叶片缺口、断叶、重叠等情况。然后在识别方法上,它局限于形状、颜色、纹理等特征,并且未将各类特征融合[3]。在分类器的设计中,通常会选择神经网络、支持向量机和最近邻。但是分类人员在选择特征功能时大都选择自己认为正确的,不仅缺乏公认的依据,同时这些特征只适合特定的数据,如果用同样的特征来处理不同的数据集,那么结果可能不一致,因此这种特征不具有可迁移性[4]。
2 基于深度学习的植物识别技术
随着深度学习[5]的发展,许多研究者将深度学习应用在各领域中,特别是在图像识别领域,取得了较好的效果。基于卷积神经网络(Convolutional Neural Network,CNN)[6]的深度学习算法可以自动提取图像特征且无需人工干预,克服了传统植物叶片识别依靠人工提取特征的缺陷。近年来,许多研究通过深度学习识别诸如植物的叶子、花朵等图像。
2.1 深度学习技术
深度学习是在机器学习的基础上发展而来,它属于机器学习的研究领域之一,解决了特征选择这一重大难题。传统的机器学习特征由人类专家选择,而深度学习则是由自己选择特征,无需人工选择,减少了人力、物力的投入。
2.1.1 深度信念网络DBN
深度信念网络(Deep Belief Network,DBN)[7]最初是由Hinton教授提出的神经网络结构模型,2006年Hinton教授在Science上发表了一篇文章,深度学习就是从这个时候慢慢开始发展,逐渐进入大众视野,开启了学术界的深度学习大潮。这篇文章有两个观点:首先,具有多个隐藏层的神经网络可以学习到更多特征并具有很强的学习能力,能够更好地描述数据性质,有利于数据可视化或分类。其次,在深度神经网络结构下,可以通过逐层初始化的措施来降低训练难度。深度信念网络是一种生成模型,是由多个受限制的Boltzmann[8]机组成的复合模型。Hinton教授使用预训练方法来解决局部最优解的问题,并把隐藏层的数量增加到了7层,证明隐藏层的层数可以增加,结果直观可见,使得神经网络有了真正意义上的深度。
2.1.2 循环神经网络RNN
循环神经网络(Recurrent Neural Network,RNN)[9]是20世纪80年代提出的一种神经网络结构模型,其处理单元之间存在内部反馈连接和前馈连接。在CNN网络中,训练样本的数据大多独立且具有相同分布,解决的问题多为分类问题、回归问题或者特征表达问题。但通常更多数据不满足于独立和相同分布,例如语音翻译。这是一个序列问题,包括时间序列和空间序列[10]。RNN内部具有记忆功能,利用该特点,可用它来处理任意时间段的输入序列,所以在处理语音翻译等问题时更容易。RNN分为两类,其中一类为Simple RNN,会将上一层存储的信息带入下一次RNN的隐藏层。Simple RNN有两个缺点:一是记忆期极短,不仅隐藏层存储的内容向后傳递时影响会逐渐减弱,同时还无法控制存储的内容,即一个语句中并非所有的内容都会写入存储中。另一类是Long Short Term Memory(LSTM),即仅将重要的内容写入memory中,不重要的不存入,需要时输出,必要时清空。LSTM能够解决Simple RNN存在的问题,但自身所需要的参数是Simple RNN的4倍。
2.1.3 卷积神经网络CNN
卷积神经网络最初是为解决图像识别问题而提出,之后慢慢发展,广泛应用于图像、视频、音频和文本数据等方面,当人们提起深度学习时,首先会想到CNN,而CNN也被认为是深度学习的代名词。卷积神经网络主要由输入层、卷积层、池化层、全连接层和输出层构成。
(1)输入层用来接收原始数据,然后对原始数据进行处理(包括处理多维数据)。
(2)卷积层用来提取图像的特征。
(3)池化层对卷积层卷积的特征图进行降维采样,压缩数据和参数数量,避免过拟合,同时增强模型的适应能力。池化操作使得特征表达具有鲁棒性。
(4)全连接层将之前得到的特征进行整合,针对各类情况输出概率,之后分类器就可以根据得到的概率进行分类。
(5)输出层将全连接层得到的分类结果进行输出,使得输出结果更直观。
2.2 基于深度学习的植物识别典型案例
随着深度学习的快速发展,许多研究者将深度学习技术应用到了植物识别方面。赵彦辉[11]将深度学习应用到了药用植物识别方面,通过灰度化、角度随机旋转等对收集的药用植物图像进行预处理,然后采用卷积神经网络技术,结合DeepLearning4J框架对模型参数进行优化调试,从而提高复杂背景下药用植物图像识别的准确性和有效性。郑一力[12]采用一种基于迁移学习的卷积神经网络方法,将收集的植物图像通过水平、垂直翻转等预处理来扩充植物图像的数据集,之后将数据集以4∶1的比例划分为训练集和测试集,然后使用迁移学习方法,将之前的模型(AlexNet,InceptionV3)在测试集上训练,模型前面所有卷积层的参数均不改变,只替换全连接层的最后一层,使其能够适应植物图像的识别。结果表明此方法不仅能节约大量时间,而且拥有更好的準确率。张雪芹[13]为了解决传统机器学习算法在大样本情况下图像识别速度慢的难点而提出了P-AlexNet模型,此模型是在AlexNet模型基础上进行改进优化而得到的,改进后的模型不仅能在大样本情况下进行图像识别,识别精度和泛化能力也有所提高,同时还利用GPU来提高训练的速度、减少等待时间。最后将此模型算法应用于智能植物图像识别系统,结果表明使用和测试效果良好。
2.3 基于深度性的植物识别技术原理
植物识别技术原理的本质是图像识别[14],根据植物的图像来识别植物种类是植物识别技术的重点。然而,早期图像识别的工作仅限于识别文本之类的简单信息,经过计算机技术的发展,逐渐演变到今天的图像识别,可根据给定的图像执行相应的处理和分析,以识别出我们设定的目标。计算机图像识别技术的灵感来源于人类用肉眼去识别图像的原理,但缺少人类的视觉与感觉。人类在看到某一张图片时,大脑会迅速感应是否见过类似图片,脑海中是否存在类似图片的记忆。在看到和感应之间便是我们识别的过程。在此过程中,大脑将根据存储类别来识别当前看到的图片,以查看他们是否看过这样的图片。计算机的图像识别技术也一样,根据提取到的特征来识别图像。随着神经网络的兴起,将神经网络应用于图像识别技术中,使得计算机本身具备学习能力,从而自动提取图像特征,自动识别,减少人为干预,然后通过不断学习来提高识别准确度。
2.4 基于深度学习的植物识别技术的优缺点
将深度学习应用于植物识别方面是许多研究者都在做的事,事实证明这样做能够解决在植物识别中遇到的难题。尤其是近年来卷积神经网络的盛行,许多研究者将卷积神经网络应用于植物分类识别后大大提高了植物鉴定的准确性。从依靠人工分类到现在采用深度学习技术来识别植物,很大程度上减少了人工投入,大大节约了成本。而且自然界的植物种类繁多,人工采集的植物图像多如牛毛,如果仅靠人工分类,那么无疑增加了人的工作量。深度学习能够在一定程度上解决数据繁多的难题,从而节省大量时间,同时基于深度学习的植物识别准确率也较高。然而,计算机虽然能够进行植物识别,但是识别准确度还无法达到100%,即使采用已经准备好的数据集也无法避免误差,更何况在各种复杂背景下来动态识别各类植物,将大幅降低识别准确率。同时设备的变化、网络环境的差异均会影响判断的准确性。
3 结 语
本文阐述了在植物识别方面传统方法存在的技术缺陷,之后介绍了几种具有代表性的神经网络,并简要描述了卷积神经网络的基本结构。随后列举了几个深度学习应用于植物识别的案例,可以看出将深度学习应用于植物识别确实能够提高识别率。最后分析了植物识别技术的原理和存在的优缺点。
将神经网络应用于图像识别虽然还存在一些问题,但是相信随着计算机技术的发展,这些问题都会被逐一解决。
参 考 文 献
[1]袁银,王东斌,刘永金.基于深度学习的植物图像识别方法研究[J].现代农业科技,2017(23):278-280.
[2]温坤哲,韦玉科,董晓华.深度卷积神经网络在图像美学评价的应用综述[J/OL].计算机工程与应用,2019:1-16. [2019-07-03].http://kns.cnki.net/kcms/detail/11.2127.TP.20190401.1730.026.html.
[3]钟海军,胡步发.基于高层特征融合的图像语义分割[J].机械制造与自动化,2019(3):178-181.
[4]汪荣贵,姚旭晨,杨娟,等.基于深度迁移学习的微型细粒度图像分类[J].光电工程,2019,46(6):21-30.
[5] LECUN Y,BENGIO Y,HINTON G.Deep learning [J]. Nature,2015,521:436-444.
[6] LECUN Y,BENGIO Y.Convolutional Networks for Images,Speech,and Time Series [M]. Cambridge,MA: MIT Press,1998:255-258.
[7] HINTON G E,OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets [J]. Neural computation,2006,18(7):1527-1554.
[8] LI W,NING H T. Poisson-boltzmann equation with a random field for charged fluids [J]. Journal of physics:condensed matter,2019,31(37).
[9] MIKOLOV T, KARAFI?T M, BURGET L, et al. Recurrent neural network based language model [C]// Interspeech,2010.
[10]王远志,孙家洁,刘连兴,等.关于引入空间序列概念的思考[J].沈阳工程学院学报(自然科学版),2007(2):179-180.
[11]赵彦辉,范欣宁,张建逵,等.基于DeepLearning4J on Spark深度学习方法在药用植物图像识别中的应用初探[J].中国中医药图书情报杂志,2018,42(5):18-22.
[12]郑一力,张露.基于迁移学习的卷积神经网络植物叶片图像识别方法[J].农业机械学报,2018,49(z1):354-359.
[13]张雪芹,陈嘉豪,诸葛晶晶,等.基于深度学习的快速植物图像识别[J].华东理工大学学报(自然科学版),2018,44(6):887-895.
[14]高浩宇.基于机器学习的图像识别研究与应用[D].武汉:华中师范大学,2018.