APP下载

基于知识图谱与深度学习的黄瓜叶部病害识别方法

2023-09-11张会敏谢泽奇

江苏农业科学 2023年15期
关键词:数据融合卷积神经网络知识图谱

张会敏 谢泽奇

摘要:黄瓜病害识别是病害防治的提前。针对现有作物病害识别方法中存在实体关系交叉关联、多源异构数据聚合能力差、依靠大规模标注数据、缺乏专家经验知识指导等问题,提出一种知识图谱与深度学习的黄瓜叶部病害识别方法(KGCNN)。该方法通过知识图谱与实体链接消歧嵌入获取作物病害知识图谱中的结构化病害知识,并将病害特征词向量与知识实体向量作为卷积神经网络的多通道输入,在卷积过程中从知识和语义2个层面表示不同病害类型。与现有的作物叶部病害识别方法相比,该方法充分利用了知识图谱和CNN分别在知识表示和特征学习方面的优势。在由黄瓜白粉病、斑点病和角斑病的病害叶片及其对应的环境气候气象信息的数据集上进行训练和测试。结果表明该方法的识别性能优于基于CNN及其改进模型和其他病害识别方法。该方法适用于作物初步病害识别,可为其他作物病害的识别提供技术支持。

关键词:知识图谱;卷积神经网络;作物病害识别;数据融合;黄瓜

中图分类号:TP391.41 文献标志码:A

文章编号:1002-1302(2023)15-0173-06

基金项目:国家自然科学基金(编号:62072378);河南省教育厅高等学校重点科研项目(编号:20A520045)。

作者简介:张会敏(1981—),女,河南漯河人,硕士,副教授,研究方向为计算机应用与图像处理。E-mail:513102773@qq.com。

通信作者:谢泽奇,硕士,副教授,研究方向为计算机应用。E-mail:xzq0413@163.com。

黄瓜病害严重降低了黄瓜的数量和质量。及时、准确地检测和识别黄瓜病害具有重要意义。事实上,黄瓜病害的大部分症状首先表现在叶片上,不同类型的病害导致不同的叶片症状。因此,叶片症状是作物叶部病害检测和识别的主要依据[1-3]。传统的黄瓜叶部病害识别方法的性能依赖于提取的手工特征,如颜色直方图、共现矩阵、尺度不变特征变换(SIFT)、和差直方图(ISADH)、局部二值模式(LBP)、面向梯度的金字塔直方图(PHOG)、空间灰度依赖矩阵(SGDM)、颜色结构描述符(CSD)、可扩展的颜色描述符(SCD)和颜色布局描述符(CLD)[4-6]。这些特征不足以准确可靠地描述病害症状,因为病害叶片图像的颜色、形状和纹理非常复杂,同类病害的不同叶片甚至同一叶片的病害症状在不同时期的差异很大,如图1所示,同类病害叶片和不同类病害叶片的症状差异较大,所以传统基于特征提取的方法的识别率不高、泛化性不强[7-10]。

近年来,卷积神经网络(CNN)及其改进模型在作物叶部病害识别中取得了很高的识别率[11-13]。CNN能够自动学习病害叶片图像的分类特征,避免了提取人工设计的特征的主观性[14-15]。但是,CNN及其改进模型通过大规模标注样本训练模型中的大量参数,训练时间很长,而且需要较强的算力[16-17]。为了解决这一问题,有学者将知识图谱(KG)引入到CNN中,取得了显著效果[18-19]。KG是大数据和人工智能时代兴起的一种新型知识组织和管理技术,具有机器可理解的知识和信息挖掘能力。将海量多源异构数据整合、整理、标准化纳入知识服务系统,可以提高知识检索、知识问答、决策支持、知识可视化等服务效果,增强知识服务能力[20-21]。利用蕴含于KG中的知识指导深度学习从而提升其性能,已成为深度学习应用研究的重要问题之一。本研究提出一种基于知识图谱与深度学习的黄瓜叶部病害识别方法,以期为黄瓜叶部病害的识别提供技术支持。

1 材料与方法

1.1 数据与预处理

构建黄瓜白粉病、斑点病和角斑病的病害叶片图像及其对应的环境气候气象信息的数据集,数据来源:(1)国家农业科学数据共享中心的作物病虫害数据库,包含4 000多条农业病虫害信息;(2)从中国农业网(http://www.agronet.com.cn/)下载的黄瓜白粉病、斑点病和角斑病图像各100幅;(3)中国作物种质信息网-作物病虫害知识网站(http://www.cgris.net/disease/default.html)。

本研究采用Python语言的Scrapy框架爬取相应的有用数据4 000条,包含发生发展的环境气候气象数据。这些数据和图像通常包含大量非结构化和半结构化数据,一般是海量、冗余、含噪数据,直接利用原始数据可能降低KG质量,所以需通过数据清洗。可以结合规则和人工审核以及结合农业病虫害领域专业知识等方式对爬取的数据进行预处理,得到无噪纯文本语料,保证数据可靠性。非结构化信息抽取主要包括实体抽取与关系抽取,可以利用自然语言处理工具NLPIR汉语分词系统分词,然后标注文本中词汇的词性,最后依据词性来识别相应的实体和实体属性。结构化数据通过D2R进行处理,最后存储为Neo4j图形数据库。图2为本研究构建的黄瓜叶部病害KG部分内容。

1.2 三元组结构和KG构建

作物病害KG是现实世界中由作物病害实体、实体间关系相互连接起来所形成的一种图谱网络结构,可用三元组表示:,其中 head和tail分别表示三元组的头实体集和尾实体集,relation表示病害KG的关系集。本研究采用公开的中文作物病害症状库构建病害KG,其实体集是由现有三元组数据头实体与尾实体所在列合并得到,关系集是将现有关系所在列构成。其中,作物病害实体作为病害KG中最基本的元素,主要由病害分布、症状特征、防治手段、病害发生发展的环境气候气象信息等构成;关系(relation)存在于不同头实体集尾实体集之间,主要包含病害癥状等。

1.3 知识图谱嵌入

KG嵌入是利用知识表示学习模型对KG中的实体和关系嵌入到一个数学空间来进行学习,通过将head、tail 或relation映射到低维稠密向量空间来保存语义信息,进而得到各实体向量表示,最后进行计算和推理[22]。

知识表示学习模型TransE是关系库向量化的基础,可有效处理1 ∶1关系,主要适用于构建作物病害知识图谱。TransD包含通过映射矩阵联系的实体空间和关系空间,映射矩阵简化为2个向量的积。根据word2vec模型原理,将每个三元组中的关系是从实体head翻译到实体tail,再不断调整h向量、r向量和t 向量,实现h+r≈t。数学上通过对实体和关系建模,将它们映射到相同的向量空间中。通过使用2个投影矩阵Mrh和Mrt将头实体h和尾实体t分别映射到关系空间,通过公式(1)来约束对实体和关系建模:

在TransD中,鉴于语义上越接近的词汇,在其映射时得到的实数向量也越接近,因此,还需要计算其所有上下文实体的平均值,其计算过程如下:

针对复杂关系的作物病害KG,下面采用TransD模型对三元组数据进行嵌入,其过程如图3所示。

1.4 基于KG与CNN的作物病害识别方法

基于KG与CNN的作物病害识别方法,记为KGCNN方法,包括3个部分:选取作物病害特征、提取结构化知识以及训练卷积神经网络。图4为KGCNN的整体结构。

主要过程表述如下。

(1)黄瓜病害特征选择。黄瓜病害描述是病害症状、病害原因以及病害程度等的描述语句。为了快速识别与病害有关的关键词,需要对病害文本数据进行处理,包括数据清洗、特征标注、病害识别等操作,同时删除无用的字词,从而得到与病害特征描述相关的病害特征关键词。将由n个特征关键词可以组成对应的病害特征,可表示为x=[w1,w2,…,wn],其中wi为每个病害特征词转换后的词向量,主要为每一种病害语句使用CBOW (continuous bag-of-words)模型来实现转换,即映射为d维表示向量w1:i∈Rd。

(3)黄瓜病害识别。将(2)中得到病害描述文本e(x)输入给softmax分类器,计算出该病害文本 e(xk) 在在第k种病害上的输出概率p(yk),并经softmax归一化后表示为

其中:si为输出yi对应的参数;bi为第i种病害对应的偏置;n为作物病害类别的数量;bk为第k种病害对应的偏置。

2 结果与分析

选择的CNN为ALexNet模型,选择病害图像症状和环境气候气象特征为:(1)外观形状特征:病斑图像的面积、周长、圆形度、矩形度、偏心率、方向角、最小外接矩形面积和Hu的7个不变矩共14个形态学特征;(2)颜色特征:病斑图像R、G、B的偏度、均值、峰值、标准差、方差等共15个颜色分类特征;(3)纹理特征:灰度共生矩阵法分别计算病斑区域的能量、熵、惯性矩、相关性、均值、方差等6个统计特征;(4)对应的环境气候气象特征:土壤温度、土壤湿度、是否连种、土壤盐分、微生物含量、空气温湿度、降水量、雨日数、光照强度、CO2浓度、农药使用量和发病季节[23-26]。

1条数据是由1幅病害叶片图像的以上形状、颜色和纹理特征及其对应的环境气候气象特征构成,由此可以得到每种病害100条数据。为了验证本研究算法的有效性,试验于2022年11—12月在IBM服务器上进行,实验环境:操作系统为Ubuntu、内存32 G、CPU 11th Gen Intel CoreTM i7-1165G7 2.80 GHz,深度学习架构为tersonflow 2.0,编程语言为Python 3.8。采用5-折交差验证法进行试验,并与深度CNN (DCNN)[13]、全局池化空洞CNN(GPDCNN)[16]、基于动态集成(DI)[25]和基于叶片图像和环境信息(LIEI)[27]进行比较,验证所提出的方法的有效性。

为更客观地评估病害的检测效果,引入检测准确率(precision)、召回率(recall)和平均分数(F1)3个评估指标,以测量检测结果与实际标记图像之间的差异,计算如下:

其中,TP、TN、FP和FN分别是真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)的样本数。精度范围为(0,1),接近1意味着更好的预测。

在重复5-折交差验证试验20次。在每次5-折交差验证试验,每种病害的随机选择训练数据为80条,3种病害共240条用于构建KG和训练所提出识别方法中的KGCNN模型,其余为测试数据,再利用公式(10)识别黄瓜病害类型,最后计算所有试验的平均值为试验结果。表1给出本研究提出的方法在3种黄瓜病害(斑点病、角斑病、白粉病)上的识别结果,表2为所提出的方法和4种比较方法的20次试验的平均识别率。DI的结果最差,其原因是动态集成中用到的分类特征都为人工设计的特征,不能准确描述病害的特征。

由表1可以看出,本研究提出的方法在3种常见的病害上识别准确率都在92%以上,其中在斑点病上识别率最高,达到94.34%,平均识别率、召回率和F1分数都在93%以上,满足作物病害要求。

为了验证本模型的有效性和优越性,将KGCNN模型与DCNN、基于动态集成DI模型、GPDCNN模型、LIEI模型进行对比,各模型的收敛曲线如图5所示。从图5可以看出,KGCNN模型在训练10个迭代之后趋于收敛,收敛速度与其他模型相比差别不大,并且KGCNN模型在识别率与训练时间上都更具有优势,充分体现该模型的有效性。因此,无论从模型性能还是训练效率均可证明基于KGCNN的黄瓜病虫害命名实体识别方法的有效性和优越性。

基于5种方法对3种黄瓜病害的平均识别率和标准差如表2所示。从表2中可以看出,基于KGCNN的黄瓜病害识别方法识别结果远优于其他4种方法,其主要原因为本研究所提出的方法充分利用了病害的先验知识,并通过KG能够得到病害叶片图像与病害症状之间的关联关系,能够从病害发生的环境气候气象信息中深度挖掘病害分类特征,具有判断和推理性能,从而得到较好的识别结果;尽管LIEI也利用了病害的环境气候气象特征,但只是将这些特征拼接于病害葉片图像特征中进行病害识别。GPDCNN的识别效果高于DCNN,其原因是利用膨胀卷积层恢复空间分辨率,GPDCNN还集成了扩张卷积和全局池化的优点。在DI、LIEI和KGCNN方法中,首先需要对病害叶片图像分割,得到病斑图像,然后提出分类特征。而DCNN和GPDCNN直接利用了病害叶片图像进行病害识别。

3 结论

本研究利用黄瓜叶部病害图像及其症状描述,探讨了知识图谱和深度学习在作物病害识别中的应用,提出了一种基于知识图谱和卷积神经网络的黄瓜病害识别方法。该方法引入病害知识图谱知识,通过病害特征描述文本客观数据来训练卷积神经网络,可以获取到更直接更全面的病害特征描述,进而提升模型快速获取更全面的高层文本特征的能力,有效地提高各类作物病害识别的准确率。试验结果表明,该方法能够应用于黄瓜病害识别系统。由于构建大规模、可动态更新的知识图谱是一件复杂过程,但可以应用于农业领域的很多方面。下一步的研究工作重点在构建一个利用农业物联网采集的海量环境气候气象信息,與病害叶片图像相结合,对作物病害进行识别与预测以及了解病害发生发展的机制。

参考文献:

[1]Martinelli F,Scalenghe R,Davino S,et al. Advanced methods of plant disease detection:a review[J]. Agronomy for Sustainable Development,2015,35(1):1-25.

[2]张 燕,田国英,杨英茹,等. 基于SVM的设施番茄早疫病在线识别方法研究[J]. 农业机械学报,2021,52(增刊1):125-133,206.

[3]Zahid I,Attique K M,Muhammad S,et al. An automated detection and classification of citrus plant diseases using image processing techniques:a review [J]. Computers and Electronics in Agriculture,2018,153:12-32.

[4]Fang Y,Ramasamy R P.Current and prospective methods for plant disease detection[J]. Biosensors,2015,4:537-561.

[5]Dubey S R,Jalal A S. Apple disease classification using color,texture and shape features from images [J]. Signal Image & Video Processing,2016,10(5):819-826.

[6]Bai X,Li X,Fu Z,et al. A fuzzy clustering segmentation method based on neighborhood grayscale information for defining cucumber leaf spot disease images [J]. Computers and Electronics in Agriculture,2017,136:157-165.

[7]何 前,郭峰林,方皓正,等. 基于改进LeNet-5模型的玉米病害识别[J]. 江苏农业科学,2022,50(20):35-41.

[8]王权顺,吕 蕾,黄德丰,等. 基于改进YOLOv4算法的苹果叶部病害缺陷检测研究[J]. 中国农机化学报,2022,43(11):182-187.

[9]李鑫星,朱晨光,白雪冰,等. 基于可见光谱和支持向量机的黄瓜叶部病害识别方法研究[J]. 光谱学与光谱分析,2019,39(7):2250-2256.

[10]Deepthi M B,Sreekantha D K. Application of expert systems for agricultural crop disease diagnoses:a review[C]//International Conference on Inventive Communication & Computational Technologies,2017:222-229.

[11]蒋清健,姚 勇,付志军等. 基于改进卷积神经网络算法的番茄叶片病害识别[J]. 江苏农业科学,2022,50(20):29-34.

[12]Sladojevic S,Arsenovic M,Anderla A,et al. Deep neural networks based recognition of plant diseases by leaf image classification[J]. Computational Intelligence and Neuroscience,2016,2016:3289801.

[13]Ma J,Du K,Zheng F,et al. A recognition method for cucumber diseases using leaf symptom images based on deep convolutional neural network[J]. Computers and Electronics in Agriculture,2018,154:18-24.

[14]Kamilaris A,Prenafeta-Boldu F X. A review of the use of convolutional neural networks in agriculture[J]. The Journal of Agricultural Science,2018,156(3):312-322.

[15]AI-Saffar A A M,Tao H,Talab M A. Review of deep convolution neural network in image classification[C]//Proceedings of 2017 International Conference on Radar,Antenna,Microwave,Electronics,and Telecommunications.Jakarta,Indonesia,2017:26-31.

[16]Zhang S,Zhang S,Zhang C,et al. Cucumber leaf disease identification with global pooling dilated convolutional neural network[J]. Computers and Electronics in Agriculture,2019,162:422-430.

[17]张善文,王 振,王祖良. 多尺度融合卷积神经网络的黄瓜病害叶片图像分割方法[J]. 农业工程学报,2020,36(16):149-157.

[18]Fuentes A,Sang C K,Yoon S,et al. A robust deep-learning-based detector for real-time tomato plant diseases and pests recognition[J]. Sensors,2017,17(9):2022-2043.

[19]吴赛赛,周爱莲,谢能付,等. 基于深度学习的作物病虫害可视化知识图谱构建[J]. 农业工程学报,2020,36(24):177-185.

[20]董丽丽,程 炯,张 翔,等. 融合知识图谱与深度学习的疾病诊断方法研究[J]. 计算机科学与探索,2020,14(5):815-824.

[21]刘知远,韩 旭,孙茂松. 知识图谱与深度学习[M]. 北京:清华大学出版社,2020:62-69.

[22]王海晏,江 涛,王 芳,等. 基于知识图谱的目标识别模型[J]. 探测与控制学报,2022,44(6):76-80,86.

[23]王丹丹. 宁夏水稻知识图谱构建方法研究与应用[D]. 银川:北方民族大学,2020:28-40.

[24]李 颀,赵 洁,杨 柳,等. 基于GA-BP神经网络和特征向量優化组合的黄瓜叶片病斑识别[J]. 浙江农业学报,2019,31(3):487-495.

[25]王志彬,王开义,王书锋,等. 基于动态集成的黄瓜叶部病害识别方法[J]. 农业机械学报,2017,48(9):46-52.

[26]牛学德,高丙朋,南新元,等. 基于改进DenseNet卷积神经网络的番茄叶片病害检测[J]. 江苏农业学报,2022,38(1):129-134.

[27]王献锋,张善文,王 震,等. 基于叶片图像和环境信息的黄瓜病害识别方法[J]. 农业工程学报,2014,3(14):148-153.

猜你喜欢

数据融合卷积神经网络知识图谱
基于深度卷积神经网络的物体识别算法
基于数据融合的家庭远程监护系统研究
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
基于卷积神经网络的树叶识别的算法的研究
船舶动力定位中的数据融合技术文献综述