基于自然背景的蚜虫图像数据集
2023-11-17董伟朱静波管博伦孔娟娟李闰枚张萌张立平
董伟,朱静波,管博伦,孔娟娟,李闰枚,张萌,张立平
数据论文
基于自然背景的蚜虫图像数据集
董伟,朱静波,管博伦*,孔娟娟,李闰枚,张萌,张立平
安徽省农业科学院农业经济与信息研究所,合肥 230001,中国
蚜虫的发生是影响农作物产量和质量的重要原因之一。对蚜虫进行检测和计数是对虫害早发现、早治理的重要环节。随着信息技术的发展,已经有专家学者利用计算机视觉感知技术对农业害虫进行识别研究,并取得了一定的进展。高质量、大规模的基础数据对计算机视觉的发展往往能够起到决定性作用,缺少高质量、大规模的基础图像数据是蚜虫精准识别研究面临的难题。蚜虫是一类重要的农业害虫,具有尺寸微小、密集分布、虫间遮挡和同种多形态等特征,这些特征对于蚜虫的检测与计数又是一项严峻的挑战。本文提供了包括桃粉蚜、桃蚜、棉蚜、禾谷缢管蚜等13种农业蚜虫数据集,共6287张高清原始图像。这些蚜虫图像是利用单反相机在自然大田环境中采集、以文件夹形式进行存储、经过从事图像数据管理的专业人员清洗和整理、并由植保专家对其进行鉴定和分类的,保障了数据的高质量和可靠性。该数据集可为蚜虫的识别、检测计数和分类提供数据基础。
蚜虫;计算机视觉;图像数据
1 引言
利用深度学习技术对农业害虫进行智能识别是农业信息化的研究方向之一,随着深度学习算法的研究深入,信息化手段在农业病虫害领域的应用不断取得新的突破[1]。在众多研究热点中,构建大规模、高质量的科学数据集是识别任务的基础,是计算机视觉技术的重要步骤之一。农业害虫智能识别技术包含数据获取、数据处理和数据应用三个核心技术[2],其中数据获取与数据处理技术可归类于科学数据集的构建,科学、高质量的数据集对识别算法的研究起着举足轻重的作用。农业害虫的发生受到自然环境、作物栽培、农事活动等多种因素的制约,采集理想的害虫图像数据,构建科学、高质量的害虫数据集,已经成为团队开展智能识别研究所面临的新挑战。
为了采集到足够数量的图像数据,许多团队尝试从互联网抓取或者实验环境中采集拍摄。但互联网上的农业虫害图像成像质量参差不齐且鉴定准确性不高,实验环境中采集的图像往往种类较少。因此,通过上述的两种方法都难以采集到符合自然环境条件下成规模的高质量图像数据[3]。
蚜虫是一类重要的农业害虫,它吸食植物汁液,造成植物长势衰弱,甚至生长停滞,还会传播植物病毒,引起病毒病,造成更大损失。农业害虫图像中的蚜虫具有目标小、目标密集、目标间遮挡堆叠等特点,这些问题是农业害虫检测与计数任务面临的挑战之一[4]。目标小是指蚜虫的个体微小,体长1:3毫米,个体占图像画面的比例很小;目标密集指的是单位区域内目标对象的数量过多;目标遮挡指的是密集的目标对象之间相互遮挡,或目标对象容易被作物的叶片、茎秆等部位遮挡。深度学习技术对图像中的密集目标检测计数,是通过卷积神经网络提取的目标对象特征来进行检测计数,而目标小、目标密集与目标间遮挡容易导致卷积网络提取的目标特征过少,检测准确率较低。通过实验分析了影响深度学习算法检测精度的主要原因是目标尺寸、目标间遮挡和数据集中样本容量,而高质量的密集农业害虫图像数据的缺乏更是限制了识别算法在该领域的发展[5]。通过对密集图像的观察可以发现,在目标密集的图像中发生遮挡的概率一般会比较高。这种情况会导致目标特征提取不足或者难以判断遮挡的部分是否属于同一个体,需要对算法做针对性的改进以提高模型的准确性[6]。在Yolov5算法的主干网络中段添加scSE模块和在网络后段加入ASPP模块,通过增加提取目标的局部与边缘特征,扩大感受野,提取多尺度信息,从而提高模型的检测精度和召回率[7]。增加了小目标样本的数量,通过改进模型框架,改进候选区域生成网络,提高了提取小目标特征的能力,增强了学习效果[8]。
农业病虫害图像数据库(PDPP)[9]是安徽省农业科学院农业经济与信息研究所农业大数据团队建设并长期坚持更新维护的一个专业性图像数据库。自1999年起,本团队立足安徽,辐射全国,深入全国近30个省份,于各类农田实地拍摄农业病虫草害图像近100万张,由植保专家进行整理鉴定,可提供计算机视觉算法研究、图文知识库构建、数据挖掘等服务。自动检测计数算法的研究需要大量的蚜虫图像样本,作者从自建的农业害虫图像库中选取了13种图像数量较多的蚜虫,构建了此蚜虫图像数据集。本文公开的数据集是农业病虫害图像数据库中的一部分,涵盖桃粉蚜((Blanchard))、桃蚜((Sulzer))、棉蚜(Glover)、禾谷缢管蚜((Linnaeus))等13种蚜虫,每种蚜虫有253到847幅数量不等的原色生态图片,图像的分辨率大多为7360×4912像素,可作为蚜虫识别与检测计数的数据集使用。
2 数据采集与处理方法
蚜虫是农林害虫中常见且重要的一类,蚜虫的统计计数是预测预报中的重要环节。因其常群集发生,个体之间常互相遮挡、堆叠,导致人工统计劳动量大,自动检测计数算法的研究需要大量的蚜虫图像样本。数据采集地点位于黑龙江、内蒙古、青海、甘肃、宁夏、山东、安徽、江西、广东、海南、贵州、云南及西藏等地方。本数据集中图像采集所用的设备为尼康D7000、尼康D750、尼康D300s、尼康D810、尼康D70及索尼F717数码单反相机,配备尼康105 mm f/2.8、尼康200 mm f/4、蔡司100 mm f/2、IRIX 150 mm f/3.5等微距镜头,拍摄时使用到的焦距分别为:200 mm、150 mm、105 mm、100 mm、70 mm。拍摄时采用各相机最大分辨率,拍摄格式为.NEF格式,其后在计算机上使用Instant JPEG from RAW插件从.NEF文件中提取.jpg文件。拍摄时采用全手动模式,根据现场光线条件,调整适当的光圈、曝光时间、感光度及闪光灯输出量,使拍摄对象在画面中成像清晰,图像采集者现场工作如图1所示。
3 数据内容
蚜虫图像数据以文件夹的形式存储。本文提供的蚜虫数据集是原始尺寸图像,最大像素为7360×4912,如图2所示,在图像的属性中还包含了拍摄时间、拍摄地点、图像大小、拍摄参数等信息。
如表1所示,第一列是蚜虫的中文名称,第二列是蚜虫的拉丁名,第三列是该文件夹中包含的样本数据量,第五列为类别号,其中类别号与蚜虫种类一一对应。
本文中整理的蚜虫数据集包括桃粉蚜、桃蚜、棉蚜、禾谷缢管蚜、绣线菊蚜、花生蚜、莴苣指管蚜、荻草谷网蚜、甘蓝蚜、萝卜蚜、玉米蚜、核桃全斑蚜和梨大绿蚜13类。每一类蚜虫按文件夹单独存放,包含较远距离图像、中距离图像和近距离图像。如图3所示的三种不同距离样本图像,其中20232是绣线菊蚜的较远距离图像,20124是桃粉蚜中距离图像,20208是禾谷缢管蚜近距离图像。较远的图像包含较多的背景信息,可提供蚜虫的寄主作物种类信息,寄主信息是蚜虫鉴定的重要信息之一;中距离图像可以清晰地分辨蚜虫的个数和轮廓,有利于对蚜虫进行检测和计数;较近距离的图像包含更多的蚜虫细节形态特征。
图1 现场采集工作
图2 图像属性信息
表1 农业蚜虫图像样本数量
图3 蚜虫图像
4 数据质量控制与验证
本文中的农业蚜虫原始图像数据是由有着多年病虫害图像拍摄经验的植保专家带领团队成员在田间实地环境拍摄的。在数据采集的过程中,注重对同一类目标多群体、多角度、多背景、多光照条件拍摄,以增加图像样本的多样性。在数据处理的过程中,团队成员对所有图像进行整理,删除无语义和模糊的图像,并由植保专家进行核对、鉴定,严格控制图像的清晰度和鉴定准确性,保证了数据集样本图像的质量和可靠性。
5 数据价值与使用建议
在自然环境中,蚜虫具有目标小、目标密集、目标遮挡等问题,是模型算法在检测和计数应用中面临的挑战之一。大规模、高质量的蚜虫图像数据集对提升算法的准确率能够起到举足轻重的作用[10]。本数据集是经清洗、鉴定、分类汇总后的高质量蚜虫图像数据集,较高的像素保证了图像拥有更多的细节特征,具有较高的使用价值。
利用本数据集可以开展以下研究:(1)由于蚜虫的空间分布特性及相机景深有限,拍摄的样本中难免会出现图像局部清晰局部模糊的现象,在检测计数过程中如何调整算法,合理地对部分模糊的蚜虫进行检测计数。(2)蚜虫具有群集性,密集分布的虫体间相互遮挡、堆叠,图像中往往只能显示蚜虫个体的局部图像,如何改进算法提高遮挡目标的检测计数精确度。(3)寄主信息对蚜虫的识别和鉴定十分重要,如何自动识别图像中的寄主种类,结合上下文信息设计识别模型,提高检测计数准确度。(4)蚜虫具有多型性,如有翅孤雌蚜、无翅胎生蚜等,形态有明显差异,有时会混合发生,如何降低同种蚜虫不同形态对模型识别和检测计数准确性的干扰。
6 数据可用性
中国科技资源标识码(CSTR):https://cstr.cn/ 17058.11.sciencedb.agriculture.00030;
数字对象标识码(DOI):https://doi.org/10.57760/sciencedb.agriculture.00030。
允许公开访问。
作者分工与贡献
董伟,概念化、资助获取、调查研究与数据采集。
朱静波,数据管理、数据采集。
孔娟娟,数据管理、资源提供。
李闰枚,验证、可视化
管博伦,方法、形式分析、论文撰写。
利益冲突声明
作者声明,全部作者均无会影响研究公正性的财务利益冲突或个人利益冲突。
[1] Jun Liu, Xuewei Wang. Plant diseases and pests detection based on deep learning: a review[J]. Plant Methods,2021,24,17(1):22. doi: 10.1186/s13007-021-00722-9.
[2] 瞿肇裕,曹益飞,徐焕良,等.农作物病虫害识别关键技术研究综述.农业机械学报,2021,52(7):1-18.
[3] 康飞龙,李佳,刘涛,等.多类农作物病虫害的图像识别应用技术研究综述.江苏农业科学, 2020,48(22): 22-27.
[4] 蒋心璐,陈天恩,王聪,等.农业害虫检测的深度学习算法综述.计算机工程与应用,2023,59(6): 30-44.
[5] Weiguang Ding, Graham Taylor. Automatic moth detection from trap images for pest management[J].Computers and Electronics in Agriculture, 2016,123: 17-28.
[6] DU J,LIU L,LI R,et al. Towards densely clustered tiny pest detection in the wild environment[J]. Neurocomputing, 2022,490: 400-412.
[7] 刘奎,聂博文,王广军,等.改进Yolov5的玉米叶部蚜虫检测方法[J].合肥学院学报(综合版),2023,40(2):81-89.
[8] ZHA M, QIAN W, YI W, et al. A lightweight YOLOv4-based forestry pest detection method using coordinate attention and feature fusion[J]. Entropy, 2021,23(12): 1587.
[9] 安徽省农业科学院农业经济与信息研究所农业大数据团队. 农业病虫害图像数据库(PDPP)//植物保护数据库[DB/OL].
[10] 裴浩然. 基于深度学习和关键点的蚜虫检测方法研究[D]. 安庆市: 安庆师范大学, 2022.
Aphid Image Dataset Based on Natural Background
DONG Wei, ZHU JingBo, GUAN BoLun*, KONG JuanJuan, LI RunMei, ZHANG Meng, ZHANG LiPing
Institute of Agricultural Economics and Information, Anhui Academy of Agricultural Sciences, Hefei 230001, China
Agricultural pests are important reasons affecting crop yield and quality. Aphid is an important group of agricultural pest. Detecting and counting aphids is an important link for early detection and management of this pest. With the development of information technology, many experts and scholars have conducted extensive research on the identification of agricultural pests using computer vision, and have made certain progress. High-quality and large-scale basic data often play a decisive role in the development of computer vision, but the lack of this kind of image data is one of the challenges faced by pest identification. Aphids have features such as small size, dense distribution, inter insect shelter, and multiple forms of same species. These features also pose a serious challenge for the detection and counting of aphids. This article provides a total of 6287 high-definition original images, including a dataset of 13 agricultural pests (aphids) including peach aphid, cotton aphid, and grain constrictor aphid, etc. These aphid images were collected using DSLR cameras in a natural field environment. In order to ensure the high quality and reliability of the data, these images are cleaned and organized by professional personnel, and identified and classified by experts in the field of plant protection. This dataset can provide a data foundation for recognition, detection, counting and classification of aphids.
aphid; computer vision; image data
Data summary:
ItemsDescription Dataset nameAphid Image Dataset Based on Natural Background Specific subject areaPlant protection Research topicAphid Time range2013-2023 Geographical scopeChina Data types and technical formatsData type: image; Technical formats:*.jpg Dataset structureThe dataset contains a total of 6287 images of 13 types of aphids, including Hyalopterus amygdali, Myzus persicae, Aphis gossypii, Rhopalosiphum padi, Aphis spiraecola, Aphis craccivora, Uroleucon formosanum, Sitobion miscanthi, Brevicoryne brassicae, Lipaphis erysimi, Rhopalosiphum maidis, Panaphis juglandis, and Nippolachnus piri. Volume of data16.8 GB Data accessibilityCSTR:https://cstr.cn/17058.11.sciencedb.agriculture.00030DOI: https://doi.org/10.57760/sciencedb.agriculture.00030 Financial supportGeneral Program of National Natural Science Foundation of China “Research on Few-shot Pest Recognition Inspired by Knowledge Transfer and Causal Reasoning”(32171888)Anhui Academy of Agricultural Sciences Research Platform Project “Agricultural Intelligent Technology Research and Development Center”(2023YL1014)
董伟,朱静波,管博伦,孔娟娟,李闰枚,张萌,张立平. 基于自然背景的蚜虫图像数据集[J]. 农业大数据学报, 2023, 5(3):112-117.
DONG Wei, ZHU JingBo, GUAN BoLun, KONG JuanJuan, LI RunMei, ZHANG Meng, ZHANG LiPing. Aphid Image Dataset Based on Natural Background[J]. Journal of Agricultural Big Data, 2023, 5(3):112-117.
数据摘要:
项目描述 数据库(集)名称基于自然背景的蚜虫图像数据集(Aphis 13) 所属学科植物保护 研究主题蚜虫 数据时间范围2013—2023年 数据地理空间覆盖中国境内 数据类型与技术格式数据类型:图像;技术格式:*.jpg 数据库(集)组成数据集包括桃粉蚜、桃蚜、棉蚜、禾谷缢管蚜、绣线菊蚜、花生蚜、莴苣指管蚜、荻草谷网蚜、甘蓝蚜、萝卜蚜、玉米蚜、核桃全斑蚜和梨大绿蚜等13类蚜虫图像,共6287张 数据量16.8 GB 数据可用性CSTR: https://cstr.cn/17058.11.sciencedb.agriculture.00030DOI: https://doi.org/10.57760/sciencedb.agriculture.00030 经费支持国家自然科学基金面上项目“知识迁移与因果推理启发的小样本害虫图像识别研究”(项目编号:32171888);安徽省农业科学院科研计划项目“农业智能化技术研发中心”(2023YL014)