2020年宁夏枸杞虫害图文跨模态检索数据集
2022-10-08陈磊刘立波王晓丽
陈磊,刘立波*,王晓丽
1.宁夏大学信息工程学院,银川 750021
2.中国农业科学院农业信息研究所,北京 100081
3.中国农业科学院国家南繁研究院,海南三亚 572024
4.国家农业科学数据中心,北京 100081
引 言
枸杞原产地位于宁夏,且在我国有着二千余年的药用史,具有调节自身免疫、滋肾、润肺、补肝之作用,在国内外享有很高的声誉。由于宁夏区域气候条件变化以及栽培技术不断引进,近年来枸杞生长环境得到改善,种植面积逐渐扩大,已成为宁夏乃至整个西北地区重要的经济作物之一。枸杞属于多种虫类的寄主而且抗虫害能力差,极易遭受虫害侵扰。虫害对枸杞产量及品质影响巨大,严重影响了生产效益[1-3]。因此,快速准确检索枸杞虫害多方面信息并及时给予精准防治,对避免虫害进一步扩散、提高枸杞产量与品质、推进枸杞产业发展从而带动区域经济发展至关重要。
传统的农作物虫害检索主要是使用人力将虫害与农作物虫害图像图谱进行对比或者使用单模态检索技术获取相关信息。但是,随着大数据时代的到来,来自文本、图像和视频等不同模式的数据正在以前所未有的速度增长,多种模态数据之间互相关联、互相补充,农业领域中的作物虫害信息检索方式也更加多元化,传统模式已无法满足人们全面灵活的检索要求。将跨模态检索技术引入农业领域,从模态不同但是语义相互关联的数据中获取有价值的信息,对满足人们对农作物虫害多样化检索需求具有重要意义。
本文将跨模态检索技术引入枸杞虫害防治领域,实现不同模态之间的信息互检,使得检索方式多元化,从而获得更多模态量化信息,对枸杞虫害及时防治提供帮助。这不仅有助于减少非必要人力、物力的资源浪费,而且有利于展开精准虫害防治,提高枸杞产业链带来的收益。但目前跨模态检索尚未在农业领域应用,且我国还没有建立起可供深度学习使用的农作物病虫害跨模态研究标准数据集[4]。因此,为了支撑跨模态检索在农业领域内的研究,本文构建了枸杞虫害图文跨模态检索数据集,涵盖了枸杞虫害图像采集、文本撰写、数据增强等多方面内容。本数据集目前共包含17类常见枸杞病虫害图像文本数据共492 MB,数据充足可供图文跨模态检索研究使用。
1 数据采集和处理方法
1.1 数据来源
本数据集以17种宁夏地区常见的枸杞虫害为研究对象,具体为:尺蠖、大青叶禅、负泥虫、黑盲蝽、黑圆角蝉、红斑芜菁、红长蝽、红缘天牛、黄斑大蚊、蓟马、毛跳甲、实蝇、印度谷螟、蛀果蛾、小地老虎、蚜虫、木虱。主要采用实地调研拍照、网络爬虫、书籍扫描3种采集方法构建图像数据子集,占比依次为20%、50%、30%。
(1)实地调研拍照
团队使用Canon EOS 1D X Mark III数码单反相机,在宁夏回族自治区中卫市中宁县舟塔乡万亩枸杞种植基地进行实地调研,并在专家指导下于自然露天环境下对虫害拍照,且保证了自然露天条件下虫害受光均匀且位于画面中央主要位置。
(2)网络爬虫
在 python环境下利用 Scrapy在维基百科(http://en.volupedia.org/wiki/Main_Page),百度百科(https://baike.baidu.com/),药用植物病虫害数据库(https://www.pests.com.cn/),植保驿站(http://www.51agritech.com/)4个公开网站进行图片爬取,并删除低分辨率图像。其中这4个网站爬虫最终得到数据占比分别约为30%、50%、10%、10%。
(3)书籍扫描
利用Huawei p40 pro自带文档扫描功能,扫描并保存现存农业书籍与图谱[5-6]中的相关枸杞虫害图片。
在构建数据集的文本数据时,团队通过翻阅相关书籍、网络检索以及专家描述对每类枸杞虫害的原始图像分别撰写包含学名简介、来源分布、生活习性、防治方法等文本描述。
1.2 数据处理
针对自建枸杞虫害跨模态图文检索数据集学习样本过少,在复杂网络中容易发生过拟合的问题,本数据集在数据预处理过程中采用数据增广技术对原始数据进行扩充。数据增广后可以使数据集更具多样性,从而减少在复杂网络训练中产生过拟合的可能性,提高模型泛化能力。
对图像数据进行增广处理主要通过对原始图像进行垂直翻转、随机调整亮度、随机裁剪、随机旋转得到4类增强图像数据共计7596张,部分图像扩增前后对比如图1所示。
图1 枸杞虫害图像数据增广操作Figure 1 Data augmentation of a wolfberry pest image
采用文本分类任务的简单数据增强(Easy Data Augmentation for Text Classification Task,EDA)方法对原始数据集中的每一个文本描述分别进行随机插入、同义词替换、随机删除以及随机交换得到4类增强文本数据共计7596条,部分文本增强结果如图2所示。
图2 枸杞虫害文本数据增强操作Figure 2 Text data augmentation of wolfberry pests
将预处理后的枸杞虫害数据,按照虫害类别进行区分,首先给17类枸杞虫害分配类别标签,标签0为尺蠖,1为大青叶蝉,以此类推标签16为蛀果蛾;最后以Wikipedia数据集[7]结构为基准,构建枸杞虫害图像-文本对列表形成以虫害类别为判别标准的多个图像数据子集。部分图文对应如图3所示。
图3 自建枸杞虫害数据集部分类别图像及对应文本示例Figure 3 The image categories and text samples from the dataset
2 数据样本描述
2.1 图像数据描述
为确保数据的一致性在采集时统一收录高质量JPG格式图像,图像数据包含增广与原始数据,其中原始数据在路径为“gouqi aw_data aw_img”文件中,共包含1900张JPG文件。增广后的图像按类别存放在“gouqiimg_reinforcedsplit_img”文件夹中,其中有990张尺蠖图像、1005张大青叶蝉图像、540张枸杞负泥虫图像、600张黑圆角蝉图像、860张枸杞红长蝽等17类常见枸杞虫害图像共计9496张,平均每类约为558张。文件夹中每张图像命名方式为“虫害名_流水号.jpg”。部分图像数据
图4 部分图片数据样本Figure 4 Image data samples
2.2 文本数据描述
本数据集文本数据主要来源为相关书籍翻阅、专家撰写等,在得到文本数据后建立以虫害类别为判别标准的多个文本数据子集。文本数据包含增广与原始数据,其中包含与图像一一对应的1900条中文原始数据与 1900条英文原始数据,分别在路径为“raw_data aw_textChineseText”,“raw_data aw_textEnglishText”的文件中。在对原始英文文本进行随机同义词替换、随机同义词插入、随机单词交换以及随机单词删除操作获得增强数据共 7596条与原始数据共同存在路径为“gouqi ext_reinforcedsplit_text”文件中,共计9496条文本数据。为与图像数据形成数据对,文本数据命名方式为“虫害名_流水号.txt”。表1对数据集的详细信息进行列举,包括每类虫害图文数据对、虫害对应文件夹名称及图文数据量。
表1 数据集详细信息列举Table 1 A list of dataset details
虫害名文件夹名数据量图文数据对示例虫害名文件夹名数据量图文数据对示例负泥虫funichong图:540,文:540木虱mushi图:390,文:390黑盲蝽heimangchun图:310,文:310实蝇shiying图:296文:296黑圆角蝉heiyuanjiaochan图:600,文:600小地老虎xiaodilaohu图:250,文:250红斑芜菁hongbanyuanjin图:300,文:300蚜虫yachong图:300,文:300红长蝽hongchangchun图:860,文:860印度谷螟yinduguming图:350文:350红缘天牛hongyuantianniu图:795,文:795蛀果蛾zhuguoe图:625,文:625黄斑大蚊huangbandawen图:545,文:545 images/BZ_153_724_466_937_671.png images/BZ_153_722_464_1245_709.pngimages/BZ_153_1649_477_1830_659.png images/BZ_153_1647_476_2145_697.pngimages/BZ_153_723_732_945_905.png images/BZ_153_721_730_1245_938.pngimages/BZ_153_1644_737_1819_901.png images/BZ_153_1642_717_2150_951.pngimages/BZ_153_722_977_939_1159.png images/BZ_153_721_972_1244_1200.pngimages/BZ_153_1647_962_1816_1172.png images/BZ_153_1646_960_2144_1212.pngimages/BZ_153_722_1232_902_1409.png images/BZ_153_721_1221_1245_1442.pngimages/BZ_153_1644_1227_1824_1408.png images/BZ_153_1642_1225_2150_1436.pngimages/BZ_153_722_1460_913_1592.png images/BZ_153_721_1458_1245_1624.pngimages/BZ_153_1647_1453_1822_1592.png images/BZ_153_1646_1451_2144_1634.pngimages/BZ_153_723_1676_937_1841.png images/BZ_153_722_1658_1245_1885.pngimages/BZ_153_1647_1654_1822_1849.png images/BZ_153_1646_1643_2144_1899.pngimages/BZ_153_723_1910_926_2033.png images/BZ_153_722_1908_1245_2062.png
3 数据质量控制和评估
3.1 数据质量控制
为确保数据质量,本数据集在图片采集时严格把控,力争图片来源可靠。在图片采集中以人工实地拍摄照片与利用仪器扫描相关书籍图片两种方式所得到的枸杞虫害图片完全能够保障分类准确。在利用网络爬虫技术获取枸杞虫害图像数据过程中,获取图片后与专家进行人工筛选,剔除错误分类的文件,确保了本数据集在建立过程中虫害图像数据来源的质量和可靠性。
对于文本数据的质量,首先在其来源上进行了控制,使文本来于专业的书籍与网站。再将查阅与搜索到的中文文本数据在专业英语人员的帮助下人工翻译成英文文本,然后在专家的指导下对每类虫害的文本进行进一步的修改,进而确保文本数据与其配对的图像的准确性与可靠性。
3.2 数据质量评估
数据评估主要方法为使用如下3种成熟的跨模态检索算法在本数据集上进行实验:典型相关分析[8](Canonic Correlation Analysis,CCA)、通信自动编码器[9](Correspondence AutoEncoder,Corr-AE)、特定模态的跨模态相似度测量[10](Modality-specific Cross-modal Similarity Measurement,MCSM)。实验将数据集划分成比例为8:2的训练集与测试集,实验结果见表2。在使用方法一样的情况下,与公认最为优秀的有标签公共数据集的Wikipedia数据集进行对比,Wikipedia数据集实验结果见表3。
表2 自建数据集实验结果Table 2 Experiment results from the self-created Wikipedia
表3 Wikipedia数据集实验结果Table 3 Experiment results from the Wikipedia
其中表2实验数据来源于本实验室实验结果,表3实验数据来源于论文《基于关联约束的对抗跨模态检索方法》[11]。
通过对比可知在某些方法上在本数据集上检索性能优于 Wikipedia数据集,在另外方法上差距较小,可见本数据集在与Wikipedia数据集对比之下也具有一定的优势,因此在定量评估下也展现出了在本数据集在建立时充分保障了数据的质量。
4 数据价值
本数据集与现有农业虫害数据集相比不仅包含了虫害图像,还有与图像一一对应的文本描述,其不仅能为宁夏枸杞的虫害防治研究领域提供基础数据资源,同时也可以弥补国内枸杞虫害数据集的空缺。随着本数据集的发展,今后还将进一步建设并形成全国性的枸杞虫害跨模态检索研究数据资源,以便为相关研究人员提供统一数据,方便不同算法在同一标准下进行比较。本数据集不仅能够促进枸杞虫害跨模态检索的发展,并且能进一步对枸杞虫害的及时防治提供帮助。此外,“第十三个五年规划纲要”指出要推动信息技术与农业农村全面深度融合,确保农业农村信息化发展取得明显进展。本数据集可为宁夏枸杞虫害防治系统提供研究基础,进一步推动宁夏地区农业生产过程信息化。
5 数据使用方法和建议
本数据集包含大量图像与文本描述,可用于图像分类、跨模态检索等研究。在使用时根据研究任务仅选取图像或使用全部数据,根据需要进行训练、测试数据划分。其中原始及增广后的图像足以应对小规模图像研究,单独的文本数据不能够用于自然语言处理研究中,主要原因在于增广后的文本存在部分单词的缺失。增广后的图文数据主要在跨模态研究中被同时使用。需要注意的是,本数据集图像来源不一导致尺寸大小不同,因此基于深度学习使用本数据集时建议对图像进行裁剪或填充。本数据集建立之初主要应用于无监督方法,若使用有监督方法研究人员需要自主生成标签文件。
致 谢
感谢张炳炎等编著的枸杞虫害图谱,百科、药用植物病虫害数据库,植保驿站等公开数据网站,它们为本数据集的建立带来莫大便利。