APP下载

YMushroom食用菌图像识别数据集

2022-10-08姚芷馨张太红

关键词:食用菌样本图像

姚芷馨,张太红*

1.新疆农业大学,乌鲁木齐 830052

引 言

我国目前能够人工种植的食用菌达到 60余种[1],并且该生产需求还在不断增长,食用菌是我国部分地区农民实现脱贫致富的重要栽培种类之一[2]。其产业发展遍及大江南北,从山区到平原,为农民增效、增收起到了重要作用。截止到2019年我国食用菌总产量达到3961.91万吨[3],其中香菇、平菇、金针菇、草菇、黑木耳、银耳、滑菇等产量均居世界第一[4]。本研究意图建立一个食用菌图像数据集,在计算机领域实现深度学习图像识别的应用,使农学与计算机进行跨学科融合,在农学中能够为研究食用菌的学者提供实验数据,减少重复工作的时间成本。

通过在常规蔬菜市场及大中型超市中的调研,发现中国食用菌消费市场主要集中在家庭日常消费和餐馆酒楼等食品行业。根据《2020-2026年中国食用菌行业市场行情监测及发展前景展望报告》[5]中提供的市场销售额、整体价格和机器手持采摘的成本等数据,挑选出最具经济价值的28类常见食用菌品种。由于食用菌品种类别复杂,称重时大多以传统手工称重交易为主,需要专门的工作人员进行人工打标定价。然而,仅靠人工识别菌种大大降低了交易效率。首先由于食用菌种类的不同,价格也相差甚远,例如常见的姬松茸80~155元/公斤,而表现性状比较相似的松茸却需要500~3000元/公斤甚至更高,因此若分类标签出错可能导致商家损失过大。其次,对于一些菌类品种,当其颜色及表现形状等较为明显的特征非常相近时,仅靠肉眼识别无法在短时间内判别出该菌种的类别和名称,会降低工作效率从而影响该市场的当天销售总额。

因此有必要建立一个大型食用菌图像数据集,并研究一种针对食用菌图像进行识别的算法,为常规大型蔬菜市场和大型超市识别菌种提供帮助,帮助人工进行食用菌快速识别分类,降低人力消耗、节省资源成本,提高工作效率。

目前,国内外关于食用菌识别研究主要有以下系统:(1)2004年Chen等[6]开发了一种香菇质量分级系统,可以根据香菇的大小、形状和颜色等,将香菇自动分类为各种质量等级。(2)2010年黄星奕等[7]提出的秀珍菇识别系统,通过采集 100个秀珍菇样本数据,对正常样本和畸形样本的菌盖、菌柄在7个明显特征数据上进行了对比分析。(3)2020年林楠等[8]提出一种野生食用菌识别系统,基于改进的HSV颜色空间特征提取方法,能够快速准确地识别出野生食用菌的种类,帮助人们快速采集具有很高营养价值的野生食用菌。

但上述系统使用的模型都是基于机器学习的方法进行设计,且实验数据较少、实验样本较单一,不适用于深度学习的网络模型训练,不能满足大型蔬菜市场的基本需求。在相关项目的支持下,文章作者在中国新疆、云南以及河南等地区采集了包含香菇、双孢蘑菇、糙皮侧耳、金针菇、黑木耳、银耳等28种食用菌图像资源,建立了一个可以为深度学习建模提供训练样本和测试样本的食用菌识别图像数据集,填补了当前我国食用菌研究方面数据资源的空白。

1 数据采集和处理方法

1.1 采集类别

自建数据集YMushroom是通过在常规蔬菜市场及大中型超市中调研,观察所需食用菌的需求量以及消费者对于每种食用菌类型的购买偏好后,根据《2020-2026年中国食用菌行业市场行情监测及发展前景展望报告》中提供的市场销售额、整体价格和机器手持采摘的成本等数据,挑选出最具经济价值的28种常见食用菌类别(香菇、双孢蘑菇、糙皮侧耳、金针菇、黑木耳、银耳、猴头菇、毛头鬼伞、姬松茸、茶薪菇、真姬菇、灰树花、滑菇、刺芹侧耳、盖襄侧耳、毛木耳、竹荪、金顶侧耳、大杯蕈、北冬虫夏草、牛肝菌、松茸、鸡枞、羊肚菌、榛蘑、鸡油菌、红菇、青冈菌等)进行研究,建立食用菌品种名录。如表1所示。

表1 常见食用菌品种名录Table 1 List of common edible fungi

1.2 采集设备

由于菌类生长时间与生长环境不同,需在不同时间段进行采集。采集时间从2019年10月到2021年 3月,拍摄样本为自行购买后统一拍摄。采集设备分别采用两种不同图像处理方式的智能手机OPPO Find X2和HUAWEI荣耀Play4T,使用原相机设置为方形进行拍摄。

1.3 采集标准

参考深度学习已公开的ImageNet[9]、Fungi[10]等数据集,制定严格的采集标准(图像尺寸、图像背景、干湿比例、光照强度、不同成熟度等),收集大量不同环境下的食用菌图像。对常规的食用菌进行图像采集、自主拍摄,且每个种类的数据集数量都尽量均衡、个体种类要具有多样性,以此建立一个符合食用菌分类的实例数量均衡的大中型数据集。

通过对目前主流应用于大型图像研究的数据集进行观察[11],发现每个种类图像采集大约2000张才能得到较好的训练结果,因此每种食用菌采集数量也要尽量保持在2000张左右。每一种分为干品食用菌和新鲜食用菌,其中干品食用菌与新鲜食用菌的采集比例约为4:6,每个种类的采集数量基本保持均衡,并且能够保证个体种类具有多样性。其中,图片像素普遍在1000 px~3000 px左右,最高分辨率能够达到4608×3456。每个类别食用菌采集标准如表2所示。

表2 数据采集标准Table 2 Data acquisition standard

1.4 自动抓取食用菌图像

由于2021年疫情影响采集时间缩短,未能采集到某些生长时间为一月到五月的食用菌,因此只能通过在网络上购买干品来进行拍摄,同时新鲜样本则通过Icrawler框架[12]爬取开源图像进行获取,图片占总数据集的20%左右。通过使用基于Python语言的小型Web抓取框架Icrawler,在百度(Baidu)、必应(Bing)、谷歌(Google)、雅虎(Flickr)网站上构建多线程食用菌图像采集器,以便快速获取食用菌图像。选定该四种图片爬取网站是因为该引擎能针对用户的需求利用人工智能等手段精准搜索、筛选以及推送。

1.5 数据处理

(1)经过人工筛选与标记,清除像素过低的图片,将所有图片格式使用Python代码转化为PNG格式的RGB三通道图像。

(2)再经过一次筛选按各个类别保存在不同的目录下,以专业学术名称为文件夹命名,保证路径为纯英文路径,防止训练过程中遇到乱码问题。

(3)总体筛选一遍,挑选出像素低、拍摄角度不好以及拍摄目标不完整的图像,将所有图片重新排序编号。

(4)将数据集按照常规训练标准进行划分,根据8:1:1的比例将其中80%的样本(约39966幅图像)随机分配为训练集,将10%的样本(约4996幅图像)随机分配为验证集,将剩余10%的样本(约4996幅图像)随机分配为测试集。

(5)将样本图像文件和对应的标签文件转换成HDF5格式文件(train.hdf5、val.hdf5、test.hdf5),保存在固定文件夹中,使图像在不失真的情况下保存最大色彩且减小空间的占用,相比于csv格式,在数据量大的情况下能够提升读写速度。

图像采集及处理工作随着季节变化及各项工作的陆续开展,后期数据还会不断更新。

2 数据样本描述

YMushroom食用菌图像数据集按照食用菌学术名称建立文件夹,共有28个文件夹,每张图像代表一个数据样本。数据集中的部分样本示例如图1 所示。

图1 食用菌图像数据集中的样本示例Figure 1 Samples in the dataset of the edible fungus images

食用菌图像的统计数据如图2所示,28种食用菌的样本量在969到2578之间,单一类型样本量的中位数为1764,可通过仿射变换[13](错切(shear)、旋转(rotation)、平移(translation)、放缩(zoom))、高斯模糊[14]、高斯扰动[15]等图像增强手段随机处理数据集图像,增大数据量,已满足深度学习模型训练的样本量要求。

图2 食用菌图像数据分布Figure 2 Data distribution of edible fungus images

3 数据质量控制和评估

本研究中的YMushroom数据集在专业技术人员的指导下,进行了数据的筛选和清洗。为提高数据的质量要求:(1)从采集设备、采集标准、采集种类以及采集数量等几方面进行规范化约束,采集过程中严格按照食用菌的各个种类进行标记,确保各个菌种的鉴定有凭可依。(2)在不同角度、光线照射和不同的实验背景下拍摄,使其拍摄角度具有多样化,且保证了拍摄目标在图像的正中央。(3)对数据集中科属一样且表现型非常相似的菌类,根据专家意见对其菌类信息进一步修改和完善。(4)对数据集进行清洗,通过人工筛选将拍摄不清晰、像素质量低的图像进行删除,以提高数据集整体质量。

使用目前在深度学习领域较为流行的MobileNetV2及EfficientNetB0网络模型,在该数据集上进行对比实验。通过原始模型及调整参数后的改进网络模型对数据集质量进行评估,得到如表3所示结果。

表3 YMushroom数据集上识别结果Table 3 Recognition results on YMushroom dataset

4 数据价值

本数据集通过实地考察以及专家咨询,获得高清、真实的食用菌图像数据资源。国内现有的食用菌数据集大多属于小型数据集,大多样本数量在两千张左右。目前已公开的大型公共菌类数据集中,包含的可食用菌图像样本仅占总数据集的0.92%,且每种可食用菌样本仅为500张以内。与其相比,本数据集中的每种食用菌样本都在一千张以上,今后还将继续扩充完善不同地区的食用菌类,将28类变为更多种类,并扩充每一类的图像数量。该数据集今后将建设成为国内标准的食用菌图像识别研究数据资源,为相关领域的研究人员提供统一的训练与测试数据。通过构建深度学习模型,实现快速精准的食用菌自动识别。

猜你喜欢

食用菌样本图像
改进的LapSRN遥感图像超分辨重建
用样本估计总体复习点拨
食用菌的栽培技术(中)
食用菌的栽培技术(上)
有趣的图像诗
食用菌的栽培技术(下)
推动医改的“直销样本”
随机微分方程的样本Lyapunov二次型估计
村企共赢的样本
遥感图像几何纠正中GCP选取