APP下载

蝴蝶物种自动识别研究的生态照片数据集

2019-11-17谢娟英曹嘉文马丽滨甄文全陈振宁李晓东李后魂许升全

关键词:自动识别种类蝴蝶

谢娟英,曹嘉文,马丽滨,甄文全,陈振宁,4,李晓东,李后魂,许升全*

1. 陕西师范大学计算机科学学院,西安 710119

2. 陕西师范大学生命科学学院,西安 710119

3. 钦州学院海洋学院,广西钦州 535011

4. 青海师范大学生命科学学院,西宁 810008

5. 河池学院化学与生物工程学院,广西河池 546300

6. 南开大学生命科学学院,天津 300071

数据库(集)基本信息简介

引 言

蝴蝶是节肢动物门昆虫纲鳞翅目锤角亚目昆虫的统称[1]。其最引人关注的特征就是翅和身体表面由不同形态和色彩的鳞片所形成的绚丽多彩的图案和花纹。这些色彩和花纹与蝴蝶的拟态、保护色、求偶等行为有关;也是千百年来蝴蝶作为文化昆虫而被人们描绘、歌颂的原因[1]。全球目前已知的蝴蝶种类约18 000种,每种蝴蝶都基本固定取食少数几种植物,其发生与植物和生态系统的变化密切相关,是重要的环境指示昆虫和生物多样性监测指示生物[2-3]。对蝴蝶物种的快速准确鉴定是生物学多样性保护和蝴蝶文化发展的迫切需求,但人工对蝴蝶进行鉴别和分类是一件非常耗时耗力的工作,且对专家的分类经验依赖度很高。近年来出现了不少关于蝴蝶自动识别的研究。例如,基于内容检索的蝴蝶所属科的识别[4]、基于极限学习机的蝴蝶种类自动识别[5]和基于单隐层神经网络的蝴蝶识别[6]等。然而,这些研究所使用的数据集均为蝴蝶标本的模式照片,且涵盖的种类较少,研究结果无法应用到对蝴蝶生态照片的识别,特别是从生态照片中区别蝴蝶和环境背景。鉴于此,本数据集通过野外拍摄、蝴蝶爱好者捐赠等方式收集、筛选、整理了一组自然环境中的蝴蝶生态照片,并提供了PASCAL VOC 2007格式的记录照片中蝴蝶种类和位置信息的标注文件,以及每张照片的掩模。本蝴蝶生态照片数据集是已完成的第三届中国数据挖掘竞赛(国际首次蝴蝶识别大赛)的竞赛数据,包括了竞赛使用的全部蝴蝶生态照片训练数据,是目前世界上唯一的蝴蝶生态照片数据集,解决了蝴蝶自动识别领域现有数据只包含有蝴蝶标本照片且种类较少的局限,填补了蝴蝶自动识别领域尚无生态照片数据的空白。竞赛使用的训练数据还包括周尧先生的《中国蝶类志》[1]全部蝴蝶照片。希望本数据集能为昆虫分类、目标检测和自动识别领域的相关研究提供数据支持。

1 数据采集和处理方法

1.1 数据采集方法

本数据集中蝴蝶的生态照片来源于野外实地拍摄和蝴蝶爱好者的捐赠,均为高清单反相机拍摄所得,保证了照片的质量。

1.2 数据处理方法

照片中的蝴蝶依据《中国蝶类志》[1]《中国蝴蝶图鉴》[7]等蝴蝶分类文献鉴定到物种。我们使用labelImg工具标记照片中蝴蝶的位置和类别,并生成PASCAL VOC 2007格式的标注文件,蝴蝶位置由矩形框给出,一张照片对应一个标注文件。另外,为了方便图像分割领域研究者使用,我们提供了每张照片的掩模,使用labelme工具,用多边形描绘蝴蝶的外边缘,每张照片生成一个标注文件并转换为掩模图片,以png格式的图片保存。

2 数据样本描述

数据集共包含721张照片,涵盖94种蝴蝶。如图1所示,自然环境中蝴蝶的照片与蝴蝶标本照片的不同在于姿态各异,有些是正面照、有些是侧面照、有些正在展翅、有些双翅合拢等。特别是为了躲避天敌的捕食,大部分蝴蝶具有拟态和保护色,它们翅和身体的颜色和花纹与周围环境相似,难以辨认。

图1 生态图片部分样本

蝴蝶生态照片的统计数据如图2所示,大部分种类蝴蝶的样本个数在13以内,每种蝴蝶至少有1个样本,最多包含61个样本,呈现典型的长尾分布。

图2 蝴蝶生态图片数据分布

每张照片都对应一个PASCAL VOC 2007格式的xml标注文件,文件中包含对应的图片名、图片大小、蝴蝶种类和蝴蝶位置信息。其中蝴蝶分类精确到种,蝴蝶的位置由矩形框标出,在标注文件中记录矩形框的对角位置信息。同时,每张照片对应一张png格式的掩模图片,可用于提取蝴蝶精确位置区域,为图像分割等算法评价研究提供支持。

3 数据质量控制和评估

本数据集中每张照片的蝴蝶都由昆虫分类学专家按照《中国蝶类志》等蝴蝶分类文献进行鉴定,保证了数据的准确性。

蝴蝶的位置信息均为人工标注,并经过多次核查,以确保数据质量。

本数据集已在“2018年第三届中国数据挖掘竞赛——国际首次蝴蝶识别大赛”中发布供参赛者使用,竞赛圆满结束。此次竞赛的圆满成功也说明了本数据集提供的照片数据和标注数据质量可信,可以为相关研究提供数据支持。

4 数据价值

本数据集提供了94种蝴蝶在其自然生态环境中的721张生态照片,并给出了照片中蝴蝶的种类和位置信息。由于蝴蝶有拟态和保护色,和周围环境不易区别,所以识别生态照片中的蝴蝶种类是目标检测领域的挑战性难题。虽然本数据集只包含了94种蝴蝶,没有涵盖全部的中国蝴蝶种类,但蝴蝶物种的识别是同一大类内的小类间区分识别问题,属于细粒度分类,完全不同于常见的目标检测是不同大类物体的识别问题,而且94类的分类问题也是一个很挑战的多类分类问题;加上蝴蝶种类的识别主要依赖于蝴蝶翅膀图案,而生态环境中拍摄的蝴蝶照片,其翅膀通常不会完全展开,使得其分类特征很难获得。细粒度多类分类和高难分类特征,使得训练自动识别方法难度非常大。本数据集在为相关研究提供基础数据的同时,也能促进相关实际应用的开发,使得大众及昆虫爱好者能更加方便地了解和认识蝴蝶。

致 谢

本数据集曾在蝴蝶识别大赛中使用,在数据的整理和测试阶段得到了南京大学计算机系高阳教授、北京邮电大学杜军平教授、北京交通大学于剑教授、山东财经大学尹义龙教授、复旦大学张军平教授、南京航空航天大学谭晓阳教授的指导。特别感谢山东财经大学吕鹏副教授、北京交通大学景丽萍教授、南京大学史颖欢副教授带领各自团队在竞赛前对数据验证所做的大量工作。本数据在听取 2018年第三届中国数据挖掘竞赛——国际首次蝴蝶识别大赛部分参赛队伍建议的基础上进行了完善,对这些队伍和队员表示感谢。

猜你喜欢

自动识别种类蝴蝶
基于数据挖掘的船舶航迹自动识别系统
基于VR技术的X射线图像安检危险品自动识别
基于卫星遥感图像的收费站位置自动识别与校核
基于稀疏表示的宠物狗种类识别
基于稀疏表示的宠物狗种类识别
电影
船舶自动识别系统对船舶救助的影响
镜头像差的种类
为了蝴蝶
捉蝴蝶