标本馆伴侣的诞生与发展前景
2018-05-20李敏宣晶赵明月魏泽谢淦
李敏,宣晶,赵明月,魏泽,谢淦
中国科学院植物研究所 系统与进化植物学国家重点实验室,北京 100093
1 背景
国家植物标本馆 (PE) 隶属于中国科学院植物研究所系统与进化植物学国家重点实验室,是我国重要的生物战略资源保藏基地[1]。截至 2018年,馆藏的植物标本数达 280 万份,居亚洲第一、世界第三。这些标本,及其采集、鉴定等相关记录和资料中包含着重要的数据和信息,是植物分类学[2-3]及其他相关学科重要的基础资料[4]。
为了更好地整理、保存这些标本,自 2004年起,我们启动了标本的数字化工作[5]。目前,已完成了近 200 万份标本的数字化工作,并采集 150 余万幅标本数字化影像。以此为基础建立的中国数字标本馆项目 (Chinese Virtual Herbarium, CVH)[6],作为科技部“国家标本资源共享平台”的植物子平台,参加单位已达 101 家,共享标本数字化数据 670 万条,涵盖了我国绝大部分重要的植物标本馆,并积累了大量的腊叶标本数字化影像数据。
在实际的标本数字化过程和标本馆日常工作中,我们遇到了一些问题,如在采集标本时,不同采集人记录的采集信息的种类可能不尽一致,部分标本存在采集信息不完整的情况;在对标本进行粗分类以送交不同专家精确鉴定时,工作人员对植物类群的熟悉程度会影响到标本能否尽快入库。
对这些问题解决方案的思考和近年来人工智能深度学习技术的发展,让我们萌生了创作“标本馆伴侣” (iHerbarium) 的想法。
2 方法
早在 2006年,Hinton 等人就已经提出了深度学习的概念[7-8]。但是直到最近几年,深度学习才被逐渐运用到物种识别上来,并在植物物种识别上表现出较好的发展前景[9]。目前,包括植物叶片[10-11]、花[12]、果[13,14]、花粉[15]、病虫害[16]等各个方面的识别都有了很好的探索和尝试。
我们在这方面也做了一些尝试。基于中国植物图像库 (PPBC) 近十年来收集的海量植物分类图像数据,中国科学院植物研究所与鲁朗软件合作于 2016年底推出了“花伴侣”植物图像识别应用。目前专业版识别引擎已实现了对 1 万余种植物的识别覆盖,对常见植物的识别率达 9 成以上,在国内外应用市场上同类应用中处于领先地位。
“花伴侣”的算法和识别体系似乎同样可应用于腊叶标本影像的自动识别。
2.1 标本查询及采集模块设计
为了规范标本采集记录,便于不同学科专家进行数据检索,我们设计了标本查询及采集模块。
标本数据查询模块基于“中国数字植物标本馆” (CVH) 的标本数据,以物种中文名、拉丁名、采集人、采集号、馆代码、条码号等数据条目,构建标本数据查询模块 (图 1)。
标本野外采集模块基于常规采集记录项目设计采集记录项目样式,同时保留自定义条目项,可根据项目需求定制。集成“花伴侣”专业版识别引擎,提供野外植物拍照识别功能。通过读取手机 GPS 信息及地名库解析,实现行政区划、经纬度、海拔、采集日期等条目的自动填写。
2.2 标本图像识别模块设计
基于中国数字植物标本馆 (CVH) 的数据平台,以其中的国家植物标本馆 (PE) 的数字化标本影像为基础,我们筛选了标本图片数量大于 80 幅的 10000 个物种用于构建标本图像识别训练集。这些物种涵盖 286 科 2092 属,覆盖我国野生植物90%以上的科,60% 以上的属。以这套标本图像识别训练集为基础,通过卷积神经网络进行深度监督机器学习,我们构建了腊叶标本识别模型。
3 腊叶标本识别模型测试
我们选取了国家植物标本馆 (PE) 2018年数字化、图像长边像素在 1440 px 以上的 9991 份植物标本作为测试数据集。该测试数据集涵盖植物 271 科,2091 属。
图1 标本查询模块Fig.1 Specimen inquiry
以上述测试集中的有效数据作为测试对象,对腊叶标本识别模型进行评测。将识别模型给出的置信度最高的结果即为正确结果的情况记作 TOP1 识别率,置信度最高的前五个结果中出现了正确结果的情况记作 TOP5 识别率。结果显示定属准确率 TOP1 可达 57%,TOP5 达到 71%;定科准确率 TOP1 可达 78%,TOP5 达到 97% (图 2)。
图2 标本识别结果Fig.2 Image identification of specimens
4 现状与使用
测试的结果表明,“标本馆伴侣”在科级的识别准确率已满足我们的要求。因此,我们将“标本馆伴侣” (iHerbarium) 放在 http://www.cvh.ac.cn/app.html,供大家下载使用、测试。后期我们将使用更大像素尺寸的植物图像作为训练集,以进一步提高模型的识别准确度。
目前的标本馆伴侣 iHerbarium 包括三大功能。
其野外采集模块集合了“花伴侣”专业版识别引擎,可实现 10000 种野生植物的拍照识别,基本覆盖我国常见的野生植物,并可基于多张图片进行加权,以提高鉴定结果可信度。识别结果作为参考信息,可用于后期标本整理、归档,减少重复工作。其采集记录功能提供了常规标本采集记录的条目,并可根据采集项目的具体要求进行个性化定制。通过读取移动端时间及 GPS 信息,可实现采集日期、经纬度信息、海拔信息等条目的自动填写,并可根据经纬度信息自动匹配地名数据库,从而极大地提高野外采集记录的填写效率。根据采集项目的要求,还可在网络条件下实现多人协作、采集号自动填写等功能,以满足大规模采集活动的需要。采集信息可在线同步并导出至本地,利用网站提供的工具还可自动生成规范化的采集签及鉴定签,实现标本馆的数字化管理 (图 3)。
图3 标本馆伴侣的野外采集记录模块Fig.3 Intelligent field collection
其标本图像识别模块的科级识别准确率高达 97%,可一定程度上取代人工,用于满足标本馆日常分科工作的要求,这将大大节约了相关工作人员进行标本粗步分类的时间和工作量,以将标本尽快送交相关专家,进行进一步精确鉴定所需。对优化标本馆工作流程、提高工作效率以及改进标本馆日常管理、实现标本馆数字化、智能化、自动化、现代化建设具有重要的意义。
基于中国数字植物标本馆 (CVH) 的数字化腊叶标本信息,“标本馆伴侣” (iHerbarium) 还可在移动端方便地通过物种中文名、拉丁名、采集人、采集号、馆代码、条码号等方式,查询各个标本馆的腊叶标本信息,包括不同科、属、种植物的标本状况、分布地、分布海拔、经纬度、花期、果期等信息。各学科专家都可以根据各自具体需求,在标本馆伴侣上对这些信息进行查询、检索,以减少工作量、节约时间。
5 应用前景与展望
以数字化工作为基础,利用“标本馆伴侣” (iHerbarium) 可以实现“标本采集—移动端记录、在线同步—规范化采集签生成—标本装订—标本进馆、标本图像数字化—根据采集号同步采集信息—自动识别、分科—按馆藏顺序归档入库—在线查询、管理”的一整套数字化、标准化的标本馆管理流程。
对于标本馆而言,“标本馆伴侣” (iHerbarium) 将彻底改变以往先装订、入库后数字化、录入采集信息的流程,减少工作中的重复劳动、提高效率;并有望将管理人员从繁重的分科鉴定工作中解放出来,显著降低标本馆分科工作的人员成本。对于专家而言,“标本馆伴侣” (iHerbarium) 可以辅助其进行鉴定,并节约其查询、汇总各标本信息的时间,将更多的精力放在思考科学问题上。
如果未来能够进一步提高“标本馆伴侣”在属级乃至种级鉴定的精度,就有可能逐步实现标本的收录、分科、归档自动化,最终完全实现植物标本馆的智能化管理。