APP下载

智慧农业背景下的植物表型组学研究进展

2022-09-16杨文庆刘天霞唐兴萍徐国富杨贺凯吴文斗

河南农业科学 2022年7期
关键词:组学表型性状

杨文庆,刘天霞,唐兴萍,徐国富,马 喆,杨贺凯,吴文斗

(1. 云南农业大学 大数据学院,云南 昆明 650201;2. 云南农业大学 食品科学技术学院,云南 昆明 650201;3. 云南农业大学 机电工程学院,云南 昆明 650201)

人口快速增长、气候变化以及环境问题等因素使得粮食增长速率严重落后于人口增长速率。中国人均耕地少,粮食产量对人民生活水平、国民经济发展和国家粮食安全尤为重要,亟需依靠现代科技推动农业生产发展。植物表型是指能够反映植物细胞、组织、器官、植株和群体结构及功能特征的物理、生理和生化性状,其本质是植物基因图谱的三维表达及地域分异特征和代际演进规律[1]。表型组学是研究生物个体或群体在特定条件下所表现出可观察的形态特征及其变化规律的学科[2],植物表型组学是进一步探索基因型—表型—环境内在关联的关键技术[3],为基因组功能分析、分子育种以及农业生产精准管理提供了技术支撑。

1911 年,丹麦遗传学家JOHANNSEN 首次提出了生物学上的表型(Phenotype)概念,他定义表型为可以通过直接观察或测量得到的进行描述区分的生物属性[4]。随着基因测序技术的发展,越来越多的作物已经完成了基因组测序工作。由于植物表型本身的复杂性及其动态变化,导致植物表型研究落后于基因型研究[5]。1996 年,GARAN 在滑铁卢大学的一次演讲中首次提出表型组学(Phenomics)的概念[6]。相较于传统单株单性状的表型检测,植物表型组学检测有数据量大,数据采集快速、准确,可以将一个性状分割成多个性状来检测等特点,为高通量、快速、系统地研究基因组和表型组提供了可能[7]。

发展智慧农业是“十四五”时期乃至2035 年我国农业高质量发展的重要内容[8]。智慧农业是数字经济的组成部分,是指将物联网、大数据、人工智能、云计算、区块链等现代信息技术应用于农业生产中,促进农业向现代化、智慧化、标准化、绿色化、数据化发展,使农业生产环节按照需求实现闭环可控,向对人类有利的最优化方向发展[9]。植物表型组学是发展智慧农业的重要技术之一,对农业生产过程精准管理、智慧育种、胁迫研究等有重大意义。在发展智慧农业的背景下,植物表型数据量庞大,且对表型数据获取的准确性、实时性和全面性的要求不断提高。仅依靠人工检测和分析的传统植物表型研究无法大规模、高精度地获取和分析植物表型数据,已不能满足农业现代化发展的需求。在物联网、人工智能等现代信息技术快速发展的今天,植物表型组学也将与新一代传感器技术以及数据处理技术深度融合,高通量、高精度、全自动获取和分析植物表型数据是未来植物表型研究的热点。高光谱成像、激光雷达成像、核磁共振成像等数据采集技术以及以深度学习为代表的人工智能技术已广泛应用于植物表型研究中,为高通量、高精度、全自动获取和分析植物表型数据奠定了基础。国内外在植物表型研究平台的开发中也取得了大量成就。近年来,随着生物学、信息技术和数据处理技术的发展,表型组学研究迎来了发展契机[10]。第一,高通量和非破坏性的实时成像技术、光谱技术、图像分析系统、机器人表型分析手段逐渐成熟;第二,能够实现对生物体的整个生长周期实时监测;第三,随着人工智能、云计算、统计学和生物学以及基因组、蛋白质组和转录组等组学的发展,使得处理植物表型大数据的能力越来越强。未来植物表型组学研究将向多学科深度融合的方向发展。

通过大量文献阅读,结合自身研究方向和理解,对植物表型研究发展现状进行了总结。首先,总结了常用的植物表型采集技术、植物表型数据处理技术以及这些技术的未来发展趋势,并概述了国内外植物表型组学研究平台的建设情况。其次,介绍了植物表型组学在智慧农业发展中的应用,并分析了植物表型组学在各应用中的现状及其面临的挑战。最后,对植物表型组学的未来发展进行展望。

1 植物表型组学研究现状

1.1 植物表型数据获取

当前已有大量图像采集技术用于获取植物表型信息,对植物的物理、生理、生化等信息进行成像[11]。图像采集技术按照图像的性质可分为二维成像技术和三维成像技术[12],不同的图像采集技术可以采集不同的表型参数,在实践中需要考虑应用场景及成本等因素来选择合适的成像技术。表1列举了常用的成像技术及其主要获取的参数[13]。

表1 常用的植物表型成像技术Tab.1 Common used plant phenotype imaging techniques

可见光成像、荧光成像、红外成像以及高光谱成像等二维成像技术都是采集植物表型数据的重要技术,被广泛应用于农业生产中。但是,采用某单一成像技术采集表型数据,获取的数据单一,不能满足高通量、高精度的表型研究需求。集成多种成像技术的设备能够在一定程度上解决表型数据单一、数据量不足的问题。近年来,三维成像技术进入人们的视野中,激光雷达成像技术、CT 成像技术以及核磁共振技术等已大量用于植物表型组学研究中,三维成像技术能够获得更丰富的表型数据。随着技术的进步和设备逐渐成熟,三维成像技术的应用将会越来越广泛。

当前植物表型数据获取的研究重点是构建表型基础设施,研发便携式低成本的表型获取装置,进一步提高表型数据获取的通量、分辨率和自动化程度[1]。数据采集设备可搭载传送带、无人机、车载平台以及自走式平台等多种平台。植物表型采集平台主要包括田间型和温室型2 种,田间作物位置固定,一般通过移动传感器的方式获取表型信息,常用的平台包括车载式平台、自走式平台、无人机平台以及飞机、卫星等。传送带平台和轨道式平台是比较常见的温室表型采集平台,传送带平台通过传送带将作物传送到成像区域成像,轨道式平台通过移动传感器实现在作物原位置上采集表型数据。表2 是典型的表型信息采集平台,在具体实践中可根据检测环境、检测对象特征以及成本等来选择平台。

表2 常见植物表型信息采集平台Tab.2 Common used plant phenotype information collection platforms

续表2 常见植物表型信息采集平台Tab.2(Continued) Common used plant phenotype information collection platforms

随着无人机技术的逐渐成熟、远近程传感设备性能的提升,基于无人机的植物表型采集技术迅速发展,无人机平台在田间和室内均适用,能够在短时间内采集大面积作物的表型数据。但是,目前多数无人机平台不能实现数据的实时分析,数据处理能力亟待提高。随着传感器技术的发展,高分辨率的传感器质量远超过小型无人机所能负担的质量,为了更全面、更深入地获取植物表型信息,卫星、飞机等飞行设备陆续投入使用,航空表型技术进一步发展[35]。航空表型采集技术测量范围广、速度快,能够满足高精度、高通量的需求。但是航空表型技术对天气条件要求较高,在大风、大雨等恶劣天气情况下,不能正常工作。

1.2 植物表型数据处理与解析

植物表型数据解析是指从采集到的图像数据中提取出有意义的生物学信息。目前,植物表型数据解析研究的重点是增加可观测、可量化、具有明确生物学意义的植物表型性状数量,提高定量化植物表型解析的精度和效率,并针对不同植物的形态结构和生理生态功能研发相关算法[1]。比较常见的植物表型数据处理技术有机器视觉、三维重建、机器学习以及深度学习等,表3 列出了常见的表型数据分析技术以及相关的应用案例。

表3 常用植物表型数据分析技术Tab.3 Common used plant phenotype data analysis techniques

植物表型数据分析技术的发展促进了植物表型组学研究的进展,解决了传统人工分析表型数据费时费力、受主观经验影响等问题。随着表型采集技术的发展,表型数据急剧增长且数据类型多样,传统的图像分析技术难以从海量表型数据中萃取出有价值的信息。此外,由于田间环境复杂,易受光照差异以及遮挡物阴影等因素的干扰,部分植物表型图像处理与分析技术存在特征设计困难、面向复杂任务有局限性等弊端。例如机器视觉技术在处理表型图像时,难以解决相邻叶片、穗和果实造成的重叠、遮挡等问题[48]。针对海量数据以及表型图像复杂的问题,以深度学习为代表的人工智能技术凭借着强大的特征提取能力和建模能力给出解决思路,以卷积神经网络、转移学习等算法为基础研发的算法成为表型数据分析的主要研究方向。深度学习技术已广泛应用于植物表型研究中,并取得了大量成就,例如基于深度学习的植物叶片分割[49]、养分监测、胁迫分析、植物识别以及产量预测等。然而,深度学习的潜力要在海量数据集中才能被激发出来,数据量较小时普通的机器学习即可满足需求,因此,在实践中需要考虑研究对象的特征和数据量来选择合适的算法。

为补偿二维图像信息的不足和实现不同环境下无损地获取表型信息,研究者们开始关注三维重建技术[50]。三维重建技术是精确描述作物形态全信息结构的重要工具[51],是植物表型组学研究中的基本技术之一。根据取样方法和重构方法不同,三维重建方法大致可分为4类,分别是基于规则的方法、基于图像的方法、基于三维扫描仪的方法以及基于数字化仪的方法。目前,在单株作物三维重建、田间群体作物三维重建以及作物根系三维重建等方面都取得了一定成就,涉及的农作物广泛,包括玉米、小麦、大豆、水稻、棉花、番茄、葡萄、草莓等。但是,重建对象的特征差异、数据提取困难、三维扫描仪价格昂贵等因素制约了农作物三维重建技术的发展。

从海量的表型数据中提取出关键的性状信息后,关键的环节是将性状数据转换为有具体意义的生物学知识,并用于指导农业生产。这一过程的实现一方面需要高通量、高分辨率表型采集平台的发展,获取充足、全面、高质量的表型数据;另一方面,需要提高表型数据的分析效率,萃取可靠的性状特征。此外,从表型数据到有意义的生物学知识,离不开生物学领域以及其他组学团队的共同努力。

1.3 国内外植物表型研究平台建设

高通量表型平台是集成传送系统、高通量成像系统、数据分析存储系统以及控制系统为一体的全自动、无损伤的获取植物整个生长周期表型信息的研究平台,根据应用场景的不同主要分为温室型和田间型2 种。国外对植物表型的研究开始较早,已有许多大型平台投入使用。德国Lemna Tec 公司在植物表型研究中处于世界领先水平,开发了一系列从低通量到高通量、从实验室到田间、从细菌到高等植物的表型检测和分析平台。比利时CorpDesign公司的TraitmillTM 是集生物信息学分析,高通量基因工程、基因转换和作物高分辨率表型分析于一体的高通量平台[52],通过机器人采集和分析数据,每天可采集的图像达50 000 张。捷克PSI 公司的PlantScreenTM 系统是比较著名的室内植物表型研究平台,主要用于拟南芥和豌豆等植物的叶片叶绿素荧光成像和测量。

国内华中农业大学和华中科技大学研发的全生育期高通量水稻表型测量平台HRPF[53]可以有效提取株高、叶面积等15 个参数。该平台可容纳5 472 盆水稻,测量通量可达1 920 盆/d。中国科学院遗传与发育生物学研究所研发的PPAP 平台[54]集成可见光成像、红外成像、根系近红外成像、叶绿素荧光成像、高光谱成像及激光雷达成像等多种成像设备,建立了穗部性状采集分析、根系表型采集分析及抗逆性状采集分析等技术体系。慧瞳研究院[3]围绕植物表型组学研究,研发了侧吊式扁根盒自动化闭环成像环线装置、推拉式扁根盒自动化成像单机、基于高低双筒圆根盒的根系自动化成像工作站等一系列相关表型装置。慧诺瑞德公司的TraitDiscover 平台可以搭载叶绿素荧光成像仪、光合表型测量仪、三维激光扫描仪等多种表型传感器,根据系统的大小,一套系统一天可以测量几百株、数千株,甚至上万株植物。国内植物表型相关研究技术相对落后于国外发达国家,自主研发较少,多依赖于国外技术的引进。

2 植物表型组学研究在智慧农业生产中的应用

准确采集和分析作物的重要表型性状是精准育种和作物生产过程精准管理的关键。育种学家需要精确测量大量的表型数据来筛选优良性状,选育高产高抗的作物品种。在农业生产实践中,有效识别和监测作物不同物侯期的特定形态结构,进而可实现作物全生长周期长势监控与水肥智能化调控,提高智慧农业生产管控与智能化管理水平。

2.1 植物识别与杂草控制

植物识别和杂草控制在农业生产中有重要意义,传统的植物识别与分类多依赖于专家的经验,通过观察植物根、茎、叶、花、果实的特点来识别植物,不仅费时费力,而且个人主观的判断易出现误差。随着智慧农业的发展,计算机视觉、机器学习和深度学习等技术开始用于植物识别和分类的任务中。雷建椿等[55]提出Ada Boost.M2-NFS 植物识别算法,将改进的传统神经模糊系统(NFS)与Ada Boost.M2 结合,新模型的识别率相较于单个NFS 增加了3.33 个百分点。GRINBLAT 等[44]利用卷积神经网络(CNN)识别白豆、黄豆和大豆3种豆科植物,识别准确率随着CNN 网络深度的增加而上升,网络达到5 层时,准确率高于所有基于传统特征分类的算法。仅依靠某一组织或器官识别植物有一定的困难,一般通过综合多个组织或器官的性状特征来提高识别的准确率。目前,植物识别的重点一是提高对作物本身或作物特定性状的识别效率,二是提高算法的泛化能力。

杂草控制是作物生长管理中的重要部分,对智慧农业发展有重大意义。传统的杂草控制主要通过人工除草和化学除草,人工除草效率低下,大范围喷洒除草剂不仅会破坏环境而且影响作物品质,甚至存在食品安全隐患。在计算机技术快速发展的今天,基于计算机技术的自动化除草是未来杂草控制的新方向。自动化除草的关键在于准确识别杂草和作物,然后定点喷洒除草剂[56],这样可以减少除草剂的使用。深度学习有独特的特征提取方式,在杂草控制中有许多的应用,例如基于改进DenseNet 的田间杂草识别系统[57],识别准确率达到98.63%;基于优化Faster R-CNN 的棉花苗期杂草识别与定位系统[58],识别杂草的准确率达到94.21%。虽然深度学习算法在杂草识别中表现出较好的性能,但是训练深度学习网络需要大样本数据集,且对计算机计算能力要求较高,在某些情况下并不适用。为此,任全会等[59]使用图像处理技术识别田间杂草,利用Canny算子进行图像边缘检测,计算出重要的特征参数,通过遗传算法的特点构建杂草识别模型,杂草识别的错误率可达到3.2%以下。苗中华等[60]提出了一种基于图像处理的多算法融合的田间杂草自动化检测算法,以大豆田间除草为例,测试该算法的性能。结果表明,融合多种图像处理算法的方法在杂草识别中准确率达到98.21%,相较于使用单一图像处理方法的算法准确率提高了5.71%,并且在有阴影和雨滴的条件下测试算法,识别的准确率达到90%以上。该方法有较强的鲁棒性和较高的准确率,为智能除草提供了技术支持。

2.2 与胁迫抗性相关的植物表型研究

植物在生长过程中受多种环境因素的影响,主要分为生物胁迫和非生物胁迫两大类。其中干旱和病虫害是影响世界粮食产量的两大因素[61]。植物抗性分为避性、御性和耐性3 种形式[62‑63],根据植物与不同逆境的交互情况又可分为抗旱、抗热、抗冻、抗涝、抗污染、抗病等[63‑64]。在作物受胁迫且未形成不可恢复的损伤之前,精准识别受胁迫部位,定性胁迫种类,判定胁迫程度,为有效开展植保工作赢得宝贵时机是智慧农业植保工作的目标。此外,分析不同植物受胁迫时的应激反应有助于选育高抗性的作物品种。

干旱严重影响作物生长[65]。研究者们对干旱胁迫进行了大量研究,以期减少其对作物的影响。获得性耐旱性状(ADT)是研究作物对干旱胁迫响应的重要性状参数,VIJAYARAHAVAREDDY 等[66]评估了IR64 和Apo 2 种水稻以及耐旱小麦Weebill 的ADT,开发了具有自动灌溉系统的新型表型检测平台,该平台可用来获取植株在生长阶段的ADT,提供了评估ADT 特性的最优方法。张慧春等[67]以簸箕柳为对象,构建了一套面向植物耐旱性研究的多源表型信息采集系统,利用YOLOv3 目标检测算法和图像处理算法提取了植物投影叶面积、叶片数量、冠层温度、株高等表型参数。结果表明,干旱胁迫下簸箕柳的投影叶面积、株高、水分利用率、日耗水量都随着时间的推移明显低于正常施水情况。该研究为实时、连续评估植物在干旱胁迫下的长势参数提供了可行性技术,可促进抗旱基因的快速筛选,指导抗性育种中水分的使用。尽管干旱胁迫相关研究已取得了一些成就,但是目前的研究大部分都集中在植物表型和生理生化方面[68],对抗旱基因、分子、蛋白质的研究较少,且多数针对单一基因或单一转录因子。在基因组、转录组、蛋白质组、代谢组等组学快速发展的今天,植物耐旱性研究需与多种组学相互融合,促进抗旱基因的筛选。

病虫害胁迫也是影响农业生产的重要因素,在病虫害发生早期进行控制是减少病虫害对植物破坏的重要手段。如今仅靠人工在田间监测病虫害已经不能满足农业生产精准高效的需求[69]。随着数据分析技术和图像采集技术的发展,有关病虫害胁迫的研究越来越多,如烟草花叶病害严重程度判别分析[70],白菜和菠菜叶潜蝇检测[71],对小麦[72]、水稻[73]和玉米[74]病虫害监测等。当前病害检测主要面临以下几个难点[56]:一是图像背景复杂,除了染病区域外,图像可能包含茎秆、土壤等,还可能受光照、角度差异等因素影响;二是染病区域和健康区域可能没有明显的边界;三是同一种病害在不同发展时期有不同的特征表现,甚至不同位置的病害也会有不同的特征;四是不同种类的病害特征表现可能相同或差异微小,同一位置可能存在多种病害。这些问题给病害检测带来了巨大挑战。自2015年以来,深度学习技术被广泛应用于植物病理学研究中,与其他方法相比,深度学习有较高的准确率。LI 等[75]提出了一种基于深度学习的自定义主干网植物病虫害视频检测体系结构,将视频转换为静止帧发送到用Faster-RCNN 作为框架的静态图像检测器进行检测,检测过的帧重新合成视频,该方法能够实现对水稻视频的检测。SLADOJEVIC 等[76]研发了一种基于深度卷积神经网络的植物病害识别模型,该模型能够识别出13种不同的病害,并且能够很好地区分叶片和周围环境。由于深度学习在图像处理中有显著的优势,因此,深度学习能够在一定程度上解决植物病虫害检测所面临的困难。基于深度学习的病虫害检测技术不仅能够检测病虫害类型,还能对感染程度做出判断。但是,目前植物病虫害相关的公开数据集较少,不能满足研究需求,在未来需要注重相关数据库的建设。

2.3 与产量相关的性状和产量预测

作物产量与收获植物器官如禾谷类作物种子的生物量有显著的相关性,单位面积穗数、每穗粒数以及籽粒质量是评估产量的重要指标[77]。然而在现实中很难测量、获取这些指标,因此,常通过研究与产量相关的表型性状来预测产量。与产量相关的表型性状主要有地下和地上两部分:地下部分包括植物根部的根系尺寸、根系三维形态以及结构特征等[78];地上部分包括一些重要器官的形态参数,如叶长、叶宽、冠层面积以及植株高度等,还有一系列重要农艺性状,如分蘖数、单位面积穗数等[79,63]。随着图像识别技术的发展,图像识别成为自动化产量预测的关键技术。HU 等[29]提出一种基于X-ray CT 的稻穗3D 图像自动分析方法来提取谷粒3D 性状,包括粒数、粒长、粒宽、粒厚和谷粒体积等23 个性状,为作物产量预测提供了基础。除了植物根部性状、叶片性状以及农艺性状外,与光合作用有关的性状以及植物生长曲线也可以用于产量预测。生长率通常是通过计算地上部分生物量得到的,而传统的地上部分生物量测量方法对作物有一定的破坏。针对传统生长率测量存在的问题,DEERY等[26]提出一种基于激光雷达的小麦地上部分生物量和生长率可重复性检测方法,利用地面激光LiDAR技术对拔节期到开花期的98 个不同基因型小麦的冠层表型信息进行获取,用以评估地上生物量和生长率。

部分作物产量预测方法建立在对果实目标有效识别的基础上,例如研究人员通过设计水果独特的特征属性如颜色、纹理、形状等,从背景树叶中鉴别出水果,然后采用基于区域和计数的方法估计水果产量[61]。对作物果实目标的识别往往受不同生长时期果实的颜色、形状、纹理、位置和大小等动态变化的影响,特定的算法通常只适用于特定生长期的果实识别。深度学习是解决产量预测中果实目标分割困难的关键技术。李志军等[80]以苹果树为研究对象,提出了一种包括改进YOLOv5 果实检测算法和产量拟合网络的产量预测方法,结果表明,该方法能够准确检测果实,并能很好地预测果树产量,基本满足自然环境下树上苹果的测产要求,为智慧化果园管理提供了技术支持。除在水果产量预测中的应用外,深度学习技术还可用于水稻、小麦等粮食作物的产量预测,ALKHUDAYDI 等[81]提出了基于深度学习识别田间条件下英国面包小麦穗区域的表型分析方法,利用分布式表型分析工作站CropQuant 收集的小麦图像,开发了一种基于深度学习的分析管道,用于复杂背景和穗区分割。采用全卷积神经网络(FCN)对图像进行语义分割,从而分割小麦穗区域,为提取单位面积穗数和每穗小穗数等与产量相关的性状奠定了基础。

3 研究展望

近年来,国内外的植物表型组学研究均取得了大量成就,在表型采集设备以及表型数据分析方面都取得重大进展,构建了大量高通量、高精度的表型研究平台。植物表型组学是数字农业转向智慧农业的关键技术之一,其已逐渐渗透到农业生产中,为智慧育种和智慧种植提供了技术支持,但是目前植物表型组学研究仍存在一些不足,在未来的研究和应用中需要进一步完善。

(1)在表型数据采集方面,首先,集成多种传感器的表型采集平台是未来研究的重点[13]。单独使用某种传感器存在测量样本批量小、数据处理速度慢、表型参数单一等问题。多个分辨率高、抗干扰性强的传感器融合,可实现同时测量多个表型参数,获取更全面的表型数据。其次,当前很多表型研究缺少对植物生长环境的监测[13],生长环境对植物的影响不可忽略,同一作物的相同基因在不同环境下的表型可能不同。应在表型采集平台中加入相应的环境信息采集设备,在记录表型信息的同时记录环境信息。此外,要促进低成本、高通量、高精度的植物表型数据获取设备的发展,提高植物表型数据获取的效率。

(2)在表型数据解析方面,随着高通量表型数据采集技术的发展,植物表型数据呈现出多样、海量的特点,这给表型数据解析带来了巨大的挑战,人工智能和计算能力是表型技术普及应用的突破点。深度学习在海量数据处理和图像处理中有显著的优势,以深度学习为框架的算法逐渐成为植物表型数据分析的关键技术。三维重建技术是表型研究的一个热点,它提供了一种无损观测不同环境和不同时期植物表型的方法。在未来的发展中,应将深度学习、机器学习、三维重建等技术相互融合,以解决现存的技术瓶颈,提高表型数据分析的效率。

多学科融合是植物表型组学未来的发展方向,随着表型数据采集技术和分析技术不断进步,有越来越多高精度、高通量的表型研究平台用于智慧农业建设中,为智能、高效的作物管理和育种提供技术支持。植物表型组学的进一步发展将推动我国智慧农业的发展进程。

猜你喜欢

组学表型性状
珠海长肋日月贝形态性状对体质量的影响
织锦巴非蛤形态性状对体质量的影响
基于衰老相关分泌表型理论探讨老年慢性阻塞性肺疾病患者衰弱发生机制
探访“人类表型组”
作物表型组学和高通量表型技术最新进展(2020.2.2 Plant Biotechnology Journal)
填充型纳流液相色谱长柱的蛋白质组学分析性能考察
亲水作用色谱/质谱联用方法用于膀胱癌患者血清代谢组学研究
学生学习方式创新谈
甜玉米主要农艺性状的研究
本草基因组学