机器学习在植物表型中的应用进展
2023-06-02李阿蕾戴志刚陈基权邓灿辉唐蜻程超华许英张小雨粟建光杨泽茂
李阿蕾,戴志刚,陈基权,邓灿辉,唐蜻,程超华,许英,张小雨,粟建光,杨泽茂
(中国农业科学院麻类研究所,湖南长沙 410221)
植物表型包括从细胞层面、代谢层面到植株层面等由基因型和环境互作产生的生理生化及物理特征与外在可辨识的全部性状,表型组学可以获取生物体范围内所有高维表型数据[1],从基因水平的SNP、分子标记到转录组水平的DNA 甲基化、蛋白质修饰,再到外观特性水平的株型、抗性与产量等研究都属于植物表型组学的范畴[2]。在可查阅到的最早文献中,1997年Schork[3]在医学领域首次提出表型组学的概念,起初只是为方便复杂疾病的研究,但近十几年随着对表型组学研究的深入,越来越多的研究领域引进表型组学的概念[4]。
在植物科学领域,传统植物表型通常依靠人工或借助少量仪器测量统计植物相关性状,不仅效率低,还需使用大量人力物力,误差大、随机性高、准确率低。随着表型组学概念引入植物科学领域,植物表型组学研究也有了极大的进步。植物表型组学研究顺应潮流,逐步抛弃繁杂的人工统计,同信息科学有机结合。近年机器学习在人工智能方向发展迅速,作为人工智能中的重要组成,机器学习使用代表性数据训练的算法预估其他数据的输出结果,其过程并不依赖人的主观思想,是机器自主习得的算法[5]。
机器学习辅助植物表型研究流程主要分为获取原始数据、数据预处理、特征数据提取与选择、训练集评估和输出预测数据等5 个步骤[6-7]。在原始数据获取和数据处理方面,表型组学数据具有多态性(Variety)、时效性(Velocity)、数据量大(Volume)和高维度(High dimension)、高复杂性(High complexity)、高度不确定性(High uncertainty)的3V 和3H 特征[8],传统表型获取方法难以达到如此高的要求,但机器学习实时成像、存储数据量大、速度快、准确性高的特征[7]和表型组学数据需求十分契合,能为表型数据获取分析提供有力支持。在表型数据特征提取方面,原始表型图片存在青苔和泥土等噪音干扰的问题[9],作为最常用机器学习图片分割算法,K-means 等可对植物和噪音的光谱信息、颜色等信息进行分割,确保表型分割的准确性和有效性。训练集评估方面,机器学习有丰富的算法,植物识别、分类、病虫害检测甚至产量等表型研究指标,都可以在机器学习中找到适用算法。输出预测数据方面,众多研究结果显示[10-12],机器学习输出的植物表型模型准确率可达80%以上。未来植物表型的深入研究离不开同机器学习紧密结合,用机器学习辅助植物表型研究将会使植物表型研究范围扩大,结果更可靠。
1 机器学习
1.1 机器学习定义及分类
作为人工智能的重要一环,机器学习通过学习人为输入现有数据(图片、语音和文本等),自主构建对应复杂的数据模型,以预测其他相似数据[13]。机器学习可分为监督学习和无监督学习两种方式:监督学习是机器学习中最普遍的方式,通过对部分已添加标签的数据进行训练后用来预测剩余数据的结果,在电子科技、地质探索、生命科学等领域都有涉及;无监督学习是将全部数据输入,再由机器探寻各个数据之间相似与差异的地方,进而依照数据的特征将结果分类输出,无监督学习过程几乎没有人为因素参与。基于监督和无监督学习,机器学习又演化出半监督学习和强制学习等新型学习方式。
1.2 机器学习经典算法及应用
机器学习的多种算法都可应用在植物表型研究中,既有单一算法,也有多种算法组合的多分类器(MCS)算法[14-17]。经典单一算法有卷积神经网络(CNN)、支持向量机(SVM),除此还有K 近临(KNN)、随机森林(RM)和决策树(DT)等算法。支持向量机、卷积神经网络、随机森林泛用性广,在植物识别、分类、预测等方面均适用,是最常用的机器学习算法。决策树和随机森林算法效果相似[18],可以很好地处理离散和回归的问题,但随机森林处理大数据效率低,适用于小数据集。K 近临属于半监督学习[19],原理简单,可处理大量数据[18],但准确率不如随机森林。下面将着重介绍SVM、CNN 等代表性算法及多种分类器算法在植物表型研究中的应用。
1.2.1 支持向量机(SVM)
支持向量机是机器学习最常用的算法,属于监督学习的一种,通过非线性变换将输入数据映射到高维特征空间,以找到最优线性边界超平面,已成功应用在各种植物病害识别的场景。因支持向量机算法对被黄龙病感染的柑橘叶片的分类效果好,Wetterich 等[20]在数据预处理中利用支持向量机提取的特征作类的输入,采用归一化图切割对数据进行分割,共现矩阵提取纹理特征,开发出柑橘黄龙病感染快速检测技术,准确率高达90%。
1.2.2 卷积神经网络(CNN)
人工神经网络(ANN)可以根据人类的期望结果来调整数据的输入,被广泛地应用于以结果说明输入的说明性分析。卷积神经网络(CNN)是人工神经网络的一种,拥有非常强大的图像处理能力[21],在植物叶片分类中应用广泛[22]。Hao 等[23]首次建立了一套不同光强胁迫下的生菜叶片图像,根据莴笋鲜重与光强胁迫的关系,将莴笋叶片分为4 类,构建多尺度分层卷积神经网络结构MFC-CNN 对叶片胁迫水平进行分级,通过对比实验验证模型的性能,发现采用融合策略的算法在叶片分类任务中十分有效。
1.2.3 多分类器算法应用
相比于单一的机器学习算法,多种分类器结合算法具有更高的准确率和更广泛的适用性。YANG 等[10]采用卷积神经网络(CNN)算法对玉米籽粒霉变等级进行图像特征分类提取,将K 近邻(KNN)、支持向量机(SVM)和偏最小二乘判别分析(PLS-DA)分类器结合光谱和图像特征建立玉米粒霉变分类模型,分类结果表明,结合多种分类算法的分类正确率可高达99%。由此可见,基于融合特征建立的机器学习方法能够有效提高植株受害的识别能力。
Araujo 等[24]提出了一种基于叶片图像纹理和形状特征的多分类器系统(MCS),在4 个不同的特征集上训练不同的支持向量机和神经网络分类器,结果表明,结合多分类器是一种有效的植物自动识别策略,MCS 的识别性能比单片方法提高了28%。Massi 等[25]提出了一种基于神经网络和支持向量机分类器并行组合的多分类器系统,对采叶虫潜叶蝇、蓟马、土蜂番茄潜叶蛾3 种病虫危害和早疫病、晚疫病和白粉病3 种真菌病的症状进行了6 类测试。与现有方法相比,多分类器方法具有较高的识别率。Dat 等[26]通过结合多模态CNN 的损失函数,提出多种CNN 集成训练改进的药草叶片识别技术,用于基于集成学习的联合学习多损失任务,与单一CNN 算法相比,多集成器算法可以显著提高准确率并有一定的鲁棒性能。
2 机器学习在植物表型研究中的应用
随着植物表型研究的深入发展,对表型数据的采集分析方式也提出了更高的要求,尽管有高光谱图像、荧光成像、热成像等多种表型数据采集的方法,但是采集过程中还会出现植物冠层干扰重叠、采集时间不同、光照强度不同等影响因素。机器学习开发出可移动采集车、无人机、雷达、卫星等多种表型数据采集平台,无论是室内小空间还是户外低空甚至高空等条件下均有相适配的采集平台,且机器学习具有无人为主观因素干扰、自动处理数据量大、结果准确率高等优点,在植物研究的表型数据采集、分析和图片处理等方面显示出极强的优势。这里将介绍机器学习在植物育种、抗逆和识别中的应用。
2.1 机器学习在植物育种中的应用
机器学习是科学研究常用的方法,在语言识别[27]、医药开发[28]、疾病诊治[29-30]等方面都有成熟的研究方式,但在植物科学研究中该技术尚不成熟,多集中在作物产量预测方面。植物表型包括株高、叶型叶色、穗粒重、淀粉含量、糖分含量等各种质量特性和品质特性,如何准确快速地识别植物特征以及简化田间育种流程,是植物育种主要的研究目标之一。
机器学习在植物产量预测中使用广泛,Parmley 等[31]为研究大豆产量与不同耕作方式下表型性状之间的关系,使用随机森林算法训练大豆产量预测模型,利用不同生长时期的大豆冠层温度、叶绿素含量、高光谱反射率、叶面积指数等表型特征确定变量的最佳时间组合。结果表明,机器学习方法可以用于确定农业生产中特定的作物产量预测因子。作为2018年先正达作物挑战赛的获奖团队,Khaki 团队利用最先进的建模技术,设计了深度神经网络(DNN)预测方法,结合9年2247个地点2267 个玉米品种的基因型和产量数据,对2017年玉米产量进行预测,模型预测精度极高[32]。Silva Júnior 等[33]基于表型信息和先前已知的遗传结构,利用计算智能和机器学习技术,评估了主性状的辅助性状的重要性,利用计算智能和机器学习可以有效预测植物育种计划中不同情景下辅助性状的相对贡献。
2.2 机器学习在植物抗逆鉴定中的应用
植物病害包括细菌性病害、真菌性病害和病毒性病害等生物胁迫和干旱、冻害等非生物胁迫病害,机器学习拥有强大的图像处理技术,可检测识别多种植物病害图像,且识别灵敏度高于人工鉴定,能在植物受害初期识别出病害,减少病害对植物的危害。
2017年Johannes 等[34]提出了一种通用的多疾病图像处理算法,在识别小麦七星病、条锈病和褐斑病上取得较好的成果,2018年该团队又依据原算法改进,利用基于深度残差神经网络的机器学习算法,处理三年两地的不同条件下的八千多张小麦3 种病害图片,整体平衡精度从第一次的0.78 提高到0.87[35]。
玉米条大斑病是最常见的危害玉米生长发育的真菌性病害,Dechant 等[12]针对玉米条大斑病提出使用高通量图片采集结合卷积神经网络的方法,首先将光谱相机采集的图片分割成数个热图,利用训练神经网络检测图像中受到条大斑病损伤的玉米叶片,再使用神经网络生成热图标注图片中每个区域的感染率,最后使用热图对完整图像进行分类,结果证实该系统可靠性高,试验结果准确率可高达96.7%。
除在农作物抗逆方面应用外,机器学习的多种算法在功能性植物上也有成功运用案例。作为具有经济和药用价值的模式植物,烟草生长过程中常遇到烟草花叶病毒病、炭疽病等影响烟草产量的病害,ZHU 等[36]利用高光谱成像系统采集感染病害的烟草叶片图像,以叶片纹理特征为依据,使用反向传播神经网络(BPNN)、极限学习机(ELM)和最小二乘支持向量机(LS-SVM)模型进行叶片病害识别检测,准确率达到95%以上。
2.3 机器学习在植物识别中的应用
除了通过表型性状鉴定来提高作物育种效率外,机器学习还可对农田中的植物进行鉴别,识别作物和周围的杂草,及时报告杂草对农作物生长的影响,避免农作物产量下降[37]。
Brahimi 等[38]使用卷积神经网络的机器学习算法训练受到病害的番茄叶子分类模型,准确率高达99.18%。与支持向量机、K 近临等基础机器学习方法相比,深度学习识别植物病虫害准确率更高。机器学习方法同高光谱图像采集技术研究在植物耐逆性研究中应用较少,且大部分模型被应用于病虫害、病毒感染等生物胁迫方面。
2021年,Nesteruk 等[11]在欧洲采取远程调控技术对南极温室EDEN ISS 内植物进行分类试验,由于通信的限制,他们使用图像压缩方法传输高通量数据,平均7.2 次/s 的传输速度,将机器学习应用于植物分类技术,虽然压缩图片传输方法可能导致图片失真,但试验结果准确率仍达到了92.6%,此项技术不仅在传输距离上有新的突破,还首次选择压缩图像技术传输数据集。
SUN 等[39]基于手机采集图像自主设计了一个26 层的深度学习模型,使用该模型对北京林业大学内100 种观赏植物的10 000 张图像进行分类,识别准确率达到了91.78%。Pushpanathan等[40]使用几种高性能深度学习算法对药用植物进行自动分类,提出一个由马来西亚12 种不同的高药用价值植物的34 200 幅图像组成的数据集。该数据集由不同比例、不同照明强度和不同角度的数据组成,可为高级分类研究创造更多的机会。
3 总结与展望
目前,机器学习和表型组学结合技术尚在起步阶段,相关研究少且集中于基础研究。植物表型组学是一个庞大的概念,从DNA 到染色体、细胞、组织再到表型都属于表型组学的研究范围,表型组学包含的表型层次类型丰富,但机器学习仅在植物病害监测、分类中有所应用,植物分子层面研究尚不深入。机器学习算法众多,优缺点各不相同[41],支持向量机、神经网络和随机森林所训练出的模型准确率高,是最为常用的机器学习模型,但是支持向量机不能有效地处理多分类问题,随机森林可以用于处理多分类问题但效率过低,决策树虽然使用方便,但结果会出现过拟合风险,朴素贝叶斯、神经网络运行时有无法人为控制的“黑箱”因素,模型拟合结果可靠性一般。
在进行植株表型数据采集时,机器学习还须注意选取合适的采集方法,常用的有高光谱图像、荧光图像[42]、红外光谱、热成像[43]、RGB 成像。高光谱图像是最常用的采集方式,可采集植物生化组成、水分含量、叶绿素含量等信息,精度高;红外光谱、热成像技术常用在监测植物生长变化,获得植株表面温度、气孔导度和蒸腾作用等表型;RGB 图像可获得植物纹理、形态和颜色等信息[44]。表型信息采集方式是影响机器学习输出模型准确率的因素之一。
与植物表型结合对机器学习采集数据平台提出了更高的要求。现已开发出多种适合机器学习采集植物表型平台,例如:与小分子蛋白筛选相适应的高通量筛选系统[45],针对植株根系研制的根系表型采集平台(Root phenotyping platforms)[46],近地端和航空航天超远距离都适用的植物表型采集平台HT3P[47]等。选择与目标表型相适应的采集平台不仅可以提高机器模型准确度,还可以提升表型数据采集的通量,进行精确的抗病育种与类别鉴定。
本文概括了植物表型组学的研究范畴,梳理了机器学习的定义、分析流程和相关算法的优劣类别,重点从植物育种、抗逆和识别3 个方面介绍机器学习在植物表型研究中的应用。尽管机器学习在植物表型领域刚刚起步,理论研究尚不充实,模型拟合结果可靠性有待进一步提升,但机器学习和植物表型组学的交叉融合展现出广阔的前景,在识别植物病虫害等问题中表现突出,将来机器学习会出现更全面、多层次表型获取平台,结合繁多的表型获取技术,涵盖植物表型研究方方面面,助力智慧农业发展。