基于计算机技术的竹种分类研究进展

2022-02-11汪紫微代福宽岳祥华王汉坤田根林

世界竹藤通讯 2022年6期

汪紫微代福宽岳祥华王汉坤田根林

(国际竹藤中心, 国家林业和草原局/北京市共建竹藤科学与技术重点实验室北京 100102)

全球现有竹类植物1 642种，广泛分布于亚洲、非洲、拉丁美洲[1]，是禾本科植物中的重要经济植物，享有“树的最佳替代，草的最高境界”之美誉，是一种具有优良机械性能的可再生资源。分类学研究是竹类资源开发利用的基础，但不同于其它按花、果进行分类的被子植物类群，绝大多数竹亚科植物很难开花，且一旦开花大片竹林就会枯死；竹子果实大多为颖果，差异较小，这些特殊的生物学特性决定了对竹类植物进行分类并非易事[2-4]。目前，竹类植物分类方法主要有经典形态学分类[5-7]、解剖特征分类[8-10]、分子生物技术分类[11-13]，但这些技术不仅需要依靠经验丰富的专业人员，而且费时费力，还存在主观性、模糊性与效率低等问题。随着信息化时代的发展，计算机技术被广泛应用于植物分类[14-16]，其以数据为驱动，脱离人工，由机器计算、学习，进而实现分类，节省了大量人力物力，也避免了人为主观判断带来的偏差。本文介绍了计算机科学在竹种分类学上的应用实例，阐述了从基于数量分类学至基于机器学习分类的历程，以期为竹种分类提供思路，也为竹类植物资源的保护和可持续利用提供依据。

1 基于数量分类学的竹种分类

植物数量分类学自20世纪50年代出现后便被广泛应用，主要是将植物性状归类成类元，把分类学的研究从定性的描述提高到定量的综合分析[17-20]，为研究植物、划定分类等级提供了新思路。数量分类学也一直伴随着我国竹种分类体系的建立，研究者们从表型性状方面和组织层面入手，通过分析、比较、讨论为分类原理提供方向与佐证，进而达到分类、鉴别的效果。

1.1 表型性状方面

竹子的表型性状包括以花、果为代表的生殖体性状和以分枝、秆箨、竹叶为代表的营养体性状[21-24]，数量分类学以标记这些特性为起点。陈守良等[25]将数量分类手段运用至常见的散生竹上，以13个属的21个竹种为分类对象，选取地下茎类型、秆枝个数、箨叶性状、叶片特征、花与花序形态等52个表型性状特征和1个地理分布特征作为分类依据，根据相似性绘制出聚类图，并开创性地提出了结合线分类法，即通过将聚合过程描点，以结合水平和结合次数为横、纵坐标绘制出结合线的方式来确定类群分界线的方法；其结果反映了散生竹属之间的亲缘关系，同时也对经典分类系统作出了合理的校正。李德铢等[26-28]选取了15个竹种进行数量分类学运算，共选取60个性状，采用聚类算法、结合线法作出树状图、结合线图，依据分界线划分的第一、二级类群提出更倾向于大属分类的观点(即第一、二级类群为亚属或组、属，而不是属、族)，这一结论与经典分类学相吻合，也支持了广义牡竹属的观点，有效解决了牡竹属及其邻近属分类等级混乱的情况。张汉尧等[29]将竹类资源丰富的云南作为观察地，运用实地观察和测量的方法，针对26个竹种的41个性状进行了研究，对所得的数据进行聚类分析，聚类结果与传统分类结果基本相似，但有些地方存在一定的差异；如黄竹是牡竹属的竹种却与簕竹属的竹种聚在一起，料慈竹是簕竹属的竹种却与牡竹属的竹种聚在一起，这些差异可能与选用的性状不够全面有关，也可能与传统分类过分突出花部性状有关；但毋庸置疑，借助数量分类学的方法克服了仅依靠少数几个性状进行直观经验性分析的弊端。竹类群落的划分也可依赖于数量分类法，张映堂等[30]用多种数量分类法结合多种聚合策略，对滇南3个地点的天然竹林中的20块样地进行了划分，其中主分量排序法与类平均法所得结果与实际情况更符合，证明数量分类法可应用于天然竹类植物群落分类。自然环境下的集群必然存在变异[31-35]，从居群角度探究与地理分布相适应的变异对分类也有益。吴豪等[36]、龙春玲等[37-38]以居群为单位对分布于13个自然居群的井冈寒竹复合体进行调查和分析，选取节部、节间、分枝和叶片等部位的13个性状，用SPSS软件进行单因素方差分析、变异系数分析、相关性分析，筛选出7个具有分类学价值的性状，即胸径、节数、枝下高、叶长、叶宽、叶长宽比和枝盘数，为复合体竹种分类提供了可靠的信息，由此推测复合体的系统演化与地理上的隔离分化有较大的关联。

1.2 组织层次方面

竹类植物由维管束与薄壁组织组成，维管束镶嵌在薄壁组织中为增强相，薄壁组织为基体相。典型维管束类型有5种，按进化顺序分别为双断腰型、断腰型、紧腰型、开放型、半开放型[39-40]，利用竹子维管束解剖形态作为区分属、种的研究有不少，但大多局限于定性描述[9-10,41-43]，少见定量研究。高智慧等[44]以中国常见的17种散生竹为分类单位，使用Fuzzy直接聚类分析维管束类型，分别选取竹秆上、中、下3段各类型维管束作为分类的性状，根据矩阵之间的相似程度在任意λ水平上进行分类，发现当λ=0.65时，散生竹的17个竹种可归并为12个属，与经典分类结果基本一致。

在天然竹类植物属间分类、种间分类、群落划分中，数量分类法作为一种辅助和验证是可行的，它是分类的又一种重要途径，能综合多种性状因子进行分类，可以减少主观片面性，分类结果也更符合客观实际，且较之其他一些分类法更加简便。但在具体应用时需注意：原始特性选取是否合理；各类编码是否准确、科学；分类方法选择是否恰当。

2 基于机器学习的竹种智能分类

当今，人工智能属于应用研究的热门领域，这为植物分类发展带来了新机遇[45]。目前人工智能用于植物分类的主流方法主要有2种：一种是传统的通过标注特征、提取特征、分类器分类获得结果的传统机器学习[14-15]；另一种是通过深度卷积神经网络分层提取、分析和理解图像识别要素的深度学习，其内部的多隐层、非线性结构使系统了解输入和输出之间的复杂关系，并能自主学习、不断优化，而后基于经验判别物种所属类别[16]，其优势在于不需要像机器学习一样手动提取、制作特征。

2.1 传统分类器分类

传统分类器主要依赖于人工设定好的特征或一些特征描述子，例如梯度直方图、灰度直方图和傅里叶矩等，这些特征通常仅仅是对图像中表层的信息进行描述与表征，特征选取后还需进一步选择分类器，将用于分类的特征输入至分类器调节各部分参数，属于一种基于数据和多参数定量分析的方法[14-15]，该方法在解决约束较多的问题上效果明显。

李欣[46-47]等基于支持向量机(SVM)，将ReliefF算法、Ranker搜索作为属性选择(AS)策略，采用网格搜索和K-交叉验证法优化RBF(径向基函数)-SVM的各项参数，构建了一种优化的AS-PO(参数优化)-SVM分类模型依据常见的形态学特征，选择地下茎、竹秆、竹箨、竹叶、花等56个性状作为分类依据，对46个竹种进行分类，取得了较好的分类效果，并在竹种数据库中进行小样本实例验证，准确率达到95.65%，证明了该模型对竹种分类的有效性。为研究叶片性状特征及其特征组合对竹种识别准确度的影响，找出分类效果较好的特征组合，周必铙等[48]研究了16个属下的70种竹子，结合Python语言、OpenCV库识别叶片扫描图像，测算叶片的长度、宽度、面积、周长和最小外接圆面积，同时计算出叶片外接矩形面积、叶片周长与面积的比值、叶片面积与外接矩形面积的比值和与叶片面积相等圆的直径，共9个指标作为分类特征。比较单个性状、组合性状的准确率，最终选取5个性状作为分类特征，分别为叶长、叶宽、叶面积、叶周长、叶周长与叶面积之比；结果显示16个属中有14个属的识别准确率达到80%以上，其中5个属达到90%以上，倭竹属的准确率更是达到100%，这证实了SVM分类器基于叶片性状组合对多个竹种进行分类的可行性，且在属、种水平上均达到了较好的分类效果，为竹子分类研究提供了一种多维度定量分析方法。沈逸[49]在叶片形状特征向量的基础上又增加了纹理特征向量，并对比极限学习机、SVM、概率神经网络和基于遗传算法的反向传播(GA-BP)神经网络4种分类器的分类效果，极限学习机分类准确率为72.45%，分类效果不理想，可能与样本量较少、竹叶相似度高或者分类器性能有关。此外，竹叶形态随着环境变化其波动性大，以竹叶为对象进行竹种分类可能需要整合大量数据、采集各地样本，提高数据的多样性、均衡性，以此来达到区分竹种的目的。Singh等[50-51]直接提取竹箨叶的中心矩、勒让德矩以及傅里叶矩描述子特征，对比分类精度和分类时间，认为傅里叶矩是最适合用于处理形状特征的描述子。Parismita等[52]将高分辨率相机拍摄的印度地区5种竹子的竹秆部图像和竹叶图像作为数据，打破了以往的重叠特征算法，采用投票的方式设计程序，拟通过特征向量、Sobel边缘检测以及骨架化进行K-近邻算法(KNN)分类。Tong等[53]将光谱技术与分类算法结合，采集了4种竹笋的近红外光谱，对光谱图进行预处理后选择分类的区域，得到了可靠的分类算法，为竹笋分类提供了一种快速、无损的方法。生物质材料特性多种多样，在加工利用中如何选取代表性性状筛选优异竹材也十分重要，岳想想等[54]用主成分分析降维法获得6个综合主成分数据，通过聚类法可将综合性能优异的竹材聚成一类。

2.2 深度神经网络分类

基于图像分类、识别领域等方面技术的需要，计算机技术不断进步，更深层次的网络模型应运而生，这些模型可以由浅及深、由表及里地提取、学习高复杂度图像下的识别、分类作业，其拥有自主学习目标特征能力、多卷积核和权值共享等特点[55-58]，处于自然环境下的物体也可被准确定位、识别。竹类植物生长环境大多复杂且混乱，是否可将此技术应用至处于野外环境的竹类植物上，研究者进行了探索。

段慧茹[59]选用自然环境下摄像机采集的竹种图像作为数据集，选用4种深度神经网络模型，为了减少图像背景的干扰，用显著性检测算法RC获取显著图，通过最大类间方差法截取竹种显著区域，并进行纵横比为1的分割；结果表明，该方法能有效改善竹种图像的分类效果，竹种分类精度从初始的87.31%提高至93.09%。王志玲等[60-61]以将模型部署至手机端为目标，对网络模型进行压缩处理，使模型的占用内存空间和运行速度都能适应手机端，这为竹种识别进入大众视野提供了有效思路。Jupal等[62]收集印度地区5种竹类的图像数据，以此作为输入，分别构建了4种分类器算法和2种神经网络模型，发现深层模型的准确率最高可达98%，远远超过了传统分类器算法。

基于竹类植物图像的分类法是切实可行的，随着数字图像智能化的普及，该项技术也是未来发展的一大趋势。今后，研究人员可收集更多样的图像数据，搭建、更新、扩充数据库，优化算法和模型的泛化能力以及识别准确率，以获得更高效、高精度的分类结果。训练后的算法和模型可移植到PC端、手机端，在竹材加工利用中和日常生活中便可随时、随地对竹种进行分类以及识别。