基于随机森林算法的江西省崇义县主要造林树种适生性研究
2022-06-09黄锦程刘洪生宁金魁欧阳勋志
黄锦程,刘洪生,宁金魁,欧阳勋志,臧 颢
(1.崇义县林业局,江西 赣州 341300;2.江西农业大学 林学院,南昌 330045)
树木生长会受到立地条件的影响,如土壤条件[1-2]和地形因素[3-4]都会影响树木的生长。造林时,树种的选择和配置是首先要解决的问题。如果选择的树种,其生物学特性与造林地的立地条件相适应,即适地适树,该树种的生长潜力才能充分发挥,从而达到该立地在当前技术条件下可能达到的高产水平[5-7]。因此,要充分发挥立地生产力,实现森林质量精准提升,就需要分析适合各树种生长的环境,以此为造林时的适地适树提供参考。
一直以来,国内外学者采用了很多方法分析树种在不同环境下的生长适宜性,即树种的适生性。其中,一些学者常采用林分优势高、平均高、林分蓄积量等因子进行立地质量评价,以某一特定标准(基准年龄、基准胸径、标准密度等)下的林分高或蓄积量等作为树种在该地段生长的潜力[8-10]。如:张博等[11]以福建省三明市将乐国有林场的杉木(Cunninghamialanceolata(Lamb.)Hook.)纯林为研究对象,根据林分高和立地的关系,分别采用标准差调整法和分位数回归方法构建了地位级模型,并以此对杉木林的立地质量进行了分级,从而分析了不同地段上杉木林的生产力水平;Liu等[12]探索了基于蓄积潜在生长量的立地评价方法,并以此对北京市、山西省、河北省和内蒙古自治区等4个地区的华北落叶松(Larixprincipis-rupprechtiiMayr.)人工林的立地质量进行了评价,进而分析了华北落叶松人工林的生长情况。但这种方法只能应用于生长了该树种的乔木林地,当造林或补植时,如果该地段上没有生长该树种,则无法直接应用。而指示植物法则可以通过乔木或者林下植物的种类指示立地特性[13-15],因此没有生长该树种的地段上如果生长有一些植被类型,则可以应用指示植物法进行适地适树的判断。如Jumwong等[16]分别采用指示植物分析法和双向指示植物分析法针对泰国北部3种柚木(TectonagrandisL.f.)人工林的立地质量进行了分析,获取了柚木人工林不同立地等级下的指示植物。尽管指示植物法可以通过地段上生长的植被类型判断树种的适生性,但由于相较乔木树种而言,林下植被的生态适应性更窄[7],因此,仅以林下植被作为指示种时,其外延性较差,同时指示植物法对植被类型的发育程度也有一定的要求,这都在一定程度上限制了指示植物法的应用[15]。为了更好地评价无林地的立地质量,了解树种在特定地段上的生长潜力,一些学者利用地位指数和立地因子之间的关系构建了多元地位指数模型。如:刘聘等[17]对福建省安溪县福建柏(Fokieniahodginsii(Dunn)Henry et Thomas)人工林应用了数量化模型,评价福建柏人工林的立地质量;Fiandino等[18]以阿根廷中部湿地松(PinuselliottiiEngelm.)人工林为研究对象,采用线性模型量化了立地因子和湿地松人工林立地质量的关系。近年来,有学者发现反映森林生长质量的指标与立地因子之间的关系呈现出复杂的非线性关系[19-22],而传统的研究中多是采用线性模型拟合,难以准确地反映这种复杂的关系。作为一种机器学习算法,随机森林近年来常被用于模拟变量间的非线性关系[23-24]。
本研究以江西省赣州市崇义县的5种主要造林树种为研究对象,针对主要立地因子对树种生长存在的影响,采用随机森林算法,模拟了树种适生性与立地因子之间的非线性关系,预测了不同立地条件下各树种的适生性,并进一步探索了影响各树种适生性的主导因子及其在针叶树种和阔叶树种之间的差异。通过本研究,以期为适地适树的理论研究、造林决策的制定和区域森林质量精准提升提供支持。
1 材料与方法
1.1 研究区概况
崇义县位于江西省赣州市西部,属于南岭的北端,地理坐标为25°24′~25°55′N,113°55′~114°38′E。全县属亚热带季风气候,年平均气温20.5℃,极端最高39.9℃,最低-8℃,年均降水量1 638.9mm,无霜期307d。全县总面积2 207.70km2,主要地貌为低山、丘陵,土壤类型有黄壤、红壤等。崇义县属常绿阔叶林生物气候带,主要树种有丝栗栲(CastanopsisfargesiiFranch.)、杉木、马尾松(PinusmassonianaLamb.)、苦楝(MeliaazedarachL.)、南酸枣(Choerospondiasaxillaris(Roxb.)Burtt.et Hill)、木荷(SchimasuperbaGardn.et Champ.)等。
1.2 数据来源
数据来源于2016年江西省赣州市崇义县的森林资源二类调查数据,包括立地因子、林分因子等信息。立地因子有海拔、坡向、坡度、坡位、土壤类型、成土母岩、土层厚度和腐殖质层厚度等。本研究选择了起源为人工林且小班数在100个以上的乔木林小班进行分析,各树种信息如表1所示。
表1 主要林分因子统计
1.3 研究方法
1.3.1基于随机森林的适生性评价模型
随机森林是一种基于集成学习的决策树模型,通过Bootstrap重抽样法对训练样本进行多次随机抽样,生成一系列训练子样本,并用每一个子样本分别训练1棵决策树,组成随机森林[23,25]。随机森林有两个重要的参数,即分类树的数量和各节点备选的变量数。本研究逐个尝试不同分类树的数量(100~1 000)和各节点备选的变量数(1~8)下模型的精度,以此确定最优参数。
为了评价崇义县主要造林树种的适生性,构建的适生性评价模型中,输出变量为各造林树种的适生性衡量标准,输入变量为海拔、坡向、坡度、坡位、土壤类型、成土母岩、土层厚度、腐殖质层厚度等立地因子。
1.3.2适生性衡量标准
常见的衡量适生性的数量标准主要有地位指数、蓄积生长量等[26-27]。考虑到蓄积生长量受密度和经营水平影响较大,而二类调查数据没有优势高,因此难以获取各小班的地位指数。本研究采用地位级指数作为判断各树种适生性的量化标准,若小班的地位级指数低于相同优势树种所有小班的平均地位级指数,则判定为不适宜该树种生长,反之则判定为适宜该树种生长。地位级指数是基准年龄下的林分平均高,可采用基于Champion-Richard的差分方程进行计算[28]。具体计算公式为:
(1)
式中:Hi和ti分别表示第i个小班的林分平均高和年龄;SCIi表示第i个小班的地位级指数;tbase为基准年龄;β1,β2为待估参数(通过Champion-Richard方程构建林分平均高-年龄的模型即可得到β1和β2的估计值及标准差)。各树种基准年龄如表1所示。
1.3.3立地因子重要性评价
为了评价立地因子对各树种适生性的影响程度,以各立地因子对模型精度的影响大小,即随机森林算法中的平均下降精度作为重要性评价标准[26-27]。具体步骤为:
1)依据袋外数据计算每个决策树的模型预测误差。
2)将待评价的立地因子的数值随机重置后,再次计算每个决策树的模型预测误差。
3)计算每个决策树前后两次预测误差的差值,并以此对所有决策树求平均值,该平均值即为平均下降精度,可作为衡量待评价的立地因子的重要性指标。其数值越大,说明该立地因子越重要。
1.3.4模型评价指标
模型的精度指标包括训练精度和泛化精度,其中,训练精度即对建模样本应用模型计算得到的精度,泛化精度即为对验证样本应用模型计算得到的精度[29]。本研究采用五折交叉验证计算模型的泛化精度,并以此作为模型调整参数的标准。模型的总体精度可由(2)式[26-27,29]计算得到。
(2)
式中:A表示模型精度;NTP表示实际适宜该树种生长,模型预测适宜树种生长的小班数;NTN表示实际不适宜该树种生长,模型预测不适宜树种生长的小班数;NFP表示实际不适宜该树种生长,而模型预测适宜树种生长的小班数;NFN表示实际适宜该树种生长,而模型预测不适宜树种生长的小班数。
计算分类精度时,则由各类别预测正确的小班数除以该类别的小班总数计算得到。
所有数据处理及制图均在R语言系统中完成,其中,应用Random Forest包构建随机森林模型,应用ggplot 2包进行绘图。
2 结果与分析
2.1 地位级指数的计算
各树种地位级指数的参数如表2所示,所有参数均显著(α=0.05)。将表中参数值代入(1)式即可计算出各小班的地位级指数。
表2 地位级指数的参数
2.2 适生性模型参数的优化
以模型的泛化精度为评价标准,得到的各树种适生性模型参数优化情况如图1所示。总的来看,相较阔叶树种而言,针叶树种的适生性模型对参数的变化不敏感。其中,杉木适生性模型的精度变化范围为69.23%~72.79%,马尾松的精度变化范围为80.01%~84.18%;而阔叶树种的模型精度则在不同参数下表现出较大的变化,木荷的精度变化范围为60.03%~77.99%,苦楝的精度变化范围为63.05%~81.22%,南酸枣的精度变化范围为72.33%~80.56%。依据模型精度,各树种适生性模型的最优参数值及精度如表3所示。
注:“mtry”是各节点备选的变量数(1~8)。
2.3 适生性模型的验证
依据表3得到的各树种的最优参数重新模拟各树种的适生性,得到各树种的训练精度(表4)。总的来说,所有树种的精度均大于88.00%。就总精度和分类精度而言,杉木的精度均为最低,而南酸枣的精度均为最高。对实际类别不适宜和适宜小班,各树种的训练精度差异不大。因此,可以认为构建的适生性模型具有较好的预测效果,在进行选树适地时,可依据构建的适生性模型分析适宜该地段生长的树种。表5给出了部分小班的树种适生性预测结果。
表3 基于五折交叉验证的适生性模型参数优化结果
表4 不同类别的训练精度
表5 适生性模型的预测结果
(续表)
2.4 立地因子对适生性的影响
以随机森林算法中的平均下降精度作为立地因子重要性的评价指标,平均下降精度越大,则对应的立地因子重要性越高。各立地因子重要性评价结果如图2所示。立地因子对不同树种适生性的影响并不一致,影响杉木和马尾松适生性的立地因子重要性排序比较相似。影响杉木适生性的立地因子重要性从大到小排序依次为腐殖质层厚度、海拔、土层厚度、坡度、土壤类型、坡位、坡向、成土母岩,而马尾松的则为海拔、土层厚度、腐殖质层厚度、坡度、土壤类型、坡位、坡向、成土母岩。影响阔叶树种的主要立地因子并不完全一致,对木荷适生性的立地因子重要性从大到小排序依次坡度、坡向、坡位、土壤类型、土层厚度、腐殖质层厚度、海拔、成土母岩,影响苦楝的则是腐殖质层厚度、土壤类型、坡位、坡度、坡向、海拔、成土母岩、土层厚度,而影响南酸枣的则是坡度、海拔、土壤类型、腐殖质层厚度、土层厚度、坡向、坡位、成土母岩。
图2 立地因子重要性评价
选取对各树种适生性影响最大的立地因子,采用随机森林进行边际效应分析,结果如图3所示。由图3可知:研究区腐殖质层厚度为25~30cm的地区比较适合杉木生长,而适合马尾松、木荷、苦楝和南酸枣生长的分别是海拔小于250m、坡度小于15°、腐殖质层厚度在8~13cm和坡度小于5°的区域。
图3 主要立地因子对5种树种适生性的影响
3 讨论与结论
森林经营过程中,把造林树种栽种在适合其生长的地方,从而使造林地的“地”与造林树种的“树”相适应,即适地适树[30-32]。本文以江西省崇义县的5种主要造林树种为对象,应用随机森林算法构建了5种树种的适生性模型,以此分析了各树种的适地适树问题。结果显示,基于五折交叉验证的5个树种适生性模型的泛化精度在72.79%~84.18%之间,而采用全部数据作为训练样本时的模型总训练精度在88.69%~98.92%之间,对实际类别为适生的训练精度在88.84%~98.50%之间,对实际类别为不适生的训练精度在88.56%~99.31%之间。可见,具有较高的分类准确率,可以对给定立地因子的造林地进行各树种的适生性预测。
利用随机森林的变量重要性评估功能,本研究分析了8个立地因子对研究区5种主要造林树种适生性的影响程度,研究结果表明:1)研究区内对针叶树种(杉木和马尾松)适生性影响较大的立地因子均为腐殖质层厚度、海拔、土层厚度。相关研究[26,33-34]中,尽管腐殖质层厚度、海拔、土层厚度对杉木和马尾松生长的重要性存在一定差异,但总体上均为对杉木和马尾松生长影响较大的立地因子。2)研究区中对阔叶树种影响较大的立地因子则因树种而异,对木荷适生性影响较大的立地因子为坡度、坡向和坡位,而对苦楝影响较大的则是腐殖质层厚度、土壤类型和坡位,而南酸枣的则是坡度、海拔和土壤类型。目前,国内在阔叶树种适地适树方面的研究较少,且影响生长的主导因子也因树种而异。如:李绍忠等[35]以东北地区珍贵阔叶树种为研究对象,采用逐步回归和地位指数分析了各立地因子对造林树种生长的影响,结果发现影响特定树种生长的主导因子并不一致,影响黄波罗(PhellodendronamurenseRupr.)生长的主导因子是土壤湿度和淋溶层的土层厚度,影响胡桃楸(JuglansmandshuricaMaxim.)和水曲柳(FraxinusmandshuricaRupr.)生长的主导因子则是坡向和土壤湿度,裂叶榆(Ulmuslaciniata(Trautvetter)Mayr)受土壤湿度和坡度影响较大,紫椴(TiliaamurensisRupr.)则受坡度影响较大;罗也等[36]也以东北三省的胡桃楸为研究对象,分析了立地因子对胡桃楸地位指数的影响,结果显示坡位是最主要的影响因子,这与李绍忠等[35]的研究并不一致;杜雨菲等[27]以广西桉树(Eucalyptusspp.)人工林为研究对象,分别采用了朴素贝叶斯、支持向量机和随机森林算法构建了桉树适生性分类模型,结果显示海拔、土层厚度、坡向是影响桉树生长的主导因子。总的来说,立地因子对不同树种的适生性影响并不相同,因此在造林时,应根据经营目的和树种的特性综合考虑各立地因子的影响程度,以使得所选地段能使该树种的生长环境尽可能处于最佳组合状态。如果没有地段能同时使得所有立地因子均为最适,则应优先保证主要立地因子。
基于随机森林算法构建的树种适生性评价模型可以较好地对造林树种的适生性进行预测,为适地适树和区域森林质量精准提升提供了决策依据。考虑到树木的生长不仅受到立地因子的影响,也会受到气候和土壤养分的影响[1,24],因此下一步可考虑将气候因子和土壤物养分因子也作为输入变量,以便能获取更精准的适地适树的决策。