APP下载

基于Apriori算法的浙西杉木用材林立地及生长因子关联分析

2019-07-24晨,

浙江农林大学学报 2019年4期
关键词:腐殖质项集覆盖度

董 晨, 夏 凯

(1.浙江农林大学 信息工程学院,浙江 杭州311300;2.浙江农林大学 浙江省林业智能监测与信息技术研究重点实验室,浙江 杭州311300)

在森林经营中,立地质量是衡量某一立地上森林生长环境以及植被生产潜力的重要指标,对林分的生长收获具有重要影响。不同立地条件的林分,林木的生长状态不尽相同,从而影响林分的最终收获。构成立地条件的因素很多,坡度、坡向、海拔等是影响林木生长的重要因子,选择正确的立地因子,并能找出主要立地因子对林分生长影响的规律性,这对于林木的引种栽培、适地适树、造林地选择以及科学评价林分的立地质量都有重要的实践意义。目前,关于立地因子与林木生长相关研究的报道已有不少,研究方法主要集中为2类:一是根据不同的立地因子对林分调查数据进行分组分类,单独分析每项立地因子不同分类下林木生长的差异[1-3];二是通过构建数量化模型来探索立地因子与林木林分生长因子之间的相关性,在这方面的研究中,多见于构建林木生长因子和立地因子的多元回归模型来体现[4-5]。然而,目前已有的立地因子与林木生长因子的相关性研究仅简单分析了部分立地因子与生长因子的统计学相关程度,并无量化其重要性程度及深入挖掘立地因子间存在的关联,同时,影响林木生长的立地因子也通常依靠经验进行选取,忽略了一些潜在的相关因子,使得研究结果具有较大的主观性。因此,寻找一种能快速自动地对立地因子与林分生长进行深入分析,从中挖掘出因子之间所隐藏关系的方法,对后期评估森林资源数据、指导林业发展显得非常必要。数据挖掘作为一个新兴的多学科交叉应用领域,是从大量、不完全、有噪声、模糊、随机的数据中,提取隐含在其中的、人们事先不知道但又是潜在有用的信息和知识的过程[6-7],在森林资源管理与决策领域,数据挖掘技术在林分收获[8]、林业遥感[9]、生物量预测[10]、林火模拟[11-12]等方面有着一定的应用。数据挖掘中的一个重要任务是关联分析。关联规则挖掘是发现大量数据中项集之间一定的关联或相关联系[13]。关联规则挖掘算法有数种,其中,Apriori算法由于其简单、易理解、数据要求低的特点,被广泛应用于各个领域[14-15]。杉木Cunninghamia lanceolata在浙江省用材林中占有重要的地位[16]。本研究以浙西杉木人工用材林为研究对象,使用Apriori算法对杉木用材立地因子及其生长指标进行关联分析,以期挖掘出立地质量与立地因子之间、以及立地因子与林分生长因子的关联规则,为当地立地质量评价以及立地模型的构建提供科学依据。

1 研究区概况与数据来源

1.1 研究区概况

临安区位于浙江省杭州市西部, 29°56′~30°23′N, 118°51′~119°52′E, 地属中亚热带季风气候区南缘,属季风型气候,雨量充沛,年均降水量为1 613.9 mm,光照充足,立体气候明显,海拔从城市至天目山顶,年平均气温由16.0℃降至9.0℃,横跨亚热带和温带2个气候带。临安区地势自西北向东南倾斜,区境北、西、南三面环山,形成一个东南向的马蹄形屏障。西北多崇山峻岭,深沟幽谷;东南为丘陵宽谷,地势平坦,全境地貌以中低山丘陵为主。临安区森林覆盖率高达78.2%,位居杭州各区县市之首;其森林面积达2 452 km2,是国家森林城市之一。临安区主要用材树种有杉木,马尾松Pinus massoniana,湿地松Pinus elliottii,水杉Metasequoia glyptostroboides,响叶杨Populus adenopoda,樟树Cinnamomum camphora,柏木Cupressus funebris,柳杉Cryptomeria fortunei,檫木Sassafras tzumu,枫香Liquidambar formosana,毛竹Phyllostachys edulis等。

1.2 数据来源

源于临安区2008-2012年森林资源动态监测数据,在浙江省森林资源规划设计调查的基础上,建立县级森林资源年度动态监测体系。调查因子以小班为单位,包括了小班基本信息、立地因子、林分因子、权属信息、经营措施、病虫害火灾信息等。其中立地因子包括地貌、海拔、坡向、坡位、坡度级、土壤名称、土壤质地、土层厚度、腐殖质层厚度、林下植被种类、林下植被高度、林下植被覆盖度等12个。林分因子包括了林种、起源、树种、年龄、平均胸径、平均高、优势高、郁闭度、疏密度、单位株树、单位蓄积等。

在各类树种中,研究选取了2008和2012年每年的杉木人工纯林小班复测数据,其中地位指数模型构建选用2期的复测数据,林分生长与立地因子关联规则的研究则选用2012年的数据。由于早期杉苗处于恢复和扎根阶段,真正进入林木速生生长则是在5 a以后,同时,相关文献表明郁闭度在0.3以上的林分才能充分体现林木的生长状态[17],因此本研究剔除年龄小于5 a,郁闭度小于0.3的小班数据。对数据的完整性及一致性进行检查,以3倍标准差为标准剔除各项异常数据。经过数据整理,得到721条供研究的小班数据,分别分布于临安区玲珑、锦西等54个村。地貌为低山丘陵,海拔10~570 m。根据调查数据,整理得到小班林分生长情况,如表1所示。

表1 浙西杉木林分生长基本概况Table 1 General growth information of Chinese fir stands

2 研究方法

除了现有的立地因子之外,还需要一个综合性衡量立地质量好坏的指标。评价某一有林地的立地质量时,地位级、地位级指数和地位指数是常用的3种评定指标[18]。地位指数具有特定的数学表达式,且在建模过程中,数据受人为干扰因素较少,因而受到广泛地应用[19-20]。因此,本研究选择地位指数作为立地条件的判定指标。根据杉木用材林优势木高和年龄复测数据,使用代数差分法构建杉木地位指数模型。根据模型计算出每个小班的地位指数,将地位指数作为立地因子,和其他12个立地因子一起,联合林分生长因子胸径、树高和蓄积,使用Apriori算法作关联规则分析。

2.1 地位指数模型构建

代数差分法(algebraic difference approach,ADA)是构建林分地位指数的常用方法之一,其原理是选择一个理论方程作为基础方程,选择方程中的一个参数作为消元参数,对方程进行差分消元,从而获得一个包含2组因变量和自变量的差分方程[21]。研究选择Richards理论方程作为基础模型来构建差分方程,Richards理论方程如式(1)所示:

式(1)中:HT代表林分优势木高;t为林分年龄;a,b,c为林分参数,其中a代表林木的潜在生长最大值,c代表林木生长速率,b代表消元参数。对其进行代数差分转换,得到转换后的差分方程,如式(2)所示:

式(2)中:HT1和HT2分别为t1和t2时刻的林分优势木高。最后根据小班的复测数据,拟合得到地位指数模型为:

式(3)中:IS为林分地位指数;Ht为林分优势木平均高;t为林分年龄。

2.2 数据预处理

在数据挖掘之前,对原始数据进行数据清洗和数据转换。在本研究中,1.2节中的剔除异常数据和无效数据即数据清洗,对清洗后的不同量纲数据进行归一化处理即数据转换。本研究数据包括定性因子和定量因子,定性因子包含多个属性维度,定量因子则为连续性数据。对定性因子按照类别进行分类,对定量连续性数据进行离散化处理。数据具体转换过程如下:地貌分为低山(A1)、丘陵(A2);海拔分为10~200 m(B1), 201~400 m(B2), 401~570 m(B3)3 组; 坡位上、 中、 下、 谷、 全分别用 C1~C5标识; 坡向东、南、西、北、东北、东南、西北、西南分别用D1~D8标识;坡度级平、缓、斜、陡、急、险分别用 E1~E6标识; 土壤分为红壤(F1)、 黄壤(F2); 土壤质地分为砂土(G1)、 壤土(G2)、 黏土(G3); 土层厚度分为厚(H1)、 中(H2)、 薄(H3); 腐殖质厚度分为厚(I1)、 中(I2)、 薄(I3); 林下植被种类分为草丛(J1)、草灌(J2)、 灌丛(J3)、 无植被(J4); 林下植被高度分为 0~50 cm(K1), 51~85 cm(K2); 林下植被覆盖度分为 0~30%(L1), 31%~60%(L2), 61%~90%(L3)。 选用最具代表性的胸径、 树高和蓄积 3个林分生长因子作为关联规则事务项,作离散化处理。根据收集的数据范围,将胸径分为5.0~10.0 cm(M1),10.1~15.0 cm(M2), 15.1~20.0 cm(M3); 将树高分为 3.0~6.0 m(N1), 6.1~9.0 m(N2), 9.1~12.0 m(N3), 12.1~15.0 m(N4), 15.1~18.0 m(N5); 将单位蓄积分为 20.0~50.0 m3(O1), 50.1~80.0 m3(O2), 80.1~110.0 m3(O3),110.1~140.0 m3(O4), 140.1~170.0 m3(O5)。 将林分年龄也考虑其中, 根据浙江省森林资源规划设计调查规程,对浙西杉木用材林进行龄组划分,≤10 a(幼龄林,P1),11~20 a(中龄林,P2),21~25 a(近成熟林,P3)和26~35 a(成熟林,P4)和>35 a(过熟林,P5)。根据构建的地位指数模型,计算得到杉木地位指数为8~18,作为关联分析事务项,将16和18指数的立地定为好,用Q1表示;12和14指数立地为中,用Q2表示;8和10指数立地为差,用Q3表示。表2是依据分类进行预处理的部分数据,其中每行数据可以理解成Apriori算法中的一个事务。本研究首先使用Apriori算法计算出频繁项集及支持度,再根据置信度计算公式得到项集与项集之间的规则。

表2 预处理后的林分数据Table 2 Stand data after pretreatment

2.3 关联规则与Apriori算法

关联规则是对事物间或关系数据集中项之间的关联或相关性的描述,关联规则挖掘兴趣度的2种度量主要是支持度和置信度。计算方法分别如下:

式(4)和式(5)中:X和Y分别代表一个项目中不同的事务,supR1为规则R1:X⇒Y的支持度;confiR2为规则R2:X⇒Y的可信度;count(X∪Y)是X和Y并的数量;|D|是D所有事务的数量;sup(X∪Y)是事务X并Y的支持度;sup(X)是事务X的支持度。根据公式可得,规则R1的支持度即事务集中同时包含事务X和Y与所有事务集之比。规则R2的可信度即为包含事务X的同时,出现事务Y的概率。

关联规则中规定,事务中的项集满足最小支持度时称为频繁项集,关联规则挖掘总体来说包括2个过程,即找出所有的频繁项集和由其产生的强关联规则,其中的项集的支持度满足最小支持度计数,关联规则的置信度满足最小置信度。

Apriori算法为布尔关联规则挖掘频繁项集的原创性算法。该算法属于宽度优先算法[22],其原理是使用逐层搜索的迭代方法,其中k-1项集用于探索k项集。首先,扫描整个数据库,累计每个项的计数,找出满足最小支持度的项,得到频繁1-项集的集合L1。接着根据频繁1-项集产生候选2-项集,即C2,再根据C2产生频繁2-项集L2,以此循环直到无法产生新的频繁集为止。在构建候选集的同时,还需要根据先验性质 “频繁项集的所有非空子集也一定是频繁的”[23]对Ck进行修剪,产生对应的Lk。Apriori算法的代码表达如下:

3 结果与分析

使用Apriori算法对预处理后的数据进行关联规则分析。参考文献[24],研究设定最小支持度为10%,最小置信度为80%,使用Matlab 2011a软件对立地因子和林分生长因子进行关联分析,最终得到符合条件的175条关联规则,由于本研究旨在挖掘影响林地立地质量和林分生长的因子间的相关规则,因此筛选提取以地位指数和林分因子作为后项且具有较高支持度、置信度的关联规则20条,并根据规则内容的不同,整理归结为5个大类(表3)。

表3 Apriori算法部分关联规则结果Table 3 Partial association rule by Apriori algorithm

各类规则的具体说明如下。规则类Ⅰ:杉木生长在海拔400 m以下(B1,B2)、黄壤(F2)、土层厚度为厚 (H1)的立地环境,同时平均树高在15 m以上 (N5)的林分中,96.2%的林分与立地质量为好(规则1); 立地环境为黄壤(F2)、林下植被为草灌(J2)、下坡位(C3)、 缓坡(E2)的林分,有 95.7%的林分立地质量为好(规则 2); 杉木林分坡度为下(C3)、 林下植被为草灌(J2)、 土层厚度为厚(H1)、 坡向为东北(D5)和西北(D7)、土壤质地为壤土(G2)的立地环境,则有87.8%的林分立地质量为好(规则3);林下植被为草灌和草丛(J1,J2),植被覆盖度在31%~90%,腐殖质层为厚(I1)的林分(L2,L3)中,有86.4%的林分立地质量为好(规则4)。规则类Ⅱ:杉木林分是上坡(C1)和缓坡(E2)、林下植被为草丛(J1)或草灌(J2), 则82.1%的立地条件为中等(规则5);土壤类型为黄壤(F2)、土层厚度为中等(H2)、腐殖质层厚度为中等(I2)、林下植被为草灌以及林下植被覆盖度在31%~60%(L2)的林分中,有85.8%的立地质量为中等(规则 6)。 规则类Ⅲ: 位于海拔 400~600 m(B3)、 上坡(C1)、 丘陵地带(A2)、 土层厚度为薄(H3)的林分中,有97.8%的林分立地质量为差(规则7);土层厚度为薄(H3),坡位为上坡(C1),坡向为南坡(D2),坡度为斜坡(E3)的杉木林分中,有98.2%的立地质量为差(规则8)。林下无植被(J4),植被覆盖度小于30%(L1)同时土壤质地为砂土(G1),腐殖质层为薄(I3)的林分中,有94.5%的立地质量为差(规则9)。规则类Ⅳ: 生长在缓坡(E2), 坡向为下坡(C3), 树高在 12.1~15.0 m(N4)的林分, 有 89.6%的胸径在 15.1~20.0 cm(M3)(规则 10); 生长在斜坡(E3), 上坡(C1)的林分, 有 87.6%的胸径为 5.0~10.0 cm(M1)(规则 11);腐殖质层为厚(I1)、平坡(E1)立地质量为好的林分(Q1),有92.3%的树高位于最高等级,为15.1~18.0 m(N5)(规则 12); 位于低山(A1)中坡(C2)平坡(E1)的杉木中龄林,有 86.6%的胸径为 10.1~15.0 cm(M2)(规则 13), 位于丘陵(A2)中坡(C2)斜坡(E3)的杉木中龄林,有 83.1%的胸径为 5.0~10.0 cm(M1)(规则 14)。在好的立地质量下,黄壤(F2)壤土(G2)中龄林(P2)的林分中,有92.8%的林分单位蓄积为50.0~80.0 m3(O2)(规则15),而同在好的立地条件下,红壤壤土中龄林林分,有90.2%的林分单位蓄积为80.1~110 m3(O3)(规则 16)。 规则类Ⅴ: 腐殖质层为薄(I3)、 土层厚度为中(H2), 胸径为 5.0~10.0 cm(M1)的林分中,有94.9%为幼龄林(规则17);腐殖质层为中(I2)、土层厚度为中(H2),植被覆盖度为31%~60%(L2)的林分中,89.6%为中龄林(规则18);腐殖质层为厚(I1)、林下植被为草灌(J2)、蓄积在80.0~140.0 m3(O4,O5),植被覆盖度为61%~90%的林分中(L3),有92.1%为近成熟林(规则19);林下植被为草丛(J1)或者无植被(J4)且植被覆盖度在30%以下(L1)的林分中,99.8%的林分属于成熟林(规则20)。

由规则类Ⅰ~Ⅲ可知:影响浙西杉木用材林立地质量的立地因子有海拔、坡位、坡向、坡度级、土壤类型、土壤质地、土层厚度、腐殖质层厚度、林下植被种类和林下植被覆盖度。而地貌和林下植被高度对于立地质量好坏的影响不显著。分析发现:①立地质量随着海拔的升高而下降。究其原因是由于海拔高低决定林分生长的温度与湿度[19],海拔升高,温度递减,湿度上升,临安地区海拔温差大,海拔较高的地区温度较低,不利于杉木林的生长。②坡位、坡向和坡度级与林分立地质量的好坏也存在一定规律,坡位越高、坡度越陡,则林分立地质量越差。这是因为坡度和坡位对林分小气候存在影响,高坡位往往处于迎风处,坡度过陡,土层越薄,迎风种植不利于杉木生长[25]。规则还表明:东北、西北坡的杉木比南坡的立地质量好,因此说明杉木更适合生长在阴坡、半阴坡地带。③立地质量与土层厚度及腐殖质厚度成正比。有研究表明:通常土壤疏松、湿润、深厚的林分,杉木的速生期维持的时间较长[26]。土壤中的氮磷钾等养分以及湿度会随着土层厚度的增加而增加,同时土层越厚土壤受侵蚀的程度越低[27]。腐殖质层则能够改善土壤结构和肥力,腐殖质层越厚,土壤肥力越高,对地上植物的供养能力越充分,同时,壤土结构比砂土结构更适合杉木林的生长,这一规律也在关联规则中体现出来。④林分的立地质量与林下植被也存在着强关联。在林下植被因子中,浙西杉木用材林林下植被以草丛和草灌居多,植被覆盖度越高,立地质量越高,这是因为林下植被的增加,有利于水土保持,增加土壤渗透力及养分储存力,因此能够提高维护地力的能力。这一规律在AKPO[28]、CACCIA等[29]、何艺玲等[30]的研究结果中得到证实。

规则类Ⅳ则是立地因子对林分生长的影响体现。研究表明:腐殖质层较厚的林分,树高生长良好;低山较丘陵、中坡较斜坡、下坡较上坡环境更适合杉木胸径的生长,从而间接反映出腐殖质层、地貌、坡位对林分生长环境的影响。在相同的立地条件下,与红壤相比,黄壤壤土下栽种杉木将获得更多的蓄积,这一结果与宋静[25]在杉木生长环境的研究一致。规则Ⅳ实则是对前3类规则的另一种表达,是立地质量在林分生长中的体现。

由规则类Ⅴ可知:部分林分因子随林龄的变化也呈现出一系列的变化规律,具体表现在植被覆盖度以及腐殖质层厚度2个因子中。在幼龄林阶段,林下植被覆盖度较低,林下生物量相对稀少,腐殖质层较薄,随着年龄的增长,植被覆盖度上升;在中龄林阶段以草灌为主,同时凋零物增加,腐殖质层厚度增加,林下植被覆盖度和腐殖质厚度在近成熟林阶段达到最高值;当林分逐渐成熟,林冠郁闭,灌木和草本逐渐开始消失,林下植被覆盖度下降,同时植被从高生产力转变为低生产力。这一结果与林下植被演替动态规律研究一致[31]。

4 结论与讨论

目前,从海量数据中挖掘出潜在规则和模式是数据挖掘的基础问题。研究结果表明:①在一定气候区域范围内,杉木林分的立地条件主要受海拔、坡位、坡向、坡度级、土壤类型、土壤质地、土层厚度、腐殖质层厚度、林下植被种类和林下植被覆盖度的影响。根据规则及分析,在杉木造林时,应该选择低海拔、阴坡或半阴坡、坡度较缓的地带进行造林位移,海拔较高处则要选择温暖地区进行种植;若要保持优质的林分立地环境,除了人为地对林地进行施肥除草等措施外,林分的林下植被也保持一定的生物多样性和植被覆盖度。此外,一般情况下,地貌也是影响立地质量的主要因子,但是本研究的数据有限,地貌仅体现在低山和丘陵,因此不能比较中山、高山对杉木林生长的影响。②杉木树高的生长受土壤腐殖质层的影响较大,而胸径的生长则受到地貌、坡位的影响较大,因此,若要培育中大径材的林木,则考虑将杉木种植在低山、中下坡位的地带。在土壤选择上,尽量选择在黄壤壤土,土壤深厚肥沃地带进行种植,这样将提高林分蓄积收获量。③林下植被以草灌为主,植被覆盖度随着林分林龄的增长呈先增长后减少的变化规律。在中国人工林体系中,往往存在林分结构简单、密度很大、林下植被不发达的现象。而关联规则表明:林下植被多样性可以增加腐殖质厚度,提高林分立地质量,从而促进林木生长,因此,可以根据林下植被的变化规律,适当地提高林下生境的丰富度和多样性,也可通过适当的营林措施,促进林下植被的发育。

以往立地质量模型中的立地因子选择往往通过主观因素而定,应用范围小。本研究则是通过数据挖掘技术来分析评估各项立地因子之间的相互依赖关系,从而客观地提取出与立地质量相关的因子,构建的模型更具备科学性和实用性。

作为关联规则领域的经典算法,Apriori算法简单易行,能较好地完成规则提取和展示,从而快速获取林分各类因子之间的客观规律,具备了一定的实用性优势;但在实际应用中,Apriori算法需要频繁扫描数据库、产生大量候选项集从而导致时间长,效率低,在今后的研究中,可对算法进行改进,以提高数据挖掘效率。

猜你喜欢

腐殖质项集覆盖度
呼和浩特市和林格尔县植被覆盖度变化遥感监测
腐殖质和生物肥料对植物发育和微生物活性的协同作用
基于共现结构的频繁高效用项集挖掘算法
基于NDVI的晋州市植被覆盖信息提取
塞罕坝机械林场植被覆盖度及景观格局变化分析
近30年呼伦贝尔沙地植被变化时空特征分析
基于矩阵相乘的Apriori改进算法
水稻土有机碳及腐殖质结构特征的研究进展
不确定数据中的代表频繁项集近似挖掘
利用蒽醌碱溶液提高褐煤中腐殖质的萃取率