分类树模型在烟草农业研究中的应用
2012-07-31侯小东杜咏梅刘新民
侯小东,杜咏梅,刘新民*,程 森
(1.中国农业科学院烟草研究所,青岛 266101;2.上海烟草集团有限责任公司,上海 200082)
现代烟草农业研究过程中,为探索变量之间的联系,常需要进行变量筛选、模型预测和主因素的探索,采用的方法多为多元线性回归、logistic回归或者非线性回归等参数检验方法。参数检验方法要求严格,使用时需要进行适用条件的判断,不同程度地降低了其分析效能。分类树模型作为一种新兴的数据挖掘分析工具是将大量数据有目的地分类,从中找到一些潜在的、对决策有价值的信息[1],适用条件宽泛,能弥补一些常规参数检验方法的不足。目前分类树模型在农业研究中的应用很少,其功用还不为大家熟悉。本研究通过具体的实例介绍分类树模型的统计思路及主因素筛选和模型预测的方法。
1 数据基本特征
1.1 数据基本统计量
数据来源于曲靖市ESTB项目中部烟叶钙和对应土壤有效钙和有效镁测定的结果。
数据的基本特征和各个变量的分布变化规律对分析方法选择非常重要,基本统计量包括均数、标准差、标准误、最小值、最大值、偏度系数和峰度系数。均数是描述数据的集中趋势统计量,标准差描述数据的离散趋势统计量,最大值和最小值反应数据的变化范围,偏度系数描述某变量取值分布对称性的统计量、峰度系数是描述某变量所有取值分布形态陡缓程度的统计量。均数决定曲线在横轴上的位置,标准差决定曲线的高度,峰度是反映曲线的陡峭程度,偏度是反映曲线的偏度。一般来说,偏度系数和标准误比值绝对值小于1.96,且峰度系数和其标准误比值绝对值小于1.96时,变量是为正态分布,否则就为偏态分布。如表1所示本例中烟叶钙、有效钙和有效镁3个变量都服从偏态分布。
表1 数据基本统计量Table 1 Basic statistics of data
1.2 数据的频数分布规律
数据的频数分布图可以较好反映数据分布情况,显示每个变量在不同组间距的频数,在组距相等的情况柱形的高度与相应组段的频率成正比,清晰直观反映数据的分布。通过图1~3概率密度曲线观察有效钙和有效镁不服从正态分布。
1.3 变量间依存关系
变量间常存在不确定的依存关系,关系形态决定着分析方法,散点图可以直观的表现变量间关系,为选择分析方法提供依据。从烟叶钙与有效钙、有效镁的散点图(图4)来看,没有明显的直线性或者曲线趋势。
图1 烟叶钙频数分布图Fig.1 Frequency distribution of tobacco calcium
图2 土壤有效钙频数分布图Fig.2 Frequency distribution of soil available calcium
图3 土壤有效镁频数分布图Fig.3 Frequency distribution of soil available magnesium
图4 烟叶钙、有效钙和有效镁散点图Fig.4 The 3-D scatter plot
2 分析方法选择
数据基本特征是选择分析方法的基础,通常分析此例一类的数据,常用多元线性回归。多元线性回归有一定适用条件(1)自变量与因变量存在线性关系。(2)独立性:应变量的取值要相互独立。(3)正态性:就自变量的任何一个线性组合,应变量均服从正态分布。(4)方差齐性:就自变量的任何一个线性组合,应变量的方差均相同,就是要求残差的方差齐[2]。本例变量不服从正态分布,变量间不存在线性关系,不适合多元线性回归。而分类树模型不需要特别的适用条件,可以探索烟叶钙的主要影响因素,确定自变量对应变量作用的拐点,最终达到数据分析的目的。
3 分类树模型分析
分类树模型中连续性的变量可根据模型的设定平均分成个数相同几个组,然后再寻找最佳的分界点。也可以先分成等距的几组,再用模型进行拟合分析,连续变量分组一般均采用等距分组方法。步骤如下:
3.1 有效钙和有效镁分组
1.步骤:Transform—Visual Binning—选择“有效钙”和“有效镁”入Variables to bin—Continue。
2.在 Value框里分别添加 100、200、400、600mg/kg,图5中的频数分布图中会出现4条竖线,把有效镁分成5组。在Binned Variable 中输入“有效镁组别”定义分组的组别名称,点击“OK”。SPSS原始数据的界面上出现新的一列“有效镁组别”。此时有效镁以100、200、400、600 mg/kg为界点分割成5组。
3.有效钙按照上述方法分组,分界点分别设为800、1200、2000、3000 mg/kg。
4.土壤有效镁和有效钙分组完成。
图5 SPSS等距分组Fig.5 SPSS equidistant groups
3.2 分类树模型分析操作
1.Analyze-Classify-Tree。
2.“烟叶钙”选为应变量,“有效钙组”和“有效镁组”选入自变量,Growing Method选择为“Ehaustive CHAID”。
3.分类树对话框中点击criteria(图6所示)可以通过设定父节点(Parent Node)和子节点(Child Node)的最小数量来限制树的生长。
4.设置后点击“OK”。
图6 分类树模型分析操作Fig.6 Classification tree model analysis and operation
由如图7所示,位于主干的有效钙是影响烟叶钙的主要因素。按照3.1分组的情况有效钙对烟叶钙影响的拐点分别为1200、2000、3000 mg/kg,以拐点为分界的烟叶钙均值分别为 1.89%、2.06%、2.15%、2.34%。烟叶钙随着土壤有效钙含量增加呈增大的趋势。分类树模型对烟叶钙按照有效钙分组后将继续按次要因素(有效镁)分组细化。对不同的有效钙范围的烟叶钙,有效镁的拐点不全相同,总体的趋势是在各个范围随着土壤有效镁的增加烟叶钙的含量呈减小的趋势。分类树模型还有一个非常重要的作用,可以明确有效钙和有效镁对烟叶钙的综合作用。当土壤有效钙大于3000 mg/kg且有效镁小于200 mg/kg时,烟叶钙的含量均值最高达到2.61%;当有效钙大于1200 mg/kg小于等于2000 mg/kg且有效镁大于400 mg/kg时,烟叶钙的含量均值最低为1.74%,通过此方法探索有效钙和有效镁对烟叶钙影响的最佳组合。在分类树模型中Exhaustive CHAID法会对所有的分组间进行检验并合并相邻的组直至只剩下两个,然后比较这一系列的合并,并找出最佳的合并组合。从而找到最佳拆分点。在分类树分析中,目标变量是按照统计检验所得的p值大小依次拆分,位于主要枝干的解释变量对目标变量影响较大,随着分枝的细化影响逐渐减小。
图7 分类树分析结果图Fig.7 Classification tree analysis diagram
4 讨 论
在进行数据分析时,数据类型常不符合传统参数检验分析方法的要求,盲目的分析会使结果产生偏差或错误。本例中3组数据为连续性变量,分布为非正态分布,没有明显的线性趋势,传统的多元线性回归方程的拟合效果不好,其他的方法如非线性回归则需要丰富的专业知识和经验。而分类树模型操作简单适用范围广泛,其原理是利用二叉树结构进行数据的非参数统计,生成一个层次多,叶节点多的树,按广度优先建立直到每个叶节点包含相同的类为止,以充分反映数据之间的联系。应用者可以根据实际情况对树进行剪枝删减,产生一系列子树,参照一定的规则从中进行选择适当大小的树,在初始建树的过程中尽可能地将同质的样本归于相同的结点,由分割规则集合反映出样本指标结构间的关系,同时控制最大树的规模,提高运算效率,相应地减少下一步删减最大树的复杂度。分类树模型对资料的类型和分布没有严格的限定,在分析过程中不受变量间所存在的共线性影响,最终以树形图的方式展现其分析过程以及多水平变量间的负载的相互关系[3]。此例中可以直观展现土壤钙和镁与烟叶钙关系,并确定影响烟叶钙的主因素。
分类树模型也有一定的局限性,分类树模型必须在样本量较大的情况下,才较稳定;解释变量较多时,分类树的层数和叶结点较多,可读性较差,不易理解;当对树节点进行精简时,可能会造成信息的丢失和预测效果的改变[4-5]。因此,在应用过程中要结合实际采用合适的方法才能达到较好的效果。
[1]张悦.基于分类树数据挖掘的分析与应用[J].辽宁石油化工大学学报,2007,27(1):78-80.
[2]张文彤.SPSS 11 统计分析教程(高级篇)[M].北京:北京希望电子出版社,2002:6,66-68.
[3]姜明辉,王欢,王雅林.分类树在个人信用评估中的应用[J].商业研究,2003(21):86-88.
[4]傅传喜,马文军,梁建华,等.高血压危险因素logistic回归与分类树分析[J].疾病控制杂志,2006,10(3):256-259.
[5]张永晶,陈坤,金明娟,等.应用分类树模型筛选恶性肿瘤危险因素的研究[J].中华流行病学杂志,2006,27(6):540-543.