决策树ID3算法的改进及其应用

2011-01-29盛俊

扬州职业大学学报 2011年4期

盛俊

(扬州职业大学，江苏扬州225009)

在分类规则挖掘中，决策树是一种常用的有效的方法。在决策树的各种算法中，最为有影响的是Quinlan于1979年提出的以信息熵的下降速度作为选取测试属性标准的ID3算法。ID3发展了CLS算法，CLS算法是1966年由Hunt等提出的一种决策树学习算法。该方法使用最大信息增益选择测试属性，使分类的效率和质量都得到提高。Quinlan基于窗口技术进行增量式学习，窗口随机性地从数据集中选择一个子集，从而逐步形成完整的决策树[1]。

1 ID3的改进算法

ID3算法把信息熵作为选择测试属性的标准，而每次信息增益的计算很大程度上将受多值偏向性问题影响，即有优先选取取值较多的属性的倾向。多值偏向所带来的问题是:把属性在分类中的重要性与属性取值数多少关联起来，认为取值较多的属性在分类中具有更重要的作用。而事实上取值较多的属性却不总是最优的属性，增益的计算依赖于特征取值的数目较多的特征，这样不太合理。这就难以判断得到的测试属性究竟是因为本身比较重要还是由于多值偏向取值较多的缘故而得到的。

ID3算法还存在着另一个不足之处，就是它忽视了属性之间的交互作用。对于每个结点，ID3算法总是希望选择测试属性时实现熵的最大化减少，即含有最大信息增益的属性作为结点的分裂属性。然而由于ID3算法只考虑到使属性带来的信息增益最大，忽略了属性之间的交互信息，进而忽略了属性所带来的信息增益是否完全的实现了信息熵的减少。

上述缺陷影响了分类预测的高效性。因此，对ID3算法进行改进，主要在如下两个方面:

1.1 基于属性优先值的属性选择

首先，针对增益依赖于选取特征值较多的特征，本文引入了属性优先值的概念。用户可以根据事实情况，依照本领域的实际需要，来选择一个有关于属性的优先值，而这个属性优先值能加大对决策树生成和修改的影响，从而起到避免出现所选属性与现实无关或大数据量掩盖小数据量的错误。

然后，针对规则生成方法即属性选择标准算法进行了改进，通过增加属性优先值参数，最终使决策树减少了对取值较多的属性的依赖性，从而尽可能地减少大数据掩盖小数据的现象发生。对每个属性Ai，用户定义一个优先值为αi，使其满足:

(1)设所有属性的集合为{Ai，i=1，2，…，r}，

(2)对于较重要的属性，赋予较大的属性优先值。则

这样，可以使具有较高权值的属性得到较大的增益，加强了重要属性的影响，使生成决策树时数量少的数据元组不会被淹没。

1.2 基于属性交互作用的属性选择

如图1所示，每个圆代表属性或类。根结点的初始信息熵E(C)，设在根结点选择测试属性AS，剩余的信息熵为SE(C)－S3－S4，并将根结点按属性AS的值进行划分得到树的第一层分支，然后在根结点的一个子结点按照ID3算法选择测试属性Ai，使得Gain(S2+S3)最大化，剩余的信息熵为SE(C)－S3－S4－S2，可以看出真正减少的信息熵是S2而不是S2+S3，因为S3所代表的那部分信息熵已经通过父结点使用属性AS消减了。S2+S3大，并不一定S2大，所以使用ID3算法并不能真正实现信息熵的减少。

图1 属性与信息熵

因此，每当选择一个新的属性时，算法不仅考虑到属性带来的信息增益，还考虑到选择该属性后为继续选择的属性所带来的信息增益，即同时考虑属性之间的交互信息。为此，我们提出采用考察树的两层结点的方法。具体做法如下:

设A为侯选的属性，A具有r个不同的值，对应的概率分别是p1，p2，…，pr，按照最小信息熵原则对属性A扩展，设{B1，B2，…，Br}为r个子结点选择的属性，{S1，S2，…，Sr}为划分到这些节点的样本集合。分别计算条件信息熵{E(S1|B1)，E(S2|B2)，…E(Sr|Br)}，定义A的交互信息熵为:

改进的ID3算法使用上述的公式(3)计算增益中，由于考虑了下一层各个分支上的信息熵，在选择测试属性时不仅要求所选的属性带来的信息增益尽可能大，而且要求其与同一分支上已经使用过的各属性之间的交互信息尽可能小，从而避免了对冗余属性的选择，实现信息熵的真正减少。

2 实验测试

表1为一个可能带有噪音的扬州百年老店共和春酒店餐饮客户数据集合，使用ID3的改进算法进行测试。它有四个属性:“类型”、“用餐时间”、“用餐地点”、“用餐人数”。分为两类:“点菜”与“和菜”。“类型”是指客户的类型，属性值有“机关和事业”、“企业”和“个人”三类;由于酒店不供应早餐，“用餐时间”有“中午”、“晚上”两类;“用餐地点”分“大包厢”、“小包厢”和“堂厅”三类;“用餐人数”分为少、中、多三类，用餐人数少于5人为“少”，在6到10人之间为“中”，11人以上为“多”。所要做的就是构造决策树将客户数据进行分类。根据实际经验，对“类型”、“用餐时间”、“用餐地点”、“用餐人数”四个属性分别赋予属性优先值0.4、0.3、0.1、0.2。

表1 餐饮客户数据

根据公式(3)计算出“类型”、“用餐时间”、“用餐人数”、“用餐地点”四个属性的增益值分别为0.247、0.234、0.147和0.144。由于“类型”属性具有最小的交互信息熵，他被作为测试属性，创建根节点“类型”，并对每一个属性值引出一个分支，再据此来划分样本数据。然后依次对各个分支递归调用同样的方法，直到每个分支的样本都属于同一类为止。最后得到见图2的决策树。