基于ID3算法的煤矿技术创新能力研究
2014-06-09雷书彧赵学军
王 瑛,雷书彧,赵学军
(中国矿业大学 (北京)机电与信息工程学院,北京 100083)
基于ID3算法的煤矿技术创新能力研究
王 瑛,雷书彧,赵学军
(中国矿业大学 (北京)机电与信息工程学院,北京 100083)
煤矿的技术创新能力是评价绿色矿山的关键指标之一,对于完善矿产资源管理共同责任机制、全面规范矿产资源开发秩序、促进科学发展新机制具有重要意义。论文综合绿色矿山建设与评价的煤矿企业数据,使用数据挖掘技术给出一个比较合理的评价规则,通过评价规则构建煤矿技术创新能力评价模型。其主要方法及流程是计算技术创新能力评价指标的信息熵,以其数值大小作为分类节点排序依据,通过合理剪枝形成决策树,完整的决策树便对应完整的评价规则。将原始数据带入决策规则,得出准确评价,并验证了评价规则的正确性。
技术创新能力;ID3算法;决策树
0 引言
我国正处于工业化、城镇化发展的关键阶段,资源需求刚性上升,资源环境压力日益增大,加强生态文明制度建设,把资源消耗、环境损害、生态效益纳入经济社会发展评价体系,建立体现生态文明要求的目标体系、考核办法、奖惩机制是立足国内提高能源资源保障能力的现实选择,对我国经济社会发展具有十分重要的现实意义和深远的战略意义。
然而多年来,绿色矿山评价缺乏统一标准,评价主管决策因素太大,有失公平。因此,国土资源部提出创建一个统一的绿色矿山评价标准,而矿山企业的技术创新能力作为重要的评价内容列入其中。
在此背景下,本文专门研究矿山企业中煤矿的技术创新能力评价体系,运用数据挖掘技术中的ID3决策树算法,在很大程度上提高了评价准确度,为评选绿色矿山企业提供了可靠的依据,同时也为煤矿企业在技术创新领域的效果做出分析,便于进一步改进提高。
1 理论与方法
1.1 ID3算法模型
ID3算法是Quinlan于1979年提出的一种经典的决策树算法,此算法将属性的信息增益作为各级结点的属性选择标准。在几种决策树算法中,ID3算法可以说是最有影响力的。为了实现达到以最小信息量最大程度对测试数据分类目的,样本划分的测试属性要选择信息增益最大的属性。该算法内容概括如下:
树从训练样本的某单个结点开始,若样本都属于同一类,那么该结点成为树叶,分类结束,用该类标号。如果样本属性不属于同一个类,算法使用信息增益度量作为启发信息,来计算能将样本最好地分类的属性。计算出的属性便是该节点的测试属性。在此算法中,所有的属性都是要分类的,即本算法只适用于离散值,如果是连续属性的话必须进行离散化。对每个已知的测试属性值都要创建一个分支,以此来划分样本。根据以上步骤,递归此算法形成样本判定树。每个分支上的属性只会出现一次,一旦使用某属性对样本集划分后,此属性在这个分支上就不会出现了。
递归划分步骤只要出现下列条件便会停止:①所有属性都以完成对样本的划分;②所有样本属于同一类;③某个测试属性值上已经没有样本。
测试属性的取值是样本集的划分依据,样本集将划分为多少子样本集取决于测试属性有多少不同取值。以信息增益度量作为选择测试属性的依据,属性的信息增益越大就越重要,也就更靠近根节点,所以要选择具有最高信息增益的属性作为当前结点的测试属性。由于采用此信息理论方法可以使一个对象分类的期望测试数目最小,以保证能找到一棵简单的树。
设S是s个数据样本的集合,类标号属性有m个不同值,并定义 n个不同类 Ci(i=1,2,...,n)。设Si是类中的样本数,则对一个样本分类所需的期望信息为:
其中,pi—任意样本属于的概率,用Si/S表示。设属性A具有v个不同值{a1,a2,...av},可以用属性A将S划分为v个子集{S1,S2,...,Sv},在属性A上,Si中的样本的取值为aj。设子集中类Ci的样本数为sij,则属性A的熵可以这样计算:
Gain(A)=I(s1,s2,...sm)-E(A)
通过上述公式计算每个属性的信息增益,选择具有最高信息增益的属性作为集第一个属性,即根节点的决策属性,当创建结点之后,对属性的每个值分别创建分枝,划分样本。
引入信息增益的概念是ID3算法的一大特点。该算法应用简单,基础理论清晰。该算法的计算时间是结点个数、例子个数和特征个数之积的线性函数。由于目标函数一定在搜索空间中,而搜索空间又是完全的假设空间,所以此算法一定有解。该算法不是像候选剪除算法逐个地考虑训练例,而是全盘使用训练数据,这样的优点是可以抵抗噪音,利用全部训练例的统计性质进行决策。
总的来说,ID3算法是一种具有实用价值的学习算法,它的学习能力较强,基础理论清晰,算法较简单,是机器学习和数据挖掘领域中的一个经典方法。
1.2 ID3算法应用
构建煤矿技术创新能力评价数据集。根据煤矿技术创新能力评价指标体系,选择了11家煤矿的技术创新数据,并将其整理,如表1所示。
表1 煤矿技术创新基础数据
由于分类属性太多,而当前的训练集数据太少,若按照当前分类建模,准确率会很低,在实验后得到的准确率为9.0909%,不符合要求。若根据指标权值合并划分属性,将原先的22个属性合并到4个。并用等宽间距法将每个属性五等分,由高到低划分为5个级别,对原始数据进行数据处理,得到处理后的数据集如表2所示。
对训练集进行标准化后,用ID3算法进行分类并计算,得到结果如图1所示。从图中可以看到,通过对属性的合并以及对原始训练集数据进行相应转换后,再次运用ID3算法得到的分类模型比之前的分类准确率高出很多,达到63.6364%,这说明对于当前训练集的划分属性改进是比较正确的,也得到了更为理想的结果。根据上图中的分类规则创建对应的决策树。如图2所示。
表2 划分为五个级别的处理数据
图1 计算结果
图2 数据决策树
解析上图的决策规则为:
以上为最终得到的分类规则,即评价模型,通过此模型可以对其他实例进行划分,得到相应的分类。
2 结论
本论文运用数据挖掘中ID3算法,通过对煤矿技术创新能力数据研究分析,产生决策规则,通过对决策规则进行验证,正确率较高,基本能够反映煤矿的技术创新能力。
由于训练集数据量小,采用了合并指标的办法来减少划分属性,其中引入的专家权值造成了一定的主观影响。
[1]陈燕.数据挖掘技术与应用[M].北京:清华大学出版社,2010.
[2]王宏云.基于数据挖掘的煤矿安全监测系统研究[D].辽宁工程技术大学,2009,12.
[3]彭蓬.基于神经网络的煤矿企业技术创新能力评价及经济学分析[J].煤矿现代化,2008,87.
[4]冯陈雷.基于决策树方法的煤炭企业效绩评价研究[D].山东科技大学,2007,5.
[5]J Ciurana,G.Quintana,M.L.Garcia-Romeu.Estimating the cost of vertical high-speed machining centers,a comparison between multiple regression analysis and the neural networks approach[J].International Journal of Production Economics,2008,1.
[6]王涛,李舟军,颜跃进,陈火旺.数据流挖掘分类技术综述[J].计算机研究与发展,2007,11.
Research on Coal Mining Technological Innovative Ability Based on ID3 Algorithm
WANG Ying,LEI Shu-Yu,ZHAO Xue-Jun
(School of Mechanical Electronic&Information,China University of Mining&Technology(Beijing),Beijing 100083,China)
The technological innovative ability of coal mine is one of the key indicators for green mine evaluation.It is of great significance to improving the shared responsibility mechanism of mineral resources management,total normalization on mineral resources development order and promoting scientific development new mechanisms.The paper give a reasonable evaluation rule through synthesis of the green mine construction and evaluation of coal mine enterprise data und using data mining.Then through the evaluation rule a coal mining technological innovation ability evaluation model can be built.Its main method process is that calculating the information entropy technology innovation ability evaluation indexes,according to the classification node order by the numerical size and through a decision tree’s reasonable pruning,finally a complete decision tree can correspond to the complete evaluation rule.Taking original data into the decision rule and obtaining the accurate evaluation,the correctness of the evaluation rule can be verified.
technological innovative ability;ID3 algorithm;decision tree
F4
:Adoi:10.3969/j.issn.1002-6673.2014.03.002
1002-6673(2014)03-003-03
2014-03-31
项目来源:2012年度国土资源公益性行业科研专项(绿色煤炭矿山标准研究-201211003)
王瑛(1972-),女,工程师,毕业于北京师范大学,目前就职于中国矿业大学(北京)机电与信息工程学院。