数据挖掘技术在违约金计算中的应用
2016-07-23陈英孙忠林
陈英++孙忠林
摘要:该文依据供水收费管理系统中的收费欠费问题,利用决策树和频繁项集相结合的方法对供水收费数据进行处理,挖掘影响营业厅供水收费时产生违约金的因素。通过计算每个属性的信息增益以及优化的频繁项集挖掘出了影响收费的主要因子。结果表明两种方法得出的结论一致,两种方法的结合使用使得结果更精确更有效。为供水收费,减少违约金,提供了可靠的决策支持。
关键词:决策树;频繁项集;违约金;影响因子;动态分析
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)17-0001-04
Abstract: This paper, based on the Water Charge Management System, uses the method of combines the decision tree with the frequent itemsets, excavates the factors that influences the produce of overdue fine. By means of calculating every propertys information gain and optimized frequent itemsets, it excavates the main factors that influence charge. The results show that the two methods get the same conclusion, the combination of this two methods make the result more accurate and more effective. It provides reliable decision support to the charge of Water Charge Management System.
Key words: decision tree; frequent itemsets; overdue fine; impact factor; dynamic analysis
1 引言
在当今的信息时代,随着信息化程度的不断发展,导致越来越多数据库的数据量极其的庞大,想要从中分析出有价值可靠的信息变得越来越复杂,但在日常的生活中,对此需求却源源不断。在这样的情形下,挖掘数据库中有价值的信息成为计算机信息处理的重要手段。本文主要利用数据挖掘技术,探讨了供水收费产生违约金的因素以及违约金的动态分析。
2 决策树算法的主要研究内容
2.1数据预处理技术
现实生活中的数据太过繁杂,数据越来越多的情况下,要想获得准确有价值的信息必须进行数据的处理。
在决策树算法中,影响数据质量的因素主要有两个:数据缺失和数据噪声。要挖掘出高质量的数据,必须对大量的数据进行预先处理。数据预处理一般包括数据清洗、数据集成、数据规约、数据变换四个部分。数据清洗主要是用来清除数据中的噪声;数据集成主要是将数据由多个数据源合并成为一个一致的数据存储;数据规约可通过删除不相关或冗余特征来降低数据的规模;数据变换可用来把数据压缩到较小的区间。这些预处理方法不是相互排斥的,可以一起使用。
2.2属性选择度量
属性选择度量是一种选择分裂准则,度量了给定训练集中的每个属性的权值大小。具有最高权重的属性被选作为给定元组的分裂属性。常用的三种属性选择度量方法分别是信息增益、基尼指数、增益率。
本文主要是使用第一种方法信息增益来度量供水收费管理系统数据库中哪个因素最影响欠费也就是有无违约金。
2.3信息增益
2.3.1期望信息
选择具有最高信息增益的属性也就是拥有权重最大的属性,那么这个属性便是影响供水收费时是否产生违约金的最主要因素。
对训练集
2.3.2信息熵
信息熵就是一组数据包含的信息,概率的度量。简单地讲熵是衡量一个系统中物质的混乱程度。
3 决策树算法实验分析
根据供水营业收费管理系统数据库中的营业厅收费表,来判断哪个属性对产生违约金的影响最大,选择用水性质,用水总量,实际金额作为具有代表价值性的属性。其中,用水性质包括经营用水、生活用水、非居民用水;用水总量分为少、一般、多;实际交费金额分为低等、中等、高等。
3.1数据处理
3.2分析并计算每个属性的信息增益
由供水收费数据表给出了一个标记类元组的训练集中元组分类所需要的期望信息:
计算每个属性的期望信息需求,从用水性质开始。需要对用水性质的每个类考察“是”和“否”元组的分布。对于用水性质的类“经营用水”,有8个“是”元组,2个“否”元组。对于类“生活用水”,有7个“是”元组,3个“否”元组。对于类“非居民用水”,有2个“是”元组,8个“否”元组。使用(2)式,如果元组根据用水性质划分,则对于3.3构造决策树
如果某条规则的最终结果即决策树中叶子节点所代表的最终结果出现矛盾时,例如如果经营用水的实际交费金额为“低等”那么无论总用水量是“多”还是“少”,结果既有“是”也有“否”这时就要删除这个叶子结点,自底向上删除直到不冲突为止。最终结果用偏向属性值较多的表示。
如果经营用水的交费金额为“中等”总用水量为“一般”或者为“少”结果则为“是”,那么可想而知用水总量为“多”的结果一定也为“是”。这样构造决策树的两条规则就可以合并成一条了。类似这样的推理如果非居民用水的实际交费金额为“中等”总用水量为“一般”或是“多”则结果都为“否”,那么用水总量为“少”的结果一定也为“否”。其余规则同理。构造出的决策树如图1所示:
质的信息增益最大其次是实际交费的金额和总用水量,即用水性质这个属性是影响是否产生违约金的最主要的属性。
优点:使用决策树算法中的属性选择度量方法来计算营业厅供水收费表中属性的信息增益,可以很好地判断出具体哪个属性影响公司的利润,这样公司可以根据不同的影响程度来制定不同的收费方式,例如工业用水时常欠费,那么就针对工业用水的公司与之签约违约时加收多倍违约金合同等方法,从而使得公司利益最大化。
缺点:这种方法局限于小的数据量,对于超大数据不方便用此方法。由于使用数据的局限性,虽然
4 挖掘频繁项集
由决策树算法得出结论的基础上,对训练集进行处理,删除决策树中没有出现的规则和没有产生违约金的规则,这样便可得到最简化最有效的数据。将这些数据进行频繁项集的挖掘。决策树只能判断
通过限制候选项集产生发现频繁项集,频繁项集的产生过程其实就是Apriori算法是一种使用逐层迭代的方法,其中k项集用于探索(k+1)项集。本文主要是探索产生违约金的因素,所以只需根据Apriori算法挖掘出频繁项集。设置最小支持度计数为4,数据集中的事务分别用I1至I9表示经营用水、生活用水、非居民用水、少、一般、多、低等、中等和高等。
由优化后的数据作为训练集进行频繁项集的挖掘,频繁项集的大小可由项集里的每个元素所对应的事务交集表示,最小支持度大小就是事务交集的个数,利用这样的方法只需扫描一次数据库便可求出频繁项集。对每个项集里的元素对应的事务出现次数进行统计即扫描事务数据库产生候选一项集C1,结果如表1所示:
由频繁二项集可以看出用水性质、用水总量和交费金额三者之间所占比例,用水性质和交费金额分别占37.5%,用水总量占25%,由于I7代表的交费金额少,根据实际情况是不可担当决定性因素即用水性质所占比重是略大于交费金额的,这和决策树算法得出的结论是一致的。由频繁三项集进一步分析出了用水性质里的生活用水所拥有的权重最大。
5 违约金的动态分析
违约金的动态分析是为了更清楚的分析和预测哪些用水用户将会产生违约金,针对违约的用户采取措施尽量避免违约。
一个企业在本月产生了违约金,如果在下一个月的任何一天交齐了费用,则可以预测这个企业具有还款能力即具有可信度,对这样的企业可以减免违约金,在结账的时候还可节省计算违约金这一步骤。反之,违约时间超过60天,可以预测这样的企业不具有还款能力,对这样的企业违约金是不可减免的。
这里所定义的阶梯水价是不同的用水量规定不同的价格,用水量x在30吨之内水价为1.5x,超过30吨,则按阶梯水价的规则,超过的越多,水价上涨的越快;违约时间y也就是当前的时间减去欠费的时间;欠费额度即违约金的多少可以表示为:违约金=水费金额*0.001*违约时间。违约金的动态分析如表7所示:
6 结束语
决策树和频繁项集的结合使用在降低时间复杂度和提高结果精度的前提下挖掘出了影响供水收费的具体影响因子。另外违约金的动态分析,更细化的分析出具有可信度的用水用户,对于这些用户是可以减免违约金的。生活中有很多实际存在的问题,都可以用现有的知识来挖掘有价值的信息。当然,如何用更有效更迅速更优化的算法来挖掘最大价值的信息,还需进一步探究。
参考文献:
[1]章晓. 决策树ID3分类算法研究[D].浙江工业大学,2014.
[2]王锐. APRIORI算法的分析研究[J]. 硅谷,2013,6(14222):68+52.
[3]刘祺. 决策树ID3算法的改进研究[D].哈尔滨工程大学,2009.
[4]张睿. ID3决策树算法分析与改进[D].兰州大学,2010.
[5]陈沛玲. 决策树分类算法优化研究[D].中南大学,2007.
[6]季桂树,陈沛玲,宋航. 决策树分类算法研究综述[J]. 科技广场,2007(1):9-12.
[7]Wenjing Zhang,Donglai Ma,Wei Yao. Medical Diagnosis Data Mining Based on Improved Apriori Algorithm[J]. Journal of Networks,2014,95.
[8]N. Badal,Shruti Tripathi. Frequent Data Itemset Mining Using VS_Apriori Algorithms[J]. International Journal on Computer Science andEngineering,2010,24.
[9]房祥飞. 基于决策树的分类算法的并行化研究及应用[D].山东师范大学,2007.
[10]刘一鸣,张化祥. 引入信息增益的层次聚类算法[J]. 计算机工程与应用,2012(1):142-144.