基于增量式的属性约简在汽车性能中的应用
2016-10-26李萍
李萍
(运城学院计算机科学与技术系,运城044000)
基于增量式的属性约简在汽车性能中的应用
李萍
(运城学院计算机科学与技术系,运城044000)
研究粗糙集理论的重要内容属性约简,在此基础上描述基于增量式的属性约简算法。针对影响消费人群对汽车接受因素的多个属性进行约简,根据条件属性对决策属性影响的重要性,对条件属性进行约简,最终保留核心属性。
粗糙集;增量式;属性约简;约策树
0 引言
数据挖掘是从海量的数据中提取潜在的信息和知识,由于操作的对象是巨量的数据库,在空间和时间的复杂问题是一个非常重要的环节,最后将直接影响挖掘结果和质量。因此波兰数学家Z.Pawlak在1982年提出了粗糙集理论,旨在处理不确定和不精确数据,其主要思想是在保持知识库分类能力不变的前提下,通过约简不相关的属性,从而导出问题的决策或分类规则。
1 属性约简相关知识
一个挖掘系统可以由四元组S=(U,A,V,f)表示,其中U表示对象的非空有限集合,称为论域;A表示属性的非空有限集合;V是属性的值域集;f是一个信息函数,f:U*A→V它为每个对象的每个属性赋予一个信息值。
属性A由条件属性C和决策属性D组成,属性子集C'⊆C关于D的重要性定义为σCD(C')=γC(D)-γC-C'(D),如果当C'={a}时,属性a∈C关于D的重要性为σCD(a)=σC(D)-γC-{a}'(D)。在决策表中,不同的属性可能具有不同的重要性。如果去掉某属性会相应的改变分类,则说明属性重要,改变的程度越大,重要性越高。
2 基于增量式的属性约简
为了找出某些属性(或属性集)的重要性,增量式属性约简是从表中去掉一些属性,再根据约简后的属性对分类是否有影响。若去掉该属性相应分类变化较大,则说明该属性重要性高,否则,说明该属性的重要性低。这时,我们得到的就是信息系统的一个约简。
算法描述:
输入:信息系统S=(U,A,V,f),其中U为论域,A为属性集,A=C∪D,C∩D=Ø,C=(c1,c2,…,cn-1)为条件属性集合,D=(d1,d2,…,dk)为决策属性集合。
输出:约简red
(1)初始化:red=C;
(2)令temp=red;
(3)如果temp≠Ø,进行循环:
取a∈C,判断:如果POSred-{a}(D)=POSc(D)则:red=red-{a}并temp=red;否则temp=temp-{a};
(4)输出red。
3 在汽车性能分析中的应用
S=(U,A,V,f)汽车性能分析系统中论域U={x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,x13,x14,x15,x16,x17},将属性集A可进一步划分为两个集合:条件属性集C={买入价格,维修价格,车门数量,荷载人数,车厢容量,安全性能,接受程序}和决策属性集D={不接受和不接受},并满足A=C胰D,C∩D=Ø,在应用中,我们根据汽车的买入价格,维修价格,车门数量,荷载人数,车厢容量,安全性能,接受程序来判断汽车是否被接受。V1是属性买入价格a1的值域={v-high,high,med,low},V2是属性车门数量a3的值域={2,3,4},V3是属性买入价格a5的值域={small,med,big},V1是接受属性a7的值域={acc,unacc}。汽车性能指标表如下所示。
令Q={e}决策属性集,P={a1,a2,a3,a4,a5,a6}为条件属性全集,则U/ind(P)={{1},{2},{3},{4},{5},{6},{7},{8},{9},{10},{11},{12},{13},{14},{15},{16},{17},}
U/Q={{4,12,13,14,6},{1,10,11,15,16,17,2,3,5,7,8,9}}
因此,论域U是P上相对于Q一致的,这说明该决策表是完全确定的决策表,决策表不含有不一致信息。
表1 汽车性能指标表
所以属性a1,a5,a6属性是不省略,属性a2与a3不能同时删除,所以最后的核集为{a1,a2,a5,a6}或{a1,a3,a5,a6}。
4 结语
基于粗糙集的增量式属性约简针对决策表的每个决策规则,去掉冗余属性,提高信息系统的信息质量,并且对汽车接受影响因素的数据进行了验证,减少了不必要的规则,提高了数据的质量。
[1]张文东,李明壮,石小艳.基于粗糙集理论的属性约简算法[J].计算机工程与设计,2008(29)11:5795-5797.
[2]龙浩,徐超.基于改进差别矩阵的属性约简增量式更新算法[J].计算机科学,2015(42)6:251-254.
[3]陈昊,杨俊安,庄镇泉.变精度粗糙集的属性核和最小属性约简算法[J].计算机学报,2012,35(5):1011-1014.
[4]王国胤.Rough集理论与知识获取[D].西安:西安交通大学出版社,2001.
[5]葛浩,李龙澍,杨传健.基于冲突域的高效属性约简算法[J].计算机学报,2012,35(2):342-344.
[6]张利,卢秀颖,吴华玉,郝胜智.基于粗糙集的启发式值约简的改进算法[J].器仪表学报,2009,30(1):82-84.
Application of Incremental-Based Attribute Reduction in Automobile Performance
LI Ping
(Department of Computer Science and Technology,Yuncheng University,Yuncheng 044000)
Studies the important content of rough set theory,such as of attribute reduction,which describes the algorithm of incremental-based attribute reduction in details.Reduces the accepted factor of multiple properties on the car,according to the affected importance of condition attributes,reduces some attributes in order to retain the core attributes.
Rough Set;Relative Dependence;Property Reduced
1007-1423(2016)23-0024-03DOI:10.3969/j.issn.1007-1423.2016.23.006
李萍(1975-),女,讲师,研究生,研究方向为数据挖掘
2016-05-10
2016-08-05