APP下载

基于粗糙集理论的异常行为规则的提取

2014-07-28韩玲

电脑知识与技术 2014年16期
关键词:粗糙集数据挖掘

韩玲

摘要:异常检测是数据挖掘技术研究方向之一。利用粗糙集理论挖掘出的高质量的决策规则集,具有广泛的适应性和简明清晰的特点。通过对规则的支持度和置信度的度量,提取那些支持度很低,但置信度非常高的规则。在某些如银行欺诈、入侵检测、青少年犯罪和学生心理问题等领域,研究这些小概率、置信度低的事件却有特别的重要意义,对于人们发现异常情况进行决策非常有益。

关键词:数据挖掘;粗糙集;异常行为;规则提取

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)16-3774-04

Abstract: Abnormal detection is one of research directions of data mining technology. High quality decision rules are extracted using rough set theory, with a wide range of adaptability and concise characteristics. By the rule support degree and confidence measure, the rules are extracted with lower support, but higher confidence. In some areas such as bank fraud, intrusion detection, juvenile delinquency and the psychological problems of students, it is particular importance that small probability, low confidence events are researched, for people to detect abnormal decision very useful.

Key words: data mining; rough set; abnormal behavior; rule extraction

粗糙集理论能有效地分析和处理不精确性、不一致性和不完整性等各种不完备信息,并从发现隐含的知识,揭示潜在的规律[1]。同时,粗糙集理论在处理不确定性问题时,不需要数据之外的任何先验信息。随着研究工作的不断深入,粗糙集理论已广泛应用于知识发现、机器学习和决策分析等众多领域。

1 异常行为

异常行为又称越轨行为、离轨行为、反常行为和偏差行为。各国学者对异常行为定义的表述种类繁多[2]。异常行为的研究范围从自然界到社会涉及到诸多领域,如天体运行、地理、气候条件、环境、金融、医学、网络、心理等等世界的方方面面。

随着社会发展竞争加剧,大学生面临着诸多方面的压力,心理问题也日渐增多。而他们的心理健康状况不仅关系着学生自身的发展,也关系着国家和社会的安定、和谐与发展。据国内外的一些报道,目前大学生存在着许多心理问题,其心理不良状况日渐严重,且呈逐年上升趋势。已有的研究表明,大约有10%-40%的大学生存在着不同程度的心理不适及行为障碍,主要表现在抑郁、人际敏感、强迫、偏执和敌对性几方面,其中以抑郁的发生率为最高。如果这部分学生的心理问题不能得到及时有效的解决,可能产生严重的后果,甚至是严重的社会问题[3]。如国内的马加爵个案。2007年4月16日发生在弗吉尼亚理工大学一起美国历史上最严重的校园枪击案,造成33人死亡、20余人受伤的惨重的后果。2012年12月14日 美国康州校园枪击案致28人死亡 包括20名儿童。这些惨案的制造者——学生多少都存在心理问题,因此,及早发现这类人群,开展有针对性的心理健康教育是非常必要以及有意义的。

那么,如何寻找有心理问题的学生呢?可以通过对学生平时的日常行为表现观察和问卷调查等形式来确定问题学生人群。问卷调查采集到的数据,可利用粗糙集理论、关联规则等挖掘方法去处理,最后形成决策规则。

2 异常规则

在决策表S=(U,C∪D)中,C是条件属性,D是决策属性。对于?x∈U,dx表示决策规则,即

dx:des([x]C)→des([x]D)。

决策规则dx的支持度sup(dx):sup(dx)=|[x]C∩[x]D|/|U|

决策规则dx的置信度conf(dx):conf(dx)=|[x]C∩[x]D|/|[x]C|[4]

异常规则是满足置信度大于一指定阈值的决策规则。

下面通过一实例说明异常规则的挖掘过程。实例中数据来自华盛顿高级中学的10318名高年级学生。每个学生信息用下列属性及其相应的值来描述[5]:

性别(SEX):男、女;

社会经济状态(SES):低、中下、中上、高;

智商(IQ):低、中下、中上、高;

家长的鼓励(PE):低、高;

升学计划(CP):是、否;

表1为学生各种状况人数统计表,目标是从数据中发现影响高中学生上大学意向的因素。

表中每个数据表示对于5个属性的不同取值组合统计所得到的人数。例如,第一个数据表示对(SEX=男,SES=低,IQ=低,PE=低、CP=是)这种组合统计得到的人数为4。第二个数据则表示对(SEX=男,SES=低,IQ=低,PE=低,CP=否)这种组合统计得到的人数为349。其后的数据表示变换每个属性可能取值,统计得到的人数。SEX,SES,IQ,PE,CP分别用a,d,c,d,e表示。条件属性a,d,e的值分别取值为1,2;条件属性b,c的值分别取值为1,2,3,4。如第一行a1^b1^c1^d1→e1表示SEX=男,SES=低,IQ=低,PE=低的学生中有4人有升学计划(CP=是)。找出表1中conf(dx)≥0.8的规则。endprint

3 异常规则的提取算法

输入:决策表S=(U,C∪D,V,f)。其中,U是论域,条件属性C={c1,c2,…},决策属性D={d},[V=ci∈C?DVci] 是属性值域,[Vci]是属性ci的值域,[f:U×(C?D)→V]是一个信息决策函数。[6]

输出:置信度大于给定的最小置信度minconf的规则集R。

1) R=?,对每一个ci∈C,计算conf(cij→d0),其中cij∈vi,d0表示用户关心的某决策类;

2) 按置信度由大到小排序,将所有置信度≥minconf的规则移入规则集R中,保留剩余的排在前几位的规则,

3) 如果能对剩余规则合并,则计算合并后新规则的置信度,转(2);否则,输出R,结束。

下面找出表1中conf(dx)≥0.8的规则。

由上述算法可依次得到含有一个条件属性的决策表2、排序表3、子表4,二个条件属性的决策表5、排序表6、子表7,三个条件属性的决策表8、排序子表9。

最后,得到两条符合要求的规则:

R1:a1b4c4→e1 (sup(R1)=0.041,conf(R1)=0.8560)

R2:b4c4d2→e1 (sup(R2)=0.072,conf(R2)=0.8359)

规则R1解释:男性、经济条件好、智商高的学生有上大学计划的支持度为0.041,置信度为0.856。说明,虽然这类学生人数很少,是个小概率事件,但是,其中绝大多数人都有上大学的意愿。

4 总结

对于小概率、置信度低的事件虽然不易发生,但是一旦发生,影响巨大,甚至造成严重的后果。 如何及时这些发现异常事件, 采取有效的监督措施,正确决策,可避免许多悲剧的发生。该文对异常行为规则提取的方法做了有益的探讨。

参考文献:

[1] Pawlak Z.Rough Sets[J].Communications of ACM,1995,38(11) .

[2] 异常行为社会学[EB/OL].http://www.chinabaike.com/article/316/327/2007/2007022054168.html.

[3] 郑先常.我国当前大学生心理健康状况的分析[J].湖北体育科技,2013(7):616-618.

[4] 张学斌,丁晓明.一种基于关联规则的属性值约简算法[J].西南师范大学学报,2005,30(3):440-443.

[5] 林士敏,田凤占,陆玉昌.贝叶斯网络的建造及其在数据采掘中的应用[J].清华大学学报:自然科学版,2001,41(1): 49-52.

[6] 王学思,韩崇昭.粗糙集研究综述[J].控制工程,2013,20 (1): 1-8.endprint

3 异常规则的提取算法

输入:决策表S=(U,C∪D,V,f)。其中,U是论域,条件属性C={c1,c2,…},决策属性D={d},[V=ci∈C?DVci] 是属性值域,[Vci]是属性ci的值域,[f:U×(C?D)→V]是一个信息决策函数。[6]

输出:置信度大于给定的最小置信度minconf的规则集R。

1) R=?,对每一个ci∈C,计算conf(cij→d0),其中cij∈vi,d0表示用户关心的某决策类;

2) 按置信度由大到小排序,将所有置信度≥minconf的规则移入规则集R中,保留剩余的排在前几位的规则,

3) 如果能对剩余规则合并,则计算合并后新规则的置信度,转(2);否则,输出R,结束。

下面找出表1中conf(dx)≥0.8的规则。

由上述算法可依次得到含有一个条件属性的决策表2、排序表3、子表4,二个条件属性的决策表5、排序表6、子表7,三个条件属性的决策表8、排序子表9。

最后,得到两条符合要求的规则:

R1:a1b4c4→e1 (sup(R1)=0.041,conf(R1)=0.8560)

R2:b4c4d2→e1 (sup(R2)=0.072,conf(R2)=0.8359)

规则R1解释:男性、经济条件好、智商高的学生有上大学计划的支持度为0.041,置信度为0.856。说明,虽然这类学生人数很少,是个小概率事件,但是,其中绝大多数人都有上大学的意愿。

4 总结

对于小概率、置信度低的事件虽然不易发生,但是一旦发生,影响巨大,甚至造成严重的后果。 如何及时这些发现异常事件, 采取有效的监督措施,正确决策,可避免许多悲剧的发生。该文对异常行为规则提取的方法做了有益的探讨。

参考文献:

[1] Pawlak Z.Rough Sets[J].Communications of ACM,1995,38(11) .

[2] 异常行为社会学[EB/OL].http://www.chinabaike.com/article/316/327/2007/2007022054168.html.

[3] 郑先常.我国当前大学生心理健康状况的分析[J].湖北体育科技,2013(7):616-618.

[4] 张学斌,丁晓明.一种基于关联规则的属性值约简算法[J].西南师范大学学报,2005,30(3):440-443.

[5] 林士敏,田凤占,陆玉昌.贝叶斯网络的建造及其在数据采掘中的应用[J].清华大学学报:自然科学版,2001,41(1): 49-52.

[6] 王学思,韩崇昭.粗糙集研究综述[J].控制工程,2013,20 (1): 1-8.endprint

3 异常规则的提取算法

输入:决策表S=(U,C∪D,V,f)。其中,U是论域,条件属性C={c1,c2,…},决策属性D={d},[V=ci∈C?DVci] 是属性值域,[Vci]是属性ci的值域,[f:U×(C?D)→V]是一个信息决策函数。[6]

输出:置信度大于给定的最小置信度minconf的规则集R。

1) R=?,对每一个ci∈C,计算conf(cij→d0),其中cij∈vi,d0表示用户关心的某决策类;

2) 按置信度由大到小排序,将所有置信度≥minconf的规则移入规则集R中,保留剩余的排在前几位的规则,

3) 如果能对剩余规则合并,则计算合并后新规则的置信度,转(2);否则,输出R,结束。

下面找出表1中conf(dx)≥0.8的规则。

由上述算法可依次得到含有一个条件属性的决策表2、排序表3、子表4,二个条件属性的决策表5、排序表6、子表7,三个条件属性的决策表8、排序子表9。

最后,得到两条符合要求的规则:

R1:a1b4c4→e1 (sup(R1)=0.041,conf(R1)=0.8560)

R2:b4c4d2→e1 (sup(R2)=0.072,conf(R2)=0.8359)

规则R1解释:男性、经济条件好、智商高的学生有上大学计划的支持度为0.041,置信度为0.856。说明,虽然这类学生人数很少,是个小概率事件,但是,其中绝大多数人都有上大学的意愿。

4 总结

对于小概率、置信度低的事件虽然不易发生,但是一旦发生,影响巨大,甚至造成严重的后果。 如何及时这些发现异常事件, 采取有效的监督措施,正确决策,可避免许多悲剧的发生。该文对异常行为规则提取的方法做了有益的探讨。

参考文献:

[1] Pawlak Z.Rough Sets[J].Communications of ACM,1995,38(11) .

[2] 异常行为社会学[EB/OL].http://www.chinabaike.com/article/316/327/2007/2007022054168.html.

[3] 郑先常.我国当前大学生心理健康状况的分析[J].湖北体育科技,2013(7):616-618.

[4] 张学斌,丁晓明.一种基于关联规则的属性值约简算法[J].西南师范大学学报,2005,30(3):440-443.

[5] 林士敏,田凤占,陆玉昌.贝叶斯网络的建造及其在数据采掘中的应用[J].清华大学学报:自然科学版,2001,41(1): 49-52.

[6] 王学思,韩崇昭.粗糙集研究综述[J].控制工程,2013,20 (1): 1-8.endprint

猜你喜欢

粗糙集数据挖掘
基于Pawlak粗糙集模型的集合运算关系
探讨人工智能与数据挖掘发展趋势
基于二进制链表的粗糙集属性约简
优势直觉模糊粗糙集决策方法及其应用
基于并行计算的大数据挖掘在电网中的应用
数据挖掘技术在中医诊疗数据分析中的应用
多粒化粗糙集性质的几个充分条件
双论域粗糙集在故障诊断中的应用
一种基于Hadoop的大数据挖掘云服务及应用
两个域上的覆盖变精度粗糙集模型