粗糙集与改进Apriori算法在教师教学效果评价中的应用
2011-11-18张如
张 如
(福州职业技术学院计算机系,福建 福州 350108)
粗糙集与改进Apriori算法在教师教学效果评价中的应用
张 如
(福州职业技术学院计算机系,福建 福州 350108)
先用改进Apriori算法剔除教师教学信息表中与教学效果好坏无关的素质属性,再用粗糙集属性重要性方法挖掘教师的各素质对教学效果影响的重要度排序。研究发现,“性别”不影响教学效果,“学历”、“职称”对教学效果的影响超过了“教龄”的影响。
粗糙集;Apriori算法;属性;教学信息
随着各院校规模的不断扩大,各院校的初级管理系统收集了大量数据。决策层针对教师教学效果的评价往往只基于学生每学期对教师的评价,再将最终统计结果作为评优评先的依据,而没有对评价结果做更深层的研究。下面,笔者利用粗糙集与关联规则合并挖掘教学管理系统中的数据,得出有用的决策信息。
1 粗糙集理论基础
粗糙集无需任何先验信息,就可从给定问题的描述出发,找出问题内在规律[1]。它能从数据中揭示出精确而又易于检查和证实的规则。粗糙集可进行定量分析。
1.1决策表
决策表是粗糙集最基本的信息系统。决策表表示如下:S=〈U,C∪D,V,f〉,其中,S表示为决策表;U是论域(即研究对象的集合);C是条件属性集;D是决策属性集,C∪D组成全部属性集;V是属性值集合;f是一个映射函数,即U中对象的属性值。在决策表中,不同的条件属性有不同重要性。
1.2属性依赖度与求解
粗糙集用依赖度来度量属性集的依赖性,依赖度定义为:
k=γP(Q) = |POSP(Q)|/|U|
(1)
式中,P、Q分别是决策表中的属性集;|POSP(Q)|为{属性集P同类}中的子集完全包含在{属性集Q同类}子集中的子集个数;|U|为整个决策表研究对象的总个数。
设论域有U个对象,其中条件属性C由{n1,n2,…}n个条件属性组成,决策属性D由单一属性组成,求解D对单一属性ni的依赖度。根据式(1),求解过程如下:
1)按决策属性进行数据对象同类划分,对比对象中决策属性取值,将同值的对象划为同一类。
2)再按单一条件属性进行同类划分,对比对象中单一属性ni取值,将同值的对象划为同一类。
3)求解{单一属性ni同类}中的子集完全包含在{决策属性D同类}子集中的子集个数|POSni(D)|。
4)求依赖度k=γni(D)= |POSni(D)|/|U|。
1.3属性重要性与求解
为确定某个属性的重要性,可从表中去掉该属性,再看无该属性后系统分类发生何变化。若无该属性后分类结果变化较大,说明该属性是比较重要的,反之不重要。属性子集C′⊆C关于D的重要性定义为:
σCD(c′) =γc(D) -γc -c′(D) =|POSc(D)|/|U|- |POSc -c'(D)|/|U|
(2)
设论域有U个对象,其中条件属性C由{n1,n2,…}n个条件属性组成,决策属性D由单一属性组成,求解单一属性ni的重要性过程如下(类推求出其他所有属性的重要性):
1)先求条件属性集的依赖度γc(D)。
2)求条件属性集减去单一属性ni后剩下的属性集的依赖度γc -ni(D)。
3)计算属性ni的重要性σCD(ni)=γc(D)-γc -ni(D)。
2 关联规则与改进的Apriori算法
2.1关联规则
关联规则挖掘是从大量数据集中发现有意义的关联,它是用于寻找数据间关联的较好方法[2]。对决策有用的是支持度和可信度均较高的关联规则。但关联规则会挖掘出数以千计的规则。这缘于关联规则不去考虑规则之间的联系度和用户对规则的认同。因此在挖掘时要体现用户对挖掘的限制,即体现用户和领域知识的融合。关联规则一般仅适用于定性数据的挖掘,挖出的规则只能定性分析。
2.2改进的Apriori算法
海氏肠球菌WEHI01和屎肠球菌WEFA23是源自健康婴儿粪便的、安全性较好的菌株[10],其中屎肠球菌WEFA23能显著降低胆固醇作用[15],其降胆固醇机制与胆固醇合成、转运和分解密切相关。荷叶属于药食两用的食材,具有清暑化湿,升发清阳,凉血止血。对暑热烦渴,暑湿泄泻,脾虚泄泻,血热吐衄,便血崩漏、化瘀止血等均有治疗作用[16]。荷叶具有抗氧化、降脂减肥、抑制致病菌等的功效,主要是与其富含的生物碱(如单苄基异喹啉类、双苄基异喹啉类生物碱)和黄酮类有关[17]。
Apriori算法是关联规则最经典算法,用它来挖掘,会多次扫描数据库,这影响了算法的效率[3]。为提高效率,可减少Apriori算法访问数据库的次数。为此,笔者引入一种改进Apriori算法[4]用于后续研究工作。
改进Apriori算法可以通过一次数据库扫描得到所有的每一个项目的支持事务,而项目集的支持事务可以通过已获得的项目集中的每一个项目的支持事务相交得到。扫描数据库的次数只有那么一次,降低了算法的时间复杂度。
3 研究目标与挖掘方案确定
笔者的研究目标是要求研究结果能够表达出教师的各素质对于教学效果有无影响以及影响程度的轻与重的关系。关联规则一般只能定性分析,得出有无关联的规则,但其会产生很多冗余规则不利于决策。因此为克服该缺点,可与其他挖掘技术合并使用,发挥其他技术的定量分析及产生精确规则的优点。分析目标发现目标前半部是定性分析(有无关联),后半部是定量分析(关联程度)。因此笔者将关联规则与粗糙集结合起来,以关联规则作为数据的前期处理,以粗糙集为最终研究算法。利用关联规则先去除教师教学信息系统中无关属性。挖掘前,先强制要求只挖掘教学效果良好(评定分数≥85)的教师数据,从中剔除无关属性。做限制性挖掘的目的就是为了加入用户的决策参与并减少冗余规则的产生。得到去除冗余属性的数据集后,应用粗糙集的属性重要性挖掘出教师的各素质对教学效果影响的重要度排序。
4 应 用
4.1运用改进Apriori算法剔除教师教学信息表中的无用属性
表1 评定分数介于 [85,100]的教师教学信息表
从教务处抽取教师教学信息表,属性分别为编号、性别、教龄、职称、学历和课堂教学效果。本模块要找出高质量教学(评定分数介于[85,100])与教师哪些素质有直接关联。利用改进Apriori算法挖掘出与高质量教学无关的属性并剔除。搜索数据集,搜出评定分数介于[85,100]的记录集如表1。
判定“性别”是无关属性,保留“职称,教龄,学历”3个属性作为下一步的研究属性。
4.2数据预处理
下面利用粗糙集中的属性重要性分析方法对优化的教师教学信息表进行挖掘分析。提取教师数据共计1438个样本,剔除“性别”后得到教师教学信息表(略),其中条件属性C={教龄,职称,学历},决策属性D={课堂教学效果}。通过属性离散化对数据进行预处理,离散结果如下:教龄={1,2,3,4},1为7年以下,2为7至13年,3为14至20年,4为21年以上;职称={1,2,3,4},1代表助讲,2代表讲师,3代表副教授,4代表教授;学历={1,2,3},1代表本科,2代表硕士,3代表博士;课堂教学效果={1,2,3}, 1代表[60-70],2代表[71-84],3代表[85-100]。最终得到教学信息决策表如表2所示。
表2 教学信息决策表
4.3生成规则
令u、v、a分别对应教龄、职称、学历。课堂教学效果(决策属性)的3种值把教师分成3类,第1类为效果良好,第2类为效果一般,第3类为效果较差,分别对应1、2、3。设条件属性C={u,v,a},决策属性D={1,2,3}。分别求取各条件属性的重要性(下面括号中的数字代表教师编号)。
1)总分类。U/D={(4,7,…),(2,6,8,10,…),(1,3,5,9,…)}共3类分别对应良好,一般,较差。按C={u,v,a}分类如下,{u,v,a}相同属性时归为一类:
U/C={(4,6,7,…),(10,…),(3,8,…),…}
POSc(D)的子集为U/C集中的子集中的数完全包含在U/D中的某个子集中,决策属性D对条件属性C的依赖度为γc(D)= |POSc(D)|/ |U|=0.167。
2)C-{u}即去除教龄后,{v,a}相同属性时,分类如下:
U/C-{u}={(4,6,7,…),(10,…),(2,3,8,…),(5,…),…}
POSc -{u}(D)子集为U/C-{u}集中的子集中的数完全包含在U/D中的某个子集中,决策属性D对于去除教龄属性后的条件属性C的依赖度为γc -{u}(D)= |POSc - {u}(D)|/|U|=0.134;教龄属性关于决策属性D的重要性为σCD(u) =γc(D)-γc -{u}(D)= 0.167-0.134=0.033。
3)C-{v}即去除职称后,{u,a}相同属性时,分类如下:
U/C-{v}={(4,6,7,…),(10,…),(3,8,…),(9…),(2,…),(1,5,…),…}
POSc -{v}(D)子集为U/C-{v}集中的子集中的数完全包含在U/D中的某个子集中,决策属性D对于去除职称属性后的条件属性C的依赖度为γc -{v}(D)= |POSc - {v}(D)|/|U|=0.1;职称属性关于决策属性D的重要性为σCD(v) =γc(D)-γc - {v}(D)= 0.167-0.1=0.067。
4)C-{a}即去除学历后,{u,v}相同属性时,分类如下:
U/C-{a}={(4,6,7,10,…),(3,8,9,…),(2,5,…),(1,…),…}
POSc -{a}(D)子集为U/C-{a}集中的子集中的数完全包含在U/D中的某个子集中,决策属性D对于去除学历属性后的条件属性C的依赖度为γc -{a}(D)= |POSc - {a}(D)|/|U|=0.1;学历属性关于决策属性D的重要性为σCD(a) =γc(D)-γc - {a}(D)= 0.167-0.1=0.067。
5)σCD(a)=σCD(v)>σCD(u), 结果表明职称与学历对教学效果的影响超过了教龄对教学效果的影响。
根据挖掘结果可知,“职称”、“学历”对教学效果的影响是最大的,都最大程度地改变决策属性的分类;“教龄”相对于“学历”与“职称”,影响会小些。
[1]张文修,吴伟志.粗糙集理论与方法[M].北京:科学出版社,2001.
[2]武森,高学东,巴斯蒂安 M.数据仓库与数据挖掘[M].北京:冶金工业出版社,2003.
[3]康艳霞.数据挖掘技术在学生成绩分析中的应用研究[D].上海:华东师范大学,2009.
[4]谭明杰.应用数据挖掘技术的高校教务管理系统的设计与开发[D].成都:电子科技大学,2007.
[编辑] 洪云飞
10.3969/j.issn.1673-1409.2011.08.003
TP311.13
A
1673-1409(2011)08-0007-03