关联规则在高校评教系统中的应用
2016-03-22张美华欧云
张美华++欧云
摘要:随着高校数据的信息化,各高校启用了教务信息管理、学生信息管理、教师信息管理等系统电子化,积累了完整的大量数据,大多数学校面对这些数据,仅仅用于简单的教师统计和学生查询操作,数据挖掘技术可以挖掘出数据背后隐藏的更有价值的信息。用数据挖掘技术有效的分析高校学生对教师上课评价的数据,找到教师课堂教学质量与职称、年龄、学历、专业素养等之间的关联,可以帮助学校管理者构建科学、完备的评价系统通用模型,保证更加科学的为学生服务,合理的调整教师结构,使教师能在更适合自己的位置上发挥其能力。
关键词:数据挖掘;关联规则;apriori算法;教学评价
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)01-0031-04
Application of Data Mining in the Colleges'Teaching Quality Evaluation
ZHANG Mei-Hua, OU Yun
(School of Information Science and Engineering,Jishou University, Jishou 416000, China)
Abstract:with the data information in universities, universities now have applied the informational system in the management of academic affairs, students and teaching staff and have accumulated a lot of complete date. However, in the use of these data, the majority of universities only conduct statistical and query operations. The Date Mining technology can dig out ore valuable information hidden behind the data. the Data Mining technology enables universities to effectively analyze the data of College Students' evaluation of teachers, to find the relationship between teachers' teaching quality and their professional titles, age, education level, and proficiency. Data Mining can also help the school management to build a scientific and comprehensive evaluation system for general use, to ensure the students' service, and to adjust the structure of teaching staff reasonably, so that teachers can better realize their potentials at their positions.
Key words: data mining; association rule; Apriori algorithm; teaching evaluation
1 概述
随着高校扩招,学生数量急剧增多,为了培养高质量的大学生,急需把握高校教师教学质量,随着网络的普及,很多高校采用学生作为主体通过网络平台对任课教师的课堂教学质量进行评价,评教系统的指标体系是影响学生评教的重要因素,学生网上评教是高校教学质量监控的一种重要方式和手段[1],是师生之间交流和沟通的重要平台,也是教学管理部门及时获取教师课堂教学信息,了解教学运行状态的重要渠道。
我国大部分高校在多年教学中积累了海量数据,但这些数据很多仅被用来简单的数据查询和数据统计,真正隐含其中的有用信息却极少得到利用[2],极大的浪费了资源。因此,如何从技术上改变目前高校教学评价系统存在的问题和不足,进一步利用积累下来的大量数据,用科学的理论和方法来客观的评价教师教学质量,已成为教学领域急需解决的一个问题。
2 数据挖掘技术
数据挖掘(Data Mining,DM),是从已有数据中挖掘出未知的、隐藏的、对决策制定有潜在价值的趋势、关系、模式,并利用挖掘出来的关系模式建立用于决策支持的数据模型,并提供预测性工具、方法、和过程,是利用各种分析工具在大量已有数据中构建模型和挖掘数据间关系的过程,挖掘出的模型和关系可以为分析风险、预测结果提供有力的支持。数据挖掘的研究成果应用于社会各行各业,同样也用于教育领域[3],将数据挖掘技术应用于高校教师教学质量评价系统中,从已有的大量数据中提取挖掘出有用的关联规则,对提高高校管理者的决策能力和管理水平有深远的意义,并可以合理安排班级课表,提高学生学习兴趣,调整高校教师结构。
2.1 数据挖掘步骤
数据挖掘过程主要有数据准备、规律寻找和规律表示三个步骤。数据挖掘基本过程如图1所示。
图1 MD的基本过程
1)数据准备。从海量数据源中根据需要选择数据,经过布尔转换成可用于数据挖掘的数据集。
2)数据挖掘。利用适合的算法将整合数据集中隐藏的有用规律挖掘出来。
3)结果表达和解释。指使用用户可以理解的方式将步骤二找到的有用的规律表达出来,为用户提供切实可行的方法。[3]
2.2 数据挖掘方法
利用数据挖掘进行数据分析的常用方法有关联、分类、聚类、异常检测等方法,从不同的侧重点和不同的角度对数据进行挖掘。
数据挖掘是制定决策的支持过程,通过分析现有数据库中的海量数据,找出隐藏在数据间未知的特征,进而推导出有指导性意义的规律,挖掘得到有效可行的模式,帮助管理者调整策略方向,制定正确的方案。这对于一个企业和教育系统的发展十分重要。
2.3 关联规则及Apriori算法
关联规则最初提出的动机是针对购物篮分析(Market Basket Analysis)问题提出的。1993年,Agrawal等人首先提出超市已有大量数据库中各项集间的关联问题,并率先提出了挖掘算法AIS。1994年,提出了著名的Apriori算法,至今Apriori算法仍然作为关联规则挖掘的经典算法被广泛讨论。
关联规则用于发现实体与其他实体间的相互关联性或依赖性,用来揭示数据之间没有直接表示出来的相互关系,关联分析的基本任务是发现实体间的关联规则和相关程度。
关联规则定义为:
假设 I={i1,i2,…,im}是 m 个不同项目的集合,其中的元素称为项(Item)。设 D 为记录 (Transaction)T 的集合,T 是项的集合,且T?I,对应每一个记录都有唯一的标识,如记录号,记作 TID。一个关联规则是形如 X=>Y 的蕴涵式,这里 X?I,Y?I,并且 X∩Y=Φ。X 称为规则的前提,Y 是结果。规则 X=>Y 在交易数据库D中的支持度(Support)是交易集中包含 X 和Y 的交易数与所有交易数之比,记为 Support(X=>Y),即 Support(X=>Y)=|{T:X∪Y?T,T∈D}|/|D|。规则 X=>Y 在交易集中的可信度(Confidence)是指包含 X和 Y 的交易数与包含 X 的交易数之比,记为 Confidence (X=>Y),即Confidence(X=>Y)=|{T:X∪Y?T,T∈D}|/|{T:X?T,T∈D}| [4]。
Apriori算法是基于挖掘布尔关联规则频繁项集的算法,核心是采用两阶段频集思想的递推算法,通过多次扫描数据库的数据来完成。 其算法包含两个步骤:1)连接;2)剪枝。
Apriori算法描述见参考文献3和参考文献4。
3 Apriori算法在高校教学质量评价系统的应用
高校教师的教学质量评价以教师个体及其教学行为为主要评价对象,通过学生对教师提交的评价结果,教师可以及时了解学生对他的满意程度及具体需求,适当调整提升自己,更正教学方向和目标,完善教学过程,使得教学效果最优化。
下面以吉首大学为例,阐述数据挖掘中关联规则在教学评价中的应用。吉首大学教务处教务中心已经积累历年学生对教师评价的各项数据,并且这些数据的格式可以转换为满足挖掘要求的格式。
3.1 确定挖掘目标,进行数据采集
下面利用随机抽取法对2014年度吉首大学教师教学质量评估表进行数据的提取,提取出来的数据具有一定的代表性,剔除空白数据和一些没有意义的数据,共300份。将抽取到的表中字段年龄、职称和评价分数输入数据表score中,调用评教程序,得到每位教师的评价结果,评价产生的数据存在outcome表中,表中每条记录与一位教师的数据对应,表结构包括字段属性有:编号、年龄、学历、职称、课前准备、教态形象、教学方法、教学组织、作业评阅等,通过数据挖掘中的关联规则,找出学历、年龄、职称和评价结果分数之间的关系。
3.2 数据整合
将教师信息表、学生评教结果表和学生成绩表根据关键字段进行整合,整合后的表结构如表1所示。
表 1 整合后的表结构
[属性名称\&属性说明\&编号ID\&教师编号\&年龄N\&教师现在年龄\&学历X\&教师最终学历\&职称Z\&教师现在的职称级别\&课前准备K\&课前是否准备充分,教案、课件等是否认真准备\&教态形象Y\&教态大方,精神饱满,普通话标准,语言生动,感染力强\&教学方法F\&善于启发诱导,教学方法灵活,乐于与学生交流,合理运用现代化教学手段,效果良好,提高学生学习兴趣\&教学组织J\&授课内容适中,反映学科发展新动态,阐述准确,重点突出,难点讲透,不照本宣科\&作业评阅P\&作业评阅认真,成绩评定公正,问题讲评及时\&学生及格率G\&教师所授课程的学生对象平均及格率\&]
为了方便系统分析,得到正确的关联规则整合后的数据必须进行数字化处理转换为布尔类型。
年龄:N1 [20,30];N2[31, 35];N3[36,49];N4[50,60]。
学历:X1:博士研究生;X2:硕士研究生;X3:本科;X4:专科。
职称:Z1:教授;Z2:副教授;Z3:讲师;Z4:助教。
课前准备:优:K1;良:K2;中:K3;差:K4。
教态形象:优:Y1;良:Y2;中:Y3;差:Y4。
教学方法:优:F1;良:F2;中:F3;差:F4。
教学组织:优:J1;良:J2;中:J3;差:J4。
作业评阅:优:P1;良:P2;中:P3;差:P4。
学生及格率:90%-100%:G1;80%-89%:G2;70%—79%:G3; 60%以下:G4。将以上数据进行预处理,得到数据如表2所示。
表2 预处理后的数据
[编
号\&年龄\&学历\&职
称\&课前准备\&教态形象\&教学方法运用\&教学组织\&作业评阅\&学生成绩(平均及格率)\&200001\&N4\&X2\&Z1\&K1\&Y1\&F1\&J1\&P1\&G1\&200212\&N2\&X2\&Z3\&K2\&Y3\&F3\&J3\&P3\&G2\&200213\&N3\&X2\&Z1\&K1\&Y3\&F1\&J2\&P1\&G1\&200304\&N4\&X1\&Z1\&K2\&Y2\&F2\&J2\&P3\&G2\&200415\&N3\&X2\&Z3\&K3\&Y3\&F3\&J3\&P4\&G2\&200416\&N3\&X2\&Z3\&K3\&Y3\&F3\&J3\&P4\&G2\&200507\&N4\&X2\&Z1\&K2\&Y2\&F2\&J2\&P2\&G2\&200518\&N4\&X2\&Z1\&K1\&Y2\&F2\&J1\&P2\&G1\&201009\&N3\&X2\&Z3\&K2\&Y3\&F3\&J3\&P4\&G2\&201010\&N3\&X2\&Z2\&K2\&Y2\&F1\&J1\&P1\&G2\&…\&…\&…\&…\&…\&…\&…\&…\&…\&…\&]
3.3 挖掘关联规则
下面以分析表2中的10条记录为例,阐述关联规则的挖掘过程。先用关联规则算法Apriori算法产生如表3、表4、表5、表6四个频繁项集,再根据频繁项集产生强关联规则。
表3
[Item1\&frequent\&N4\&4\&X2\&9\&Z1\&5\&Z3\&4\&K2\&5\&Y2\&4\&Y3\&5\&J3\&4\&G2\&7\&]
表4
[Item1\&Item2\&frequent\&N4\&G2\&2\&N3\&G2\&4\&G2\&X2\&5\&M2\&X2\&4\&Y3\&X2\&4\&Y3\&F3\&4\&X2\&F3\&4\&Y2\&Z1\&4\&X2\&Z1\&4\&Y3\&Z3\&4\&X2\&Z3\&4\&W3\&Z3\&4\&]
表5
[Item1\&Item2\&Item3\&frequent\&N3\&X2\&G2\&4\&Y3\&X2\&F3\&4\&Y3\&X2\&Z3\&4\&Y3\&F3\&Z3\&4\&X2\&F3\&Z3\&4\&]
表6
[Item1\&Item2\&Item3\&Item4\&Item5\&frequent\&N3\&Y3\&X2\&F3\&Z3\&4\&]
3.4 关联结果分析
在大量数据中利用Apriori算法挖掘布尔关联规则,可以得到强关联规则有一下四条:
N3,Z3,X2?Y3 (Sups:38%,Confs:100%)
Z2?N3,Y3,F3 (Sups:39%,Confs:100%)
N3,X2,Z3? F3 (Sups:40%,Confs:100%)
N3,X2,Z3? Y3,F3 (Sups:40%,Confs:100%)
规则1表明:年龄在36~49岁,学生对其评定为优秀的可能性是38%;
规则2表明:职称是副高的,学生对其评定为优秀的可能性是39%。
从上述关联规则可以得到下列评价结果:
1)年龄31~49岁的教师大多数学历为硕士,大多数职称较高的教师深得学生喜欢,教态大方,教学时精神饱满,有丰富的教学经验;讲师职称的青年教师,在作业评阅和教学组织方面得分较高,工作认真负责;
2)年龄50~60岁以上年龄层的骨干教师占有较大比例,专业素质高且师德和教学态度好的教师教的学生及格率很高;
3)高职称的教师其师德与教学态度受到学生的一致好评。
通过对高校教师的年龄、学历、职称、专业素质、教学组织、学生成绩等大量数据进行整合挖掘,得到以下信息:在高等学校中,年龄在30-40岁之间的教师多为中级职称,学历中等,注重仪容,普通话较标准,教学手段新颖,喜欢接受新知识,容易被学生接受;40-49岁教师多为副教授,教学方法多样,科研能力强,能够很好地将教学与科研有效结合,促进学生科研能力的增长;初级职称教师由于教学经验少,缺乏实践,学生反映问题较多,应加强教学组织能力,教学方法多样化。通过关联规则挖掘出来的规律,学校教务处给各班级排课时,应根据学生特性合理配备教师年龄、职称分配,使学生保持良好的学习状态,提高学生的学生兴趣。
4 结语
本文将学校教务处系统数据库中已经存在的海量数据,利用关联规则进行数据挖掘,寻找学生和教师数据间隐藏的潜在有价值的关系,为检查教学效果和提高教学质量提供了正确有效的指导,本文利用关联规则算法Apriori算法对教师和学生成绩数据库中的数据进行关联规则挖掘,探讨了教师年龄、职称、学历、课前准备、教态形象、教学方法、教学组织、作业评阅等和学生成绩之间的关系,得出了行之有效的结论,并促使教师不断认识自己,提升自己。这种方法对高校其他指标的评定体系的建立和完善也是有效的,具有一定的指导作用。
参考文献:
[1] 黄梦桥,李杰. 因素挖掘法在投资学课程中的教学实践[J].吉首大学学报(自然科学版),2015(4):80-83.
[2] 文伟,陈晟. 从数据到决策的大数据时代[J].吉首大学学报(自然科学版),2014(3):31-36.
[3] Pang-Ning Tan,Michael Steinbach,Vipin Kumar.数据挖掘导论(完整版)[M].北京:人民邮电出版社,2014.
[4] David H, HeikkiM, Padhraic S. 数据挖掘原理[M].北京:机械工业出版社, 2001.
[5] 毛国君,段立娟,王实,等.数据挖掘原理与算法[M].北京:清华大学出版社,2005:86-152.
[6] 刘星沙,谭利球,熊拥军,等.关联规则挖掘算法及其应用研究[J].计算机工程与科学,2007(5).