数据仓库与数据挖掘技术在教学综合测评系统中的应用
2018-02-22李红刚殷立新刘宏伟李红彪
李红刚 殷立新 刘宏伟 李红彪
摘 要:文章在介绍了数据仓库、联机分析处理(OLAP)的概念基础上,结合教学学生综合测评系统构建数据仓库,利用决策树分类方法实现数据分析的功能。
关键词:数据仓库;联机分析处理;数据挖掘
随着中国高等教育从精英教育向大众化教育的转变,必将给学生的管理带来许多问题。学生信息庞大而复杂,学生工作管理者越来越意识到管理的复杂性,越来越难以预测学生的状态和发展。因此,学校希望學生的海量数据不仅是简单地用在备份和查询上,而是更迫切需要管理信息系统具备协助测评决策的能力。经过大量的分析与研究,数据仓库和数据挖掘技术是解决这一问题非常有效的途径。数据仓库和数据挖掘技术在教学综合测评系统中的应用正是建立在此基础之上。
1 数据仓库、OLAP
(1)根据数据仓库之父Inmon[1]定义,数据仓库是一个面向主题的、集成的、不可更新的且随时间不断变化的数据集合,用来支持管理人员的决策。
(2)联机分析处理(On-Line Analytical Processing,OLAP)技术是用于解决海量数据高效分析的先进技术。可以主要应用于数据仓库系统,能够用于复杂的分析操作,侧重决策支持,能够提供直观明了的查询结果。
(3)多维综合测评联机分析。教学综合测评系统的数据仓库采用自下而上的构建方法。系统使用多维数据模型,雪花模式。该模型将数据视为数据立方体模型,这是多维数据存储的隐喻,允许对维和事实定义的数据以多维形式进行建模和观察。通过维度表,我们可以在创建数据立方体后以各种角度轻松执行数据切片,切块、上卷、下钻、钻过、钻透等操作。通过多维数据分析,可以随时查看任何学生或年级的任何一项或综合测评的结果。这有利于学校大学生管理者通过多维数据立方体的展示来了解每个学期和每个学生或班级的各个方面的发展,开展有针对性的教育工作,可以宏观地掌握学生的发展,也为支持学生的管理和教育发挥了有效的决策作用[2]。
2 研究的内容
利用学校多年来的基础数据,在建立相对完整的关系数据库的基础上,创建系统的数据仓库,然后进行各种OLAP分析。以各测评项目为目标,作为测评分析的主题。例如,综合系统可以基于学生编号、学期、学年、学术水平等方面多维度查询。评估结果可以使用数据挖掘—在线分析挖掘(On-line Analytical Mining,OLAM)的多维数据挖掘方法来生成全面评估多维立方体的视觉尝试,每个学生的学习成绩和其他方面都可以在立方体中表达,可以一目了然地看到学生各方面的情况。教学综合测评旨在确定学生入学与学生就业之间的关系,以确定课程设置,并找出学生来源与学生成绩和就业之间的关系;用人单位选拔优秀人才;它可以在毕业资格审核,学位授予,重修、辅修、评定“三好学生”和奖学金中发挥辅助决策作用[3]。
3 解决方案
Microsoft在SQL Server上提供Analysis Services,这是一种数据仓库解决方案,也是Microsoft决策支持服务的关键组件。为了使教学综合测评更加直观和高效,学校管理者利用数据挖掘系统—DBMiner软件实现数据立方体的可视化[4-5]。
(1)数据仓库体系结构整个数据仓库系统是一个包含4个层次的体系结构,具体如图1所示。
(2)OLAP。使用微软公司SQLServer上的Analysis Manager来创建多维数据集,设计学生综合测评事实表与学生、教师、考试、设置、成绩、测评内容、德育等维度表。
(3)将决策树分类方法应用于数据挖掘。决策树提供了一种在什么条件下显示值得遵守规则的方法。在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子结尾。这个过程就是利用决策树进行分类的过程[6]。
教学综合测评方面定性指标包括德育水平、学业水平、课外实践能力等。
①根据相应的规则对每个指标进行分类。综合素质:按优、良、中、差分为1、2、3、4四个等级;德育水平:按好、一般、差分为1、2、3级;学业水平:按优秀、良好、一般、较差、差分为1、2、3、4、5级;课外实践能力:按合格、不合格分为1、2级;
②建立决策树分类规则如图2所示。
根据先前建立的决策树分类规则,建立数据训练集,并且在由分类规则和训练数据生成的决策树算法之后,自动生成用于预测学术水平的决策树。决策树叶子颜色的深浅直观表示了事件发生的概率大小[7-8]。例如,我们可以看到整体质量为优秀的群体中,学业水平为优秀的所占比例和良好的所占比例,根据两者合计占有比例,可以观察是否占有绝对优势。因此,我们可以分析和预测具有良好综合素质的学生,学术水平也是优秀的。
4 结语
本文对实现这些功能所面临的主要技术问题进行了较深入的研究,基于数据仓库、数据建模技术的数据仓库应用系统的实现方法,数据仓库系统的体系结构,数据装载和控制机制分析数据挖掘算法等,通过构建数据仓库并利用OLAP和决策树分类的强大功能,可以实现强大的基于Web的数据分析。用户可以在Web浏览器中对数据执行统计和分析,以实现数据挖掘。基于数据仓库与数据挖掘技术的教学综合测评系统软件,在学校实际应用中取得了良好的效果,大大减轻了教学、学工、督导等相关工作人员的工作量,扩大了数据统计的覆盖面,提升了统计数据的效率和测评数据的准确度,为学校教学工作起到辅助决策的作用。
[参考文献]
[1]INMON W H.数据仓库[M].王志海,译.北京:机械工业出版社,2000.
[2]TONY B.SQLServer2000数据仓库与Analysis Services[M].邵勇,译.北京:中国电力出版社,2002.
[3]沈兆阳.SQLServer2000 OLAP解决方案—数据仓库与Analysis Services[M].北京:清华大学出版社,2001.
[4]孙荣明.数据挖掘对教学管理的优化设计[J].电脑知识与技术,2016(24):3-5.
[5]翟继友. 基于决策树的教师教学质量评价分析[J].教育评论,2015(9):65-67.
[6]任锁平. 基于数据挖掘的高职教学质量监控评价系统设计及应用[J].电子设计工程,2015(16):25-27.
[7]杨国静.基于数据挖掘的高校教学数据分析研究[D].石家庄:河北师范大学,2015.
[8]彭丽娟.基于数据挖掘的高职院校教学管理系统的设计与实现[D].成都:电子科技大学,2014.
Abstract:Based on the concept of data warehouse and online analytical processing(OLAP), a data warehouse is constructed by combining the comprehensive assessment system of teaching students, and the function of data analysis is realized by using the decision tree classification method.
Key words:data warehouse; OLAP; data mining