基于SQL Server数据挖掘的学生成绩预警预报研究
2015-09-11宋绍云
宋绍云
摘要:目前高等学校中对学生成绩的预警预报没有一种比较有效和可行的系统,为此提出一种基于SQL Server关联规则挖掘的学生成绩预警方法,并设计一种对学生成绩预警和预报的数据挖掘模型,在预设一定的支持度和可信度的条件下,由SQL Analysis Services系统找出具有一定内在联系和不同支持度和可信度的课程成绩之间的关联规则,以便对学生课程学习成绩进行预警预报。实践表明,该方法对提高教学质量起到了重要作用。
关键词:数据挖掘;关联规则;学生成绩;预警;预报
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)17-0018-03
1 前言
要提高高等学校的教学质量和就业率,学生的成绩的预测预报是关键因素。由于信息系统在教务管理中的广泛应用,积累大量的学生成绩数据,其中隐含了学生学习成绩的知识和规律,通过对成绩数据的挖掘,发现隐藏其中的知识和规律,能够促进高校教务管理水平和对学生成绩的预警预报,我们用SQL Server Analysis Services技术对学生成绩的数据库进行挖掘,找出学生成绩之间关联规则。通过学生成绩之间的关联性,对学生未来成绩提出预警预报,使学生预知自己未来的学科成绩,以便学生根据自己的学习情况,安排和调整自己的学习计划提供参考。
2 课程关联性及其预警
通过对玉溪师范学院信息技术工程学院的课程设置和培养目标而制定的一系列的专业课程进行分析。从课程性质分必修课和专业选修课两类;从知识结构的方面可分为基础理论课程、专业课程和通识课程等类型。实施教学的课程具有一定顺序性,并且课程之间是相互关联的。有部分专业课程的学习,必须有一定的先修课程的基础知识,才能学习好该门课程。通过分析找出课程之间的关联性。如果有一门课程需要一门课程或多门先修课程,如果这些先修课程出现考试分数偏低或不及格,我们对被影响到的那门课程提出预警信息。这样就有利于学生及时准确的掌握课程状态,避免考试成绩出现分数偏低的状况。
每个学生的学习动机是不同的,它是每个学生的学习成绩不同的因素之一,不同的学习动机会对学习的进程和学习的效果产生不同的影响,也会使得学生的个性和心理有不同的发展轨迹。每个学生提前预知自己课程成绩的情况也会促使学生更好地调整学习这门课程的学习状态,因此课程预警的提出可以对学生的学习动机产生一定的影响。学生需要具有良好的学习动机才能很好的完成学习和调整自身的心理状态,也是学生全面发展的重要保障。
每个学生能够顺利完成学业是一种认知和自我实现的需求。学生对自己学业和就业具有自身的需求,如果学业受到威胁,必然会努力学习。课程成绩的提高起到一种激励的作用。当对学生提出学习预警,使学生知道对其学业将会受到影响时候,学生就会明确自己的学习动机,使得学生有实现较高层次的学习目标的动力,有利于学生积极的学习有预警信息的课程。表1是部分专业课程的成绩。
2 准备数据
我们从学校教务系统中获取2010级计算机科学与技术专业学生的各门专业课成绩,并整理为如表1所示的Excel表格。在SQL Server 2005中新建数据库StudentDM,并创建具有相应字段的SQL Server数据库表StudentScore。打开SQL Server Management Studio,通过数据库引擎连接好SQL Server服务器,在创建好的数据库上单击鼠标右键→任务→导入数据,然后按照向导一步一步地操作导入excel数据到数据库StudentDM的StudentScore表中。也可直接复制Excel数据到打开的SQL Server数据库表StudentScore中。
3 创建挖掘模型及数据挖掘
3.1数据准备
SQL Server 2005 的Business Intelligence Development Studio,即商业智能开发平台,是用于创建商业智能解决方案的工具。使用该平台可以创建包含分析服务对象定义的分析服务项目。我们使用该工具对学生课程成绩进行关联规则的挖掘。
我们先把玉溪师范学院信息技术工程学院近年来学生专业课成绩录入到MS Excel表格中。其次,在SQL Server中建立数据库StudentDM,并创建数据库表StudentScore,最后把 MS Excel数据导入到SQL Server数据库表StudentScore中。下面将给出学生课程成绩关联规则的挖掘步骤。
3.2 操作步骤
3.2.1 创建 Analysis Services项目
从 Microsoft SQL Server 2005中打开 SQL Server Business Intelligence Development Studio窗口。
在“文件”菜单中选择“新建”-“项目”。
在“新建项目”对话框中,选择项目类型中商业智能项目的Analysis Services。
更改项目名称为StudentScoreDM,也就是更改解决方案名称,然后单击“确定”。
3.2.2 数据源的创建
在SQL Server Business Intelligence Development Studio中用鼠标右击解决方案资源管理器中的“数据源”,再选择“新建数据源”。
选择“下一步”按钮,再选择“新建”,打开“连接管理器”窗口。
在“连接管理器”窗口中,从“提供程序”中选择“本机 OLE DB\ SQL Native Client”;服务器名称输入“localhost”;在“登录到服务器”中选择“使用Windows身份验证”;选择数据库名称“StudentDM”,单击“确定”按钮。
在“数据连接”下面选择“local.StudentScore”数据库表。
在数据向导的模拟信息窗口中选择“默认值”,再选择“完成”。
3.2.3 数据源视图的创建
在SQL Server Business Intelligence Development Studio中用鼠标右击右边的“数据源视图”,再选择“新建数据源视图”和“下一步”,单击“完成”。
3.2.4 关联规则挖掘结构的创建
在SQL Server Business Intelligence Development Studio中用鼠标右击右边的“挖掘结构”,再选择“下一步”。
在“选择定义方法”窗口中选择“从现有关系数据库或数据仓库”,单击“下一步”。
在“数据挖掘技术”窗口中选择“Microsoft关联规则”,再单击两次“下一步”。
在“制定定型数据”窗口中的“挖掘模型结构”下面,选择“建”(关键字段),“输入”(用于预测的字段,例如:高等数学Ⅰ和高等数学Ⅱ),“可预测”(输出字段,及预测结果字段,例如:数据结构)。
单击 “下一步”,再单击“下一步”,并选择“允许钻取”,最后单击“完成”。
4 挖掘结果及预警分析
SQL Server Business Intelligence Development Studio的挖掘模型查看器的作用是用可视化方式给出挖掘模型及其算法结果。挖掘模型查看器具有项集、规则及依赖关系网络选项卡。图1是根据StudentScore数据库表挖掘得到的关联规则。
关联规则是指数据项之间(课程成绩之间)的关联程度,也就是从一个事务中某些项的出现可导出另外项在同一事务中出现的程度,即隐藏在数据项之间的关联规则。在SQL SERVER 2005 中采用的关联规则算法是Apriori算法。下面我们解释一下算法中的关键指标,如表1所示。
从图1可以看出,数据结构课程的学生成绩与高等数学Ⅰ和高等数学Ⅱ的课程成绩有密切的关系,如果高等数学的成绩较差,则数据库结构课程的成绩将可能不及格。表2中的概率是关联规则挖掘中的可信度,重要性是支持度。从表2可以看出,若高等数学Ⅰ或高等数学Ⅱ的成绩若低于68分,则数据结构将于可行度为100%,支持度大于34%的可能性不及格。
依赖关系网络可以呈现产学生课程成绩之间的的相关性,并通过图形直观了解课程成绩之间的相关性。如图2所示。其实关系依赖网络也是对数据项进行粗糙的分类,若数据项之间关联性很强,则可以分为一类。图2中数据结构预测的成绩在51到65分的就归为一类。我们对这部学生将提出预警,告知这部学生他们的数据结构课程成绩可能不及格(可信度100%,支持度34%)。
5 结论
通过SQL Server Analysis Services步骤进行数据挖掘,创建 Analysis Services 项目,定义数据源,将 StudentScore 数据库表定义为数据挖掘的数据源。最后定义数据源视图为来自StudentScore 数据库中选定表的元数据定义一个统一视图。我们将得到课程成绩之间的关联规则,而且对每个学生都能得到预测结果。
我们使用我校信息技术工程学院的学生成绩进行挖掘,并预测和预报学生数据结构的成绩,通过在我们的实际教学中的应用,发现结果准确率较高(高于95%),成绩预警信息可具体到每一个学生,应用SQL Server Analysis Services关联规则挖掘技术解决了学生成绩预警预报的问题。对我校信息技术工程学院提高教学质量起到了较大的作用。
参考文献:
[1] 陈元,陈文伟. 基于数据抽取器实现数据挖掘[J].计算机工程,2010(10).
[2] 陈高锋,刘元刚. 基于SQL选择语句的聚类分析[J].现代电子技术,2012(14) .
[3] Jiawei Han. Micheline Kamber DataMining: concepts and techniques 2001.
[4] Deli Zhu. SQL Server 2005 Data Mining and Business Intelligence Solution 2007.
[5] 王欣,徐腾飞,唐连章.SQLServer 2005数据挖掘实例分析[M].北京:中国水利水电出版社,2008.