学生成绩分析中数据仓库与数据挖掘的应用分析
2017-10-16李川
李川
【摘要】 在属于高等教育场所的大学之中,学生成绩不仅仅是一个单一的评定标准,更需要反映出学生在接受教育过程中所出现的某方面的问题。并且大学学生的数量众多,在每次的期末考试中成绩数据的量十分巨大,如果没有一个细致完善的数据系统作为支撑的话,学生的成绩就会变得十分混乱,严重影响到了学校的教学秩序。在本文中,我们将详细研究分析数据仓库和数据挖掘这两种技术在学生成绩分析过程当中的应用,从多角度全方位的分析这两种技术给学生成绩分析带来的便利。
【关键词】 学生 成绩分析 数据仓库 数据挖掘 应用
引言:在现阶段,随着高校的数字化的校园建设进程加快,学校内部的数字化管理系统也在发展中日益完善。但是,这些数据在一些高校中往往只是以简单的计算机内部存储的形式进行存储,这些存储的数据往往只能向师生提供简单的查询服务,并不能对数据进行系统化分门别类的查询和深入化的分析。而通过数据仓库和数据挖掘技术的应用,能够有效的解决大量数据存储混乱,不能对学校的教学工作提出系统化的管理协助等问题。通过对这两种技术的合理应用,能够使数据合理的存储和应用,并能够全面提升高校的教育管理水平,为其提供实质化的帮助。
一、数据仓库在学生成绩分析中的应用概述
1.1数据仓库的概述
数据仓库是一种系统化、集成化、自动化的,并且能够随着时间的变化自动进行更新的面向主题的一种集合式的数据群。它可以用于各种经营管理的场合和机构,能够对经营管理的组织提出数据上的决策帮助,在经营管理组织的决策阶段,数据仓库能够起到很重要的参考作用。在高校学生成绩分析的过程中,数据仓库的合理应用也能够具有很大的价值。在目前的高校管理信息系统当中,很大一部分数据将会作为数据仓库建设的重要参考被纳入数据仓库之中。现阶段在高校内部数据管理中,多是以各种方面的数据库独立存在的方式来进行综合的数据管理,例如学生成绩查询系统、教务处管理系统、学工处管理系统等。这些独立的数据库管理系统往往无法相互关联或关联的程度较小,并且这些数据管理系统内部都包含着大量的数据信息,无法通过完全废弃旧的数据管理系统的方式进行资源重组[1],同时由于学校各部门的职责也都不尽相同,因此各部门的数据管理系统的开发单也不是统一的,这就给数据的综合性管理增加了许多的难度。因此高校的管理系统必须构建数据仓库,提高对各类型数据的全面统一管理的能力,通过数据仓库,能够使管理系统中的数据相互关联起来,保证了数据的整体性和相关性,为高校在教学和管理活动中的决策提供重要的参考。
1.2数据仓库要满足学生成绩分析系统的需求
高校在数据仓库建立之前,还需要做一步重要的前期準备工作,就是对学生成绩分析系统的基本需求要有一个明确的了解。一般来说,学生成绩分析系统所要做到的基本工作就是对学生成绩的特点进行系统的分析,确定学生成绩分析系统能够根据学生的特点进行系统化的管理分析。同时还要做到工作的细化,通过建立数据仓库可以对学生所在班级的教务管理工作进行优化,对院系的教务管理工作进行优化,还需要根据学生成绩分析系统的数据[2],对学校整体的教学计划进行调整,针对于整个学校的教学管理做一个系统的优化。这就需要数据仓库的开发人员要充分了解学生成绩分析系统的需求,明确通过针对性的设计能够使整个系统实现哪些功能,并且要了解其中的数据能够做出什么样的预测,经过对学生成绩分析系统的充分了解之后,才能根据需求进行针对性的设计,将数据仓库的优势完全发挥出来。例如,在数据仓库的需求了解中,应该了解到数据仓库的建立需要满足所有学生的成绩分析需求,并且在整体上要对班级、院系乃至于全校的某门共同课程进行系统化的分析,或是需要对不同的授课教师所教的某一门课程进行分析和对比,这些精细化的数据分析要求,对学生成绩分析系统中信息的粒度要求十分高,在数据的粒度上需要达到最精细化的程度。数据仓库的职责,不仅仅是对学生的成绩进行一个收集,需要的是通过数据仓库的利用对学生的成绩进行系统化的分析,同时还需要从课程、授课教师、学生本身等各方面各角度进行分析,对整个成绩的细节概况要有全面而充分的了解。
1.3数据仓库的具体设计方案
数据仓库的设计大体上可分为两种基本方法,一种为“自顶向下”的方法,另一种为“自底向上”的方法[3]。这两种基本方法各有着优缺点,在单独使用的情况下效果不佳。而通过将两种基本方法结合使用的情况下,可以收到很好的效果。在设计的过程中,可以适当地借鉴企业级别的数据仓库进行设计,要对总体的设计框架有一个明确的构思。在这里,我们则需要引进一下数据集市的概念,数据集市是在数据仓库系统当中重要的一部分,可以看做是数据仓库的逻辑子集,而数据仓库则是这些逻辑子集的集合,并且将这些逻辑子集系统化,一致化。我们在数据集市的设计中,也要以整体的设计理念作为指导,通过系统化的设计指导方向来进行设计。学生成绩分析系统内部所包含的数据量是十分巨大的,这也是由于系统的职责和任务就是对教务工作的管理工作提供决策支持的特性所造成的。在学生成绩分析系统当中里面的数据呈现多维化、多样化、精细化、更新速度快的特点,因此数据仓库的设计必须要谨慎有加,这样才能够保证在这种大量的数据中能够做出准确的系统化的分析和判断。数据仓库的另一个设计重点则是对数据模式的设计,数据模式是数据仓库中最为重要的部分,也是整个数据仓库的核心部位。我们也可以将数据仓库的建立模型看做一个具有单一化层面相互关联的数据模型向多元化的多维数据模型的转变。我们在数据仓库的整体设计中可以将整体的设计理念分为三个层次,使用三层数据建模的方式来完成数据仓库的整体设计过程。这三个层次分别为概念模型设计、逻辑模型设计和物理模型设计[4]。这三个层面的设计构成了整个数据仓库的设计方向和设计理念。下面将对这三个层次的设计做详细的阐述。
1.3.1概念模型的设计概述
概念模型是对整个数据仓库进行一个整体而全面的分析和概括,是一个大纲性质的模型设计。在整个概念模型的设计中,主要涉及的大方向有两个,第一个方向就是确定整个系统的主题域,这是在概念模型的设计当中首先要去做的一步,也是重要性极高的一步。第二个方向则是要确定边界,这个边界具体是指数据仓库中的内容和界定系统的边界。通过界定边界的设计,可以使数据仓库中的数据含量更加的精确,从而达到整个数据仓库在设计初期的优化。endprint
在学生成绩分析数据仓库中,所包含的主题主要有学生成绩主题、教师授课情况主题、课程信息主题等各种方面。在学生成绩的主题方面,主要包含了学生的基本信息、成绩登记信息、课程信息以及授课教师情况等;教师授课主题主要包括了教师的基本信息、课程进度、授课课时等基本情况;在课程信息主题中,主要包括了课程类型、课程规定课时、选修课程和必修课程分类以及課程安排明细等方面。这些主题所涉及的各个方面都是整个学生成绩分析数据仓库的主要依据。在这些详细的主题域和主题边界被确定之后,便可以对所要研究的主题进行详细分析,概念模型的设计是整个学生成绩分析数据仓库的重要基础,也是整个数据仓库中必须要去做好的先决条件。
1.3.2逻辑模型的设计概述
在进入了逻辑模型设计的阶段,主要的任务则是对在概念模型设计中建立的主题域进行系统详细的分析。在这个系统设计阶段,对所选取的主题要注重按照粒度层次进行系统化的划分,在逻辑模型构建的方法中,我们可以使用星式模型进行构造。通过实践表明,星式模型是实现逻辑模型构造的基本方法。在通过星式模型完成设计的过程中,我们还需要注意一下几个方面的问题。1、粒度选择的问题。在粒度的设计方面,高校学生成绩分析数据仓库内部所含的数据每年的总行数大概在10000行左右,因此我们可以采取单一的粒度设计模式进行粒度设计,使其充分数据仓库的工作机理。2、对于数据表的合理规划。在高校学生成绩分析的数据仓库中,在每个主题中所含的数据表内的数据含量并不是十分大,我们就不用通过数据分割处理的方式进行处理。在每个表中,所使用的信息相对来说都比较固定,因此我们可以根据这些变动不大固有的信息进行对数据表的规划。
1.3.3物理模型的设计概述
在物理模型的设计中,所用的转换方式是可以按照传统的数据库模式进行设计的,在物理模型的设计中,我们需注意的是数据标准的定义方式和数据仓库中的维度信息。在物理模型的设计中,主要的设计方向应该是学生成绩数据的存储方式,对于表中数据含量特别大的部分,我们在物理模型的设计中可以采用分区存放的方式来进行。对于一些数据含量较小的维表来说,我们就可以把这些维表集中存放于某个数据表的空间之中,在物理模型的设计之中,也要充分考虑到数据的读取速度,要在成本允许的情况下尽可能的利用高速的存储设备进行数据的读取。同时建立索引的方法也能够在很大程度上提高数据的读取速度,但索引会在数据的更新方面造成一些困扰,有可能导致数据的更新速度表面,出现系统数据延迟的状况,影响数据的协助决策功能的发挥。因此,对于数据量不是非常巨大的情况下,尽量不要使用索引。
二、数据挖掘技术在学生成绩分析系统中的应用概述
2.1数据挖掘技术的概述
数据挖掘技术就是从大量的数据之中自动发现并提取人们感兴趣的信息,以帮助人们进行协助决策的目的。数据挖掘技术对于大量的数据筛选工作有着重要的帮助,能够使人们在大量的、不规则的、不完整的数据中尽快的寻找到自己所需要的数据,极大的提高了工作效率[5],避免了时间的浪费。而数据挖掘技术在学生成绩分析中也会有很大的帮助,通过数据挖掘,能够使教务处的相关工作人员准确的找出学生成绩间的内在联系和反映出的状况,避免了在庞大的数据群中花费大量时间去筛选,使得教学工作能够更加科学有效的进行开展。
2.2数据标准化处理的概述
在各科成绩之间 ,分数段的分布是有着明显的差异的。例如在一些政治类的必修课中,如马克思主义基本原理概论、毛泽东思想和中国特色社会主义理论体系概论等课程中,学生的分数波动幅度整体来说不大,而在一些数学类的课程中,学生之间的分数差距就会相对较大。因此,对于学生的成绩数据做作线性的标准化处理就显得十分必要,我们可以在0到1的集合范围内对学生的成绩进行统一的转化,将学生的成绩转化为0到1之间的实数,最高分为1,最低分为0,然后其他分数按照线性规律转化为不同的实数[6],这种标准化值的线性排列的方法可以使数据的查找更为精确,使得教务工作人员在进行数据分析时能够准确的找出具有代表性的样本数据,使数据在协助决策的过程中发挥更大的作用。
2.3数据的聚类分析
聚类分析也是数据挖掘技术当中非常重要的分析方法,是数据挖掘技术实施过程中必不可少的重要分析方法。聚类分析主要有两种分析方法,一种是基于K一Means算法的聚类分析,另一种是基于Huffman树的K一Means聚类分析[7],这两种聚类分析方法是目前最为常用的两种分析方法,下面将对这两种聚类分析方法进行详细的说明。
2.3.1基于K一Means算法的聚类分析
这种聚类分析的方法在应用范围上来说较为广泛,在使用中首先要选定聚类的类别数,把它记为K,然后采用迭代更新的聚类方法进行分析,最终得到K个聚类中心所表达的聚类结果,在每一次迭代的变化过程当中,数据都在向着目标的函数值进行靠近,如果在聚类结果中目标的函数取得了极小值,且聚类效果较好的话,那么便达成了终止条件。K一Means算法的基本工作机理是在算法以内,平方误差和函数作为目标函数,在事先指定的K个划分当中通过迭代优化的方式使得目标的函数值最小。这种算法在聚类分析中是一种重要的算法,并且十分简单高效,能够做到对数据进行迅速反映,得出的结果也相对较为准确。但是这种算法随着数据的量和分类的不断增多,这种算法的劣势也逐渐的显露出来,其中包括K值的估计不够准确,初选的始聚类中心的问题等一系列问题,针对于这些问题的情况,基于Huffman树的K一Means聚类算法也随之产生,对聚类算法进行了进一步的优化。
2.3.2基于Huffman树的K一Means聚类算法
这种算法相对于原先的K类均值算法来说做到了进一步的优化,首先这种算法利用了Huffman树的理念,对初始中心点的选取做了进一步的优化,其次改进了K类均值聚类算法在全局方面计算相对失准的情况,一定程度上解决了这种均值算法的片面性的问题。下面将介绍关于基于Huffman树的K一Means聚类算法的基本步骤。endprint
1、计算数据相异度的矩阵建立。我们要利用数据样本,根据算法原理将数据样本构成Huffman树,并且根据所构造的树进行全面的算法分析。在树的构造过程中,我们要选取欧式距离中最小的两个数据点进行新树的子树构造,并且需要根据这两点的算术平均值来作为新树当中节点的值进行计算,并且要对树根节点的相异度矩阵进行重新计算。
2、确定节点。根据图表所得的理论分析,通过树的构造过程逆序找到K-1个节点[8],同时将节点去掉的话会得到 K个子树,在子树的根节点就是K个初始聚类中心点。
2.4聚类分析技术在学生成绩分析中的具体应用
通过聚類分析技术,能够对学生成绩的影响因素进行具体细致的分析,并找出学生某学科成绩所展现的整体特点,对决策的协助有着很大的帮助。聚类分析可以将学生的成绩与各种因素相互关联,并且在分析中寻找出对成绩影响较大的因素进行具体分析,从而全面提高高校的教学质量。在聚类分析技术之中可以将学生的众多成绩进行归类,通过归类成为的簇的大小、形态和聚类中心值的情况,准确的将影响学生成绩的潜在因素挖掘出来,并且根据这些分析对教学管理做出针对性的调整,从而提高高校的整体教学水平,充分发挥了学生成绩分析系统数据挖掘技术的作用。
三、总结
数据仓库和数据挖掘针对于大量的数据管理有着重要的作用,能够充分发挥数据的协助决策的作用,为单位决策管理部门提供了重要的决策参考。数据仓库和数据挖掘技术在学生成绩分析系统中的作用也是十分显著的。通过数据仓库的建立和数据挖掘中聚类分析技术的应用,全面提高了学生成绩分析系统的作用,对教学水平的提升和管理决策的实时调整有着显著的效果。
参 考 文 献
[1] 黄宇达,向前.学生成绩分析OLAP数据仓库的设计与实现[J].电脑知识与技术 , 2012 , 08 (13) :2944-2948
[2] 王婷婷,燕基于学生成绩分析数据仓库的设计[J].中国电子商务, 2013 (11) :159-159
[3]李岚.基于数据仓库的学生成绩分析与研究[D].北京交通大学 , 2014
[4] 陈伟莲.基于数据挖掘技术的某学院成绩分析应用[J].华南理工大学 , 2012
[5] 王峰.基于数据仓库的大学生成绩分析与应用[J].计算机光盘软件与应用, 2013 (5) :207-208
[6]刘春辉, 李芳. 数据挖掘技术在学生成绩分析中的应用[J]. 黑龙江科技信息, 2012(18):219-220.
[7]刘斌, 陈依潼. 数据挖掘技术在学生成绩分析中的应用[J]. 电脑编程技巧与维护, 2014(16):45-46.
[8] 贾延斌, 杨光. 数据仓库在学生成绩分析中的应用研究[J]. 陕西青年职业学院学报, 2017(1).endprint