APP下载

教务管理系统中的数据仓库和数据挖掘方法分析

2014-04-14

电子测试 2014年2期
关键词:数据仓库教务数据源

刘 静

(南京航空航天大学国际教育学院,江苏南京,210016)

0 引言

近几年来,随着我国高等教育的迅速发展,各高校的办学规模逐渐扩大,导致教务处承担的工作量也是越来越大,传统的管理手段适应不了新的要求,亟待提升教学教务管理手段,目前许多高校也开发了教务管理系统方面的软件,并且这些管理软件已应用于教务管理的各个流程,从而实现了成绩管理、教学测评等方面的计算机自动化,这些都对教务管理信息化发展起到了积极的推动作用。由于目前的教务管理系统应用软件在多年的使用过程中,逐渐积累了大量的有用的教学数据,如何将这些珍贵的并且又分散的数据变化为可分析的数据,并进行分析与发掘统计,为教学管理决策提供参考依据,对提高教学管理水平和能力,具有十分重要的意义,基于以上问题,本次研究提出了数据仓库分析模型和数据挖掘的应用问题。

1 国内外数据挖掘技术的发展现状

数据挖掘技术的功能主要是:通过开可靠的数据挖掘方法,故而期望从大量的数据中发现潜藏其中的规律和模式,一般来说,该种方法都面向特定领域,需要前提和约束条件。在国外,数据挖掘技术的研究得到了迅猛发展并且应用广泛,近年来,随着数据仓库和新数据源的出现,使得人们所面临的问题越来越容易,对于浩瀚的数据海洋,数据挖掘技术优势更加明显,显示出更加强大的生命力。

在我国,随着高等教育的快速发展,多年来积累了大量的数据,但是由于各个职能部门没有统一规范,对数据的收集和整理并不合理,这样,往往导致多年来积累的这些大量数据出现杂乱、无章等情况,并且共享率低,间接影响了高校管理部门的工作效率。目前,经过多年来的教学改革,许多高校已经开发了处理海量数据的软件,对学校的各个方面的工作成效进行了分析,但是数据的利用率还比较偏低,所研究内容还比较单一。如北大、清华、中科院等单位都开展了数据挖掘算法的研究,但是与国外相比,教务管理中的数据挖掘理论和应用还是比较落后,综合集成能力不高,数据挖掘技术和数据仓库在教务管理中的关注度相对不够,迫切需要进行深入研究。

2 教务数据仓库的构建

2.1 数据仓库定义

数据仓库在计算机领域,它一种新型的数据管理技术,该系统往往以关系数据库管理为基础,既有数据在数据库进入目标数据仓库之前,其过程为清洗-集成-选择-变换,将数据仓库中的数据变换为集成、历史化的功能数据,具备综合性数据分析功能。

到目前为止,数据仓库的定义有很多,但并未达到共识,最为接受的,比较公认的是1992 年W.H.Inmon 提出的概念:即数据仓库是面向主题、集成在一起的、不易失去的、随时间不断变化的数据集合,作用是用于支持决策。

2.2 数据仓库特点

由于数据仓库与传统的数据库存在很多不同,其具有与一般数据库不一样的特点,具体来说有以下四个:

(1)面向主题

该特点是指用户在使用数据仓库进行各种决策分析时,所关心的重点方面,是将系统中的数据进行综合归类,数据仓库中的数据依据一定的主题进行组织,是一个按主题进行决策的过程。

(2)集成

数据仓库中的数据不是粗糙的数据,而是对原有分散的数据进行分析处理过的,经过系统的再加工,进行汇总和整理,保证数据仓库内的信息统一和集成。

(3)非易失的

数据仓库的数据在进入该系统之后,就不再变化,可以被看作一个虚拟的只读数据库系统,用户使用时只能读取而不能修改,保证了数据的安全和有效。

(4)随时间变化的

数据仓库中的数据是随着时间而变化的,具有时序性和历史性,通过这些信息进行分析和判断,可以对数据未来的变化趋势进行预测,在动态上更能反映实际。

2.3 教务数据仓库构建思路

从功能上来看,教务数据仓库主要来自于操作型数据源,其直接为学院领导、教务管理人员等服务,从而为使用者提供重要的数据信息,系统包括数据处理的各个阶段,主要有从数据源获取数据,以及输出结果提供给决策者进行参考的数据处理阶段,由于涉及到多个处理层次,其过程如下:数据的获取-数据的转换-数据的加载-数据的存储-数据的综合等。

2.4 教务数据仓库体系模型

从目标上来看,建立教务管理系统的数据仓库,主要目的是通过采集外部有用的信息,来通过某种方法分析教务情况的历史数据,从中发现规律,故而实现教务工作预测,为制定教务管理工作服务。本次提出的数据仓库模型如下:

图1 数据仓库的体系结构

可以看出,数据仓库与数据库的概念和作用是不同的,数据仓库是在数据库的基础上发展而来,一般来说,数据仓库包括三个部分,即:数据仓库、联机分析处理及数据挖掘。数据仓库的主要工作是将数据库中的数据进行归纳分析,聚集成一个可供更高层次使用的数据集合,从而方面数据查询、分析和数据挖掘。

3 数据挖掘技术

3.1 数据挖掘技术基础理论

数据挖掘是一种常用的数据分析技术,是一个获取准确、具有潜在应用价值和最终可理解模式的非平凡的过程。数据挖掘的体系由三部分组成:数据源、挖掘层、用户界面层。挖掘过程可分为四个阶段:问题定义、数据准备、执行数据挖掘、解释和评价。

数据挖掘常用算法主要是决策树分析和关联规则算法。决策树算法一般来说,是通过输入数据来建立分类模型的系统方法,首先,建立一个训练集,往往由类标号已知的记录组成,其次,使用训练集建立分类模型,该模型随后将运用于检验集合。关联规则算法主要用于发现隐藏在大型数据集中的相互联系,其所发现的结果可以用关联规则或频繁项集的形式表示出来。

3.2 系统分析与设计

到目前为止,在教务管理上还没有一个成熟的、完整、合理的挖掘系统,通过对目前教务管理存在的问题分析,需要解决数据量庞大、数据不完整及挖掘方法不不合理等缺点。本数据挖掘系统包括三大模块:教务数据采集、教务数据仓库及教务多维数据集的创建及管理、数据挖掘和分析。

3.3 挖掘系统设计要求

由于数据挖掘要求较高,在系统设计过程中需考虑以下几个问题:

(1)挖掘系统需具有多功能处理能力,比如关系数据库处理、复杂的数据对象处理、具体事务数据等。数据挖掘系统应该能够处理这些复杂数据类型。

(2)数据挖掘算法应具有有效性和可伸缩性,也就是说,在内存和磁盘空间等系统可资源规定的情况下,算法的运行时间应随着数据库大小线性而增加。

(3) 数据挖掘的最终结果应具有可用性和确定性,其挖掘出来的知识应该能准确地反映数据库的内容,而不是有所歧义,并且对于用户来说是有用的和可靠的。

3.4 本系统的功能

(1)连接数据仓库,从而建立数据源,主要完成分析数据的转换操作;

(2)对教务数据内容进行数据挖掘操作,其中的关联分析模块用于对课程安排先后顺序流程进行分析,贝叶斯分类算法在实践中,也同样应用于课程安排方面,聚类分析方法主要应用于就业分析。

(3)通过存储并展示挖掘分析结果,为决策者研究提供可靠依据。

3.5 数据挖掘模块的实现

本模型的数据挖掘模块,实现的过程中,通过连接SQL Server Analysis Services 服务器,达到对导入数据挖掘的目的;该服务分析器数据挖掘主要用于商业智能化管理,要在教务管理方面实现这一目标,需要执行两个主要必须步骤:构建数据挖掘模型与构建应用程序。

具体步骤和方法是:首先将教务管理系统中的各业务数据导入服务器,经过一系列的加工处理,构成星型结构教务数据仓库,为下一步进行数据挖掘准备;然后直接启动分析系统,借助其中提供的挖掘模型向导,构建挖掘数据模型;最后利用有关的挖掘算法,对教务数据源进行挖掘,从而发现规律,获取所需数据,支持教务的决策管理工作。

4 结论

本文将数据仓库和数据挖掘技术应用于教务管理过程中,并建立了相应的分析模型,从而实现管理工作的智能化,为决策提供支持。由于数据仓库的挖掘研究是一个崭新的领域,将极大促进教务管理人员的积极性,提高工作效率。在未来的工作中,需要进一步深入研究,完善系统功能。

[1] 李素朵.数据挖掘技术在高职院校教务管理系统中的应用研究[D] .石家庄:河北科技大学硕士学位论文,2013.

[2] 姚志鸿.数据挖掘技术在教学管理中的应用与实现[J].电子测试,2014,(6):108-109.

[3] 吴天真,李文静.数据挖掘技术在高校教务管理中的应用综述[J].科协论坛,2013,(7):75-76.

[4] 魏韫怡.数据挖掘技术在电大教务管理中的应用[J].科技视界,2012.8(22):98-100.

猜你喜欢

数据仓库教务数据源
教务排课对高等院校教学运行的作用分析
基于数据仓库的数据倾斜解决方案研究
基于数据仓库的住房城乡建设信息系统整合研究
浅析高校教务管理存在的问题及对策
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
探析电力系统调度中数据仓库技术的应用
浅谈新形势下高校教务管理人员的素质与培养
基于数据仓库的数据分析探索与实践
基于真值发现的冲突数据源质量评价算法