数据仓库技术在中考成绩分析中的应用探索
2020-09-10王刚
王刚
中图分类号:G4 文献标识码:A 文章编号:(2020)-25-291
近年来,随着中考网上阅卷工作的顺利实施,我市逐渐积累了大量、详细的中考成绩数据;虽然每年会有专人对中考成绩进行分析,但也没有能够全方位、多角度、跨年度地深入分析挖掘出中考成绩背后所包含的潜在价值。基于传统的简单成绩查询,已经不能满足日益增长的数据分析需求,而数据仓库技术正是为了构建这种新的分析处理环境出现的一种数据存储和组织方式。
一、数据仓库简介
数据仓库是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,把企业内部数据和外部数据进行有效的集成,生成分析性报告,为企业的各层级决策和分析人员所使用。数据仓库具有面向主题的、集成的、时变的和稳定性的特点。
二、中考成绩数据仓库的设计
(一)中考成绩数据仓库的体系结构
对于数据仓库的用户来说,数据仓库系统由数据源、数据仓库的数据存储、数据仓库的应用工具、前端工具组成。
具体体系结构如图所示:
内部数据源主要为历年的中考报名和成绩数据。外部数据源包括县区、学校的教学管理相关信息,以及教师个人相关信息、教学手段方法等信息,和学生学习相关信息等。
(二)中考成绩数据仓库的模型设计
在进行数据仓库的设计开发时,通常要建立概念模型、逻辑模型、物理模型三个层次的数据模型。
1.概念模型设计
进行概念模型的设计主要完成两项工作:一是确定主题域。主题,简单来说,就是用户在使用数据仓库时所关心的方面。主题域是决策者在使用数据仓库分析时关心的一个个分析领域,包括分析问题的各种角度和从相应视角观察分析到的事实数据。从某种意义上来说,主题域也就是为数据仓库划定的一个大致的系统边界,确定主题域的工作也可以看作是为了设计好数据仓库而对用户进行的需求分析。因此,进行数据仓库设计之前,要了解掌握哪些问题是用户感兴趣的?这些问题都需要什么样的数据信息等?二是确定数据仓库中各主题及其相关要素内容。主题域确定之后,就可以对每个主题具体应包含的要素、内容进行描述。数据仓库的概念模型一般采用多维数据模型建模。在多维数据模型中,包含维度(观察事物的角度)和事实(观察得到的事实数据)两种建模要素。一个主题表达为由多个维度和一组事实数据构成的一个星型模型。
按照建立中考成绩数据仓库的特点来说,主题域为教育管理与决策层关心的分析领域,包括教学管理、教师教学和学生学习等情况。即主题域主要包括教学管理分析主题、教师教学分析主题、学生学习情况分析主题。
(1)教学管理分析主题,主要是分析各县区、各学校学生的总分、单科成绩最高分、平均分;分析总分、单科各成绩区段中各县区、各学校人数占比情况;分析县区学校单科成绩中各班级的差异。
(2)教师教学分析主题,主要是对教师的教学水平、教学方法和手段的分析。包括分析教师的年龄、职称、性别、学历等个人因素,以及教师在教学过程中运用的教学方法和手段等对学生成绩的影响。具体包括:①同一门课,纵向对比县区、学校每名教师所带班级的平均成绩;②同一门课,横向比较县区、学校每名教师所带的不同班级的平均成绩。
(3)学生学习情况分析主题,主要是根据总成绩和单科成绩分析不同成绩区段学生的日常学习情况差异。比如喜欢阅读课外书、经常刷课外辅导试卷、经常和同学一起复习研究等个人或团体行为对学生成绩的影响。
在本系统中我们选择以教师教学分析主题作为该系统的分析主题。在教师教学分析主题中,包括时间维、考生维、教师维、县区学校维、课程维和教师教学事实表。
基于教师教学分析主题的概念模型如图所示:
2.逻辑模型设计
本系统中对教师教学分析主题进行分析。它的逻辑模型设计主要包括粒度层次划分、数据表的合理划分、关系模式的定义、提练表中数据等。在本系统中可以采取单一的粒度设计模式来进行粒度层次划分。由于主题内各个关系表的数据量不是很大,因此不用进行表的分割。逻辑模型主要使用事实表和各维度表的关系模式来表达。本系统的多维模型采用星型模型。根据概念模型,在本系统中事实表为教师教学情況表,时间表、考生表、教师表、课程表和县区学校表等为维表。基于教师教学分析主题的逻辑模型如图所示:
3.物理模型设计
物理模型的设计是指数据在数据仓库中的存放形式和数据的组织。物理模型是在逻辑模型在计算机中的具体实现方法,也是将前面设计的星型模型的事实表和维表都必须转变为对应的物理数据表。主要包括表的数据结构类型、索引策略、数据存储分配等。
在本系统中,基于教师教学分析主题物理模型,可以建立教师教学情况(Teacher_Teach_B)事实表,包括教师编号(Teacher_No)、学生的考生号(ksh)、课程代码(CourseID)、县市区代码(xsqdm)、学校代码(xxdm)、班级代码(bjdm)等;并依据逻辑模型建立考生表(KSB)、教师表(TeacherB)、课程表(CourseB)、县区学校表(XSQXXB)、时间表(YearB)等维表。
三、数据仓库的构建
本文使用SQL Server 2008 R2数据库系统构建数据仓库。首先,创建数据仓库数据库。从各县区、各学校上报的文本、EXCEL、DBF等格式的数据表中提取教师、学生相关的有用信息,结合每年的中考数据,将所有数据源的数据合并在一起,所有数据经过抽取、转换和装载3个过程(即ETL)过程,导入获取的各类数据至数据库中。其次,利用SQL Server 2008 R2的商业智能项目,根据分析主题以星型模型构建数据仓库,加载数据库中数据至数据仓库,以构成OLAP立方体。最后,使用SQL Server Analysis Services实现数据分析。
四、结束语
学生成绩不仅反映了学生的学习效果,更反映了一个地区和一个学校的教学质量,以及一个教师的教学水平与能力。本系统的设计围绕每年的中考成绩,利用数据仓库技术可以将历史数据和当前数据进行综合分析,通过一系列分析,可以为县市区和学校教学管理、教师教学方法和手段改进完善、学生学习模式改进等方面提供一定的支持。