基于数据挖掘的高职学生行为分析模型构建与研究
2020-02-22王军何旭
王军 何旭
摘 要:随着学校数字化、信息化与智慧校园建设的不断深入发展,校园信息系统的应用已经融入学生学习、生活的方方面面,各个信息系统存在大量的学生行为数据,分析研究这些行为数据是目前的研究重点。利用数据仓库技术将存在于各个信息系统中的学生行为数据集成至数据仓库,通过数据挖掘分析建立高职学生行为分析模型,进而可以为学生修正学习方法、教师调整教学方式、管理部门精准学生管理提供帮助和建议。
关键词:高职学生;学生行为;数据挖掘;聚类分析
中图分类号:TP311.13 文献标识码:A 文章编号:2096-4706(2020)18-0119-03
Abstract:With the continuous in-depth development of school digitization,informatization and smart campus construction,the application of campus information system has been integrated into all aspects of students study and life. Each information system has a large amount of student behavior data. Analysis and research of these behavior data is recent research focus. Use the data warehouse technology method to integrate the student behavior data existing in various information systems into the data warehouse,and establish the behavior analysis model of higher vocational student through data mining analysis,which can then modify the learning methods for students,adjust the teaching methods for teachers,and provide help and suggestions of accurate student management for management department.
Keywords:vocational student;student behavior;data mining;cluster analysis
0 引 言
随着学校的信息化发展,在众多的信息应用系统中存在大量的与学生生活和学习等方面相关的行为数据,如果能够通过提取各个信息系统中相关学生行为数据进行整理、关联,并进行行为分析,建立行为分析模型,挖掘其中潜在有用信息,可以极大地推动学校各项管理工作的高效运行,实现校园各种信息和资源的高度集中融合。基于此,本文主要将大数据、数据挖掘技术应用到学生的行为分析中,构建和研究可行的高职学生行为分析模型。
1 研究数据范围和相关技术
1.1 研究数据范围
本研究的研究数据范围主要是江苏工程职业技术学院校内的各类信息系统、教务系统、图书借阅、图书馆进出、课堂考勤、一卡通系统以及相关信息系统的数据。
上述系统的相关学生行为数据分散在各个系统中,需要利用数据仓库技术(ETL)集中至统一的数据仓库中,笔者选择了Kettle开源ETL工具进行数据的抽取、数据格式的转换和数据最后的加载,Kettle抽取分散存放在各個信息系统中的学习行为数据,然后按照标准数据格式转换成满足分析要求的标准数据,最后将这些数据存放至数据仓库中,如图1所示。
从上述系统中抽取的数据主要包含:
(1)一卡通系统及其附属系统中的日常消费数据(包含流水号、姓名、交易账户、流水时间、入账时间、POS机代码、事件类型、交易额,证件号,卡号等信息);
(2)教务系统中的学生成绩数据(包含学号、姓名、成绩状态、成绩、补考、重修、类型等信息),课程基本信息(包含课程名称、课程代码、学分、周学时、总学时、开课部门、专业方向、课程类别、课程性质等信息);
(3)图书馆系统、各类门禁、考勤系统中的考勤信息(包含学号、姓名、考勤时间等信息)。
1.2 关键技术介绍
数据挖掘是一种从数据库的数据中发现知识的手段,利用机器学习、统计学习等相关方面的知识和技术,从海量数据中整理、归纳、发现、提取出新颖的、有效的、潜在的、有价值并且可被理解的信息数据的处理过程。
数据挖掘的常用方法是聚类和关联,本研究主要是采用合适的聚类和关联算法分析构建行为分析模型,数据仓库采用SQL Server 2010,从各个信息系统中抽取数据至数据仓库中,通过数据挖掘分析研究构建模型如图2所示。
2 构建行为分析模型
本研究构建的行为分析模型包含:贫困生分析模型、个人信息画像模型、学生画像模型、学业预警模型、图书馆进出模 型、体育锻炼打卡模型、宿舍门禁打卡模型以及异常预警模型。
2.1 行为分析模型基本评价参数
在构建分析模型之前首先要建立基本评价参数,根据获取到的数据和本研究的研究目标,确定基本评价参数:一卡通消费的单笔最高消费值、每月的消费总数、每月的消费笔数、消费水平、成绩绩点值、成绩等级、每日门禁(图书馆、体育馆、宿舍)进出人数、每月门禁进出次数统计(图书馆、体育馆、宿舍)、早中晚消费次数、学生行为状态等,下面主要以消费水平和学生行为状态为例。