大数据分析技术在高等教育人才质量评价体系中的应用研究
2017-03-06张冬冬佟凤辉梁永玲
张冬冬 佟凤辉 梁永玲
(中国刑事警察学院情报学系,沈阳 110854)
大数据分析技术在高等教育人才质量评价体系中的应用研究
张冬冬 佟凤辉 梁永玲
(中国刑事警察学院情报学系,沈阳 110854)
本文从大数据分析技术角度,解析了高等教育人才质量评价体系中数据采集、数据清晰、数据集成与整合、数据挖掘的全过程,提出在大数据时代,以云计算与数据挖掘技术为基础,通过对人才培养数据的持续采集和深入分析,建设基于全息电子档案的高等教育人才质量评价体系,可以实现对每个学生的教育质量的微观、个体化跟踪和未来发展的预测,对于可能出现问题的学生及时进行警告。
大数据;高等教育;人才培养;数据挖掘
十八届五中全会颁布的《中共中央关于制定国民经济和社会发展第十三个五年规划的建议》提出创新、协调、绿色、开放、共享新发展理念,是我国社会发展思路、发展方向、发展着力点的灵魂,这也是构建我国高等教育人才培养质量评价体系的指导思想。
在大数据时代下,应用于商业领域的大数据分析技术给了我们启发,如果将大数据技术应用于高等教育人才培养质量评价体系,通过对海量人才培养数据的采集、交换、清洗、整合、分析,实现对学生教育相关信息的动态跟踪与监测,预测学生在培养过程中不同方面的发展趋势,找寻毕业生就业质量与教育教学间的关联因素及其关联关系,发现新的人才质量评价标准和方法,为高等教育人才培养创造新的价值。[1-2]本文从大数据分析技术角度,解析了高等教育人才质量评价体系中数据采集、数据清晰、数据集成与整合、数据挖掘的全过程。
一、 人才培养数据的采集
(一)数据的属性
人才培养数据是质量评价体系中数据分析的基础,从大数据的角度来看,数据的规模性、多样性、动态性是 教育管理者关注的重点。
其中,数据的规模性是指人才培养数据的体量,数据的体量越大,收集信息的颗粒度越精细,在时间域和空间域上采集的信息越立体,数据分析的结果越客观;数据的多样性是指 人才培养数据的种类,数据的种类越多,数据采集的层面越广,对学生的个性化跟踪采集的层面越微观,数据的体量越大,对学生的评价和预测越准确;数据的动态性是指 人才培养数据是以时间序列的形式采集存储的,人才培养数据不仅采集学生在校期间的行为特征数据,还会采集学生毕业后工作和家庭的情况,毕业生每一次的在职深造、工作晋升等节点事件都会在时间域上被采集和储存。
(二)数据的存储形式
在大数据时代,海量的数据信息是存储在云架构的分布式文件系统(DFS)中的。同样地,人才培养的海量数据也会以云的形式存储。根据大数据的存储形式,将人才培养数据分为结构化数据、非结构化数据以及半结构化数据。结构化数据即常说的数据库数据,可以用二维表结构来逻辑表达实现的数据,如学生基础数据、师资队伍数据、学科建设数据、教务教学数据、学生就业分配数据等。非结构化数据,包括所有格式的视频、音频、图像、网页、文档、文本等形式,如慕课中的微课程数据、教育视频点播、FTP文件服务器数据、OA办公系统的附件数据、学生社交自媒体数据、校内外人才质量评价意见的文本数据等。半结构化数据,就是介于完全结构化数据和完全无结构的数据之间的数据,包括邮件、HTML、报表、资源库等,如学籍档案系统、邮件系统、学生表彰、晋升时的网页报道数据、教学数据资源库等。
(三)数据源
从广义上来说,所有与人才培养质量相关的结构化数据、非结构化数据或半结构化数据都是教育大数据的数据源。本文从数据的归属角度,将 人才培养数据分为五大类,分别为本科教学状态数据库、基础条件数据库、社交活动数据库、生活基础数据库、毕业生质量数据库。
其中,本科教学状态数据库是由国家教育部牵头搭建,定期采集教学状态信息数据,状态数据库包括了学校基本信息、师资队伍、教育教学、教学经费、学科建设、科研情况、教学科研仪器、教学条件、学生基本情况、学生课外活动等11大类的近110个数据实体、860个状态数据项,这类数据中以结构化数据为主;基础条件数据库主要采集教学相关的教学资源数据(如课件、微课程、慕课平台数据等)、授课音视频数据、实验实训数据、教学互动音视频数据等,这类数据以非结构化数据为主;社交活动数据库,主要采集学生在校期间参加学校社团活动、社会公益活动、媒体节目活动以及在学校自媒体平台(公众号、论坛、微博、留言板等)上产生的历史数据等,这类数据以非结构化数据为主;生活信息数据库,主要采集学生在校期间通过RFID卡、校园WIFI产生的历史数据信息,如门禁数据、就餐数据、借书数据、日常消费数据、上网数据等,以及学生毕业后的家庭生活数据,这类数据以结构化数据为主;毕业生质量数据库,主要采集毕业生就业去向数据、工作情况数据、学习深造数据、晋升/转岗数据、表彰/通报数据、就业单位评价数据等,这类数据主要以非结构化数据为主。
(四)数据的采集方式
在高等教育人才质量评价体系中,大数据的采集方式主要包括系统日志采集法、网络数据采集法、人工采集法等。
其中,系统日志采集法,主要是通过采集各个 教育业务系统的日志文件(如log.xml、active.txt等),实现如学生的碎片化学习、出勤、日常消费、上网行为、图书借阅,教师的出勤、授课时间、成绩录入、上网行为、图书借阅,教学资源设备的使用、管理、维护等行为数据的收集。通过该采集方法可以动态、实时掌握每个学生、每个教师、每台设备的行为状态,例如可以详细采集到每位学生浏览的哪些微课程和课件、看了多长时间、是否快进观看、哪些课件重复观看、视频课件观看的顺序等这些行为数据都被完整的记录了下来;网络数据采集法,主要是通过API接口对接的方式,实时查询和获取 教育各业务系统中的内容数据,实现如学校OA系统、教务管理系统、学生学籍系统、人事管理系统、科研业务系统、慕课学习平台等业务系统的数据交互。通过该方法,可以获取各业务系统产生的新数据,实现 高等教育人才培养评价体系中底层数据的采集和更新。人工采集法,主要是通过人工录入的方式,定期将收集到的纸质文本、图像、音视频文件、网页等数据录入系统中,特别是一些基础性的数据,如学生基础信息、学生就业信息、毕业生状态跟踪信息、教师基础信息等。
二、人才培养数据的预处理
在高等教育人才质量评价体系中,利用大数据方法采集到的数据不是系统的数据集合,而是单个的、分散的、异构的数据。要发挥这些数据的功效,挖掘数据中蕴含的价值,需要对这些大量未相互连接的、碎片化、低维度的数据进行清洗、归纳、分类和整合。数据预处理的主要任务可以概括成四个内容,即数据清洗、数据集成、数据归约和数据变换。
其中,数据清理是通过填写空缺值、光滑噪声数据、识别或删除离群点等方式来“清理”数据;数据集成是把不同来源、格式、性质的数据在逻辑上或物理上有机地集中,以便更方便地进行数据挖掘工作;数据归约是将得到的数据集进行简化的表示出来,数据量不仅较之前小得多,还能够得到几乎相同或者相同的结果;数据变换是将数据从一种表现形式变为另一种表现形式的过程。常用的数据变换方式是数据标准化、离散化和语义转换。
三、数据的整合与集成
人才培养数据在预处理之后,将建立面向主体进行联机分析处理(OLAP)和数据挖掘(DataMining)的数据仓库,并构建多维模型、关系模型和层次模型以及分析模型等,实现了对高等教育人才培养数据的有效整合。
可构建的数据仓库,包括教学资源数据仓库、教师队伍综合数据仓库、学生综合数据仓库、基础条件数据仓库。其中,教学资源数据仓库主要是整合了清洗后的高等教育教学基础数据、教学课件数据、教学流媒体数据、教学意见反馈数据等;教师队伍综合数据仓库只要是整合了清洗后的教师基础信息数据、教学任务管理数据、科研情况数据、见识反馈意见数据等;学生综合数据仓库主要是整合学生基础信息数据、学生生活状态数据、学生社交活动数据、学生教学培养数据、毕业生就业数据、毕业生状态跟踪数据、毕业生评价数据等;基础条件数据仓库,主要是整合了教学资源和设备的日志数据、教学终端设备采集的实验结果数据、传感数据和视频数据等。
四、数据的挖掘分析
数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据之间关系的大数据分析过程,这些模型和关系可以被企业和单位用来分析风险、进行预测。数据挖掘过程经过数据收集、数据处理、数据变换、数据挖掘、模式评估、知识表示一系列的过程。采用的算法非常多,比较常见的有:分类与预测挖掘方式、聚类挖掘方式、关联规则方式、决策树方法方式、神经网络方法方式、粗糙集方式、遗传算法、模糊论方法、可视化技术等。
本文中,数据挖掘的目标是在数据仓库中发现模型、趋势和规则,来评估 高等教育人才质量评价体系预采用的评价参数。高等教育人才质量评价体系的数据挖掘是以数据仓库中的海量数据为基础,自动发掘数据之间的潜在模式、潜在关联,并从中提炼出高附加价值的评价标准产品。数据挖掘按照数据的属性和特征,通过识别数据之间的内在的关联,构建数据之间关联规则和序列模型,建立不同的组类,对数据之间的规律进行精准掌握。
(一)聚类、分类与预测挖掘算法
采用k-means算法的聚类挖掘能分析出某一群体的特征行为。应用在高等教育人才培养教育质量测评体系中,根据学生自身特点、学习目标、学习环境及历史学习行为,分析学生的学习特征,对学生及其学习特征进行聚类和分类,分析出现学业警告或是就业困难的学生群体的行为特征,以及科研方面有较大成果或是就业质量较好的学生群体的行为特征。[3]并利用这些学习特征和行为特征,来向学生推荐课程或者学习路径,[4]来预测现在校学生的未来发展趋势,对于可能会出现学业警告或是就业困难的学生可以起到预警作用,而对于未来发展可能比较好的学生,学校可以提前有意识地培养。
(二)关联规则算法
关联规则挖掘则是数据挖掘中的一个很重要的课题,顾名思义,它是从数据背后发现事物之间可能存在的关联或者联系。在高等教育人才质量评价体系中,利用含学号、性别、英语成绩、社会活动情况、文体活动情况、平均成绩、名次等这些数据库字段,关联规则算法可以分析影响高校学生学习成绩的因素,分析出学生不及格课程之间存在的紧密的相关性;通过采集学生完成的课时、作业分数、教学材料的浏览次数、登陆次数、页面浏览时间、发帖回帖的次数等数据,可以分析这些学习行为与课程成绩之间的关系。
(三)决策树分类算法
在高等教育人才质量评价体系中,利用决策树分类理论构建人才培养教育质量测评决策树,可以实现高等教育人才质量评价的定性分析。从决策树中可以看出,在具有某种优势的群体中,具有另一种优势的人占很大比例。这样可以推断出具有前一种优势的人一般都具有后一种优势。利用决策树分类算法可以分析出不同性质的就业方向的 人才培养一般具有的优势,以及读博深造的人才培养一般具有的优势。这样可以根据分析结果提前对在校学生的就业和读研深造的适合度进行大体上的判断。决策树分类算法为学生规划毕业后的发展方向提供有力的辅助决策作用。
[1]杨现民,唐斯斯,李冀红.发展教育大数据:内涵、价值和挑战[J].现代远程教育研究,2016(1):50-61.
[2]邢蓓蓓,杨现民,李勤生.教育大数据的来源与采集技术[J].现代教育技术,2016(8):14-21.
[3]傅钢善,王改花.基于数据挖掘的网络学习行为与学习效果研究[J].电化教育研究,2014(9):53-57.
[4]程岩.在线学习中基于群体智能的学习路径推荐方法[J].系统管理学报.2011(2):232-237.
(责任编辑: 郭玉伟)
G640
A
1007-421X(2017)03-0006-03
辽宁省社会科学规划基金项目“大数据时代我省高等教育人才质量评价体系建设研究”(项目编号:L15CGL017)。