APP下载

基于学生多源数据的跨域关联和数据分析*

2018-05-10

现代教育技术 2018年4期
关键词:成绩排名刷卡群体

宋 丹 丰 霞 何 宏



基于学生多源数据的跨域关联和数据分析*

宋 丹1丰 霞2何 宏1

(1.湖南工程学院 计算机与通信学院,湖南湘潭 411104; 2.湖南工程学院 教务处,湖南湘潭 411104)

高校学生的相关大数据的类型和数量日益增长,但这些多源数据来源于不同部门的各类系统,结构异化,缺乏有效的数据融通与数据共享。针对这一问题,文章采集了教学部门的课程成绩、学生部门的学生基本信息和后勤部门的校园卡刷卡记录,对这些多源数据进行预处理、结构化的操作后,对其进行跨域关联和数据分析。文章通过小规模样本群体的实证分析,得到学困生对群体的影响比学优生更大、经常在学校食堂晚餐的同学课程成绩更佳、在同一群体中年龄小的成绩表现更优等分析结果。

多源数据;跨域关联;大数据;数据分析

大数据不仅具有数据量大的特征,还具有结构相异、类型不同、来源多样的特征,经过交叉复用之后可以挖掘出更多的数据价值。从中小学到高校,随着“数字校园”和“智慧校园”的建设与实施,学校已积累起海量的类型不同、结构相异的数据,如隶属于教学管理部门的成绩管理信息、学生管理部门的学生基本信息、财务部门的学生学费信息、后勤系统的食堂用餐记录、图书馆的借阅记录等。这些多源数据隶属于不同部门,通常产生于多个领域的各类系统,有各自的专门用途,其数据又具有不同结构,因此,对这些数据进行数据融通与共享非常困难,对其进行跨域关联与分析的研究及应用就更为少见。为了对高校学生的多源数据进行交叉复用以挖掘更多的数据价值,本研究在对学生的多领域数据进行采集、预处理的基础上进行跨域关联和数据分析,最终得到有价值的分析结果和决策建议。

一教育数据分析研究现状

互联网、云计算和物联网的迅猛发展推动了大数据的研究与应用。在教育领域,数据分析能够有效优化学习过程、改善学习体验并提升教育质量。2012年,黄荣怀[1]指出智慧校园是数字化的必然趋势,教育数据分析是构建智慧教育的支撑技术;顾小清[2]运用数据分析技术,对学习过程进行了有效监测与评价。2013年,张羽[3]运用大数据分析技术,提升了MOOC教学模式的教育质量;魏顺平[4]采用数据分析技术,成功挖掘了教育数据的价值。2015年,姜强[5]构建了基于大数据的在线学习分析模型,并在学习分析后为学生提供个性化服务干预。2016年,祝智庭[6]通过预学习阶段的数据挖掘,辅助教师开展精准的教学决策。2017年,吴文峻[7]认为学习大数据分析技术可以获取学生学习的隐性和显性行为,用于评估学业进展,预测未来表现。

与国内相比,美国、英国等西方国家较早开展了教育数据分析和教育数据评估工作。1969年,英国开放大学存储与分析了远程学习者的成绩;1997年,Tinto经过持续20年的数据采集与分析,发表了关于学习保持率的影响因素的学术成果;2001年,美国颁布《不让任何一个孩子落后》教育法案,大力推进数据在教育评价中的运用;2007年,普渡大学构建的课程警示系统(Course Signals)能够分析学生在学习过程中的个体表现,进而预测学生的学业状态[8];2011年,Siemens[9]对学习分析进行了定义,即学习分析是指通过测量、收集和分析学习者及其所处环境的数据,用以理解和优化学习及学习环境的过程;2015,Roberts[10]认为在综合数据库的基础上应用学习分析技术,将会提升教学和评价做出客观决策的能力。

综合国内外的研究现状,大数据在教育领域中的研究与应用日益增强,许多学者在学习数据采集、数据分析、辅助决策等方面进行了有益的探索与研究。但是,数据分析在教育领域中仍面临诸多挑战:随着高校大数据的类型和数量快速增长,由于数据来源多样、数据结构相异等原因,数据共享与数据融通仍有困难;教育数据化程度显著提高,但日常教育教学模式仍以传统教学方式为主,科学的大数据分析与应用仍很缺乏,对学习数据之外的其它类型数据的融合分析就更少,尚未对多源数据进行有效的跨域关联与分析。

二课程间的数据关联

本研究从学校教务管理系统的数据库中提取计算机专业的两个班(共69名学生)作为样本群体,共提取所有课程的原始成绩记录共5249条记录,进行数据采集。同时,本研究依据计算机专业本科阶段的课程设置体系和人才培养目标,从几十门课程中选取了8门核心专业课进行课程间的数据关联分析。选取的这8门核心课程分别是:“C语言程序设计”(授课时间:2013),“数据结构”(授课时间:2014),“面向对象程序设计”(授课时间:2014),“操作系统”(授课时间:2015),“数据库原理”(授课时间:2015),“算法设计与分析”(授课时间:2015),“软件工程”(授课时间:2015),“网络程序设计”(授课时间:2016)。

对上述8门核心课程的69名学生成绩进行相关性分析,所得结果如表1所示。表1列出了二门核心课程之间的相关性,如“C语言程序设计”与“数据结构”的相关系数为0.2,相关性较低;“数据结构”与“面向对象程序设计”的相关系数为0.5,相关性较高,表明“数据结构”学得好的学生,“面向对象程序设计”也学得较好。将单门课程与其它课程的相关系数进行汇总后求均值,得到表中“平均值”列,对这些平均值进行排序后得到表中“排名”列。

表1 核心课程之间的相关性分析

从表1统计的“排名”列来看,在8门核心课程中,与其它课程相关性最高的前三门课程分别为“面向对象程序设计”、“算法设计与分析”、“数据结构”。结合这三门课程的开课时间,“面向对象程序设计”与“数据结构”均为2014年开课,时间较早,“算法设计与分析”为2015年开课。因此,“面向对象程序设计”与“数据结构”课程的成绩表现对学生的整体专业课程成绩影响最大。从本样本群体的学业成绩表现来看,学院、教师和辅导员应该对“面向对象程序设计”与“数据结构”课程予以重点关注,从各个环节加强其课程教学,力求以点带面,以少数专业核心课程的教学为突破口,带动整体专业课程教学,取得更好的教学效果。

三跨域关联与数据分析

课程间的数据分析与关联的数据对象来源相同、结构相同,处理相对简单。对多源数据进行跨域关联与分析,主要包含三个方面:①学校教务管理系统的学生成绩与学生管理部门的寝室信息;②学生成绩与学生管理部门的基本信息(性别、年龄、地域);③学生成绩与后勤管理部门的校园卡刷卡记录。

1 学生成绩与学生寝室

本研究从学校教务管理系统的数据库中提取两个班共69名学生的原始成绩记录共5249条,以学生为分类依据,对其所有课程成绩记录进行分类汇总求平均值,从而得到每个学生的成绩均值;随后,按课程成绩均值进行排序,得到个人成绩排名;最后,由于这两个班的69名学生归属于18个寝室,故对这些寝室进行个人成绩综合求均值后以寝室为基本单元进行排序,得到寝室排名。表2和表3分别列出了课程成绩前十名和后十名学生所属寝室及其寝室排名(注:为了保护学生的个人信息,本研究对学号进行了编码处理)。

表2 课程成绩前十名学生所属寝室的成绩排名

表3 课程成绩末十名学生所属寝室的成绩排名

本研究对学生个人成绩排名与所属寝室成绩排名进行相关性分析,计算出学优生的个人成绩排名与寝室成绩排名相关系数值为0.1533,呈现正的弱相关关系,表明学优生对同寝室学生的整体学习效果有正面影响,但影响较弱;同时计算出学困生的个人成绩排名与寝室成绩排名的相关系数值为0.7717,呈现负的强相关关系,表明学困生的成绩差,导致同寝室学生的整体学习效果差,因此学困生对同寝室学生有很大影响。由这一相关性分析可知:①学校应该鼓励学优生对周围学生的“扶、帮、带”,以构建更好的学习氛围;②学校应该对群体中成绩最差的那部分学困生给予更多的教育关注,进行针对性教育,以对群体的学习态势产生更大影响。特别是当教师和辅导员的精力、时间均较为有限,乃至只能在学优生和学困生的这两个子群体中选择一个进行重点培育施教时,更应该将主要精力和时间聚焦在学困生这一子群体,以取得更好的教学效果。

2 学生成绩与学生基本情况

(1)学生成绩与学生性别

基于学生的课程均值,本研究通过对两个班的学生样本群体进性别分类,再汇总人数和学生成绩均值,得到性别与成绩的相关性,如图1所示。

图1 性别与成绩的相关性

图2 年龄与平均成绩的相关性

图1显示,在计算机工科专业中,学生样本群体中以男生居多,达56人,占比81.2%;在成绩方面,男生均值为74.9分,女生均值为78.26分,女生成绩略优于男生。此外,对学生样本群体的补考与重修科目进行统计,结果如下:69名学生共进行了5249场考试,补考与重修的总次数为308次,占比5.87%,人均4.46次。其中,男生参加补考与重修的总次数为271次,男生总人数56人,补考与重修的人均科次为4.84次;女生参加补考与重修的总次数为37次,女生总人数13人,补考与重修的人均科次为2.85次,明显低于男生。从补考与重修的频次来看,男生有28人的补考与重修科目大于或等于5科次,占男生群体的50%,女生有3人补考与重修科目大于或等于5科次,占女生群体的23.1%。综合平均成绩、补考与重修的科次,从本样本群体的表现来看,女生在课程学习成绩方面明显强于男生。

(2)学生成绩与年龄

对学生按年龄分类汇总后分析其与平均成绩的相关性,得到如图2所示的折线图。图2显示,随着年龄的增长,学生的成绩呈现明显的下滑趋势。20岁学生子群体的平均成绩为77.1,24岁的平均成绩为66.0分,如果去掉二端极值,从21岁的76.4分到24岁的74.5分,也呈现较为明显的下滑趋势。对学生的年龄和平均成绩做相关性分析,其相关系数为-0.79,呈现负的强相关关系,说明学生年龄越大,平均成绩越差。

(3)学生成绩与地域

本研究通过对学生生源地的邮政编码进行分析,对学生的来源地域进行了分类汇总操作。以邮政编码的前2位(代表省份)为分类依据,本研究进行本省和外省的分类并求子群体的成绩平均值,所得结果如图3所示。以邮政编码中的前3位为分类依据,本研究对长株潭地区和其它生源地进行对比分析,所得结果如图4所示。

图3显示,来自本省的学生有58人,占总人数的84%,其平均成绩(75.75)略高于外省的平均成绩(74.39)。其原因可能是:湖南省历年的高考录取线较高,其生源质量略优于外省生源。图4显示,来自长株潭地区的学生有7人,占省内人数的13.7%,其平均成绩(74.89)略低于省内其它生源区学生的平均成绩(75.87)。

图3 地域与成绩的相关性

图4 长株潭与其它生源地比较

湖南省统计局发布的“湖南省2015年全国1%人口抽样调查主要数据公报”公布了各地级市的人口,其中,湖南省总人口为6775.38万人,对长株潭三市进行汇总后的人口为1422.74万人,占比约21%;而在本研究的学生样本中本省人数为58人,长株潭地区人数为7人,占比约12.1%,明显低于人口占比。再考虑到学校位于湘潭地区,这表明学校和本专业在长株潭地区的招生宣传工作有待进一步加强,学校有必要在长株潭区域增强知名度和影响力。

3 学生成绩与学生校园卡的刷卡记录

由于数据存储限制,数据提取的时间最早为2015年1月1日,以下数据来源的时间段为2015年1月1日~2017年6月30日。从学校后勤部门的校园卡刷卡记录中提取对应学生样本群体刷卡的24583条原始记录,经数据转存、预处理后,再依据学号进行分类汇总,并依据学生刷卡的时间进行分类次数统计,最后得到58人的有效数据,其他11人刷卡次数过少或在第6~8学期内没有刷卡记录。表4列出了校园卡刷卡总次数位居前十名的同学,学号同样进行了编码处理。

表4 校园卡刷卡情况表(总次数前十名)

从表4可以看出,刷卡前十名的同学,有4位的整体成绩也排在前十名,有7位的整体成绩排在58人的前50%。这表明刷卡次数较多的同学,其学业成绩表现普遍较好,因此可假设刷卡次数与成绩表现具有一定的正相关。为了验证这一假设,本研究对58名学生的成绩排名与早、中、晚餐三个时段、总周期内的刷卡次数排名的相关性进行了数据分析,结果如表5所示。

表6 学生成绩排名与校园卡刷卡排名间的相关系数表

从表5看出,学生的刷卡总次数排名与学生成绩排名的相关系数为0.381,呈现一定的正相关,可推测有规律的生活作习对学生的成绩有促进作用。此外,学生成绩排名与早餐到食堂用餐的关联度最低(0.339),与晚餐到食堂用餐的关联度最高(0.404),据此可推测,能在下午时段坚持校园内学习和生活的学生成绩表现更好,原因在于其学习投入的时间和精力可能更多。

四结语

本研究在小样本群体中进行了多源数据的跨域关联和数据分析,从课程间的关系、成绩与学生居住信息、成绩与学生基本信息及成绩与校园卡刷卡信息方面进行了多角度的数据关联与分析,得到了一些针对该类型学生群体的有价值的分析结果和决策建议:①在专业课程体系中,重点加强大一和大二第一学期1~2门核心课程的教学工作,能有效促进整体专业课程的教学效果;②学困生对群体的影响(负面影响)要强于学优生对群体的影响(正面影响),因此,教师、辅导员和教育管理者应在教学、日常管理与辅导、教育管理等方面更重视学困生,从而有效营造更好的学习氛围和更佳的教学效果;③女生的整体学业成绩表现优于男生,补考和重修的科次也较少;④在学习群体(如一个班或一个专业的同年级班级)中,年龄与成绩呈现负的强相关关系,年龄越大,成绩越差,应加强高龄学生的教育;⑤学生的生源地与成绩的相关性不高,来自不同地域的学生成绩差异不大;⑥通过对学生生源地的占比分析,可以判断哪些地域的生源数偏少,在后续的招生宣传工作中应对这些地域有所加强;⑦根据校园卡的刷卡情况分析,应当鼓励学生多刷卡,强化生活规律,尽量在学校用餐,尤其应当坚持下午时段的学习,多在学校食堂完成晚餐。

在未来的研究中,本研究拟对更广泛的数据源进行跨域关联与分析,并计划对本研究所获取的分析结果和决策建议在更大范围的样本群体中做进一步研究与验证;同时,在后续研究中加强对结果和决策建议在实际教育教学中的运用和实践,并对实践中的反馈信息进行收集与存储,进而对本研究所得的结果和决策建议进行完善,形成研究与实际应用之间的良性循环。可以预见的是,随着高校大数据的数据类型和数据量日益增多,多源数据的跨界关联和数据分析将吸引越来越多的学者进行研究和运用,从更广阔的视角下推动学习分析技术的实践与发展。

[1]黄荣怀,张进宝,胡永斌,等.智慧校园:数字校园发展的必然趋势[J].开放教育研究,2012,(4):12-17.

[2]顾小清,张进良,蔡慧英.学习分析:正在浮现中的数据技术[J].远程教育杂志,2012,(1):18-25.

[3]张羽,李越.基于MOOCs大数据的学习分析和教育测量介绍[J].清华大学教育研究,2013,(4):22-26.

[4]魏顺平.学习分析技术:挖掘大数据时代下教育数据的价值[J].现代教育技术,2013,(2):5-11.

[5]姜强,赵蔚,王朋娇,等.基于大数据的个性化自适应在线学习分析模型及实现[J].中国电化教育,2015,(1):85-92.

[6]雷云鹤,祝智庭.基于预学习数据分析的精准教学决策[J].中国电化教育,2016,(6):27-35.

[7]吴文峻.面向智慧教育的学习大数据分析技术[J].电化教育研究,2017,(6):88-94.

[8]PistilliM D, ArnoldK, BethuneM. Signals: Using academic analytics to promote student success[OL].

[9]Siemens G, Long P. Penetrating the fog: Analytics in learning and education[J]. Educause Review, 2011,(5):30-32.

[10]Roberts-Mahoney H M. The role of big data and personalized learning in the privatization of public education[D]. New York: Dyouville College, 2014:14-16.

编辑:小西

Cross-domain Correlation and Data Analysis Based on the Multi-Source Data of Students

SONG Dan1FENG Xia2HE Hong1

There is an increasing number of big data related to college students in terms of types and quantitie. However, most of the multi-source data derives from various systems of different departments which has wide inter-structural differences and lacks effective data intermediation and data sharing. To solve the problem, this paper collects multi-sourced student data, including the course score from the Teaching Department, basic information from the student department and the student ID card records from the logistics department. After a first-step data processing and data structuring, the article carried out a cross-domain correlation and further data analysis. Through the empirical analysis of small sample groups, results suggested that students with learning difficulties have more influence on the group than the students with better grades; students with regular school canteen dinner performs better academicly; and young-aged students generally achieve better grades within the same group.

multi-source data; cross-domain correlation; big data; data analysis

G40-057

A

1009—8097(2018)04—0027—07

10.3969/j.issn.1009-8097.2018.04.004

本文为湖南省教育科学“十三五”规划2016年度课题“高校学生的大数据分析、预测与个性化教育研究”(项目编号:XJK016BXX003)的阶段性研究成果,并受湖南工程学院2016年校级课题“大数据背景下学校管理决策机制研究”(项目编号:XJ1622)资助。

宋丹,副教授,博士,研究方向为教育大数据、智能优化建模与分析,邮箱为s1020d@126.com。

2017年7月9日

猜你喜欢

成绩排名刷卡群体
知其师则知其学:多维成绩评定方式的迫切性与必要性
通过自然感染获得群体免疫有多可怕
本科生成绩排名计算方法的研究
中超联赛职业足球俱乐部赛季初的资金投入和比赛表现与赛季末成绩排名的相关性研究
“群体失语”需要警惕——“为官不言”也是腐败
学生成绩排名还是继续公布为好
刷卡
刷脸就可以购物
关爱特殊群体不畏难
特殊群体要给予特殊的关爱