APP下载

区域学生数字画像构建与应用成效

2023-10-26康永平

中国教育技术装备 2023年14期
关键词:聚类算法教育信息化

DOI:10.3969/j.issn.1671-489X.2023.14.075

摘  要  学生数字画像是提升区域教育质量的有力抓手,从实践的视角出发,梳理新时代背景下学生数字画像的时代意义与逻辑,提出区域学生数字画像体系并解释具体的画像指标,为区域治理改革与现代化提供有力支持。使用聚类算法进行数据分析,利用实践中积累的数据,挖掘学生数字画像中存在的数据价值。

关键词  教育信息化;学生数字画像;聚类算法

中图分类号:G527.51    文献标识码:B

文章编号:1671-489X(2023)14-0075-07

Construction and Application of Digital Por-traits of Regional Students//KANG Yongping

0  引言

根据《教育信息化2.0行动计划》的部署,2019年上海市闵行区入选教育部首批8个“智慧教育示范区”之一 [1]。作为教育部“智慧教育示范区”创建单位之一,闵行区在未来几年以“数据驱动的大规模因材施教”为建设目标,先行先试,开展新一轮的教育信息化探索实践工作。在此背景下,为推动教育信息化、现代化建设的步伐,解决结合全区特点进行教育转型发展的问题,闵行区提出使用学生成长数据反映教育转型的方针。

在此前信息化建设工作中,通过在区域层面建立不同维度的学生成长数据库,闵行区已积累大量学生成长数据,其数据规模已经能够在一定程度上反映学生日常学习生活的状态及发展轨迹,以及学生成长轨迹的不同特点和个性差异。为了进一步提升区域现代化治理水平与能力,促进教育公平事业的不断推进,提高教育质量,办好人民满意的教育,建立学生数字画像,助力区域教育治理,成为大数据时代的教育契机,也是实现当下教育目标的有力抓手。

如何建立学生数字画像成为当前工作的重难点,区域背景下的学生数字画像“是何”“如何”等问题亟待解决。将当前问题进一步拆解,如何从纷繁庞杂的海量数据中找出背后蕴含的联系和规律,从而建立较为全面的学生数字画像,继而为闵行区教育的科学决策和学校的精细化管理提供支撑和依据;又该如何利用学生成长数据向家长和社会传递“全面发展”的教育观,成为现有工作的关键与突破点。

因此,本研究建立在对闵行区已有学生成长数据的理解之上,从顶层进行设计,从区域层面构建学生数字画像体系,并对学生数字画像进行应用分析。

1  区域学生数字画像构建依据

学生画像的概念起源可追溯至用户画像(User Persona),由交互设计之父Alan Cooper提出[2]。用户画像的建立旨在通过一系列的属性数据对目标用户的特征进行提取,从而帮助产品设计、运营人员从广泛的用户群体中抽象出典型用户,是一个描述用户需求的工具。与之类似,学生画像通过学生较为全面的学习成长数据建立学生成长模型,对学生的特征进行标签化,以服务于不同教育利益相关者,例如,帮助教师进行教学策略的调整以及为教育管理部门进行区域教育资源调配提供参考等。

在教育情境中,不同利益相关者间存在多样的供需关系,既包含学生学习需求与学习资源供给间的小循环,同时也存在社会需求与教育供给间的大循环。相较于商业情境中的用户画像,学生画像会更加复杂,难以直接借用用户画像的分类标准与规则。因此,针对教育情境中的典型用户群体,需结合相关教育理念以及学生数据构建学生数字画像。

将“数据驱动的大规模因材施教”作为首要建设目标,在于利用数据较为全面地理解并刻画学生的成长过程,针对具体成长问题,为学生提供个性化的策略与资源支持。这与“全人教育”的理念高度耦合,该理念强调人的整体发展,强调个体的多样性,强调经验和个体之间的合作,强调培养“全人”。而从学生数字画像的角度理解,意图利用学生成长数据,发现学生个人潜能,以培养完整个体。同时,1996年《德洛尔报告》中提出学习的四大支柱,分别是:

1)学会认知,学习广泛的一般性知识,并有机会就少数科目开展深入研究;

2)学会做事,不仅要掌握职业技能,还要具备处理各种情况和团队协作的能力;

3)学会做人,培养个性,能够在不断增强的自主性、判断力和个人责任的基础上采取行动;

4)学会共存,加深对他人的理解,认识相互依存的道理[3]。

这不仅反映出了教育的可持续性,也突出了其社会性,与传统教育理念相比,在新时代,教育的意义与功能也获得新的解读。通过长期的改革与实践,我国的教育培养理念也在不断丰富与发展。《中共中央 国务院关于深化教育教学改革全面提高义务教育质量的意见》[4]指出,坚持“五育”并举,全面发展素质教育,突出德育实效,提升智育水平,强化体育锻炼,增强美育熏陶,加强劳动教育。

因此,本研究结合“全人教育”的教育理念与国家相关政策,从顶层设计区域学生数字画像体系。

2  区域学生数字画像体系及解释

国家政策方针为区域学生数字画像体系构建提供了政策依据,而在实践层面,学生数字画像是国家政策与实践积累的双重映射。区域学生数字画像体系的建立是教育数据治理的重要手段,能够对区域教育质量、学生发展质量的提升起到促进作用。学生数字画像体系的建立需要依托区域数字化平台和画像模型的构建,闵行区在教育信息化建設初期就建立了学生成长档案,随着教育信息化进程的开展,档案的数据也在不断丰富。结合国家教育数据治理导向和“全人教育”的教育理念,参考许多发达国家从国家、地区等政府层面对学生开展的学业成就评价,闵行区构建了包括静态、动态两个方面,共五个分析维度的学生数字画像。学生数字画像静态部分主要由个人信息与监护人信息构成,动态部分由学业水平、个性技能、实践体验和身心健康四个维度构成,具体如图1所示。

以下重点阐释动态画像的四个维度。

1)学业水平。学业水平维度的数据采集点主要

为学生在校期间的学业成绩,重点记录学生学业水平考试成绩、学科课程成绩,为动态数据中最为直观、最易量化的学生数据。此维度主要反映学生各门课程知识和技能掌握情况以及运用知识解决问题的能力等。在中国国家教育质量评价项目(National Assessment of Educational Quality, NAEQ)、美

国学业成就测评项目(National Assessment of Education Progress, NAEP)等规模较大、较为权威的教育评价项目中,学业水平是需要考查的尤为重要的维度。

2)个性技能。个性技能维度的数据来源主要为学生在校期间参与的其他学习相关活动,包括校内主题活动、各级别学生竞赛、校本课程学习情况,重点记录学生参加研究性学习、社会调查、科技活动、创造发明等非学科基础课程的学习情况。此维度主要反映学生的创新思维、调查研究能力、问题解决能力、批判性思维等核心素养,对接当前教育领域普遍关注的21世纪核心素养、中国学生发展核心素养中的重要指标内容。

3)实践体验。实践体验维度的数据来源主要为学生在校期间的自主管理和社会实践,包括家校合作、班级管理,以及志愿者服务(公益劳动)、青少年宫活动等体现学生行为规范、社会责任感等方面的活动记录。实践体验维度是学生践行社会主义核心价值观、弘扬中华优秀传统文化的主要体现,与《中国学生发展核心素养》提出的“社会责任、国家认同”等相一致。

4)身心健康。身心健康维度包括学生身体健康、心理健康、道德/思想健康,重点记录《国家学生体质健康标准》测试结果,参加体育运动、艺术活动的经历及表现水平等。此维度主要反映学生的健康生活方式、体育锻炼习惯、身体机能、运动技能和心理素质,对艺术的审美感受、理解、鉴赏和表现的能力。

3  学生数字画像应用及案例分析

在现有学生数字画像分析研究中,大部分处理方法以统计性描述为主,但数据中所蕴含的价值不限于此。在一线实际应用中,学生数字画像价值更为凸显。例如,可利用学生基本特征、在线学习行为和学习路径构建数学模型,构建高风险学习者画像,能够反映高风险学习者的学习能力、行为表现、学习路径等特征,并具有教学情境性,能为针对性教学设计及在线学习支持服务设计提供数据支撑[5]。再如,学生数字画像适用于对学生综合素质进行刻画,利用中小学生综合素质成长过程性数据,构建区域的学生综合素质成长标签模型和画像模型,实现对不同学生群体及个体的身心健康、学业发展、公民素质、兴趣特长等进行综合素质大数据画像,从而发现学生个体或特定群体的特征

规律[6]。

结合学生数字画像的具体应用,可以发现,不同于统计分析模型,整合多来源数据,利用如机器学习、深度学习算法进行数据处理,可进一步挖掘数据中的价值。本研究采用闵行区已构建的学生数字画像,通过实践过程中记录的闵行区学生学习数据,采用K-Means++聚类算法构建真实的学生画像,挖掘其中的价值。

3.1  数据收集与分析处理

本研究选取闵行区学校层面的学生数据,其中学生数字画像中的静态学习数据如年级、性别等,数据格式规范,可作为学生特征数据进行聚类;画像动态数据学业水平、个性技能、实践体验、身心健康四个维度中部分数据字段无固定记录规则,故需要对各维度数据的记录方式、记录情况进行分析,通过预处理确定聚类分析的数据字段,以确保聚类和分析的科学性、有效性。处理后的动态数据字段包括四个维度一级指标及具体二级指标。

3.1.1  学业水平

学业水平维度的数据为学生参加考试的情况,聚类分析采用学业水平考试(考试科目为语文、数学、英语、物理、科学,考试类型为期末考试)数据中记录了分数的数据。

3.1.2  个性技能

个性技能维度数据来源采用了兴趣课程、校外社团和获奖信息中共八个字段数据。兴趣课程采用课程类型、课程级别、上课形式三个字段数据;校外社团采用课程类型、课程级别两个字段数据;获奖信息采用获奖类型、获奖类别、获奖级别三个字段数据。

3.1.3  实践体验

实践体验维度数据分为自主管理、主题活动、校运会、校内阅读、社会实践五个二级指标,共采用九个字段数据。自主管理采用职务类别一个字段数据;主题活动采用体验类型、展示级别、展示形式三个字段数据;校运会数据经处理采用参加次数、获奖次数两个字段数据;校内阅读经处理采用书籍类别、借阅总次数两个字段数据;社会实践采用实践类型一个字段数据。

3.1.4  身心健康

身心健康维度的数据采用了学生身高体重和视力两个二级指标,共五个字段数据。身高体重数据采用学校记录的学生数据,并通过BMI指数(身体质量指数)计算公式获得学生BMI指数,即最终采用身高、体重、BMI指数三个字段数据;视力数据采用系统中记录的学生左眼视力和右眼视力两个字段数据。

基于上述数据字段,项目组随机抽取了系统中4 000名八年级学生数据,对每个学生样本多维多条的数据进行整理,将信息完全重复且可确认为填写重复的数据进行删除,抽取和整理不符合格式要求和填写要求的数据,并对样本中仍存在的多维多条数据进行压缩合并。之后,确定字段记录中的类别变量,对字段中的内容进行编码合成,根据规则将类别变量转换为尺度变量以进行进一步分析。

3.2  数据分析结果

在对学业水平、身心健康、个性技能和实践体验数据进行标准化之后,本研究采取K-Means++聚類算法分析,基于肘部法则,计算每个簇的质点与簇内样本点的平方距离误差,即畸变程度,得出不同类别学生的数字画像表征。通过多轮的聚类尝试和摸索,最终得出学生的最佳聚类为四类,如表1所示。其中第一类包含117名学生,约占学生总数的3%;第二类一共有440名学生,约占学生总数的12%;第三类学生共计882名,约占学生总数的23%;第四类学生最多,一共2 355名,约占学生总数的62%。

这四类学生在学业水平、身心健康、个性技能和实践体验的ANOVA分析如表2所示,可以看出显著性水平都为十分显著,说明聚类结果比较好。

这四类学生在四个维度上的表现水平如图2所示,每一类之间的差别比较明显,有的类在个性技能表现最好,有的类在实践体验上十分突出,有的类则在学业水平、身心健康、个性技能和实践体验的表现上都不错。依据学生数字画像各维度,可以将这四类学生画像标记为:均衡发展型学生、勤奋学习型学生、体验丰富型学生和有待引导型学生。

3.2.1  均衡发展型

均衡发展型学生在全面发展水平的四个维度上的表現比较均衡,而且表现水平都不错,这类学生占总人数的23%。如图3所示,均衡发展型学生在学业水平的表现水平为0.22,身心健康的表现水平为0.33,个性技能的表现水平为1.27,实践体验的表现水平为0.27。四个方面的表现水平都是正值,说明这类学生的各方面的表现都处于一个较好的水平,在全面发展水平表现较好。均衡发展型学生热爱学习,有学习积极性,也能积极参加兴趣课程和社会实践,因此,在个性技能和实践体验的表现也不错,这类学生能很好地进行自我管理,劳逸结合,在身心健康水平方面表现良好。

3.2.2  勤奋学习型

勤奋学习型学生的人数较多,共2 355人,约占学生总数的62%。如图4所示,勤奋学习型学生在学习水平上的表现最好,为0.35,而其他方面如身心健康(-0.24)、个性技能(-0.40)和实践体验(-0.24)上的表现水平较差,都低于人均表现水平。说明这类学生平时大部分时间都花在学习上,对待学习积极认真、勤奋刻苦,十分上进,因此学业水平表现较好。但是对与学习无关的课外兴趣活动和实践活动的参与不够积极,因此,在个性技能和实践体验水平上的表现较差,而且由于大部分时间都花在学习上,学习压力较大,负担较重,视力也不好,因此,在身心健康表现水平上的表现也一般。

3.2.3  体验丰富型

体验丰富型学生共计117名,约占总人数的3%。如图5所示,可以看出体验丰富型学生比较突出的表现就是实践体验表现水平较高,个性技能表现也相对突出,而学业水平表现较差,身心健康表现一般。这类学生热衷于参加校内外举办的各类主题活动、社会实践活动等,而且积极承担班级职务和校内职务,有着较好的兴趣爱好,因此,有着十分丰富的成长体验,个性技能上自然也就相对突出。但是这类学生由于兴趣广泛,而且在学校大部分时间都在各类活动上,虽然体验很丰富但是学业水平表现较差,在学习上花费的时间需要适当增加。

3.2.4  有待引导型

有待引导型学生约占学生总数的12%,如图6所示。对有待引导型学生,教师和家长需要付出更多努力和关心,因为相比前几类学生,这类学生虽然有较好的身心健康,但是在学业水平上,个性技能上和实践体验上的表现都相对较差,可以看出,这类学生平时不仅对学习的积极性不够,不肯努力,在学习之外的个性上、兴趣上、经历上也都没有心思,表现都不好。所以这类学生往往对自己的学习规划和生涯规划比较欠缺和迷茫,不知道前进的方向,没有前进的动力。因此,对这类学生,学校和家庭都需要给予更多的引导和关心。

4  存在的问题与相关策略

本研究基于闵行区现有教育信息化建设基础,从区域层面构建了学生数字画像体系,并进行了一线应用与分析。但应用学生数字画像过程中还存在一些问题。

4.1  存在的问题

首先,目前还存在大量异构数据,现有学生成长数据来源于多个区域业务平台与行政单位,通过数据上报或自动采集的方式汇集至区域数据中心,但由于初期缺乏顶层设计以及模块化架构,现有数据格式各异,数据索引缺失,同时也缺少自动化数据清洗工具,增加了学生画像数据处理的难度。

其次,数据采集的深度与粒度不足,填报数据是现有学生成长数据的主体,比如学生参与活动的名称、地点、时间等,但从学生的学习或成长的角度考虑,测量的深度还处于较浅的层次,难以准确地反映学生正在成长中的某一维度的发展,因此,在之后的平台数据采集设计工作时,可增加更加细粒度的数据来源,从而更加细致地刻画学生的数字画像。例如,可以通过分数判断学习者是否通过了考试,但是更有价值的数据可能包括答案及学习者如何回答问题的特征,他们花多长时间回答,以及他们的鼠标是否悬停了一个错误答案一段时间。

最后,数据采集的基础设施不足,现有学生成长数据采集的深度缺少设备的支持,比如学生的体质健康数据中,通过BMI值反映学生的体形体态,但结合实践经验,此指标并不能准确体现学生的身体形态,因此,需要借助额外设备进行数据采集。再如,学生的学习过程数据采集,需要在平台中嵌入数据埋点进行细粒度的数据采集,从而更好地追溯学生学习失败或者学习状态的原因分析。

4.2  相关策略

首先,建立全方位、全过程的学生成长监测体系。现有数据中丧失了较多学生成长过程中的数据,学生数字画像难以有效助力学生成长。因此,应建立全方位、全过程的学生成长监测体系,尽可能收集学生成长过程中的数据,在较长生命周期内为学生提供画像服务。

其次,在后疫情时代,在线教育很可能成为一种重要的教育模式,而随之产生的学生学习数据成为现有学生成长数据的有力补充。因此,应注重在线教学设计,如相关课件开发、教与学组织形式、教学内容的设计等方面的创新,让学生参加更多线上的学习活动,从而丰富现有数据类型,弥补数据缺陷。

最后,注重教师信息化教学能力培训。以区域学校为基本单位,结合学校发展的实际情况与教师发展特点开展针对性培训,注重教师信息化思维养成,引导教师利用信息化手段变革传统课堂,让教师熟练使用教育资源智能检索工具、跨越时空教学的可视化展示工具和信息化环境下教学评价工具,间接为学生成长数据积累提供实践保障。

在大数据时代,数据量的激增为教育教学改革带来了新方法、新手段、新工具,借助学生数字画像,可帮助学生、教师以及管理者更加全面直观地了解学生个人发展。同时学生数字画像也为教育现代化建设提供了有力支撑。

5  参考文献

[1] 教育部办公厅关于公布2019年度“智慧教育示范区”创

建项目名单的通知[A/OL].(2019-05-06)[2020-01-15].

https://www.moe.gov.cn/srcsite/A16/s3342/201905/

t20190517_382370.html.

[2] Cooper A.交互设计之路:让高科技产品回归人性[M].

Ding C,译.北京:电子工业出版社,2006.

[3] Delors J. Learning: The treasure within[M].Unesco,

1998.

[4] 中共中央 国务院关于深化教育教学改革全面提高义务

教育质量的意见[A/OL].(2019-07-08)[2019-10-11].

https://www.gov.cn/zhengce/2019-07/08/content_5

407361.htm.

[5] 肖君,乔惠,李雪娇.大数据环境下在线学习者画像的

构建[J].开放教育研究,2019,25(4):111-120.

[6] 李勤业.基于大数据技术的区域学生综合素质画像研究

[J].教育传播与技术,2020(2):30-34.

项目来源:华东师范大学区域教育信息化咨询服务项目(项目编号:IC202130340)。

作者简介:康永平,上海市闵行区教育局信息中心副主任,工程师。

猜你喜欢

聚类算法教育信息化
数据挖掘算法性能优化的研究与应用
K—Means聚类算法在MapReduce框架下的实现
基于K?均值与AGNES聚类算法的校园网行为分析系统研究
如何加强校园信息化建设创学校发展提速平台
基于虚拟仿真技术的地方高校实验教学探讨
信息技术与教学难以深度融合的成因及解决途径探析
榆林学院智慧校园系统架构的分析与设计
高职学院信息化建设中面临的问题和思考
创新信息技术支撑教学变革
基于改进的K_means算法在图像分割中的应用