基于大数据的学生画像系统设计
2018-11-08潘晶晶姚郑关婕
文 /潘晶晶 姚郑 关婕
随着信息技术的迅速发展,教育信息化已经成为了衡量教育发展水平的重要标志。基于大数据分析的新一代智慧教育系统是未来发展的必然趋势,它将师生以及师生的行为轨迹、资源环境等通过信息手段整合重组,通过信息传递为各级用户提供有据信息,通过模型建立预测机制,形成智能学校[1]。
中国科学院在“十三·五”期间推行“智慧中科院”,“智慧教育”作为“智慧中科院”的重要组成部分,要将中科院多个学校的信息资源进行深度整合,基于大数据技术,以数据为纽带,把中科院的教育信息化提升到一个新高度。
基于大数据分析的学生画像系统可以为高校管理人员对学生实现引导和个性化管理提供数据性支持,因地制宜地帮助学生更好的适应社会的需求。另一方面,可以向学生提供接近实时的学业生活的活动信息,帮助学生了解自己的学习生活习惯,激发学生的内驱力,改进自身的行为。
存在的问题
目前我国高等教育体制的一个共性问题就是在教学过程中,是以教师为主进行教学,不同接受能力、不同兴趣爱好的学生被教师在授课过程中被一刀切,教师很少会关注学生的接受能力、缺乏激发学生主动思考的能动性。随着社会的快速发展,社会对人才的要求更加丰富多样,学生的兴趣、能力也千差万别,这样传统的一视同仁的教育教学模式与社会人才需求的多样性存在着矛盾,而且日益凸显。
解决这一问题,首先就要深入了解学生,随着信息化日益发展,面对庞大的学生群体,利用大数据对学生的方方面面进行分析、判断和预测,势在必行。
学生画像系统分析
学生画像系统将汇集学生学习、生活、教务、后勤、网络、通勤等多个方面的数据,以学生为中心,将多维度的数据互相关联,充分利用大数据的优势,创建呈现学习、成绩、出勤、生活规律、消费、网络行为等不同维度需求的模型,对学生特征做出抽象概括,为学生精准管理与服务奠定基础[2]。其分析结果将应用于分类统计、相关性分析、个性服务等更高层次的应用。
学生画像系统是精准描绘学生在校期间学业生活的具体活动的大数据系统。其特点主要包括以下几点:
(1)精准描述学生具体学业生活发展
本科生和研究生要在大学要渡过少则三四年、多则五六年的时间,在此期间,学生生活和学习中的点点滴滴将产生大量的数据。学生画像系统结合大数据、人工智能、机器学习、物联网等前沿技术,利用高校现有各种信息系统的数据,以大数据为手段,对学生的学习能力、努力程度、生活规律、经济状况、性格特点等多维度进行分析和量化,描绘学生的成长轨迹。
图1 学生个人画像和群体画像
图2 学生画像系统架构设计
(2)科学引导学生发展,进行风险干预
根据大数据相关研究,学生的学业成绩和自身的学习能力、学习努力程度以及日常行为习惯密切相关[3],比如学生的选课偏好、考勤、参加科学讲座、在图书馆借阅书籍、甚至在食堂吃早餐的规律,都可以成为预测学生学业成功与否的因子。因此,学生画像系统将对学生日常学习生活中的细微变化进行分析,预测学生的学业风险因素,为管理者进行管理和干预提供依据。
(3)为教育决策提供全面的数据支持
学生画像系统充分利用多维度的标准化行为和数据,例如学生选修课程、成绩、出勤、网络学习平台的使用、图书馆门禁和书籍借阅、一卡通消费、上网日志数据等等[4]。根据不同需求,分析学生的作息习惯、消费情况、社交状况、上网习惯、访问图书馆时长等信息,实现不同群体,不同个人的多维度对比,反映学生个体和在群体中的相关情况,从而为学校对学生进行个性化、精准化的教学管理提供重要依据。
(4)描画学校教育业务场景
学生画像系统在对学生个体描画的基础上,汇总数万名学生在校园中的学习和生活轨迹,将其与学校各类教学、后勤管理业务交汇,可以使校园管理者进一步深入了解学生对于教室、图书馆、校园超市、食堂、运动场馆的使用情况,在关键点上(例如课程安排时间、食堂开放早晚)进行改善。
学生画像系统设计
1. 系统架构设计
1) 硬件终端层,通过云存储、GPU和CPU服务器、应用防火墙技术提供面向人工智能最大定制化的架构设计,形成快速训练和推理计算方法。
2) 虚拟化层,通过云计算系统管理软件将服务器按照需要进行虚拟化处理,并将存储动态分配给虚拟化服务器,实现服务器整体虚拟化。
3) 管理服务层,针对复杂的计算环境采用管理系统对计算数据资源进行管理和监控。根据高校管理者、学生的不同的需求以及使用习惯,部署不同的深度学习框架,如Caffe、TensorFlow、CNTK、mxnet等,实现对图像、视频、语音、自然语言的处理[5]。
4) WEB层,根据系统实际应用需求,设计深度学习模型和算法,这些算法和模型可以在系统中进行灵活配置,实现自动化智能处理,并将结果数据进行可视化展示。
2. 系统功能设计
学生画像系统的主要功能是将多渠道获取的数据进行汇总整理后,依据不同的模型进行分析后,展示给终端用户。该系统自动接入校内的多个系统数据,如教育业务系统数据、校园一卡通数据、网络日志数据,在数据整理之后,进行数据标准化,实现了数据存储和接口提供的统一性。同时,该系统的计算中心周期性地调用数据接口,将分析与预测的结果提供给上层的应用服务。
(1)数据收集整理
收集学生的个人信息、消费数据、上网数据、图书馆数据等原始数据并存储,设计备份策略及其他数据安全防护措施,对这些数据进行清洗、加工整理,对缺失异常等情况进行填充,生成干净数据。
(2)数据特征提取
利用数据仓库中的干净数据进行数据挖掘,结合算法模型,根据管理者对学生的关注点进行数据特征的提取。比如从成绩数据中可以提取学业水平“正常”和“可疑”的学生,管理者可对可疑学生进行重点关注。
图3 学生画像系统功能设计
(3) 数据建模
系统根据已提取的数据特征,利用聚合等数据挖掘方法进行数据建模,预测学生的未来行为。
(4)建立学生画像
系统利用学生的数据特征将学生进行归类,归类后在进行每个类型的特征评级,把这些评级综合起来就形成了学生的画像。
3. 数据分析维度
(1) 学生个人信息:涵盖学生的年龄,性别,民族,生源地,培养单位,类别,攻读方式,培养层次,等等,从而分析学生基本人口统计学信息。
(2) 食堂消费数据:涵盖学生的消费次数、时间和金额,从而分析学生饮食偏好、规律,以及消费能力。
(3)宿舍门禁信息:涵盖学生进入宿舍的门禁刷卡信息,从而分析学生的生活规律。
(4)体育设施使用情况:涵盖学生使用体育馆设施、游泳馆、健身房的信息,从而分析学生的运动偏好和规律。
(5)乘坐校车情况:涵盖学生预约校车和乘坐校车的信息,从而分析学生在各个校区之间的通勤规律。
(6)校医院使用情况:涵盖学生使用各个校区医院的信息,从而分析学生的健康状态,以及消费能力。
(7) 图书馆使用情况:涵盖学生进出各校区图书馆设施的门禁信息,从而分析学生使用图书馆学习的规律和时长。
(8)图书馆借阅情况:涵盖学生从图书馆借阅各类书籍期刊的信息,从而分析学生书籍阅读方面的数量和偏好。
(9)上网行为规律:涵盖学生上网的信息,从而分析学生上网的地点、时长、偏好等等。
(10)选课情况:涵盖学生选课的信息,从而分析学生选课的偏好以及学业任务的繁重与否
图4 学生个性特征描画
图5 学年消费账单分析
图6 学生访问特征描画
(11) 讲座出勤情况:涵盖学生参加讲座的签到情况,从而分析学生的讲座参与度。
(12)网络学习平台的使用情况:涵盖学生使用网络学习平台的信息,从而分析学生登录情况,下载阅读平台资源情况,提交作业情况。
系统应用场景
场景一:学生个体特征描画
根据从各个系统采集到的数据,将学生相关数据汇总,经过关联对比分析,摘取学生的特征信息,并向学生推送,使学生对自己的日常行为规律有一定了解,激发学生关注自身生活习惯的兴趣。
场景二:学年消费账单分析
多渠道汇总学生的消费记录,向学生推送,使学生(或者家长)对自己的消费规律有一定了解。
场景三:学生访问特征描画
根据从各个系统采集到的数据,将学生相关数据汇总,经过关联对比分析,摘取学生群组的特征信息,并向相应机构推送,使该机构对与其产生业务关联的学生群组有一定了解,以便针对含有突出特征的学生群组采取相关反应。
通过利用学生个人信息、食堂消费、宿舍门禁、校车乘坐、图书馆进出、借阅、上网行为、讲座出勤、网络学习平台使用的数据,充分描绘学生特征,使得每名学生的学习生活的信息得以挖掘, 从而在死板的数据和生动的教育教学之间搭建桥梁,为高校管理提供更加科学、有效的依据,为学生选课、升学、就业方向、职业规划等提供参考。
随着智慧教育建设的不断推进,教育信息化的水平越来越高,对学生画像的研究和探索也会越来越深入。学生画像可以改变教学模式,提高教学水平,加强素质教育, 尊重学生的个性发展,挖掘学生的特长,真正做到因材施教。
但是如何高效地利用信息化的海量数据,如何更加精准地画出学生的画像却是一个复杂的事情,值得不断的深入探索和研究。