智慧学生特征画像方法研究
2021-03-15罗标崔艳荣
罗标 崔艳荣
摘要:网络时代的发展使“互联网+”模式应用在各个行业,商业行为的大利润驱使下对消费者用户的分析已经非常成熟,教育行业对大数据的应用就显得有些落后,教育App中的大量学生数据可以用来构建智慧学生画像给老师的教育方式提供指导性,将学生画像应用在教育上,可以使老师和家长更了解学生的实时动态和学习状态,方便老师家长给出更好的指导,学校也可以了解学生,来想出更好的教育方式。
关键词:学生画像;hadoop分布式文件系统;大数据平台;智慧校园;数据仓库
中图分类号:TP393 文献标识码: A
文章编号:1009-3044(2021)03-0048-02
Abstract: The development of the Internet age has enabled the "Internet +" model to be applied in various industries. The analysis of consumer users driven by the large profits of business behaviors has been very mature. The application of big data in the education industry appears to be a little behind. A large number of students in education apps Data can be used to construct intelligent student portraits to provide guidance for teachers educational methods. Applying student portraits to education can enable teachers and parents to better understand students real-time dynamics and learning status, and facilitate teachers and parents to give better guidance. Schools can also understand students and come up with better ways of education.
Key words: Student portrait; hadoop distributed file system; big data platform; smart campus; data warehouse
1 引言
隨着智慧校园工程的不断推进,学校教学工作慢慢信息化、数字化,各类智慧校园案例应用到实际校园中,类似与家校联系、课堂考勤管理、消费数据等应用系统也在不断增加。这些应用中产生了大量的学生数据,利用这些学生行为数据可以为学校管理能力与校园资源利用提供重要的参考作用,例如通过学生的日常食堂消费数据来改善校园食堂工作时间以及作为贫困学生助学金等工作的参照。
目前学校的教育方式还是不能跟信息化完全接轨,根据学生信息来指导教学任务,具体的问题出现在学生的数据不能做到集中的管理和有效的可视化。一些传统教学的工作例如课堂考勤等大多由老师来点名记到,如果能够有效利用信息化就可以给学生的日常上课记录和成绩以及评优评奖等多项工作提供参照,学生出现问题也可以迅速发现并通知老师和家长,并且信息接轨之后可根据学生的相似问题或者多发问题例如多数学生不喜欢某些课程等来提出指导教学改善群体性问题,所以教育工作结合大数据能够大幅度提高工作效率,做到更有智慧的校园系统。
因此使用大数据分析的方法是智慧校园的必经之路,是给教育行业插上了效率的翅膀,才能越飞越高,越走越远。针对智慧校园信息化建设中数据难以有效处理的问题,本文提出一种新的方法,基于学生身份特征的多标签系统,其功能主要包括学生信息收集、数据的清理、数据归类及之后显示学生信息的功能,将数据可视化后其结果可以直观地分析出学生的行为动态和特征,为学校工作提供指导依据。本文主要工作是用Hadoop将学生信息模拟用户画像建模成学生画像,通过图表的形式将给学生打的标签显示出来,这样能够直观的显示出学生在网络上的动态将这些信息抽象后得到的画像能够整合起来方便学校了解学生网络动态,实现学生全面教育。
2 用户画像系统概述
学生画像这一概念产生于用户画像,“用户画像”指的是根据此用户的某些特点及行为属性来代表该用户。这种高度精炼的用户描述称为标签,例如通过性别、出生年月、籍贯和居住地、教育背景、消费习惯和月消费比这些数据组成的一个整体来描述某用户,这些简单的标签已经能总结出这个用户的年龄阶段及消费倾向,以此可以针对性的推荐广告或引导消费。实际上就是通过用户的数据来系统化出来一系列的标签来描述一个信息化实体。根据用户画像方法来分析学生画像,建模收集自己的数据集进行验证自己方案是否具有可行性可以为高校建设大数据平台提出的设计方案,为高校信息化建设提供一种新思路。
基于大数据挖掘的学生行为数据,本论文主要工作如下:
(1)对高校需求进行分析,总结出高校数据特点,建立高校学生数据集。
(2)Hadoop大数据及Hive数据仓库相关技术分析介绍。
(3)利用主流的大数据框架Hadoop的HDFS文件系统和Hive数据仓库搭建相关平台架构设计。
(4)设计相关表结构完成数据的关联使用方法。
针对上述研究内容,列出本文研究方案:
(1)模拟大数据环境下数据存储方式,搭建一个基于Hadoop的计算机集群,部署Hadoop分布式文件系统到每台计算机上,将大数据部署在分布式文件系统中,测试数据部署方式及负载均衡,组成主从式架构的计算机集群。
(2)根据数据格式,分析用户数据的重点及权重,利用数据预处理方法清洗过滤数据,保证结果的正确性,设计学生画像的模型和算法结构,组成基于大数据的校园行为数据创建合理的分析系统总体架构。
(3)根据数据进行实验,比较数据清洗效果得到最合适的数据清洗方法,并确保安全性及避免学生隐私问题同时提供高质量的数据。例如:数据匿名保护等。
(4)根据清洗后的数据进行分析,明确对学生数据的分析方向,并运用MapReduce分析学生个人特征。
3 学生特征画像构建
3.1 数据的处理
学生在校行为所产生的数据多种多样,皆以数据的形式存储,数据结构复杂和数量庞大是目前校园大数据环境的现状,数据预处理采集到的数据量十分庞大,同时由于数据的结构性或非结构性之间也存在误差,需要对学生各项数据进行“加工”处理,并且有的数据量较大而有的数据量较少,所以数据的格式也需要按照统一设定的表结构标准化,并且取其更重点的特征才能更好地在分析中取得好的效果。处理流程如图所示。
3.2 数据的分析流程
数据分析和特征提取: 当原始数据采集完成过后,由于有的数据存在一些问题,比如特征编号不一致,字段表意不清,标签特征不明显等等这种不完整的数据,为了提高数据集的搜集效率和结果的准确性,给后面的研究提供统一的规范数据,我们需要对标签进行优化,使学生的特征能够更好地被表现出来,一般数据清洗的方式有数据的归一化、离散化以及下采样等方式来使数据统一。并且不同应用产生的数据往往格式也不同,把它们整合起来归一化构成一个用户的完整画像,需要进行信息关联,将一些动态数据人工的关联到一个人的行为特征上总结概括。
定义约束条件:约束条件是數据处理的核心部分,我们需要从动态信息中得到学生的兴趣爱好和性格特点对短文本定义约束,这正好利用了Hadoop的一次写入多次读取的文件系统。后续的数据我们可以采用定时上传的方式传到相同的文件夹当中用相同的方式再次文本处理得到最新的标签。
标签的提取思路如下,我们定义大的标签所占的权重较大,小的标签所占权重较小,所以画像上面的每个标签大小不同,也更能表现出画像中的重点,定义规则学生成绩等标签所占权重为1,动态信息等标签的权重为1,标签的权重随时间减小,当一段时间后标签的权重减为0.5时将标签撤下,实现动态标签。
4 结论
智慧校园建设是教育改革的重中之重,利用好信息化平台的海量数据探索学生画像和信息化教育成为重要途径。构建出来的学生特征画像可以挖掘每个学生的特点,让学校提供有所侧重的培养,使教育真正变为因材施教提高教学水平,分配教育资源,加强素质教育。通过学生画像分析学生兴趣爱好、学习成绩、日常动态等方面,对这些方面进行总结性归纳成为一个个动态的标签,帮助老师对每一位学生有一个正确的并且直观化的了解做出个性化的教学方案,让家长对自己的孩子在学习成长方面的表现来加以引导,防止学生过度沉迷网络游戏或学习压力过大等问题,及早发现及时处理,来让学生的成长能够均衡发展,实现智慧教育和个性化成长。
参考文献:
[1] 李光耀,宋文广,谢艳晴.智慧校园学生画像方法研究[J].现代电子技术,2018,41(12):161-163,167.
[2] 王凯月. 基于隐私保护的校园用户画像系统设计与实现[D].北京:北京邮电大学,2018.
[3] 唐燕,刘仁权,王苹.基于Hadoop的高校大数据平台的设计与实现[J].信息技术,2017,41(12):105-109.
[4] 刘譞.基于学生行为的成绩预测模型的研究与应用[D].成都:电子科技大学,2017.
[5] 孙杨博.基于大数据挖掘的高校学生行为数据分析系统的研究与开发[D].北京:华北电力大学,2017.
【通联编辑:梁书】