APP下载

基于大数据的高校学生画像系统探究与设计

2020-07-18范广慧王威王松李昂

海峡科技与产业 2020年4期
关键词:数据分析大数据

范广慧 王威 王松 李昂

摘要:近年来,我国大数据技术发展迅速,并在很多方面得到应用,数据的价值越来越受到重视。高校在教学过程中积累了大量的学生数据,该进一步思考,如何让这些数据转变为提高学生水平的宝贵资源。本文在搭建Hadoop大数据平台基础上,对学生的生活数据、图书借阅数据、成绩数据等在内的多种数据,从多个角度去分析,刻画学生的行为和偏好习惯等,为学生进行画像,有助于学生对自己有一个全面客观的定位,也有助于学生管理部门精确管理和帮助学生,提高学生管理水平。

关键词:大数据;Hadoop;学生画像;数据分析

中图分类号:TP311.5 文獻标识码:A

随着互联网、大数据和人工智能技术的飞速发展,各行各业积累的数据被看作宝贵的矿藏,可从中挖掘出宝贵的信息资源,高校的学生数据也不例外,学生的各种生活数据(如餐饮、购物、上网时长、宿舍卫生分数等)、图书借阅数据、成绩数据等在内的多种数据,从多个角度去分析,刻画学生的行为和偏好习惯等,为学生进行画像,有助于学生对自己有一个全面客观的定位,也有助于学生管理部门精确管理和帮助学生,提高学生培养水平。

1 基于大数据的学生画像系统设计

1.1 学生画像系统功能需求

基于大数据的学生画像系统通过网络在Web网页上进行访问,架构分为三层:客户机—服务器—数据库模式,学生通过Web网页登录到自己的系统中,通过辨别每位同学的信息,程序自动从数据库中读取数据并实时通过程序设计生成该学生的各项数据如消费、学习、生活等,并根据该学生的数据生成年度或学期总结报告并且给予建议和意见,例如学生在借阅图书方面非常勤奋,就会对其进行鼓励和激励,若是学生在学业成绩上有多门挂科,就会对其进行学业警示并给予学习建议[1]。通过本系统希望可以为学生们提供一个集学业统计、信息查询和年终总结等多功能于一体的学生画像系统。

1.2 学生画像系统性能需求

1.2.1 海量数据的存储空间需求

因为需要满足大量的存储需求和调用分析处理,所以选择使用MySQL数据库对数据进行存储,MySQL是当今市面上比较流行的关系型数据库,用python程序对MySQL进行调用较为方便快捷。数据需要进入hive中分析处理,可以直接使用sqoop工具将分析处理好的数据表传输到MySQL中,或是将MySQL中需要分析的表通过sqoop导入到hive中进行分析。

1.2.2 分布式集群对海量数据处理需求

对海量数据进行处理,需要使用分布式处理,即需要配置一组完全分布式服务器集群。完全分布式服务器集群需要部署许多组件,如hive、flume、zookeeper、kafka、sqoop、scala&spark、hbase等。工作时需要这些组件一起协同配合处理并对海量数据即TB级数据进行处理,保证时间上的相应速度以应对网页的刷新速度。

1.2.3 前后端框架使用需求

为满足Web网页设计需要,我们需要使用前端Bootstrap框架对整个学生画像系统在前端的展示进行设计,Bootstrap是基于HTML、CSS、JAVASCRIPT的,它简洁灵活,使得Web开发更加快捷。Bootstrap框架构建了学生基本信息区域、学生数据统计查询区域、学生年终总结与建议区域,并将这些区域与经过数据分析处理产生的可视化图表进行网状结构的混排。

1.2.4 后期维护与更新迭代需求

在满足三层体系架构及硬件及软件需求后,大致的学生画像系统的功能就完成了。但在后期需要对服务器集群进行运行维护,需要稳定性更好的性能更强的计算机组成集群。并且在满足基本需求后可以先上线,再对功能进行补充,补充过后进行迭代。如对数据库的升级、对系统代码的重构优化等,这些需求都需要满足。

1.3 学生画像系统数据需求

程序数据是系统的灵魂,系统需要大量的数据对个人信息进行完善和统计,如对消费金额、学习成绩等进行统计并分析,实时处理出针对个人的信息分析数据。数据分为学生基本数据、学生课程成绩数据、学生各个月份的各个种类消费数据、学生宿舍卫生的数据等。数据通过Excel表或是csv文件形式汇总,通过程序读出并写入到数据库,数据也因为数据类型分为int、float、double等类型,由于数据长度不固定,在MySQL中建数据表时,将整体长度设为100,以防发生存储数据库异常。

在数据收集的过程中不可避免地会出现如缺失值、异常数据等不正常的数据,我们称之为脏数据,对于脏数据,我们的解决办法是在数据分析之前先对其进行数据清洗的操作,通过数据清洗和数据格式化将所有数据源转换为格式化的数据。数据清洗是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%~80%的工作量,所以它也是整个画像系统可以运行起来的关键环节,需要我们严格设置数据格式。

1.4 学生画像系统设计原则

1.4.1 简约原则

大自然所遵循的简约性、精准性、合理性与有效性创造了我们所在的物理世界。大数据处理中,也需要遵循简约原则,运用这些规约方法,就可以获取可靠数据,减少数据集规模,提高数据抽象程度,提升数据挖掘效率,使之在实际工作中,可以根据需要选用具体的分析数据和合适的处理方法,以达到操作上的简单、简洁、简约和高效[2]。

1.4.2 明确性原则

每个分析都有结论,而且结论一定要明确,如果没有明确的结论那分析就不叫分析了,也失去了它本身的意义,因为本来就是要去寻找或者印证一个结论才会去做分析的。

1.4.3 数据可靠原则

好的分析一定要基于可靠的数据源,其实很多时候收集数据会占据更多的时间,包括规划定义数据、协调数据上报、让开发人员提取正确的数据或者建立良好的数据体系平台,最后才在收集的正确数据基础上做分析,既然一切都是为了找到正确的结论,那么就要保证收集到的数据的正确性,否则将会误导别人。

1.4.4 图表化原则

数据分析报告尽量图表化,用图表代替大量堆砌的数字会有助于人们更形象更直观地看清楚问题和结论,当然,图表也不要太多,过多的图表一样会让人无所适从。

1.4.5 逻辑性原则

好的分析报告一定要有逻辑性,通常要遵照:发现问题;总结问题原因;解决问题,这样一个流程。逻辑性强的分析报告也容易让人接受。分析结论也一定要基于紧密严谨的数据分析推导过程,不要有猜测性的结论,一定要有逻辑性。

1.4.6 实用性原则

数据分析报告的编制过程一定要谨慎,体现在基础数据须要真实完整,分析过程须要科学合理全面,分析结果可靠,建议内容实事求是(图1)。

2 基于大数据的学生画像系统实现

2.1 系统功能模块设计流程图

根据系统目标和功能分析,基于大数据的学生画像系统应在逻辑流程图下实现整个系统的功能(图2)。

2.2 三层体系结构设计

经调研和观察发现,基于大数据的学生画像系统需要很多功能模块实现,因此我们将学生画像系统分解成不同的功能模块,这些功能模块又可以大致分为三层体系结构[3]。

2.2.1 前台Web网站设计

(1)学生登录:学生登陆自己的账号,通过自己的账号查询学业成绩、宿舍考勤卫生成绩、学习生活情况等。

(2)成绩查询显示:通过表格的形式显示出学生想要的课程成绩、宿舍卫生成绩,并显示出学生的基本信息。

(3)图表化显示:除了基本的成绩显示、信息显示外,占较大部分的就是图表化显示了,通过直观的图表显示,且是动态图表,学生可以通过鼠标放置在某一项的方式查看自己的数据占比,再通过图表说明学生的画像数据。

2.2.2 后端程序设计

(1)学生数据清洗:清洗采集来的数据,将一些脏数据清除出去,包括检查数据一致性、处理无效值和缺失值等。数据清洗工作是數据分析工作中不可缺少的步骤,如不进行数据清洗,数据分析的结果准确率会变得极低。

(2)学生画像生成:通过文字加数据的形式生成学生画像,根据各种图表和数据对每个学生进行个性化分析,并提出针对性意见。

(3)前后端交换数据:使用Flask和Ajax框架对前后端通信进行支持,使用这些框架可以很好地形成三层即前台后台和数据库体系。

2.2.3 大数据处理平台集群搭建

(1)集群搭建:搭建以hadoop为主体的多种不同功能组件的大数据处理平台集群,使用完全分布式方式搭建,可以通过mapreduce或spark处理TB级数据。

(2)MySQL与hive部署:MySQL与hive也部署到集群中,方便通信和互相传输数据,以此形成三层体系结构。

2.3 系统功能模块设计实现效果

安装部署并配置一个hadoop服务器集群,需要一台master主服务器和两台slave从服务器。配置部署完成之后,使用命令:hadoop-demons.sh start all命令来启动所有节点,即完成完全分布式集群的启动。sqoop工具用来对mysql、hive、hbase之间的数据表的导入导出。这样所有组件就启动完成了,通过使用hadoop这个平台的强大的大数据处理技术,我们可以能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快,这样才可以处理海量的任务数据。

数据读取使用DataFrame中的read_excel将本地的Excel文件读取到程序中,并转换成DataFrame数据,使用rank函数求出各个同学图书借阅次数、图书馆出入次数、学习通访问次数和学习通访问天数的排名。

2.3.1 “生活主题”数据分析

通过分析日常消费、生活数据,并对其进行分析,因人而异提出不同的建议和警示,以便于学生修正自己的行为,实现完善和提升(图3)。

2.3.2 “学习主题”数据分析

根据学生的“学习主题”数据生成年度或学期总结报告,如学生在借阅图书方面非常勤奋,就会对其进行鼓励和激励,若是学生在学业成绩上有多门挂科,就会对其进行学业警示并给予学习建议(图4)。

3 结论

通过高校收集的学生信息数据,实现对学生生活、消费、成绩信息的记录及对学生画像的刻画分析,学生可以查看数据报告,同步驱动学生进行提升自我,即通过画像的刻画了解到自己的学业水平及各方面特长及兴趣爱好处,了解自己在学生群里中的位置,同时帮助学生管理部门,准确掌握学生的生活学习方面数据,实现因材施教和精确帮助,提高学生培养水平。

参考文献

[1] 莫刘刘.基于高校学籍数据分析的学生画像初探[J].现代信息科技,2018(6):32-33.

[2] 王洋,丁志刚,郑树泉,等.一种用户画像系统的设计与实现[J].计算机应用与软件,2018(3):8-14.

[3] 李光耀,宋文广,谢艳晴.智慧校园学生画像方法研究[J].现代电子技术,2018(6):162-167.

猜你喜欢

数据分析大数据
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于大数据背景下的智慧城市建设研究