教育数据的可视化研究与设计
2021-09-10肖永财李社蕾
肖永财 李社蕾
摘 要:针对于教育中数据处理难度大的问题,提出一种针对于教育数据可视化的处理方法。获取数据后,对数据先进行指标分类,接着使用Python和Excel对数据进行清洗,再接着结合机器学习对清洗后的数据分析,最后将分析出来的数据以应对不同场景的可视化图表将数据展示出来。
关键词:数据清洗;机器学习;数据处理;可视化
1 绪论
随着科技的不断发展,计算机不断快速更换和替代,互联网用户数量也是指数性的爆发增长。计算机性能的不断提高,在许多固定化的处理上,计算机都比人处理得更快更准确。在许多方面,人们都开始使用计算机进行处理,以达到更高的工作效率以及更少的失误出现。
数据可视化能够帮助人们在数据处理时更加快速、便捷,这样容易接近人们日常生活,满足人们实际需求,便于挖掘数据背后的内容。在数据可视化中,使用标记等方法,不但让可视化更加专业,也能及时找到所需数据,避免数据分析错误。[1]
教育中的数据往往是多且复杂的,人为的对数据处理相对于机器的处理是耗时、耗力,且容易出错的,因此通过机器处理数据是必然的。而在教育中大数据分析目的在于提高学生成绩,服务教学设计。在教育中的数据中有一些重要的信息往往被人所忽视。通过大数据的分析和可视化的展示,寻找重要信息,对于提高教育精准化有很大的帮助。利用大数据的学习分析向教育工作者提供有价值的信息,来达到解决一些现实中不太好回答的问题。
2 系统概述
本系统主要用于对教育中数据的可视化,方便对教育数据的各类数据进行分析,客观地分析出数据蕴含的含义,用以对学生成绩的提升。图1为教育数据可视化总体设计过程。总体上来说,全过程分为原始数据提取、数据预处理、数据可视化三个主要步骤。
3 教育数据处理与可视化设计
3.1 数据处理前分析
对教育数据处理,需要选择合适的辅助工具,对泛化的数据进行选取和组合,将处理好的数据按指标进行存储,利用合适的数学模型对处理后的数据进行分析,最终以合适的方式展示出来。大数据处理的基本流程主要包括收集数据、数据预处理、数据存储、数据分析处理、数据可视化等几个步骤。在整个大数据处理流程中,数据的质量决定了最终的处理效果,数据处理中的每一个步骤都影响着数据质量。如果想要一个好的大数据产品,就要有够大的数据规模、精准的数据抽取、优秀的数据可视化以及简明易懂的数据解释。
3.2 数据预处理
从数据存储服务器中获取的原始数据,为学生姓名、ID编号、民族、成绩,班级等各种数据信息。在数据预处理阶段使用Python和Excel进行数据清洗,接着以机器学习对数据进行分析,最终将数据格式成JSON格式实现教育数据的可视化。
在数据预处理层面中,因对于原始数据中会存在缺省值、格式错误等问题,因此使用Python和Excel进行数据清洗。数据预处理没有一个标准的流程,通常针对任务和数据集属性的不同而不同。数据预处理的常用流程为:去除唯一属性,处理缺失值,属性编码,数据标准化正则化,特征选择,主成分分析[2]。如图2所示,针对教育数据的特点,采用如下所述的步骤进行数据预处理。
教育数据的处理流程与传统数据处理流程几乎一样,主要区别在于:传统的数据要处理大量泛化的数据,教育数据已经是较为结构化的数据,在处理数据时可以并行处理。
以机器学习中深度学习为核心的教育数据分析,替代人来完成那些简单、枯燥的数据分析,同时按照一定的规则学习,预测分析未来一些事件的可能性,进而实现教育数据的最终变现。和联机分析处理OLAP不同,对教育数据的深度分析主要基于大规模的半监督学习,半监督学习模型的训练过程可以归结为一个最优化定义于大规模训练教育数据上的目标函数并且通过一个循环迭代的算法实现。其数学描述如下:
目标函数:
θ→=argmaxθ→Σ({xi,yi}Ni=1;θ→)+Ω(θ→)(1)
迭代优化:θ→←随机值;
for(t=1)
{
其他操作;
θ→(t)←g(θ→(t-1),∠θθ→=θ→(t-1));
其他操作;
}
returnθ→(T);(2)
(1)迭代性:機器学习算法,最终都要求助于计算机解决,它又表现为在特定函数空间按某种优化目标去搜索一个解出来。通常问题没有范围解或迭代变量震荡于某个点,对迭代变量并不能一次完成,需要进行多次的循环迭代以及变量更改才能逼近最优点。
(2)适应性:深度学习的算法设计和模型设计说明可能有非最优值解的出现,而多次迭代的特性也会在循环的过程中产生一些误差,但深度学习的适应力较强,在这些变量最终会被允许存在,但模型最终的收敛不受影响。
以基于Hadoop架构的分布式计算对教育数据进行处理归为MapReduce实现,进而达到简化编程接口和提高容错性的目的。设计两个函数map函数和reduce函数,在map阶段处理原始数据,过滤掉丢失、不可靠或错误的教育数据。接着在reduce阶段,寻找出合适的数据。通过这两个阶段将一个完整的迭代运算分解为多个不间断的map和reduce操作。通过读写HDFS文件,将上一轮循环运算结果传入到下一轮完成数据的交换。
3.3 数据可视化设计
在人与计算机的相处过程中,界面是机器对人产生较大的一个影响因子,因此对界面的设计是一个不可忽略的因素。将界面置于用户的控制之下,控制用户情绪走向,保持界面的一致性是本团队对教育数据可视化设计的方向。工作流程上分为结构设计、交互设计、视觉设计三个部分。
结构设计是界面设计的核心。通过对用户的研究与分析,设计出系统的整体框架。