学籍档案数据挖掘流程与技术初探
2018-11-14■
■
广东医科大学教务处
随着信息社会日新月异的发展,不少人已经感觉到大数据时代的来临,也享受到大数据技术给生活和工作上带来的种种便利,大数据技术的意义不在于掌握庞大的数据信息,而在于对这些海量的数据进行专业化处理,通过进行海量数据挖掘来挖掘出其背后的存在的有价值的信息,这也是最重要的。
作为一所有多年历史的高校,我校内部运行的各种管理系统和各类数据库,已经积累了海量的数据,然而隐藏在这些海量数据背后的深层内涵和联系一直没有得到充分的发掘和应用,学校管理者只能通过简单数据查询和排序等传统数据库技术功能获得表面的信息。我们努力想要解决的是,如何对那些庞大的海量数据进行高层次的处理,从中找出管理者关心的规律和模式,以此帮助管理者更好地把现有的数据转化为可供使用的知识进行决策和研究,来提高学校管理决策的科学性,提高管理水平和办学质量。
学籍档案是由学生自进入高校就形成的文件,包括新生录取名册,新生入学登记表,学生学籍卡,完整记载每学期学习成绩的学生成绩单,因出现留级,休学,复学等学籍异动而产生的相关学籍异动资料及学籍异动证明,在校受到奖励或者处分的奖惩记录,毕业就业档案等整个在校活动中形成的文字、报表、图像等有保存价值的原始记录,是记录和反映学生在读期间所有学习表现的最全面的资料。
学籍档案数据挖掘过程就是有目的地从大量数据中发掘出有用知识的过程,此过程通常包括六个基本步骤:定义主题、准备数据、浏览数据、生成模型、浏览和验证模型、部署和更新模型。从档案信息挖掘角度来讲就是对现有档案数据信息进行分析,将信息之间包含的信息进行解构,最后从中发掘出自己想要了解的数据之间的联系及找出他们之间潜在的发展规律,并最终将所需要的结果呈现出来。这个过程光是借助目前学籍档案电子数据所依存的学校信息系统是不能够完成的,这就需要在对现有的学籍档案有足够的了解的基础上,对目前急需解决的教学管理方面的问题深入研究以后,精心制定方案,准备整理资源、指导技术实施、部署应用等一系列程序。
首先就是要对接下来的学籍档案数据挖掘进行前期规划。确定预期目标和最终效果,定义主题。所有的技术工作开展都是围绕着同一个目标来进行的,前期规划没做好,预期目标和最终效果没定位好,会导致数据挖掘方向盲目不清,造成资源的浪费。因此,作为高校,对学生的学籍档案信息进行数据挖掘应与推动学校教学发展,促进学生个人成长的作为战略目标,充分了解学校教学管理当前的工作需求,从而确定对哪些数据进行挖掘,最终需要达到怎样的目标。
高等院校的根本任务是通过教学和教育工作来培养高层次人才,所以教学工作始终是学校的中心工作。高等教育的重点和关键是提高整个教育质量,学生成绩是评估教学质量的重要依据,也是学生是否掌握好所学知识的重要标志。努力提高学生学习成绩是每一所高校的目标,但是影响学生学习成绩的因素很多,传统对正常学生进行学习成绩分析大多只能得到平均值、学生成绩的分布曲线等,这些信息大多数还是基于教学自身来考虑,对于教育决策特别是教学计划修订,课程安排意义不大。
根据我们需要实现的目标,教学管理开发需求,制定行之有效的方案,收集准备数据。准备数据的过程是先将相关数据进行收集,合并和清除定义问题步骤中标识的数据。数据有可能分布在系统的不同存储内以不同的格式出现,其中还可能包含错误项。将现有数据进行合并和清除,找出数据间互有的相关性,并把最符合要求的数据确定下来,用于分析。
数据准备大致分为以下几步:
(1)数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中,根据用户的要求从数据库中提取相关的数据,数据挖掘将主要从这些数据中进行知识提取。
(2)数据清理:对数据进行初步的整理和清理,提高数据的质量和有效性,做好数据分析的提前准备。
(3)数据转换:将数据转换成易于进行数据挖掘的形式。
(4)数据归约:数据归约的目的是缩小所挖掘数据的规模,但不会影响或基本不影响挖掘结果。
完成数据准备基本步骤后,根据因实际工作需求而确定下来的目标和对现有各种算法的特点进行分析后选择出最适合的挖掘方法,用数据挖掘工具和方法对经过转换后的数据进行分析,搜索或产生一个特定的感兴趣的模式。对发现的模式或数据集进行解释和评价,过滤出符合用户需求的知识;最后利用可视化技术将有意义的模式转化成用户可理解的语言。
数据挖掘这项技术在现在这个讲究大数据的时代,特别是面对数据类型纷繁复杂的学籍档案,能够帮助我们找出数据背后隐藏深层次的联系,它需要对各项学籍档案数据最大限度的实现信息化管理为数据挖掘搭建基础平台,另一方面也需要有信息技术知识基础而又了解的学籍档案及教学管理工作的综合性管理人才的参与,只有这样才能真正了解学籍档案信息挖掘的需求和目标,使得来的知识真正服务于教学管理的实际工作。
[1]徐敏.教务管理系统中数据挖掘技术的应用探究[J].教育教学论坛,2017(4):9~10.
[2]张伟.档案大数据挖掘流程与技术研究[J].兰台世界,2017(17):35~38.