APP下载

数据挖掘技术在招生数据平台的应用研究

2016-01-05黄有福

电脑知识与技术 2015年31期
关键词:数据仓库数据挖掘

黄有福

摘要:随着高职院校招生规模的不断扩大,招生录取与新生数据的管理仅采用办公软件进行管理与分析的方式已无法获取更深层次的有效信息,为了提高管理效率并在制定招生政策与计划时提供科学的数据信息,该文使用数据挖掘技术对招生数据进行研究,采用关联、聚类、决策树等方法,对大量的报考学生信息进行清洗、分析和统计,以此为招生过程中的科学决策提供有价值的参考。

关键词:数据挖掘;数据仓库;招生录取

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)31-0003-02

Application of Data Mining Technology in the EnrollmentDataPlatform

HUANG You-fu

(Guangzhou Panyu Polytechnic,Guangzhou 511483, China)

Abstract: With the continuous expansion of enrollment in colleges,management and newborn admissions office using only data management and analysis software has been unable to obtain valid information on a deeper level, in order to improve management efficiency and to develop admissions policies and plans to provide scientific data, we use data mining techniques to study enrollment data, using association, clustering, decision tree method, a large number of applicants for student information for cleaning, analysis and statistics, the admissions processes scientific decision-makingprovide valuable reference.

Key words: data mining;data warehousing;admission

近年来,我国大力发展职业教育,并投入了大量的人力和物力,高职教育也得到了前所未有的发展。但是随着目前各大高职院校的招生规模不断扩大,招生方式也在不断地改革与创新,各高校的生源竞争也日趋激烈,各高校都在努力地去对招生的数据进行研究,使用数据仓库、数据挖掘等技术,将招生过程中收集到的生源信息进行提取,采用分类、聚类、关联分析等方法,通过对大量的报考学生信息进行清洗、分析和统计。获取学生学习的需求、专业需求、就业需求等信息,找出科学与规律,从而更好的制定招生政策,招生计划,提高入学报告率和生源质量,促进学校的发展。

1数据挖掘的定义

数据挖掘(Data Mining)是指人们从大量的、模糊的、零碎的、随机的、不完整、含有噪声的应用数据中,提取出一些有潜在价值的信息和知识的一系列管理与分析过程。主要的工作流程主要包括:首先对原始数据的整理,选择数据并对数据进行预处理,然后对预数据的进行转换,最后抽取出有用的信息并获取知识。数据挖掘基于数据库对模式进行发现,可将模式划分预测型模式与描述型模式两种。

2 数据挖掘的常用方法

2.1聚类分析方法

聚类分析的方法是目前数据挖掘技术中一个很常用的方法,主要源用于统计学、生物学及机器学习等学科。它是使用簇的集合,通过使用一个簇内的任意两个对象之间的相似性,找出对象间的相异性的过程。

2.2决策树

决策树分为分类树和回归树两种,其中分类树是对离散型数据变量进行决策,而回归树主要应用于连接的数据变量进行决策。它的主要工作过程就类似于数据流程图中的树型结构,把整个结构分为根结点、中间结点和叶结点,在进行数据分析的过程就是把数据进行切分,每个问题对应一个结点。

2.3关联规则

关联规则主要的思想是根据数据的出现的频率找到出现之间的相互关系,主要的目的是根据他们的关联信息找出其中的规律,并为之所利用。最核心的方法就是基本频集理论的递推方法。

2.4统计分析的方法

常用的统计分析立法有回归分析方法、判别分析方法和探索性分析方法三种,它主要是要从大量的数据中,使用科学的统计方法,推断出事物之间存在可能的规律。

3招生数据仓库的建模

本文在创建数据仓库的过程中,主要通过数据驱动的方法,从不同的数据源中获得的数据存储到数据仓库中,根据决策的主题,实现招生数据的更科学决策分析,本文主要选用 SQL Server 数据库,从概念建模、逻辑建模及物理建模的三级模式来构建数据仓库。

4数据挖掘流程

我校是国家级示范性高职院校,招生类型多,招生管理工作复杂繁琐,把数据挖掘技术应用于招生数据的管理中,有利于对考生志愿的合理选择,同时也让更多的学生及家长了解当前的专业模式,以及对录取的新生报到率的预测,为下一年的设定招生人数和专业设置提供有价值的参考资料。数据挖掘技术在本校的招生数据管理的主要工作流程如图1所示:

图1 数据挖掘的流程图

我们从最原始的学生填写的高考志愿信息表中,获取基础数据,从考生的高考成绩、学业水平成绩、高中毕业考试成绩、考生类别、生源地、家族信息等信息中,通过前端处理工具,主要使用Clementin 工具,设置字段选项、选择记录点、对数据进行抽样,汇总等建立数据仓库,基于数据挖掘所要实现的目标以及数据所具有的特点,确定合适模型,通过聚类模型实现挖掘分析。最后评价数据挖掘结果,确定最佳模型,将其应用到具体实际问题中,与招生工作进行结合从而解释数据挖掘结果。

5数据挖掘在招生平台的应用

建设招生数据管理平台主要是为了对所有的招生数据进行科学的分析,解决招生过程中专业的设置,冷热门专业分析,录取分数线分析,考生第一志愿的分析以及招生计划的设置等。

5.1专业设置

招生平台中,可以以专业类别当成维度,采用关联分析,对各专业进行分析,与及对某一专业和其相关联的或相近专业,使用多维数据集与 EXCEL 的数据透视表工具结合,能方便地进行OLAP操作及结果的报表、图形等多种方式的可视化展现。

5.2冷热门专业分析

以生源所在地的考生为基础,运用聚类算法进行分析,以发掘考生填写志愿的相关规律,确定哪些专业是热门,哪些专业是冷门专业,根据毕业生的就业情况以及对当前的市场变化趋势深入了解,持续地对热门专业进行支持与挖掘,对冷门专业进行控制。

5.3考生第一志愿分析

第一志愿是志愿填报中最重要的一环,目前我校在录取规则上优先录取第一志愿考生,这样可以有相应专业人才的稳定生源,这批生源在最大程度上有志于自己所填报的志愿,而且在录取第一志愿考生时,学校热门专业通过第一志愿录取即可招满相应的新生。本文通过关联分析的方法,结合统计分析和聚类分析,根据考生的专业兴趣,高考成绩,以及兴趣爱好等,分析考生第一志愿的情况。

5.4招生计划安排

以考生的专业类别为基础数据,对某一类考生的信息进行分析,主要包括对考生的填写志愿的行为分析,有针对性地对考生性质,考生的志愿爱好,以及考生的高考成绩中的单科成绩情况进行分类分析及关联分析,采用决策树法,合理地安排专业招生计划。在系统平台的运用中,挖掘出隐含的规则与特征,把相关数据信息传递到各二级学院,让二级学院根据挖掘的结果做出合理的招生计划安排。

5.5挖掘结果展现

为了更好的展现考生的各种属性之间的联系,以“专业”、“成绩等级”、“生源地等级”作为前项,“报到状态”为后项,进行关联规则挖掘。运行结果如图5所示:

图2 招生数据挖掘结果

6 结束语

目前,很多高校都使用了各自的招生数据管理系统,也深入地掌握了数据挖掘技术对招生数据进行分析与干预,本文主要是使用关联规则法、决策树、统计分析等数据挖掘技术方法进行计算、分析、研究,构建了以考生类别、考生生源地、高考成绩、专业志愿等关系模型,结合 Microsoft SQL Server 2005 中的数据挖掘功能,通过这个模型找出了各个因素与考生专业选择、考生报到率以及对学校招生政策等的关联关系,提高学校的生源质量,促进学校的发展。

参考文献:

[1] 林宇.数据仓库原理与实践[M]. 北京: 人民邮电出版社, 2003.

[2] 王光翔.数据仓库技术在招生决策系统中的应用[J].贵州大学学报:自然科学版, 2006, 23(4):359-391.

[3] 陈文伟, 黄金才.数据仓库与数据挖掘[M]. 北京: 人邮电出版社, 2004:16-19.

[4] 谢秋丽.基于关联规则的教学质量评价数据挖掘[J].现代计算机:专业版. 2008(6):25-27.

[5] 扬华.数据挖掘技术在硕士招生录取数据中的应用分析[J].科技展望, 2015(23).

猜你喜欢

数据仓库数据挖掘
探讨人工智能与数据挖掘发展趋势
基于数据仓库的数据倾斜解决方案研究
基于数据仓库的住房城乡建设信息系统整合研究
页岩气工程大数据仓库建设与管理系统开发
基于并行计算的大数据挖掘在电网中的应用
分布式存储系统在液晶面板制造数据仓库中的设计
数据挖掘技术在中医诊疗数据分析中的应用
探析电力系统调度中数据仓库技术的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于数据仓库的数据分析探索与实践