APP下载

关联分析及神经网络算法在学生考研成功影响因素分析中的应用

2017-05-31钱辉煌朱国华吴芬

软件导刊 2017年5期
关键词:关联分析数据挖掘

钱辉煌 朱国华 吴芬

摘要摘要:数据挖掘是指从大量数据中,通过算法搜索隐藏于其中的信息的过程,通过将数据转化为信息,实现数据的价值。以江汉大学数学与计算机科学学院学生为研究对象,通过数据挖掘分类预测分析数据信息,以Rapidminer软件作为分析工具,采用关联分析和神经网络算法,对成功考研学生的群体特征进行分析,研究学习成绩、身体素质、性别、专业差别对考研结果的影响。

关键词关键词:数据挖掘;关联分析;神经网络算法

DOIDOI:10.11907/rjdk.162876

中图分类号:TP391

文献标识码:A文章编号文章编号:16727800(2017)005014303

0引言

“考研热”已经成为一种社会现象,并持续升温。为进一步了解当代大学生的考研现状和成功考取研究生的因素,展开此次实验研究,研究对象为江汉大学数学与计算机科学学院(简称数计学院)的学生,通过数据挖掘分析,得出哪些因素会影响大学生成功考取研究生。因收集数据量较少,本文将从收集到的数计学院2012级学生的学习成绩、身体素质测试成绩、考研录取情况和基本信息等这些数据中,选取大学四年加权平均成绩、身体素质测试成绩、性别和专业差别这几方面展开分析。

数据挖掘是从海量数据中发现有趣模式的过程。作为知识发现过程,它通常包括数据清理、数据集成、数据选择、数据变换、模式发现、模式评估和知识表示这6个方面[1]。其中前4个是数据预处理的不同形式,是为挖掘准备数据,本文将依次介绍本次数据挖掘实验的具体分析过程。

本次实验基于Rapidminer 软件的数据分析平台,将收集的数据进行数据预处理(数据清理、数据规约、数据集成和数据导入)[2],研究各数据项与成功考取研究生的关系。实验研究发现,考研成功除去与学习成绩相关外,还与身体素质、性别和专业差别相关。此次实验研究结果可为学校指导学生考研提供参考。

1相关算法

本次数据挖掘运用了目前常用数据挖掘算法中的两个算法:关联分析和神经网络算法。

(1)关联分析(Association Analysis)。现有的关联分析算法有基于概率相似度的关联方法、基于机器学习的关联方法、基于Bayesian分类器的关联方法及基于先决条件的关联方法等。基于机器学习的关联方法只能对存在于线程中的数据进行关联,无法对未知数据进行关联,导致最后的分析结果存在较大误差。而基于Bayesian分类器的关联方法虽然时效性很好,但关联需要的知识依赖于知识库,无法获得计算所需的先验概率和条件概率[3]。

(2)神经网络(Neural Network)。人工神经网络是一种通过模仿生物神经网路的工作特征进行分布式信息处理的算法数学模型。神经网络是目前具有非常强大的预测功能的一种算法模型。一个完整的神经网络由输入层、隐含层和输出层组成,而每一层都由多个神经元组成[4]。

2数据预处理

噪声是数据结果出现偏差的原因之一,由于采集的数据中有噪声影响因素,因此要对采集到的数据进行去噪处理,有效的数据预处理可以提高数据挖掘实验的准确率,经过系统导出来的原始数据存在不一致、不完整和噪声,根据实验需要,排除其它不良可忽视因素,结合教学实践对学生数据空缺、不一致数据进行数据预处理操作。

本次实验数据源是江汉大学数计学院2012级学生在校四年加权平均成绩、身体素质测试各项成绩、考研录取情况和基本信息。基本信息中包含3个专业:数学与应用数学、计算机科学与技术、网络工程。身体素质测试项目有:身高、体重、肺活量、50米跑、立定跳远、1000/800米跑、坐体前屈、仰卧起坐/引体向上。数据库极易受噪声、缺失值和不一致的侵扰,数据库庞大并且大多数是来自多个异种数据源。低质量的数据会将导致低质量的挖掘结果,引起数据的具体真实性偏差[5]。因此,本次实验进行数据预处理主要为3个方面:一是缺失数据(数据属性中部分记录显示为空),二是噪声数据,三是重复数据(数据属性相同的记录)[6]。

本次实验数据预处理因数据量小,故采用Excel进行初步简单处理。首先针对考研录取情况、身体素质测试各项成绩、学习成绩、基本信息4个表将学号作为关键字整合到1个表中,数据收集过程中会有部分数据不完整,因此需将信息残缺的元组和与此次实验无关的属性都剔除;其次数据要符合算法要求,部分文字表达的数据是不符合的,故将其用数字来代替,如男、女分别用0、1表示,3个专业数学与应用数学、计算机科学与技术和网络工程则分别用0、1、2表示,考研录取情况用0、1分别表示未录取和录取;最后需构建一个预测模型进行预测,需训练数据集和预测数据集,故从整合后新生成的数据表中随机抽取10个元组作为预测数据集,其余作为训练数据集。这是简单的数据预处理,后面将会运用关联分析进一步对数据进行处理。

3数据挖掘平台Rapidminer

RapidMiner(前身是Rapid-I,YALE)是一個十分流行的开源数据挖掘软件,近年来变得非常受欢迎,并得到了一个大型社区的支持。其视觉吸引力、用户友好的GUI(图形用户界面)和基于WiKi的上下文帮助,允许轻松使用和快速学习曲线。它有多个扩展提供数据和适合于特定的预定义过程应用领域(例如营销、金融等)和社区,在RapidMiner“市场”上分享流程非常活跃。

RapidMiner的一个重要优势是其在过程设计中的灵活性,通过“过程/子过程”结构和“宏”表示环境的全局变量,这使得复杂过程的可视设计和高水平自动化得以实现。RapidMiner还提供大量的机器学习算法,用于预处理和可视化的工具包括大多数Weka算子和用于合并定制的R和Python脚本的简单工具。并且,对深度学习方法和一些更先进的特定机器学习算法(例如,极端随机树)的支持目前受到限制,但是可以通过并入R和Python脚本加以解决[7]。

4数据建模

4.1数据导入

经过数据预处理的训练数据集导入Rapidminer平台,在属性类型设置时将考研录取情况属性类型设置为Binominal类型,作为实验预测对象,如图1所示。

4.2关联分析

通过关联分析算法对数据进行建模,调用Set Role和Correlation Matrix算子得到所需要的关联系数矩阵,进一步对数据进行处理。本次实验采集数据量较少,故相关系数普遍偏小,经过多次实验尝试,发现剔除相关系数小于0.05的属性,得到新的数据集再通过神经网络算法建立的预测模型最为准确,如图2所示。

4.3神经网络模型建立

通过上述关联分析得到相关系数,可以在接下来建模时通过调用Select Attributes算子来选择合适的属性(将相关系数小于0.05的属性,如肺活量和坐体前屈属性剔除)形成新的数据集。姓名属于不相关属性但可用来识别元组,因此调用Set Role算子将其设置为id属性用来识别,考研录取情况属性为要预测属性故将其设置为Label属性,最后调用Neural Net算子建立神经网络模型,如图3所示。

4.4模型验证及预测

将预测数据集导入Rapidminer平台中,将其属性进行筛选和设置,调用Apply Model算子应用神经网络模型,将其连接全部,如图4所示。

运行程序得出预测结果,对得到的预测模型进行验证和判断,预测数据集的学生考研录取情况,如图5所示。

5实验结果分析

如图5所示,从得出的预测结果可以看出,预测结果的置信度较高,且预测值与实际值一致,说明该预测模型较为成功。在作关联分析得出相关系数矩阵时,选取多大相关系数为合适属性时不能按常规方法,因为本次实验的数据量较小,而且数据项较少,得出的相关系数也较小,所以只能逐个剔除当前最小相关系数属性进行建模,将结果一一对比,最后得出保留大于0.05相关系数的属性最为合理。

由图2可知,四年加权平均成绩的相关系数最高且为0.260,呈正相关,表明学习成绩对于考研是重中之重。考研不仅是最后一年的冲刺复习,同样要注重大学四年平时的学习和知识积累。

其次身体素质成绩中的健康成绩、立定跳远成绩、1000米/800米成绩相关系数都在0.100左右,其中1000米/800米成绩相关系数是-0.128。验证那句俗语“身体是革命的本钱”,在备战考研的同时,不能以牺牲身体为代价,要加强锻炼,以提高身体的各项基本素质,特别是长跑,其相关系數在这些身体素质测试项目中略高一筹,在考研备战期间制定一个合理的运动计划也尤为关键。

再是专业,其相关系数为-0.125,数据显示网络工程专业选择继续攻读硕士研究生人数最少,根据进一步调查了解,更多这个专业的学生选择毕业后直接找工作,因就业前景好,而数学专业选择考研的人数最多,说明专业差别和就业情况也决定是否选择考研及最后能否成功考取。

最后是性别,从采集的数据得知,考研成功的学生中女生占很大比例,并且其相关系数为0.144,说明性别也是成功考取研究生的一个因素,并且在漫长的备战考研中女生更容易坚持下来并取得成功。

6结语

本次研究针对采集到的江汉大学数计学院2012级学生的数据,利用关联分析算法对预处的数据作进一步处理产生新的数据集,提高预测模型的准确率,最后运用神经网络算法得出预测模型,并用预测数据集进行验证。实验结果表明,影响学生成功考取研究生的因素不仅包括学习成绩,还与性别、专业、身体素质相关。最后的预测模型和验证也证明,本次实验结果具有可参考的准确性,实验结果能够对学校辅导员指导学生考研提供部分依据和建议。但本次实验也存在数据量偏小、数据偏少等方面的不足,以后可收集更多数据,进一步深入探究,得出更为实质性的结果,提高模型准确率。

参考文献参考文献:

[1]HAN JIAWEI,MICHELINE KAMBER.数据挖掘:概念与技术[M].第3版.北京:机械工业出版社,2012.

[2]黄炎,王紫玉,黄方亮.数据挖掘技术在高校学生成绩分析中的应用与研究[J].兰州文理学院学报:自然科学版,2016,30(3):6468.

[3]李燕,曹宝香,马兆丰,等.关联分析算法在安全管理平台中的研究与应用[J].计算机技术与发展,2013,23(10):107110.

[4]徐京薇,谢人超,黄涛,等.基于神经网络算法的ICN网络传输控制研究[J].重庆邮电大学学报:自然科学版,2016,28(4):539544.

[5]HAN JIAWEI,MICHELINE KAMBER.数据挖掘:概念与技术[M].第3版.北京:机械工业出版社,2012.

[6]徐俊,夏骄雄,周时强.数据断层分析在广播电视台数据处理中的应用[J].计算机应用与软件,2016,33(9):40.

[7]SVEN VAN POUCKE,ZHONGHENG ZHANG,MARTIN SCHMITZ,et al.Scalable predictive analysis in critically Ill patients using a visual open data analysis platform[J].Plos ONE,2016,11(1):421.

责任编辑(责任编辑:孙娟)

猜你喜欢

关联分析数据挖掘
基于并行计算的大数据挖掘在电网中的应用
基于随机函数Petri网的系统动力学关联分析模型
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究