基于学习历程数据分析的学生行为预测研究
2016-10-13刘建炜
刘建炜,张 颖
(1.福建幼儿师范高等专科学校 人文科学系,福建 福州 350013;2.福州建筑工程职业中专学校 计算机教研室,福建 福州 350013)
基于学习历程数据分析的学生行为预测研究
刘建炜1,张颖2
(1.福建幼儿师范高等专科学校 人文科学系,福建 福州 350013;2.福州建筑工程职业中专学校 计算机教研室,福建 福州 350013)
当前,职业教育正面临国家产业结构升级的问题,为此,职业院校开展了教学改革,并积累了大量的教务、德育、心理等相互孤立的信息数据。通过运用数据挖掘技术对学生的学习历程数据进行数据分析,尝试从这些数据中查找发现有用的知识,并尝试对学生的德育行为进行分析和预测,以提高办学质量。
算法;预测;Apriori;ⅠD3
当前我国职业教育存在的学生管理困境,主要体现在粗犷的管理模式已经不适应新时期的人才培养。本文尝试利用数据挖掘技术对学校教务系统、心理测评系统、德育积分管理系统等应用软件所积累的大量孤立的学生学习历程数据进行挖掘[1-2]。期望能够从中获取指导学生管理工作的隐藏知识,并应用于指导学生管理工作,为学校学生管理工作转型提供数据支持。
1 行为分析算法
传统的基于信息熵进行分类的ⅠD3算法时间复杂度比较高,计算效率比较低[3]。人们通过各种手段对ⅠD3决策树算法进行改进,降低算法时间复杂度:例如应用泰勒公式与麦克劳林公式的方式,降低熵的计算维度,简化算法的计算过程[3]。由文献[3]中的公式可得出ⅠD3决策树算法的时间复杂度为O(n2log2n)[3]。信息熵的计算公式如下。
上式简化后可以达到降维的目的[3,6],对该算法改进有一定的效果。但是在学生行为分析过程中的效果还是不理想,为了提高对学生学习历程数据的分析效率,笔者尝试应用Apriori算法,对数据集进行关联规则分析,以期从中找出具有强关联规则的属性集,并对此类数据的属性集进行约减,进而达到减小决策树算法中计算属性的规模,最终有效地提高算法效率。
2 基于ⅠD3等算法学生行为预测数据挖掘
2.1数据的采集与预处理
实验从学校的教务管理系统、心理测评系统、学生德育考评系统中随机抽取了部分学生的学习历程数据进行分析研究,清洗后得到数据如表1(部分)。
表1 学生信息表
2.2ⅠD3算法计算过程演练
上述从数据库提取的数据训练样本中,共有50条记录,9个属性字段参与算法计算,其中“处分情况”作为标识属性字段。经过试验考察,我们发现仅通过引入泰勒公式和麦克劳林公式的方式对ⅠD3算法的计算效率提高有限,特别是在考察的属性数量很多的情况下存在一定的局限性和不足。故本文通过引入Apriori算法,对数据集进行扫描,尝试找出具有高度关联的属性。如果存在,则可以选择其中的一组属性参与ⅠD3计算,从而达到减少参与计算的属性规模,进而提高效率。
Step1:依据关联规则的计算方法,设定最小支持度=4,最小置信度=0.8,对表1中第5-8项进行扫描,得到以下符合条件的强关联规则:
(ⅰ){活动情况、心理状态}=>{气质类型},置信度=83.33%;
(ⅱ){心理状态、气质类型}=>{活动情况},置信度=100%;
(ⅲ){缺勤情况、气质类型}=>{户籍性质},置信度=100%;
(ⅳ)户籍性质、气质类型}=>{缺勤情况},置信度=83.33%。
由第(ⅱ)和(ⅲ)条规则,认为{心理状态、气质类型}与{活动情况}、{缺勤情况、气质类型}与{户籍性质}具有很强的关联关系,除去属性{活动情况}和{户籍性质}后的数据集S'与原数据集S对学生的受处分情况分类预测没有影响。故可以得到属性约减后的数据集S',共有20条记录,7个属性字段,如表2所示。
表2 约减属性后的数据集合S'
Step2:根据ⅠD3算法的公式可以知道对于数据集S',有K=20,类别是标识属性字段“处分情况”的值域范围是:{无处分、警告记过、留校察看、开除},即有不同的四个取值,故m=4。设定类C1,C2,C3,C4分别对应于“无处分”,“警告记过”,“留校察看”,“开除”。可以得到:S1=7,S2=8,S3=3,S4= 2,且p1=7/20,p2=8/20,p3=3/20,p4=2/20。计算样本S'的分类期望值如下。
Step3:分别计算剩下每个属性的熵。先计算字段“德育积分”的熵:对于“德育积分=优”的类别标号,有:S11=6,S21=2,S31=0,S41=0;则有:p11=6/8,p21=2/8,p31=0,p41=0,计算熵值如下。
再分别计算出“德育积分=良、中、差”的熵为0.5,0,0.653。以“德育积分”进行划分,其期望值计算如下。
根据公式(4)可得到以下的计算结果:
Gain(德育积分)=I(S1,S2,S3,S4)-E(德育积分)=0.214。
根据Step3的方法,可以分别计算出“学习成绩”、“缺勤情况”、“心理状态”、“气质类型”几个字段的增益熵值。
Gain(学习成绩)=I(S1,S2,S3,S4)-E(学习成绩)=0.198;
Gain(缺勤情况)=I(S1,S2,S3,S4)-E(缺勤情况)=0.034;
Gain(心理状态)=I(S1,S2,S3,S4)-E(心理状态)=0.100;
Gain(气质类型)=I(S1,S2,S3,S4)-E(气质类型)=0.108。
Step4:用Step3得到的数据,以Gain(A)增益值最高的属性作为测试属性,创建决策树节点,并进行标记。由此属性的不同取值引出一个分支,本例以“德育积分”作为这次分类的测试属性,并创建节点,如图1所示。
Step5:应用Apriori算法继续对子分支进行计算并找出强关联规则,然后进行属性约减。例如,对于“德育积分=‘优'”的分支,Apriori算法计算发现:{学习成绩}=>{缺勤情况},置信度=100%;同时,设定了数据规模小于一定量的分支不进行属性约减,经过再次约减后的数据子集如图2所示。
图1 根据“德育积分”划分的决策树分
图2 进行属性约减后的决策树分支
根据上述Step1-5,最终可以得到完整的决策树,如图3所示。
应用“ⅠF…THEN…”表达式可以抽取出图3决策树所包含的知识,即可得到以下的规则:
ⅠF德育积分=“优”AND学习成绩=“优”THEN处分情况=“无处分”;
……
ⅠF德育积分=“差”AND气质类型=“抑郁质”THEN处分情况=“警告记过”。
2.3规则分析及规则应用与学生德育行为分析
例如,据最后一条规则可以发现:德育成绩中等在校偶有违纪的学生群体,如果他们能够专心于学业,则受到学校处分的概率大幅降低。故该类型的学生应当作为班导师及其他德育工作者需要积极关注及加强引导的对象。通过此类知识的发现,可以为学校管理者提供学生在校德育行为及受校纪处分的预防及预测示警,并对学校学生工作的开展提供数据支持与理论依据。
图3 完全决策树
3 算法效率实验分析
为了检测本文所述算法的计算效率,本节将选取不同规模的3组数据进行测试。通过实践检测改进后的算法与传统的算法在效率及产生的规则数的区别。实验环境是一台四核3.20 GHZ,内存8 G,64位操作系统平台。对于每组数据进行5次测试后取其平均值,结果如表3所示。
表3 记录集情况表
实验结果一:ⅠD3改进算法与原算法生成的节点数,如表4和图4所示。
表4 节点数比较
实验结果二:ⅠD3改进算法与原算法消耗的时间如表5、图5所示。
表5 消耗的时间比较
图4 算法产生的规则数对比折线图
图5 算法消耗的时间对比折线图
算法实验总结:从实验产生的规则数看,结合Apriori改进的ⅠD3算法,随着数据规模的增加,规则数量有明显减少,所消耗的时间也比原算法也有一定程度的减少。由此可以发现,运用泰勒公式与麦克劳林公式对原算法进行改进,同时运用Apriori算法对参与计算的属性进行约减,进而减少决策树节点数,一定程度上提高了算法效率,在实际应用中具有一定的应用价值。
[1] 余辉,吕扬生.数据挖掘技术在生物医学领域的应用[J].国外医学(生物医学工程),2003,26(2):54-59.
[2] 王轩.数据挖掘热点和研究方向浅析[J].黑龙江科技信息,2012(27):105-105.
[3] 何化玲.基于ⅠD3决策树算法的改进研究[D].郑州:华北水利水电学院,2011.
[4] 辛立章.决策树ⅠD3算法的改进和应用研究[D].桂林:桂林理工大学,2008.
[5] 吕守涛.数据挖掘技术在毕业生就业工作中的应用研究[D].成都:电子科技大学,2007.
[6]Zhou T,Lu H L.Clustering algorithm research advances on data mining[J].Computer Engineering andApplications,2012,48(12):100-111.
[7] 李金宗.模式识别导论[M].北京:高等教育出版社,1994:294-356.
[8] 毛国君,段立娟,王实,等.数据挖掘原理与算法[M].北京:清华大学出版社,2005.
[9] 苏新宁,杨建林.数据仓库和数据挖掘技术[M].北京:清华大学出版社,2006.
[10]Hu Y H,ChenY L.Mining assoeiation rules with multiple minimum supports:a new mining algorithm and a support tuning mechanism[J].Desision Support Systems,2004,42(1):1-24.
Study of student behavior prediction based on the analysis of learning process data
LⅠU Jian-wei1,ZHANG Ying2
(1.Department of Human Sciences,Fujian Preschool Education College,Fuzhou Fujian 350013,China;2.Computer Lab,Fuzhou Construction Vocational school,Fuzhou Fujian 350013,China)
At present,vocational education is facing the problem of upgrading the industrial structure of the country.For this problem,the vocational colleges have carried out the teaching reform,and accumulated a lot of isolated information data about the educational administration,the moral education,the psychology and so on.By using data mining technology to analyze the data of students'learning process,the paper tries to find out useful knowledge from these data,and it also tries to analyze and predict the moral behavior of the students for improving the quality of school education.
algorithm;prediction;Apriori;ⅠD3
G40-057
A
1004-4329(2016)01-068-05
10.14096/j.cnki.cn34-1069/n/1004-4329(2016)01-068-05
2015-09-30
福建省教育厅科技A类课题(JA13403)资助。
刘建炜(1982-),男,硕士,讲师,研究方向:数据库、数据挖掘、网络技术。