基于朴素贝叶斯的学生发展预测研究
2011-12-27张永娇张华栋刘禹欣
张永娇,张华栋,刘禹欣
(大连民族学院理学院学生,辽宁大连 116605)
基于朴素贝叶斯的学生发展预测研究
张永娇,张华栋,刘禹欣
(大连民族学院理学院学生,辽宁大连 116605)
学生信息系统信息量非常庞大,信息冗杂,其中成绩、社会实践、获奖情况等与学生未来发展有着密切的联系。利用朴素贝叶斯方法对学生信息系统中的数据进行有效提取和处理,并作出相关分析,分析结果能对高校各级管理部门提供有效的决策支持。
1 信息的数据化处理
把学生未来发展类C分为三个类别c1,c2,c3分别代表很好、一般和不好。对每个学生的信息提取其有效数据,将每个数据样本表示成一个7维的向量,X={x1,x2,x3,x4,x5,x6,x7}分别代表学生的专业课平均成绩、选修课平均成绩、英语四级成绩、社会实践能力、获奖得分、社会工作情况和发展趋势。
2 数学模型
因为c1,c2,c3互不相容,且其和为总样本空间C。根据贝叶斯定理[1]有
如果,P(ci|X) >P(cj|X)则 X∈ci,否则 X∈cj。
(1)式中P(X)对于所有类别都是相等的,所以判别函数可表示为
对于给定样本的类标号,假定属性值条件相互独立,即在属性间不存在依赖关系。则有P(X|。则式(2)可表示为
其中P(xk|ci)表示ci类样本中具有属性xk的样本数比值,P(ci)为ci类样本数与总样本数的比值。对未知样本X分类,样本X被指派到类ci,当且仅当 P(X|ci)P(ci) > P(X|cj)P(cj),1≤j≤3,j≠i,换言之,X被指派到P(X|ci)P(ci)最大的类ci。
3 实验结果
用Matlab编写程序对模型进行求解。把收集的1000个数据信息随机分成两组,一组作为训练集合,另一组作为测试集合;利用训练集数据学习获得一个分类器,然后使用测试数据集对该分类器预测准确率进行评估。随机运行10次分类平均准确率见表1。
表1 随机运行的十次分类平均准确率
通过实际观察可以知道,运算结果的准确率在90%以上。实验结果表明朴素贝叶斯分类算法在学生发展预测问题上表现出了高准确率的特点。
[1]茆诗松.概率论与数理统计[M].北京:高等教育出版社,2004.
[2]钟珞.模式识别[M].武汉:武汉大学出版社,2006.
TP311
A
(责任编辑 刘敏)
1009-315X(2011)05-0540-01
2010-06-18;最后
2011-03-28
指导教师:孟佳娜(1972-),女,吉林四平人,副教授,博士研究生,主要从事模式识别、文本挖掘、自然语言处理等研究。