基于S V M的幼儿成长测评应用
2015-12-24陈卓贺敬
陈卓贺敬
(青岛科技大学信息科学技术学院,山东 青岛266061)
中国的幼儿教育服务着全世界最庞大的学龄前儿童,由于地域,文化,经济等差异,教师数量,质量,资源配置,公办,私营不同,城乡差距等,幼儿发展的情况几乎天差地别。幼儿教育对个人乃至社会发展有着重要的、基础性的、不可或缺的重大意义。如何对幼儿的成长和教育情况予以科学的测评就显得极具意义。随着计算机技术和软件技术的发展,通过建立数据模型,运用一定的算法来分析幼儿成长的各项数据,做出科学合理的测试结果成为可能。
1 支持向量机(Support Vector Machine,SVM)技术
支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力的一种机器学习方法[1]。
支持向量机方法是从线性可分情况下的最优分类提出的。即系统产生一个超平面并移动它,使得不同类别的样本点正好处在该超平面的两侧,这样得到的平面为最优超平面,从理论上实现了线性可分数据的最优分类问题[2]。如下图1所示:即L为把x型和o形没有错误地分开的分类线,分别为过各类样本中离分类线最近点、且平行于分类线的直线,和之间的距离做两类的分类间隔。所谓最优分类线就是要求分类线不但能将两类无错误地分开,而且要使两类的分类间隔最大[3]。前者是保证经验风险最小,使分类空隙最大,实际上就是使推广性的界中的置信范围最小,从而使真实风险最小。推广到高维空间,最优分类线就成为最优分类平面。对于线性不可分情况,通过指定常数C,控制对样本惩罚的程度,实现在错分样本的比例与算法复杂度之间的折衷。
图1 最优分类示意图
SVM支持向量机是一项成熟的机器学习方法,在JAVA中我们可以直接调用相应的类。我们需要先建立幼儿测试用的矩阵数据结构,然后据此建立样本数据。
1)建立应用于幼儿成长测评系统的矩阵,样本标签,样本数据。样本数据将作为训练集在程序中使用。
(1)样本标签,我们大致将幼儿测试结果分为A出色,B良好,C预警,D干预四类,作为样本标签使用,A出色:4分,B良好:3分,C预警:2分,D 干预,1分。
(2)样本数据,成长测试指标分类见下表(性别男表示为1,女表示为 2):
表1 样本指标
2)通过对学龄前幼儿进行大批量的测试建立样本数据。样本该数据越准确,样本数量越多,得到的效果也就越准确。我们建立样本数据如下表2。
表2 样本数据
3)分类模型及参数。被评价数据是由4个等级的数据构成,因此该分类属于多分类问题,考虑到分类的样式不多,本文选用一对一策略,构造六个支持向量分类器,每个分类器只对两类进行分类,模型简单且具有较好的分类能力。
图2 分类模型示意图
SVM的核函数采用性能比较好的径向基核函数:
k(||x-xc||)=exp{-||x-xc||^2/(2*σ^2)
其中xc为核函数中心,σ为函数的宽度参数,控制了函数的径向作用围。
2 测试程序及结果
SVM技术在小样本,非线性,高维度下模式识别方面有着独有的优势,在科研和商业上都有着广泛的应用,很多流行编程软件都开发了相应的工具包。借助这些工具包我们可以直接调用相应的函数,而不必关心它们是如何实现的。
随机取5组数据作测试样本,得到测试结果见下表
表3 测试结果
从表3可以看出,程序测试结果可以保持不错的一致性,当然由于这里我们训练样本有限,误差率还比较高。但是随着训练样本的数量增加,优化后的SVM模型准确性会进一步提高,具有广泛的应用前景。
我们通过对幼儿成长中的各项评价指标进行量化,建立一种基于SVM的模型,应用在实际系统中,取得了比较好的效果,省去了人工评价过程中的不客观因素,节省了人力成本,扩展了SVM的应用范围。
[1]何婕.SVM及其在车牌字符识别中的运用[D].四川大学,2005.
[2]王静.基于GA-SVM的高职学生综合素质评价模型[J].广西教育,2014,11:55-57.
[3]朱海林.基于SVM多分类的教学质量评价研究[D].山东师范大学,2009.