APP下载

融合协同训练和两层主动学习策略的SVM分类方法

2014-03-13谢科

关键词:贝叶斯网络支持向量机主动学习

摘要 针对当前主动学习策略直接用于SVM分类器时存在的泛化能力不强的问题,结合协同训练思想,提出了两层主动学习策略(TLAC),并用于SVM深层挖掘未标记样本数据的分布知识.实验表明,该TLAC策略能够合理的指定TSVM算法中的正样本数,在典型指标测试中都表现出了一定的优越性.

关键词 协同训练;主动学习;贝叶斯网络;支持向量机

中图分类号 TP315 文献标识码 A 文章编号-1000-2537(2014)01-0090-05

在传统的学习机技术中,学习器的学习主要针对带有标记的样本数据,而且通过模拟建立的模型主要用于对有标记的样本数据集进行数据的预测和推断,并在分类问题中标记出样本数据的类别.由于目前数据收集技术的快速发展和逐步提高,在收集数据时对未标记样本数据的收集十分容易,而在获取大量有标记的样本数据时比较困难,这是因为在获取有标记样本数据时需要耗费大量的人力、财力、物力等资源.而利用少量有标记样本数据训练出的学习器往往泛化能力并不强.那么如何在有标记样本数据较少的情况下,通过利用大量的不带标记样本数据来改善学习器的性能已经成为目前机器学习研究的热点之一.

1研究现状

文献[1]首次将主动学习策略用于支持向量机(Support Vector Machine,SVM)算法中,文中利用主动学习策略选取SVM分类器最有可能预测的样本,根据这些样本尽可能地简约SVM分类器超平面所在的版本空间,从而得到最有可能近似正确划分所有样本的超平面.实验分析也指出对直推支持向量机(Transducive Support Vector Machine, TSVM)采用文中所提的主动查询策略在某些情况下不如随机查询效果好.文献[2]利用主动学习策略并结合高斯随机场和谐波函数对学习器进行半监督形式的学习,该策略首先通过样本数据训练建立一个图,图中建立的每个节点都代表一个(有标记或未标记)样本数据,然后通过求解对应的函数最优值,进一步获取未标记样本数据的最优标记.该文在最后的实验分析中指出如果利用结构风险最小化准则去主动查询训练SVM,所得到的精度甚至不如直接在SVM上随机查询所得的训练精度.文献[3]提出的基于SVM的主动学习方法,采用版本空间和边缘方法选取样本的标记,其主要思想是反复选择离分类超平面最近的未标记样本标注直至达到设定阈值停止.文献[4]则对文中提出的方法进行改进,提出了一种基于不确定选样和确定选择相结合的主动学习方法,并应用于浅层语义分析的任务.

基于上述文献分析,目前基于SVM的学习存在下面两个问题:(1)对于错误样本标记敏感,如果初始的SVM分类超平面位置不好,需要很长时间才能移动到合理的位置,甚至受错误标记影响较大时,分类超平面会一直停留在不合理的位置:(2)基于SVM的主动学习在查询的中后期,查询的点大部分位于SVM分类超平面附近,使得算法的泛化能力不强.

2两层主动学习策略

2.1直推支持向量机设计

因为数据集中的标记样本是在数据集中随机选取的,如果初始分类超平面处在不合理的位置,利用TSVM训练得到的准确率也可能不太好.从图1可以看出,在处理1类和3类时,我们的算法准确率更高,这是因为TSVM在初始估计的正样本数和真实值之间相差较大.但是1类和3类的召回率有所下降,这是因为这两类维数较高,由于高维特征空间映射时可能导致样本相对位置改变,从而影响分类器的决策.4类的样本分布不均匀导致了精度有所下降.

4结束语

针对当前TSVM算法存在的问题和主动学习策略用于SVM分类器的缺陷,本文提出了一种基于贝叶斯的主动学习选取样本策略用于TSVM算法中,在一定程度上解决了TSVM算法指定正样本的问题,同时也使主动学习策略能在全局分布上进行查询样本,进而使SVM分类器的超平面移动到合理的位置.由于贝叶斯分类器也有其固有的假设性缺陷,本文的后续工作是进一步改进主动学习策略,挖掘未标记数据的潜在分布知识,并用真实数据集加以测试.

参考文献:

[1]袁勋,吴秀清,洪日昌. 基于主动学习SVM分类器的视频分类[J]. 中国科学技术大学学报, 2009,39(5):473478.

[2]赵英刚,陈奇,何钦铭.一种基于支持向量机的直推式学习算法[J].江南大学学报:自然科学版, 2006,26(8):441444.

[3]陈耀东,王挺,陈火旺.半监督学习和主动学习相结合的浅层次语义分析[J].中文信息学报, 2008,22(2):7075.

[3]CHEN Y D, WANG T, CHEN H W. Combining semisupervised learning and active learning for shallow semantic parsing[J]. J Chin Infor Proc, 2008,22(2):7075.

[4]刘端阳,邱卫杰. 基于SVM期望间隔的多标签分类的主动学习[J].计算机科学, 2011,38(4): 230233.

[5]刘端阳,邱卫杰. 基于加权SVM主动学习的多标签分类[J].计算机工程, 2011,37(8):181183.

[6]赵卫中,马慧芳,李志清. 一种结合主动学习的半监督文档聚类算法[J]. 软件学报, 2012,23(6):14861499.

[7]白龙飞, 王文剑, 郭虎升. 一种新的支持向量机主动学习策略[J]. 南京大学学报:自然科学版, 2012,48(2):182189.

[8]杨颖涛,王跃钢,邓卫强,等. 基于共轭先验分布的贝叶斯网络分类模型[J].控制与决策, 2012,27(9):13931397.

[9]王中锋,王志海. 基于条件对数似然函数导数的贝叶斯网络分类器优化算法[J]. 计算机学报, 2012,35(2):364374.

[10]曾杰鹏, 廖芹, 谷志元. 基于结构继承的贝叶斯网结构学习优化设计[J]. 计算机工程与设计, 2012,33(7):27822786.

[11]张晓宇. 基于动态可行域划分的SVM主动学习[J].计算机科学, 2012,39(7):175178.

[12]吴伟宁,刘扬,郭茂祖. 基于采样策略的主动学习算法研究进展[J]. 计算机研究与发展, 2012,19(6):11621173.

[13]戴上平,姬盈利,王华. 基于多群协同人工鱼群算法的分类规则提取算法[J]. 计算机应用研究, 2012,29(5):16661669.

[14]MERZ C, MURPHY P, AHA W. UCI Repository of machine learning databases[D].Irvine: Department of Information and Computer Science, University of California, 1997.

[15]谢科. 基于可分辨矩阵的属性集依赖度计算方法[J]. 湖南师范大学自然科学学报, 2012,35(6):1316.

(编辑沈小玲)

摘要 针对当前主动学习策略直接用于SVM分类器时存在的泛化能力不强的问题,结合协同训练思想,提出了两层主动学习策略(TLAC),并用于SVM深层挖掘未标记样本数据的分布知识.实验表明,该TLAC策略能够合理的指定TSVM算法中的正样本数,在典型指标测试中都表现出了一定的优越性.

关键词 协同训练;主动学习;贝叶斯网络;支持向量机

中图分类号 TP315 文献标识码 A 文章编号-1000-2537(2014)01-0090-05

在传统的学习机技术中,学习器的学习主要针对带有标记的样本数据,而且通过模拟建立的模型主要用于对有标记的样本数据集进行数据的预测和推断,并在分类问题中标记出样本数据的类别.由于目前数据收集技术的快速发展和逐步提高,在收集数据时对未标记样本数据的收集十分容易,而在获取大量有标记的样本数据时比较困难,这是因为在获取有标记样本数据时需要耗费大量的人力、财力、物力等资源.而利用少量有标记样本数据训练出的学习器往往泛化能力并不强.那么如何在有标记样本数据较少的情况下,通过利用大量的不带标记样本数据来改善学习器的性能已经成为目前机器学习研究的热点之一.

1研究现状

文献[1]首次将主动学习策略用于支持向量机(Support Vector Machine,SVM)算法中,文中利用主动学习策略选取SVM分类器最有可能预测的样本,根据这些样本尽可能地简约SVM分类器超平面所在的版本空间,从而得到最有可能近似正确划分所有样本的超平面.实验分析也指出对直推支持向量机(Transducive Support Vector Machine, TSVM)采用文中所提的主动查询策略在某些情况下不如随机查询效果好.文献[2]利用主动学习策略并结合高斯随机场和谐波函数对学习器进行半监督形式的学习,该策略首先通过样本数据训练建立一个图,图中建立的每个节点都代表一个(有标记或未标记)样本数据,然后通过求解对应的函数最优值,进一步获取未标记样本数据的最优标记.该文在最后的实验分析中指出如果利用结构风险最小化准则去主动查询训练SVM,所得到的精度甚至不如直接在SVM上随机查询所得的训练精度.文献[3]提出的基于SVM的主动学习方法,采用版本空间和边缘方法选取样本的标记,其主要思想是反复选择离分类超平面最近的未标记样本标注直至达到设定阈值停止.文献[4]则对文中提出的方法进行改进,提出了一种基于不确定选样和确定选择相结合的主动学习方法,并应用于浅层语义分析的任务.

基于上述文献分析,目前基于SVM的学习存在下面两个问题:(1)对于错误样本标记敏感,如果初始的SVM分类超平面位置不好,需要很长时间才能移动到合理的位置,甚至受错误标记影响较大时,分类超平面会一直停留在不合理的位置:(2)基于SVM的主动学习在查询的中后期,查询的点大部分位于SVM分类超平面附近,使得算法的泛化能力不强.

2两层主动学习策略

2.1直推支持向量机设计

因为数据集中的标记样本是在数据集中随机选取的,如果初始分类超平面处在不合理的位置,利用TSVM训练得到的准确率也可能不太好.从图1可以看出,在处理1类和3类时,我们的算法准确率更高,这是因为TSVM在初始估计的正样本数和真实值之间相差较大.但是1类和3类的召回率有所下降,这是因为这两类维数较高,由于高维特征空间映射时可能导致样本相对位置改变,从而影响分类器的决策.4类的样本分布不均匀导致了精度有所下降.

4结束语

针对当前TSVM算法存在的问题和主动学习策略用于SVM分类器的缺陷,本文提出了一种基于贝叶斯的主动学习选取样本策略用于TSVM算法中,在一定程度上解决了TSVM算法指定正样本的问题,同时也使主动学习策略能在全局分布上进行查询样本,进而使SVM分类器的超平面移动到合理的位置.由于贝叶斯分类器也有其固有的假设性缺陷,本文的后续工作是进一步改进主动学习策略,挖掘未标记数据的潜在分布知识,并用真实数据集加以测试.

参考文献:

[1]袁勋,吴秀清,洪日昌. 基于主动学习SVM分类器的视频分类[J]. 中国科学技术大学学报, 2009,39(5):473478.

[2]赵英刚,陈奇,何钦铭.一种基于支持向量机的直推式学习算法[J].江南大学学报:自然科学版, 2006,26(8):441444.

[3]陈耀东,王挺,陈火旺.半监督学习和主动学习相结合的浅层次语义分析[J].中文信息学报, 2008,22(2):7075.

[3]CHEN Y D, WANG T, CHEN H W. Combining semisupervised learning and active learning for shallow semantic parsing[J]. J Chin Infor Proc, 2008,22(2):7075.

[4]刘端阳,邱卫杰. 基于SVM期望间隔的多标签分类的主动学习[J].计算机科学, 2011,38(4): 230233.

[5]刘端阳,邱卫杰. 基于加权SVM主动学习的多标签分类[J].计算机工程, 2011,37(8):181183.

[6]赵卫中,马慧芳,李志清. 一种结合主动学习的半监督文档聚类算法[J]. 软件学报, 2012,23(6):14861499.

[7]白龙飞, 王文剑, 郭虎升. 一种新的支持向量机主动学习策略[J]. 南京大学学报:自然科学版, 2012,48(2):182189.

[8]杨颖涛,王跃钢,邓卫强,等. 基于共轭先验分布的贝叶斯网络分类模型[J].控制与决策, 2012,27(9):13931397.

[9]王中锋,王志海. 基于条件对数似然函数导数的贝叶斯网络分类器优化算法[J]. 计算机学报, 2012,35(2):364374.

[10]曾杰鹏, 廖芹, 谷志元. 基于结构继承的贝叶斯网结构学习优化设计[J]. 计算机工程与设计, 2012,33(7):27822786.

[11]张晓宇. 基于动态可行域划分的SVM主动学习[J].计算机科学, 2012,39(7):175178.

[12]吴伟宁,刘扬,郭茂祖. 基于采样策略的主动学习算法研究进展[J]. 计算机研究与发展, 2012,19(6):11621173.

[13]戴上平,姬盈利,王华. 基于多群协同人工鱼群算法的分类规则提取算法[J]. 计算机应用研究, 2012,29(5):16661669.

[14]MERZ C, MURPHY P, AHA W. UCI Repository of machine learning databases[D].Irvine: Department of Information and Computer Science, University of California, 1997.

[15]谢科. 基于可分辨矩阵的属性集依赖度计算方法[J]. 湖南师范大学自然科学学报, 2012,35(6):1316.

(编辑沈小玲)

摘要 针对当前主动学习策略直接用于SVM分类器时存在的泛化能力不强的问题,结合协同训练思想,提出了两层主动学习策略(TLAC),并用于SVM深层挖掘未标记样本数据的分布知识.实验表明,该TLAC策略能够合理的指定TSVM算法中的正样本数,在典型指标测试中都表现出了一定的优越性.

关键词 协同训练;主动学习;贝叶斯网络;支持向量机

中图分类号 TP315 文献标识码 A 文章编号-1000-2537(2014)01-0090-05

在传统的学习机技术中,学习器的学习主要针对带有标记的样本数据,而且通过模拟建立的模型主要用于对有标记的样本数据集进行数据的预测和推断,并在分类问题中标记出样本数据的类别.由于目前数据收集技术的快速发展和逐步提高,在收集数据时对未标记样本数据的收集十分容易,而在获取大量有标记的样本数据时比较困难,这是因为在获取有标记样本数据时需要耗费大量的人力、财力、物力等资源.而利用少量有标记样本数据训练出的学习器往往泛化能力并不强.那么如何在有标记样本数据较少的情况下,通过利用大量的不带标记样本数据来改善学习器的性能已经成为目前机器学习研究的热点之一.

1研究现状

文献[1]首次将主动学习策略用于支持向量机(Support Vector Machine,SVM)算法中,文中利用主动学习策略选取SVM分类器最有可能预测的样本,根据这些样本尽可能地简约SVM分类器超平面所在的版本空间,从而得到最有可能近似正确划分所有样本的超平面.实验分析也指出对直推支持向量机(Transducive Support Vector Machine, TSVM)采用文中所提的主动查询策略在某些情况下不如随机查询效果好.文献[2]利用主动学习策略并结合高斯随机场和谐波函数对学习器进行半监督形式的学习,该策略首先通过样本数据训练建立一个图,图中建立的每个节点都代表一个(有标记或未标记)样本数据,然后通过求解对应的函数最优值,进一步获取未标记样本数据的最优标记.该文在最后的实验分析中指出如果利用结构风险最小化准则去主动查询训练SVM,所得到的精度甚至不如直接在SVM上随机查询所得的训练精度.文献[3]提出的基于SVM的主动学习方法,采用版本空间和边缘方法选取样本的标记,其主要思想是反复选择离分类超平面最近的未标记样本标注直至达到设定阈值停止.文献[4]则对文中提出的方法进行改进,提出了一种基于不确定选样和确定选择相结合的主动学习方法,并应用于浅层语义分析的任务.

基于上述文献分析,目前基于SVM的学习存在下面两个问题:(1)对于错误样本标记敏感,如果初始的SVM分类超平面位置不好,需要很长时间才能移动到合理的位置,甚至受错误标记影响较大时,分类超平面会一直停留在不合理的位置:(2)基于SVM的主动学习在查询的中后期,查询的点大部分位于SVM分类超平面附近,使得算法的泛化能力不强.

2两层主动学习策略

2.1直推支持向量机设计

因为数据集中的标记样本是在数据集中随机选取的,如果初始分类超平面处在不合理的位置,利用TSVM训练得到的准确率也可能不太好.从图1可以看出,在处理1类和3类时,我们的算法准确率更高,这是因为TSVM在初始估计的正样本数和真实值之间相差较大.但是1类和3类的召回率有所下降,这是因为这两类维数较高,由于高维特征空间映射时可能导致样本相对位置改变,从而影响分类器的决策.4类的样本分布不均匀导致了精度有所下降.

4结束语

针对当前TSVM算法存在的问题和主动学习策略用于SVM分类器的缺陷,本文提出了一种基于贝叶斯的主动学习选取样本策略用于TSVM算法中,在一定程度上解决了TSVM算法指定正样本的问题,同时也使主动学习策略能在全局分布上进行查询样本,进而使SVM分类器的超平面移动到合理的位置.由于贝叶斯分类器也有其固有的假设性缺陷,本文的后续工作是进一步改进主动学习策略,挖掘未标记数据的潜在分布知识,并用真实数据集加以测试.

参考文献:

[1]袁勋,吴秀清,洪日昌. 基于主动学习SVM分类器的视频分类[J]. 中国科学技术大学学报, 2009,39(5):473478.

[2]赵英刚,陈奇,何钦铭.一种基于支持向量机的直推式学习算法[J].江南大学学报:自然科学版, 2006,26(8):441444.

[3]陈耀东,王挺,陈火旺.半监督学习和主动学习相结合的浅层次语义分析[J].中文信息学报, 2008,22(2):7075.

[3]CHEN Y D, WANG T, CHEN H W. Combining semisupervised learning and active learning for shallow semantic parsing[J]. J Chin Infor Proc, 2008,22(2):7075.

[4]刘端阳,邱卫杰. 基于SVM期望间隔的多标签分类的主动学习[J].计算机科学, 2011,38(4): 230233.

[5]刘端阳,邱卫杰. 基于加权SVM主动学习的多标签分类[J].计算机工程, 2011,37(8):181183.

[6]赵卫中,马慧芳,李志清. 一种结合主动学习的半监督文档聚类算法[J]. 软件学报, 2012,23(6):14861499.

[7]白龙飞, 王文剑, 郭虎升. 一种新的支持向量机主动学习策略[J]. 南京大学学报:自然科学版, 2012,48(2):182189.

[8]杨颖涛,王跃钢,邓卫强,等. 基于共轭先验分布的贝叶斯网络分类模型[J].控制与决策, 2012,27(9):13931397.

[9]王中锋,王志海. 基于条件对数似然函数导数的贝叶斯网络分类器优化算法[J]. 计算机学报, 2012,35(2):364374.

[10]曾杰鹏, 廖芹, 谷志元. 基于结构继承的贝叶斯网结构学习优化设计[J]. 计算机工程与设计, 2012,33(7):27822786.

[11]张晓宇. 基于动态可行域划分的SVM主动学习[J].计算机科学, 2012,39(7):175178.

[12]吴伟宁,刘扬,郭茂祖. 基于采样策略的主动学习算法研究进展[J]. 计算机研究与发展, 2012,19(6):11621173.

[13]戴上平,姬盈利,王华. 基于多群协同人工鱼群算法的分类规则提取算法[J]. 计算机应用研究, 2012,29(5):16661669.

[14]MERZ C, MURPHY P, AHA W. UCI Repository of machine learning databases[D].Irvine: Department of Information and Computer Science, University of California, 1997.

[15]谢科. 基于可分辨矩阵的属性集依赖度计算方法[J]. 湖南师范大学自然科学学报, 2012,35(6):1316.

(编辑沈小玲)

猜你喜欢

贝叶斯网络支持向量机主动学习
无人机数据链测试与评估研究
基于贝叶斯网络的流域内水文事件丰枯遭遇研究
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
高中生物教学中学生主动学习策略研究
数字电路课程的翻转课堂教学及调研
基于兴趣预测和热点分析的联合推荐算法研究 
试论高中生物教学中学生主动学习的措施
《个人理财》教学中,发挥学生主体地位的路径研究