主动学习算法研究进展
2017-04-26杨文柱田潇潇王思乐张锡忠
杨文柱,田潇潇,王思乐,张锡忠
(1.河北大学 计算机科学与技术学院,河北 保定 071002;2.河北省保定市教育考试院 信息处,河北 保定 071002)
主动学习算法研究进展
杨文柱1,田潇潇1,王思乐1,张锡忠2
(1.河北大学 计算机科学与技术学院,河北 保定 071002;2.河北省保定市教育考试院 信息处,河北 保定 071002)
主动学习的主要目的是在保证分类器精度不降低的前提下尽量降低人工标注的成本.主动学习算法通过迭代方式在原始样例集中挑选可以提升模型性能的样例进行专家标注,并将其补充到已有的训练集中,使被训练的分类器在较低的标注成本下获得较强的泛化能力.首先对主动学习算法中3个关键步骤的研究进展情况进行了分析:1)初始训练样例集的构建方法及其改进;2)样例选择策略及其改进;3)算法终止条件的设定及其改进;然后对传统主动学习算法面临的问题及改进措施进行了深入剖析;最后展望了主动学习需进一步研究的内容.
主动学习;初始训练集;样例选择策略;终止条件
机器学习研究在人工智能领域方兴未艾,其目的是为了实现机器的智能化.监督学习、无监督学习以及目前备受关注的半监督学习是机器学习中最常见的学习模式.监督学习模型的基本思想是利用带有类标的训练样例集通过示教模式来不断调整分类器的参数以提升其性能.因此,传统的监督学习模型需要大量有类标的训练样例作为支撑条件才能得到预期的分类精度.即便在当前的大数据时代,训练样例问题依然存在:1)样例总量少,比如在油田探井应用中,探井数据必须通过昂贵的人工诱发地震获取,数量少成本高;2)特定类别样例少,如信用卡诈骗检测应用中,相对于正常交易数量,信用卡诈欺数量占比很少;3)有标记样本少,如软件缺陷检测应用中,被程序员标注为缺陷的软件数量很少,等等[1].没有大训练样例集支撑,传统的监督学习模型很难达到较高的分类精度.然而,无监督学习模型不需要标注样例,可通过发掘样例集自身的特性进行学习,且无类标样例通常比带类标样例容易获取,但通常其学习性能略逊于监督学习[2].如何利用众多未标注样例,从中挑选出对训练贡献度高的样例,标注后补充到训练集中来提升分类器性能,是机器学习的研究方向之一.
半监督学习和主动学习都是从未标记样例中挑选部分价值量高的样例标注后补充到已标记样例集中来提高分类器精度,降低领域专家的工作量,但二者的学习方式不同:半监督学习一般不需要人工参与,是通过具有一定分类精度的基准分类器实现对未标注样例的自动标注;而主动学习有别于半监督学习的特点之一就是需要将挑选出的高价值样例进行人工准确标注[3-4].半监督学习通过用计算机进行自动或半自动标注代替人工标注,虽然有效降低了标注代价,但其标注结果依赖于用部分已标注样例训练出的基准分类器的分类精度,因此并不能保证标注结果完全正确.相比而言,主动学习挑选样例后是人工标注,不会引入错误类标.由此看来,如何在缺乏足够有类标训练样例的情况下,以低标注代价获得高精度分类器成为主动学习的研究热点.本文对主动学习算法的最新研究进展情况进行了综合分析,介绍了主动学习算法的关键步骤、面临的主要问题及改进措施,并展望了主动学习未来的研究工作.
1 主动学习算法关键步骤
对于监督学习模型,足够多的已标注样例是获得高精度分类器的前提条件.随着传感器技术的迅猛发展,数据采集变得越来越容易,同时也导致未知样例在总样例中占比较大,而人工标注未知样例成本昂贵.另外,过多的低质量训练样例反而会降低分类器的鲁棒性,甚至导致“过学习”问题.因此,需要控制训练样例集的数量和质量.如何高效地选出具有高分类贡献度的无类标样例进行标注并补充到已有训练集中逐步提高分类器精度与鲁棒性是主动学习亟待解决的关键问题.
主动学习模型从未标注样例集中根据设定的规则挑选样例交由人工标注,需同时考虑选出的样例质量和样例数量以及由此产生的标注成本.低标注成本、高质量样例是优化主动学习算法的主要目标.主动学习算法一般包含2个重要模块:学习模块和选择模块.学习模块本质上就是训练分类器的过程,即通过示教学习逐渐提高分类器的分类精度与鲁棒性;而选择模块的终极目标是生成高质量的训练样例集,以提高样例集的代表性和广泛性.学习模块和选择模块循环交替工作,当满足终止条件时循环终止.可以看出,主动学习算法涉及3个关键问题:如何构建初始训练样例集、采取何种样例选择策略、设置何种终止条件.
1.1 构建初始训练样例集
学习模块中维护的基准分类器必须具备一定的分类精度,因此在开始主动学习之前必须对基准分类器进行初始训练,问题的关键是如何构建高效能的初始训练样例集.一般随机挑选的初始训练集不具有代表性,而由代表性样例组成的初始训练集是训练较高精度基准分类器的前提,也更能有效加快主动学习进程.基于聚类[5]或距离相似性度量的方法是选择代表性样例的常用方法,如徐艳等[6]采用划分聚类算法(K-Medoids)构造初始训练集;金良等[7]将初始阶段的随机样例选择更换为分层聚类样例选择,这些措施都不同程度地加快了主动学习的进程;赵秋焕等[8]则通过挖掘并利用未标记样例的概率分布信息,使基准分类器的分类面一开始就与真实分类面相差不远,避免了分类面长期停留在错误方位的情况发生.
1.2 样例选择策略
为了使分类器达到预期精度,学习模块需要不断地选择出分类贡献率高的样例交给领域专家进行标注并补充到已有训练集中.由此可知,选挑样例的“优”、“劣”将直接影响分类器性能.但现实中,描述样例特征的信息存在大量冗余,如何利用这些特征信息真正选出对分类贡献度大的样例成为了主动学习成功的关键.评价样例价值量的方法有很多,相应地提出了不同的样例选择策略.
目前,国内外的一些研究机构或组织已经开始针对主动学习中的样例选择策略进行了深入研究,并提出了很多行之有效的样例选择策略.按照获取优质样例工作方式的不同可将样例选择分为基于流(stream-based)和基于池(pool-based)的策略.
1.2.1 基于流的样例选择策略
基于流的策略依次从未标注样例池中取出一个样例输入到选择模块,若满足预设的选中条件则对其进行准确的人工标注,反之直接舍弃.该学习过程需要处理所有未标记样例,查询成本高昂.另外,由于基于流的样例选择策略需要预设一个样例标注条件,但该条件往往需要根据不同的任务进行适当调整,因此很难将其作为一种通用方法普遍使用[9].
1.2.2 基于池的样例选择策略
基于池的方法每次从系统维护的未标注的样例池中按预设的选择规则选取一个样例交给基准分类器进行识别,当基准分类器对其识别出现错误时进行人工标注.相较基于流的方法,基于池的方法每次都可选出当前样例池中对分类贡献度最高的样例,这既降低了查询样例成本,也降低了标注代价,这使得基于池的样例选择策略广泛使用.基于池的样例选择标准主要包括:不确定性标准、版本空间缩减标准、泛化误差缩减标准等.
1)不确定性标准
① 用概率表示不确定性程度
基于概率的启发式方法建立在样例的后验概率分布基础之上,由此运算速度最快.样例后验概率为50%在二分类器中是最难分的,对其进行人工标注后加入训练集能显著提高分类器精度,但该方法仅考虑了样例最可能所属的类,忽略了属于其他类的比重.
在多类分类问题中,挑选最低置信度的方法是最常用的不确定性度量方法,可表示为
(1)
为了解决上述问题,出现了margin sampling[10]方法,在考虑了样例最可能所属类的同时还考虑了第二可能所属类.该margin sampling方法可表示为
(2)
基于熵的不确定表示方法是用样例的信息熵作为评价其信息量多少的标准,即:样例的信息熵越大则其所含信息量也越大,对当前分类器来说也就是最不能确定其所属类别的样例.信息熵的定义如下:
(3)
其中,p(yi|x)表示在给定样例x情况下其标签属于yi的可能性.
② 用距离表示不确定性程度
考虑2类分类问题,任意样例点xi到SVM分类面的距离可表示为
(4)
其中,K(xj,xi)为核函数,用于计算候选样例xi与支持向量xj之间的相似度.样例点到分类面的距离可用于表示候选样例的不确定程度,其值越大则样例的不确定性越高.
对于多类分类问题,若采用一对一策略构造多类分类器,可利用边缘抽样最小化公式进行样例选择[11]:
(5)
其中,|f(xi,w)|是样例点到分类面距离.距分类面越近的样例,分类器越不能确定其所属类别,样例的不确定性越高,该方法称为边缘抽样方法(MS算法).
在解决多分类问题时,有学者还提出了基于多层次的不确定性样例选择方法(MCLU算法),该方法也是基于边缘抽样最小化的方法,但同时考虑了样例到不同类间的距离差[12],具体形式如下:
(6)
在该方法中,结果值越大,待选择样例属于某类别的不确定性越小.MCLU算法将某样例离分类超平面最远的2个类的距离差作为不确定指标,而MS算法仅根据该样例到单个分类超平面的距离作为样例选择标准,因此在针对多类分类的样例选择时效果远超过MS算法.
2)版本空间缩减标准
基于版本空间缩减的样例选择应使选出的样例能最大限度地缩减样本的版本空间.所谓版本空间指的是一系列不同类型基准分类器的组合.委员会查询(QBC,query-by-committee)是基于该标准的典型算法,该算法先用已标注样例对2个及以上不同类型的基准分类器进行预训练,将其组成“评审委员会”,然后用该委员会成员对待测样例进行判别,选出各个委员对待标注样例判别结果最不一致的样例进行人工标注.
构建高效的QBC算法需要解决3个关键问题:①如何选择高质量的委员会成员构建高效的评审委员会;②委员会成员的个数多少最佳;③怎样评价委员会判别结果的优劣.评价标准主要有:KL散度(Kullback-Leibler divergence)、投票熵、JS(Jensen-Shannon)分歧度等.在构建评审委员会时,关键问题是确保委员会成员的高品质及成员间的高差异.
梁延峰等基于改进的Decorate算法,通过同时计算已标注和未标注样例的均值和方差使产生的样例分布不断接近实际的样例分布,设计了一个基于粒子群选择集成的QBC主动学习算法[13].
3)泛化误差缩减标准
分类器的泛化误差是评价其鲁棒性的常用指标.最大程度地降低分类器的泛化误差,是基于该标准样例选择算法的最终目标.关键步骤描述如下:
首先估算样例的分类误差率,公式表示为
μ(x)=∫xE[(yx(x)-y(x))2|x]p(x)dx,
(7)
其中,y(x)表示样例x的真实类标,yx(x)表示分类器输出的样例x的类标,p(x)是样例x的概率密度函数.
而后依次评估若将一个新样例加入到训练集可能会给分类器带来的泛化误差变化,并最终选出能使泛化误差缩减程度最大的样例进行人工标注.基于该策略的算法具有出色的样例选择性能,但仍需关注如下问题:①时间复杂度高:针对每个侯选的未标注样例,都要评估其加入训练集后引起的分类器泛化误差变化.②应用面窄:鉴于其较高的时间复杂度,一般只适用于解决二类分类问题.③性价比低:训练样本集每增加1个样例,都需要对分类器进行重新训练,因此分类器的性能提升与训练成本不成正比,且分类器容易出现过拟合现象.
1.3 终止条件的设定
主动学习就是通过迭代的方式,主动挑选价值量高的样例不断补充到已有训练样例集中,进而不断提升分类器性能.在此迭代过程中,何时终止迭代是关键.设计终止标准一般需考虑2点[14]:1)达标即可:对于以指定分类精度为目标的应用,主动学习的训练过程只需使分类器达到预期的分类正确率即可,无需再补充样例继续训练.2)高性价比:对于以追求高分类精度为目标的应用,若继续学习给分类器带来的性能提升与继续学习成本相比,已经可以忽略不计,则应停止迭代.
主动学习注重所选训练样例的优劣,学习过程力求达到样例标注代价和分类器性能间的均衡[15].一般的主动学习终止标准是达到了某个规定的阈值,即当分类器的训练精度或挑选的样例数量达标时迭代终止.但对于多类分类问题,标注代价和分类器精度并不总是正相关,亦即并非挑选的样例越多,所训练出的分类器精度越高,如图1所示.
图1 分类器精度与训练样例数的关系曲线实例[16]Fig.1 An example of relationships between classifier accuracy and number of training samples
图1是文献[16]所提方法的实验结果,可以看出:①将所有样例进行标注加入训练集时,所得分类器精度不是最高的.②挑选样例个数的增加与分类器性能的提升并非呈线性增长.由此可知,如何权衡分类器性能的提升与标注代价的增加是主动学习算法设置终止条件时需认真考虑的问题.
针对上述问题,可采用双停止条件[17],也可在分类器精度提升缓慢时相对减少标注样例个数[18],这些措施都产生了一定的效果.根据分类精度变化调整标注样例数的约束条件定义为
|η(i)-η(i-1)|=δ,
(8)
(9)
其中,η(i)表示分类器在第i次迭代时的分类精度,δ为分类精度之差,T为设定的阈值,t为标注样例个数.
2 传统主动学习算法面临的问题及改进措施
传统的主动学习算法在遇到多类分类、孤立点、训练集样例冗余、不平衡数据等问题时往往显得力不从心.如何应对上述挑战,不断提高主动学习算法的性能和鲁棒性,是目前尚未完全解决的难题.
2.1 多类分类问题
多类分类问题给主动学习算法带来了巨大的挑战.在处理多类分类问题时,基于Margin Sampling的样例选择标准忽略了样例可能属于其他类别的信息,因此所选样例质量较差.基于熵的方法虽考虑了样例从属于每个类别的概率,但在多类分类问题中,样例的熵也会受到那些不重要类别的干扰.如图2所示,图2b中的第4类虽比图2a中第4类的熵值大,但其不确定性更小,使用基于熵的样例选择方法将得到错误的选择结果.为此,Joshi等[19]提出了一种更为准确的主动学习样例选择准则,称为BvSB准则.设样例xi属于最优类标和次优类标的条件概率分别为yBest|xi和ySecond-Best|xi,则该BvSB准则可表示为
BvSB*=arg min((p(yBest|xi)-p(ySecond-Best|xi))).
(10)
由于BvSB准则只考虑样例所属概率最高的前2个类别,忽略剩余类别对样例选择标准产生的干扰,因此在针对多类分类问题时,其样例选择质量明显优于基于信息熵的样例选择[20].陈荣等[21]将基于最优标号和次优标号(bestvssecond-best,BvSB)的主动学习和带约束的自学习(constrainedself-training,CST)引入到基于SVM的图像分类中,显著提高了分类精度.
2.2 孤立点问题
不确定性高的样例是当前分类器容易分错的样例,而样例的不确定性通常可用其信息熵表示,一般熵越大越难正确分类.尽管基于不确定性的方法在多数分类问题上效果优于随机选择方法,但忽略了信息熵较大的孤立点对分类器性能的影响.若能综合考虑样例的先验分布,则是对基于不确定性方法的有益补充.
图2 多类问题中样例的熵不能正确反映类别不确定性的例子Fig.2 An example of the entropy of a sample can not correctly reflect its category uncertainty in multi-class problem
样例的先验分布知识通常可通过对样本进行聚类分析或样本密度分布分析等获得.处于聚类中心或密度质心的样例是代表性样例.若选择样例时能综合考虑样其代表性和不确定性,通常可避免采集到孤立点.如文献[22]中提出了一种综合利用聚类信息和分类间隔的样例选择方法;文献[23]提出了一种利用预聚类协助选择代表性样例的主动学习方法,如图3所示;文献[24]利用样例的不确定性及其先验分布密度进行样例选择以获取优质样例;文献[25]将样例的分布密度作为度量样例代表性的指标,结合以熵作为不确定性指标,提出了一种基于密度熵的样例选择策略,有效解决了孤立点问题给样例选择质量造成的影响.
图3 采用预聚类的主动学习[23]Fig.3 Active learning using pre-clustering
2.3 训练集样例冗余问题
在主动学习中,每次迭代挑选多少个样例标注补充到训练集中也是值得研究的问题.为提高学习效率,主动学习的每次迭代一般采取批模式而非单个模式进行.然而,批量选择样例容易出现样例相似度高的问题,比如在基于BvSB的主动学习模型中,由于选择样例时仅考虑了其分类不确定性,未综合考虑其代表性,因此容易导冗余样例的出现,如图4所示.
由图4可以看出,新的训练样本中样例1与分类超平面的距离比样例2近,根据BvSB准则应当挑选样例1进行标注并补充到训练集中;但紧挨着样例1的绿色样例a已经在训练集中,此时若再加入样例1则对分类界面影响甚微.相比而言,将样例2补充到训练集中,对当前分类模型的训练贡献度更大.
通过上述分析可知,主动学习中的样例选择度量主要分为2种:1)不确定性度量;2)差异性度量或代表性度量.样例的不确定性一般可通过计算其信息熵获得,样例的代表性通常可根据其是否在聚类中心判断[26],而样例的差异性则可通过计算余弦相似度[27]或用高斯核函数[28]获得.余弦相似度定义为
(11)
其中,a、b分别为欲进行相似度计算的2个样例,值越大表示这2个样例的相似度越高.
图4 样例冗余问题举例Fig.4 An example of sample redundancy problem
2.4 不平衡数据问题
当训练集中不同类别的样例数量严重失衡时,对于基于SVM的主动学习模型,其训练出的分类器往往出现分类正确率不均衡的现象,即在训练集中占比低的类别相较占比高的类别,其被错分的概率明显偏高.因此,对于给定的任意样例集,如何保证在选出的训练集中每类样例的占比基本均衡是解决此问题的关键.
为解决上述不平衡数据给主动学习模型造成的影响,KSVMactive主动学习算法[29]、改进的加权支持向量机模型[30]、基于SVM超平面位置校正的主动学习算法[31]等各种解决方案应运而生,这些措施都在一定程度上提高了主动学习效率,并最终提高了分类器的精度和鲁棒性.
3 展望
主动学习的理论研究已经取得了丰硕成果,在很多领域中也进行了成功应用,但仍存在一些值得深入研究的问题[32-35]:1)如何将不确定性、代表性、多样性准则以及各类样例在数据集中的先验分布知识进行有机融合,设计出鲁棒性更好的样例选择算法,是主动学习尚未完全解决的问题;2)针对实际应用中不断出现的新增样例,如何实现主动学习与在线学习的有机结合,保持分类器不断进化,是目前的研究热点;3)深度学习模型是处理复杂分类问题的有效工具,如何借助深度学习模型提高主动学习算法的分类能力,是值得深入研究的问题;4)目前的主动学习研究主要基于封闭的静态环境,即影响模型学习的因素都是确定的;但环境因素具有时空变异性,这使得开放环境下的主动学习研究成为新的挑战.
[1] 何清,李宁,罗文娟,等.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-334. HE Q,LI N,LUO W J,et al.A survey of machine learning algorithms for Big Data[J].Pattern Recognition and Artificial Intellegence, 2014,27(4):327-334.
[2] KAREM F,DHIBI M,MARTIN A.Combination of supervised and unsupervised classification using the theory of belief functions[M].Belief Functions:Theory and Applications,Springer Berlin Heidelberg,2012:85-92.DOI:10.1007/978-3-642-29461-7_10.
[3] 翟俊海,张素芳,徐正夫,等.粗糙集与决策树比较研究[J].河北大学学报(自然科学版),2012,32(4):421-428. ZHAI J H,ZHANG S F,XU Z F,et al.Comparative study on rough sets and decision trees[J].Journal of Hebei University(Natural Science Edition),2012,32(4):421-428.
[4] FORESTIER G,WEMMERT C.Semi-supervised learning using multiple clusterings with limited labeled data[J].Information Sciences,2016,361:48-65.
[5] ZHU J,WANG H,TSOU B K,et al.Active learning with sampling by uncertainty and density for data annotations[J].IEEE Transactions on Audio Speech & Language Processing,2010,18(6):1323-1331.DOI:10.1109/TASL.2009.2033421
[6] 徐艳.基于主动学习的图像标注方法研究[D].辽宁:辽宁工业大学,2014. XU Y.Research on image annotation based active learning[D].Liaoning:Liaoning University of Technology,2014.
[7] 金良,曹永锋,苏彩霞,等.基于HS样例选择和BvSB反馈的多类图像分类[J].贵州师范大学学报(自然科学版),2014,32(04):56-61.DOI:10.16614/j.cnki.issn1004-5570.2014.04.013. JIN L,CAO Y F,SU C X,et al.Multi-class image classification based on HS sample selection and BvSB feedback[J].Guizhou Normal University(Natural Science Edition),2014,32(04):56-61.DOI:10.16614/j.cnki.issn1004-5570.2014.04.013.
[8] 赵秋焕.两种主动学习方法[D].保定:河北大学,2010. ZHAO Q H.Two kinds of active learning methods[D].Baoding:Hebei University,2010.
[9] 龙军,殷建平,祝恩,等.主动学习研究综述[J].计算机研究与发展,2008,45(s1):300-304. LONG J,YIN J P,ZHU E,et al.A survey of active learning[J].Journal of Computer Research and Development,2008,45(s1):300-304.
[10] CAMPBELLl C,CRISTIANINI N,SMOLA A.A query learning with large margin classifiers[Z].The 17th Int l Conf on Machine Learning,San Francisco:Morgan Kaufmann,2000.
[11] 韩冰,高新波,姬红兵.一种基于选择性集成SVM的新闻音频自动分类方法[J].模式识别与人工智能,2006,19(5):634-639. HAN B,GAO X B ,JI H B.Automatic news audio classification method based on selective ensemble SVMS[J].PR&AI,2006,19(5):634-639.
[12] 刘康,钱旭,王自强.主动学习算法综述[J].计算机工程与应用,2012,48(34):1-4.DOI:10.3778/j.issn.1002-8331.1205-0149. LIU K,QIAN X,WANG Z Q .Overview of active learning algorithms[J].Computer Engineering and Applications,2012,48(34):1-4.DOI:10.3778/j.issn.1002-8331.1205-0149.
[13] ZHAO Y,XU C,CAO Y.Research on query-by-committee method of active learning and application[J].Computer Engineering,2006,4093(24):985-991.DOI:10.1007/11811305_107.
[14] 刘峰涛.基于样例池类标改变率的主动学习算法终止准则研究[D].保定:河北大学,2011. LIU F T.Research on change-rate-based stop criteria of active learning algorithms[D].Baoding:Hebei Vniversity,2011.
[15] ZHU J,WANG H,HOVY E,et al.Confidence-based stopping criteria for active learning for data annotation[J].Acm Transactions on Speech & Language Processing,2010,6(3):1-24.DOI:10.1145/1753783.1753784.
[16] WANG X Z,DONG L C,YAN J H.Maximum ambiguity-based sample selection in fuzzy decision tree induction[J].IEEE Transactions on Knowledge & Data Engineering,2012,24(8):1491-1505.DOI:10.1109/TKDE.2011.67.
[17] 白龙飞.基于支持向量机的主动学习方法研究[D].山西:山西大学,2012. BAI L F.Research on active learning approach based on support vector machines[D].Shanxi:University of Shanxi,2012.
[18] LIU J,YU H,YANG W,et al.Combining active learning and semi-supervised learning based on extreme learning machine for multi-class image classification[M]// Intelligence Science and Big DataEngineering,Image and Video Data Engineering.Springer International Publishing,2015.DOI:2015.10.1007/978-3-319-23989-7_18.
[19] JOSHI A J,PORIKLI F,PAPANIKOLOPOULOS N.Multi-class active learning for image classification[Z].Computer Society Conference on Computer Vision and Pattern Recognition,Miami,FL,2009.
[20] 王珍钰.基于不确定性的主动学习算法研究[D].保定:河北大学,2011. WANG Z Y.Study of active learning algorithms based on uncertainty[D].Baoding:Hebei University,2011.
[21] 陈荣,曹永锋,孙洪.基于主动学习和半监督学习的多类图像分类[J].自动化学报,2011,37(8):954-962.DOI :10.3724/SP.J.1004.2011.00954. CHEN R,CAO Y F,SUN H.Multi-class image classification with active learning and semi-supervised learning[J].Acta Automatica Sinica,2011,37(8):954-962.DOI :10.3724/SP.J.1004.2011.00954.
[22] HUANG S J,JIN R,ZHOU Z H.Active learning by querying infor-mative and representative examples[Z].The 24th Annual Conference on Neural Information Processing Systems,Va-ncouver,British Columbia,Canada:NIPS,2010.DOI:10.1109/TPAMI.2014.2307881.
[23] FRIEDMAN A,STEINBERG D,PIZARRO O,et al.Active learning using a Variational Dirichlet Process model for pre-clustering and classification of underwater stereo imagery[C]//Ieee/rsj International Conference on Intelligent Robots and Systems,Ieee/rsj International Conference on Intelligent Robots and Systems,2011:1533-1539.DOI:10.1109/IROS.2011.6095178.
[24] DONMWZ P,CARBONELL J G,BENNETT P N.Dual strategy active learning[C]//Proceedings of the 18th European Conference on Machine Learning.Springer-Verlag:Springer,2007:116-127.DOI:10.1007/978-3-540-74958-5_14.
[25] 胡正平,高文涛, 万春艳.基于样本不确定性和代表性相结合的可控主动学习算法研究[J].燕山大学学报,2009,33(4):341-346. HU Z P,GAO W T,WAN C Y.Research on controlled active learning algorithm based on the combination of sample uncertainty and representation[J].Journal of Yanshan University,2009,33(4):341-346.
[26] 曹永锋,陈荣,孙洪.基于BvSBHC的主动学习多类分类算法[J].计算机科学,2013,40(8):309-312. CAO Y F,CHEN R,SUN H.Multi-class image classification with best vs.second-best active learning and hierarchical clustering[J].Computer Science,2013,40(8):309-312.
[27] 吴伟宁,刘扬,郭茂祖,等.基于采样策略的主动学习算法研究进展[J].计算机研究与发展,2012,49(6):1162-1173. WU W N,LIU Y,GUO M Z,et al.Advances in active learning algorithms based on sampling strategy[J].Journal of Computer Research and Development,2012,49(6):1162-1173.
[28] 陈昀,毕海岩.基于多特征融合的中文评论情感分类算法[J].河北大学学报(自然科学版),2015,35(6):651-656.DOI:10.3969/j.issn1000-1565.2015.06.016. CHEN Y,BI H Y.A sentiment classification algorithm of Chinese comments based on multi features fusion[J].Journal of Hebei University(Natural Science Edition),2015,35(6):651-656.DOI:10.3969/j.issn1000-1565.2015.06.016.
[29] 韩光,赵春霞,胡雪蕾.一种新的SVM主动学习算法及其在障碍物检测中的应用[J].计算机研究与发展,2009,46(11):1934-1941. HAN G,ZHAN C X,HU X L.An SVM active learning algorithm and its application in obstacle detection[J].Journal of Computer Research and Development,2009,46(11):1934-1941.
[30] 鲍翠梅.基于主动学习的加权支持向量机的分类[J].计算机工程与设计,2009,30(4):966-970.DOI:10.16208/j.issn1000-7024.2009.04.071. BAO C M.Classification of weighted support vector machine based on active learning[J].Computer Engineering and Design,2009,30(4):966-970.DOI:10.16208/j.issn1000-7024.2009.04.071.
[31] 梁延峰.基于专家委员会的主动学习算法研究[D].青岛:中国海洋大学,2010. LIANG Y F.Research of query-by-committee method of active learning[D].Qingdao:Chinese Marine University,2010.
[32] 高成,陈秀新,于重重,等.基于主动学习的图半监督分类算法[J].计算机工程与设计,2015(7):1871-1875.DOI:10.16208/j.issn1000-7024.2015.07.037. GAO C,CHEN X X,YU C C,et al.Graph-based semi-supervised classification algorithm based on active learning[J].Computer engineering and design,2015(7):1871-1875 DOI:10.16208/j.issn1000-7024.2015.07.037.
[33] 白龙飞,王文剑,郭虎升.一种新的支持向量机主动学习策略[J].南京大学学报(自然科学),2012,48(2):182-189.DOI:10.13232/j.cnki.jnju.2012.02.008. BAI L F,WANG W J ,GUO H S.A novel support vector machine active learning strategy[J].Journal of Nanjingl University(Natural Sciences),2012,48(2):182-189.DOI:10.13232/j.cnki.jnju.2012.02.008.
[34] 徐美香,孙福明,李豪杰.主动学习的多标签图像在线分类[J].中国图象图形学报,2015,20(2):237-244.DOI:10.11834 /jig.20150210. XU M X,SUN F M,LI H J.Online multi-label image classification with active learning[J].Journal of image and Graphics,2015,20(2):237-244.DOI:10.11834 /jig.20150210.
[35] 李海峰,李纯果.深度学习结构和算法比较分析[J].河北大学学报(自然科学版),2012,32(5):538-544. LI H F,LI C G.Note on deep architecture and deep learning algorithms[J].Journal of Hebei University(Natural Science Edition),2012,32(5):538-544.
(责任编辑:孟素兰)
Recent advances in active learning algorithms
YANG Wenzhu1,TIAN Xiaoxiao1,WANG Sile1,ZHANG Xizhong2
(1.School of Computer Science and Technology,Hebei University,Baoding 071002,China;2.Institute of Information Technology,Baoding Education Examinations Authority,Baoding 071000,China)
Active learning mainly aims at reducing the cost of manual annotation without decreasing the accuracy of the classifier.Active learning algorithm gets high quality training sample set by selecting the informative unlabeled samples which are labeled by domain experts later.The selected sample set is used to train the classifier.This improves the generalization ability of trained classifier while minimizes the cost of the labeling.Firstly,the recent advances in the three key steps in active learning algorithm was summarized,including:1)the method for constructing the initial training sample set and its improvement;2)the sample selection strategy and its improvement;3)the termination condition and its improvement.Then,the problems in active learning were analyzed and the corresponding countermeasures were presented.Finally,the future works in active learning were addressed.
active learning;initial training sample set;sample selection strategy;termination condition
10.3969/j.issn.1000-1565.2017.02.017
2016-10-11
河北省自然科学基金资助项目(F2015201033);国家科技支撑计划项目(2013BAK07B04);河北大学研究生创新项目(X2016057)
杨文柱(1968—),男,河北保定人,河北大学教授,博士,主要从事机器视觉与智能系统研究. E-mail:wenzhuyang@163.com
张锡忠(1966—),男,河北衡水人,保定市教育考试院高级工程师,主要从事云计算与大数据研究. E-mail:zxz@bhu.edu.cn
TP181
A
1000-1565(2017)02-0216-09