结合全局和局部约束的sLDA铁路扣件分类模型
2019-07-31杨飞罗建桥李柏林
杨飞 罗建桥 李柏林
摘 要:针对监督潜在狄利克雷分布(sLDA)模型中测试图像缺乏标注,导致测试主题分布忽略目标结构的问题,提出一种结合全局和局部约束的sLDA(glc-sLDA)扣件图像分类模型。首先,人工标注训练图像,并在sLDA模型中学习得到含有结构信息的训练主题分布;然后,计算测试主题分布,将测试图像的类别概率作为全局约束,将测试图像子块与训练图像子块的主题相似程度作为局部约束;最后,以全局和局部约束的乘积为更新权值,对训练主题分布加权求和得到新的测试主题分布,并在Softmax分类器中得到测试图像的分类结果。实验结果表明,glc-sLDA模型能表达扣件结构信息,与sLDA相比,各类别的扣件图像区分性增强,分类误检率减小了55%。
关键词:铁路扣件分类;监督潜在狄利克雷分布;主题模型;单词标注;目标结构;更新主题分布
中图分类号: TP391.41
文献标志码:A
文章编号:1001-9081(2019)03-0888-06
Abstract: Aiming at the ignorance of target structure in test topic distribution due to the lack of annotation in supervised Latent Dirichlet Allocation (sLDA) model, a sLDA fastener image classification model combined with global and local constraints (glc-LDA) was proposed. Firstly, the training images were manually labeled, and the training topic distribution with structural information was learned in sLDA model. Then, the test topic distribution was calculated to obtain the image category probabilities as global constraints, the topic similarities of training sub-blocks and test sub-blocks as local constraints. Finally, updated test topic distribution was obtained by weighted summation of training topic distribution with the product of global and local constraints as updated weights. The image category labels were obtained in Softmax classifier by the updated topics. The experimental results show that the proposed algorithm can express the structural information of fastener and compared with sLDA model, the distinction of each category of fastener images is enhanced, and the false detection rate is reduced by 55%.
Key words: railway fastener classification; supervised Latent Dirichlet Allocation (sLDA); topic model; annotation of word; target structure; update topic distribution
0 引言
将铁路钢轨固定在轨枕上的部件称为铁路扣件,通过机器视觉技术检测扣件状态,及时发现失效扣件具有十分重要工程价值。扣件检测任务属于图像分类问题,获取扣件图像后,根据图像特征将扣件分类为正常类别和失效类别。国内外学者曾研究采用主成分分析(Principal Component Analysis, PCA)[1]、方向场(Directional Field, DF)[2]、尺度不变描述子(Scale Invariant Feature Transform, SIFT)[3]、局部二值模式(Local Binary Pattern, LBP)[4]等底層特征分类扣件图像,出现了大量分类错误。由于扣件姿态不一、道砟遮挡、光照变化、失效形式多样等因素,底层特征无法稳定描述图像内容,导致分类结果和图像真实语义不同。不同类型的扣件图像如图1所示。
潜在狄利克雷分布(Latent Dirichlet Allocation, LDA)主题模型[5]在各种复杂场景图像分类任务中表现出良好性能[6-8],并且能够有效分类扣件图像[9-11]。LDA主题模型通过对图像底层特征进行统计学习,增强了图像描述能力。首先,通过K均值聚类底层特征得到码本;然后,用词包模型[12]将特征编码为视觉单词;最后,利用多项分布和狄利克雷分布从单词词频中提取主题分布。LDA主题分布不仅维度远小于底层特征,而且鲁棒性更强[10];但是,LDA模型忽略了图像的空间结构信息,无法描述扣件结构变化。单词词频仅统计视觉单词出现的次数,忽略了单词的空间位置,所以,LDA主题分布无法体现扣件的结构信息和位置状态[11]。扣件失效的宏观表现为结构或位置改变,扣件的结构信息和位置状态对于最终的扣件分类结果尤其重要。文献[9]专门定义了一种结构主题模型(Structure Topic Model, STM),STM定义了三个扣件模板,根据单词在模板中的位置推导主题分布,能够有效区分各种扣件类别。文献[10]利用水平方向纹理特征表达扣件结构,增强了正常和失效扣件在图像表达上的区别。监督潜在狄利克雷分布(supervised LDA, sLDA)模型[13]对训练集图像内容进行了人工标注,引入了目标结构信息。sLDA联合单词和标注共同训练模型参数,主题分布通过模型参数间接考虑了图像结构信息。异质人脸图像合成方法[14-16]中,训练集由真实人脸图像及其手工素描图像组成的图像对构成,对于一张原始的人脸图像,可通过训练集的手工素描图自动生成新图像的素描图像。类似地,sLDA模型的训练集图像的主题分布包含结构信息,采用sLDA模型的训练集主题分布合成测试图像主题分布,可以准确表达扣件结构。此外,随机局部约束(Random Sampling with Locality Constraint Reconstruction, RSLCR)方法[16]对图像子块进行局部约束,根据图像子块坐标,在训练集中选择相应位置的素描图像子块,结合图像子块上下文关系,合成新的素描图像,快速引入图像的空间结构信息,在考虑人脸空间结构的同时,又避免了随机场方法(Random Field, RF)[14-15]巨大的计算量。
综上所述,结合sLDA模型和RSLCR方法,并新增一种全局约束,提出结合全局和局部约束的sLDA(sLDA wth global and local constraints, glc-sLDA)扣件图像分类模型。在glc-sLDA模型中,通过对包含结构信息的训练集子块主题分布加权求和,更新测试图像子块主题分布,从而准确表达扣件结构。更新主题分布的权值由全局约束和局部约束两部分构成:全局约束用于描述测试图像的类别,测试图像属于某一类别的概率越高,该类训练集图像中的子块权值就越大;局部约束用于描述测试图像子块与训练集子块的主题相似程度,相似程度越高,对应子块的权值越大。全局约束和局部约束的乘积作为最终主题更新权值,子块主题分布的加权和就是测试图像子块的主题分布。更新完测试图像的全体子块后,获得整幅图像新的主题分布。将更新后的主题分布放入Softmax分类器,得到测试图像的分类结果。本文算法流程如图2所示。
1 sLDA主题模型
采用sLDA模型对扣件图像及其标注图像进行建模,估计模型参数,推导图像主题分布。
由此可知,测试图像的主题分布缺乏结构信息。
3 实验设计及结果分析
3.1 实验数据及配置
实验数据来自沪昆线云南至大理路段,采用定位分割算法[4]得到的扣件图像。图像类别包括扣件正常、扣件丢失、扣件断裂、疑似扣件、铁路道砟、其他类别,共计6类。疑似扣件类别包括铁路道岔区域的扣件,定位误差较大的扣件等各种形态各異的图像。对于测试图像,预测类别若为正常,则扣件有效;若为丢失、断裂、道砟、其他类别,则扣件故障;若为疑似类别,则需要人工复检。正常扣件被预测为失效或疑似类别称为误检,误检率=误检图像数量/正常扣件总数×100%;扣件故障被预测为有效称为漏检,漏检率=漏检图像数量/失效扣件总数×100%。
本文采用1200张扣件图像作为数据集,其中正常、丢失、断裂、道砟、其他、疑似六类,每类200张。另外,再采用5000张图像作为扩大的测试集。每张扣件图像分辨率为120×180。计算机处理器为Intel Core i5-6400 CPU @2.70GHz 2.71GHz,内存8.00GB,在Matlab 2014a环境下进行实验。
3.2 主题更新权值可视化
设计一种可视化实验,表达主题更新权值ωm的物理意义。由于测试图像缺乏人工标注,可根据主题更新权值ωm,生成测试图像的标注图像。所生成的标注图像与扣件真实形态的相似程度,作为ωm表达扣件结构信息的可视化结果。定义测试图像子块生成的标注图像为:
其中:ltrainm,n是训练集子块的标注图像。另外,为验证全局约束对图像结构信息的影响,设置一组仅采用局部约束生成标注图像的对比实验。
实验过程如下:在1200张图像数据集中随机选取600张作为训练集,每类100张;余下600张为测试集,分别生成测试图像的标注图像。实验参数设置:参考文献[10],图像子块尺寸20×20,两个子块之间重叠15个像素,底层特征采用LBP特征,邻域半径取2;单词容量V=200,主题数量K=10,先验常数αk=0.1;子块过大,会忽略掉图像细节信息;子块过小,无法体现图像的形状结构。重叠像素过少,获取的图像信息不完整;重叠像素过多,则会信息冗余,计算速度慢。单词容量和主题数量过少则会导致图像的表达不充分,过多则会导致信息的冗余。因此,根据已有实验验证,选取了最佳参数值。标注阈值ε0=0.2,扣件弹条在子块中所占最小像素比在0.2左右,若标注阈值小于0.2则会将背景噪声当作扣件纹理;若标注阈值大于0.2,则会忽略掉部分扣件纹理。参考文献[16],经过多次实验优化后,在训练集中随机选取图像的数量Ms=100,在100个更新权值中选择5个最大的权值,即Ms′=5,以提高实验速度。随机选取的次数T=3。
可视化实验结果如图4所示。
对比分析生成的扣件标注图像,可得出以下两点结论:1)单独使用局部约束无法准确描述扣件形态。如图4(b)所示,仅使用局部约束生成的标注图像比较模糊,且无论原图中扣件是否正常,生成的标注图像均和正常扣件较为相似,无法准确描绘扣件的真实形态。这是因为单独采用局部约束时,ωlm只能度量图像子块之间的相似性,忽略了整幅图像的类别信息,生成的标注图像可能由训练集中正常类别的图像子块产生。2)结合局部约束和全局约束的标注图像与图像内容一致。如图4(c)所示,添加全局约束后,生成的标注图像基本能描绘扣件的真实形态。这是因为全局约束ωom描述了图像类别状态,局部约束ωlm保证了子块相似性,生成的标注图像由和测试图像同类别的训练集图像子块产生,能反映出扣件的真实形态。
由实验结果分析可知,结合全局和局部约束的主题更新权值的方法能够刻画扣件结构,主题更新权值计算的主题分布考虑了扣件结构信息。
3.3 本文算法与sLDA对比
本文算法修改了sLDA模型的测试步骤,为验证本文方法对测试图像的描述性能,分别采用本文模型和sLDA模型表达扣件图像,分析不同类别图像之间的类间距离以及同类别图像的类内散度。类间距离是不同类别间均值的差值,类间距离越大,模型对不同类别图像的区分能力越强。类内散度是某类中所有数据与该类别均值求差的平方和,类内散度越小,模型描述图像的性能越稳定。实验参数设置与3.2节相同,实验数据采用1200张图像的数据集,其中训练图像600张,600张测试图像,每类各100张。类间距离实验结果如表1所示,类内散度实验结果如表2所示。
分析表1和表2的实验结果,可得出以下三点结论:1)本文算法与sLDA相比,各类的类内散度均减小。其中,正常、疑似、断裂类别图像减小比例较大,原因是在这三类的每一类中,图像内容都比较相似。而对于另外丢失、道砟、其他三类,每类中图像内容差异较大,类内故散度减小比例较低。2)正常类别和丢失、断裂、道砟、其他四个失效类别的类间距离增大。这说明本文算法能够更加明显区分正常和失效扣件图像,可以降低失效扣件的漏检率。另外,疑似和失效类别的类间距离增大,可以降低人工复检比例。3)正常和疑似类别的类间距离减小。如图5所示,由于正常和疑似类别中的图像内容具有较高的相似性,而本文算法和sLDA算法都是无监督方法,表2中正常和疑似的类间距离大幅降低,说明本文算法使得这两类的图像表达更加一致,对图像内容的描述更加真实。
本文算法和sLDA模型描述600张测试图像的主题分布如图6所示,图中横坐标为主题值,图纵坐标为图像编号。编号1~100为其他类别,101~200为丢失,201~300为断裂,301~400为疑似,401~500为正常,501~600是道砟。图中每一行表示一张扣件图像的主题分布向量γ,方格灰度值是γ中一个元素γk的取值,方格灰度值越大,γk的值也越大。由图6可知,本文算法与sLDA算法相比,每个类别内的数据更加稳定、集中,不同类别之间的区分性更强。
综上所述,本文算法通过对sLDA模型的主题分布进行更新,引入了图像的扣件结构信息,图像描述的稳定性和区分性增强。
3.4 扣件图像分类实验
为评估本文算法的扣件图像分类性能,设置两组对比实验进行验证。在1200张数据集中,每类随机取100张作为训练集,剩余600张放入测试集,然后,再将5000张数据集放入测试集,扩大测试图像集至5600张。分类器采用Softmax,以后验概率最大的类别作为分类结果,统计测试图像分类结果的漏检率、误检率、疑似扣件数量。
3.4.1 与其他主题模型对比
将本文算法与sLDA模型、LDA模型对比。LDA是用于描述复杂场景的经典主题模型。sLDA通过训练集标注,一定程度引入了图像空间结构信息。实验参数设置如下:本文算法和sLDA模型参数配置与3.2节相同,LDA模型参数设置参考文献[10]:单词容量V=200,主题数量K=10,先验常数αk=0.1。底层特征除采用LBP外,另外采用SIFT特征,以验证本文算法对不同底层特征的学习能力。SIFT特征子块尺寸为20×20,两个子块之间重叠15个像素,统计128维SIFT特征。本文算法与sLDA、LDA的扣件分类结果如表3所示,其中,1~3号实验采用LBP特征,4~6号实验采用SIFT特征。
对比分析表3的扣件分类结果,可以得出以下四点结论:1)本文算法在扣件误检方面优势明显。3、6号实验中的LDA模型误检率最高,2、5号实验的sLDA模型次之,1、2号实验的本文算法则大幅降低了误检率。LDA模型忽略了扣件空间结构信息,模型描述性能不稳定,当正常扣件的位置、姿态稍微变动时,就被认为是疑似或失效扣件。LDA模型中误检,而sLDA和本文方法正确分类的部分图像如图7(a)所示。sLDA模型在训练集中标注了扣件结构,模型稳定性有所提高,因此降低了正常扣件的误检率。本文方法进一步扩展了sLDA模型,通过全局和局部约束的方法更新测试图像主题分布,引入了扣件结构信息,正常扣件的类内散度减小,图像描述的穩定性增强,所以大幅降低了误检率。LDA和sLDA模型中误检,而本文方法正确分类的部分图像如图7(b)所示。2)本文算法大幅减少了疑似扣件数量。疑似类别中图像内容复杂,LDA模型稳定性较弱,故实验3、6中LDA模型检出的疑似扣件最多。sLDA一定程度上提高了图像描述性能,所以实验2、5中sLDA模型检出的疑似数量有所下降。实验1、4中本文方法检出的疑似扣件数量最少,反映了最佳图像描述性能。3)本文算法漏检率与sLDA基本相同。本文算法和sLDA正确检出,而LDA模型漏检的失效扣件全部为断裂扣件。这是因为断裂扣件与正常扣件非常相似,仅在弹条处存在区别,若忽略图像结构形状信息,则无法准确分类断裂扣件。4)本文算法的时间花费较高。计算每个子块的局部约束权值ωlm时,需要与大量训练图像子块对比,导致主题更新需要花费较多的时间。
3.4.2 与其他扣件检测方法对比。
将本文算法与其他的扣件检测算法对比,实验参数设置与原文献一致:文献[1]PCA方法,特征值占比阈值取97%,特征向量长度为165;文献[2]方向场方法,DF特征块尺寸为10×10,块重叠率50%;文献[11]局部特征和语义信息方法,模型参数与文献相同;文献[10]融合文理结构信息的LDA(Texture Structure LDA, TS_LDA)方法,采用LBP特征,其他参数与文献相同;单独采用LBP特征或SIFT特征的方法,直接将所有子块特征串联作为图像特征。本文算法与其他方法的检测结果如表4所示。
分析表4的扣件分类结果,可以得出以下两点结论:1)与其他扣件主题模型相比,本文分类性能最佳。对比实验1~3,局部特征方法[11]和TS_LDA方法[10]同样存在误检率高、疑似数量大的问题,本文在降低误检和疑似扣件的同时,保证了较低的漏检率。2)与其他直接采用底层特征分类的方法相比,本文方法具有明显优势。无论是文献[1]的PCA特征、文献[2]的DF特征,还是LBP特征[4]或SIFT特征[3],直接采用这些底层特征分类扣件图像都会出现大量分类错误。
4 结语
由于测试图像缺乏人工标注,sLDA主题分布不能充分描述扣件图像的结构状态。本文提出一种结合全局和局部约束的主题分布更新方法,用训练集主题分布合成新测试图像主题分布。采用sLDA模型获得新图像主题分布后,全局约束整幅图像的类别状态,局部约束计算测试图像子块与已有训练集子块主题分布的相似程度。将全局和局部约束乘积作为更新权值对训练集子块加权求和,获得新的主题分布。新的主题分布包含了图像中扣件结构信息,扣件分类性能提高。具体表现为以下三个方面:1)用更新权值生成新图像的标注,标注能够刻画出正常和失效扣件的形态结构;2)相比sLDA,在新的主题分布下,正常和失效类别间区别更加明显,同一类图像则更加相似;3)相比其他扣件分类模型,新模型在减少漏检失效扣件的同时,大幅降低了正常扣件的误检率。
本文算法的不足之处是,更新后的主题分布是训练集子块实例的组合,这就要求训练集覆盖所有扣件图像类型,模型泛化能力有待加强。后续可以借鉴可变部件模型(Deformable Part Model, DPM)采用混合高斯模型产生扣件模板的方法,改进局部约束方式。
参考文献 (References)
[1] 王凌,张冰,陈锡爱.基于计算机视觉的钢轨扣件螺母缺失检测系统[J].计算机工程与设计,2011,32(12):4147-4150.(WANG L, ZHANG B, CHEN X A. Inspection system for loss of rail fastening nut based on computer vision [J]. Computer Engineering and Design, 2011, 32(12): 4147-4150.)
[2] DOU Y, HUANG Y, LI Q, et al. A fast template matching-based algorithm for railway bolts detection [J]. International Journal of Machine Learning and Cybernetics, 2014, 5(6): 835-844.
[3] LOWE D G. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91-110.
[4] 刘甲甲,李柏林,罗建桥,等.融合PHOG和MSLBP特征的铁路扣件检测算法[J].西南交通大学学报,2015,50(2):256-263.(LIU J J, LI B L, LUO J Q, et al. Railway fastener detection algorithm integrating PHOG and MSLBP features [J]. Journal of Southwest Jiaotong University, 2015, 50(2): 256-263.)
[5] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation [J]. Journal of Machine Learning Research, 2012, 3: 993-1022.
[6] 杨赛,赵春霞.基于隐含狄利克雷分配模型的图像分类算法[J].计算机工程,2012,38(14):181-183.(YANG S, ZHAO C X. Image classification algorithm based on latent Dirichlet allocation model [J]. Computer Engineering, 2012, 38(14): 181-183.)
[7] 李斌,程丹,李星.基于Direct LDA的相关向量机遥感图像分类[J].信息技术,2017(4):17-20.(LI B, CHENG D, LI X. Relevant vector machine classification of hyperspectral image based on direct linear discriminant analysis [J]. Information Technology, 2017(4): 17-20.)
[8] 曾康林,刘汉文.基于LDA和SVM的图像场景分类[J].中国新通信,2018,20(10):125-127.(ZENG K L, LIU H W. Image scene classification based on LDA and SVM [J]. China New Telecommunications, 2018, 20(10): 125-127.)
[9] FENG H, JIANG Z, XIE F, et al. Automatic fastener classification and defect detection in vision-based railway inspection systems [J]. IEEE Transactions on Instrumentation and Measurement, 2014, 63(4): 877-888.
[10] 罗建桥,刘甲甲,李柏林,等.融合纹理结构的潜在狄利克雷分布铁路扣件检测模型[J].计算机应用,2016,36(2):574-579.(LUO J Q, LIU J J, LI B L, et al. Latent dirichlet allocation model integrated with texture structure for railway fastener detection [J]. Journal of Computer Applications, 2016, 36(2): 574-579.)
[11] 羅建桥,刘甲甲,李柏林,等.基于局部特征和语义信息的扣件图像检测[J].计算机应用研究,2016,33(8):2514-2518.(LUO J Q, LIU J J, LI B L, et al. Detection for railway fasteners based on local features and semantic information [J]. Application Research of Computers, 2016, 33(8): 2514-2518.)
[12] 赵理君,唐娉,霍连志,等.图像场景分类中视觉词包模型方法综述[J].中国图象图形学报,2014,19(3):333-343.(ZHAO L J, TANG P, HUO L Z, et al. Review of the bag-of-visual-words models in image scene classification [J]. Journal of Image and Graphics, 2014, 19(3): 333-343.)
[13] GUO Q, LI N, YANG Y, et al. Supervised LDA for image annotation [C]// SMC 2011: Proceedings of the 2011 IEEE International Conference on Systems, Man, and Cybernetics. Piscataway, NJ: IEEE, 2011: 471-476.
[14] ZHOU H. Markov weight fields for face sketch synthesis [C]// CVPR '12: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 1091-1097.
[15] PENG C, GAO X, WANG N, et al. Graphical representation for heterogeneous face recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(2): 301-312.
[16] WANG N, GAO X, LI J. Random sampling for fast face sketch synthesis [J]. Pattern Recognition, 2018, 76: 215-227.
[17] ZHANG C, ZHU X, LI L, et al. Joint image representation and classification in random semantic spaces [J]. Neurocomputing, 2015, 156(C): 79-85.
[18] OJALA T, PIETIKAINEN M, MAENPAA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.
[19] 李永波,李柏林,熊鷹.基于HOG特征的铁路扣件状态检测[J].传感器与微系统,2013,32(10):110-113.(LI Y B, LI B L, XIONG Y. Railway fastener state detection based on HOG feature [J]. Transducer and Microsystem Technologies, 2013, 32(10): 110-113.)
[20] WANG Y, LIN X, WU L, et al. Effective multi-query expansions: collaborative deep networks based feature learning for robust landmark retrieval [J]. IEEE Transactions on Image Processing, 2017, 26(3):1393-1404.
[21] HUANG C, LUO W, XIE Y. Local-class-shared-topic latent Dirichlet allocation based scene classification [J]. Multimedia Tools and Applications, 2017, 76(14): 15661-15679.