基于矩阵模式的林火图像半监督学习算法
2019-11-13杨绪兵葛彦齐张福全范习健姚宏亮
杨绪兵,葛彦齐,张福全,范习健,姚宏亮
基于矩阵模式的林火图像半监督学习算法
杨绪兵1,葛彦齐1,张福全1,范习健1,姚宏亮2
(1. 南京林业大学信息科学技术学院,江苏 南京 210037;2. 合肥工业大学计算机与信息学院,合肥 安徽 230601)
森林火灾图像识别是森林防火监测系统的核心。目前的主要研究多在图像的向量模式表示上展开。由于向量模式的样本数由图像分辨率决定,易导致模型训练的负担过重。样本类别标记的准确性,直接影响后续的模型训练和目标识别。而目前的类别标定工作多采用手工或图像预处理方法完成,任务繁琐且容易出错。此外,由于像素位置在图像向量化过程中被调整,不可避免地会损失图像原有的结构信息。鉴于此,提出了基于矩阵分块的半监督学习算法Semi-MHKS,优势在于:①矩阵分块形式的样本数远低于向量模式,可有效缩短训练和识别时间;②只需标记分块类别,更有利于准确标定样本类别;③采用双线性判别函数,设计了针对林火问题的半监督学习算法;④证明了算法的收敛性。与支持向量机(SVM)、MHKS和半监督的LapMatLSSVM方法相比,在林火图像和视频上的实验验证了Semi-MHKS的具有较高的识别率和较低的训练时间。
林火识别;向量模式;矩阵模式;双线性函数;半监督学习
森林火灾位列森林3大自然灾害(火灾、病害和虫害)之首,其对森林资源、森林生态系统造成的破坏是毁灭性的。为保护人类生存环境和生命财产安全,世界各国均投入巨资、人力用于研制森林火灾预警系统,其中视频监控系统是其重要组成部分[1]。根据不同的视频采集设备,目前的监测系统主要有卫星监测、红外图像监测、可见光视频监测等,其中可见光系统具有图像清晰、分辨率高、监测距离远、成本低等特点,且与人眼视觉系统基本一致[1-2]等特点,因而可见光监控系统更为常见。
现阶段的监控系统仍停留在“监”的阶段,“控”尚处于起步阶段,且多以人工方式完成。一个重要原因是缺乏针对性的识别算法。以林火识别问题为例,现有系统存在着识别时间长、识别能力差等问题,难以满足林区防火的实时性要求。研究成果多集中在图像的颜色空间展开,如Marbach等根据YUV图像的亮度闪烁来划分疑似火灾区域[3-4];梁青[5]详细研究了5种颜色空间(RGB、HSV、HLS、HIS和CMYK)对林火图像分割的效果,得出CMKY颜色模型更有利于提取颜色特征的结论;亦也有学者建议直接根据视频图像的阈值范围来判断是否存在火焰[6-7]。傅天驹等[4, 8-9]则采用深度神经网络识别林火,并建议将夜晚和白天的林火图像分开训练,采用不同的网络参数,更有助于提高林火识别率。上述研究均是基于图像的向量模式开展研究。由于图像在向量化过程中,破坏并丢弃了图像空间的结构信息,包括可能蕴含其中的判别信息。此外,这种基于图像像素的向量模式产生的样本集,其大小呈平方级数增长,给后续的模型训练和求解增加负担。如一幅1024×768的灰度图像,其对应的向量表示的样本容量为786 432。如此规模的学习任务,将会使诸多性能优越的机器学习算法失效(训练时间过长或训练不充分),实时性更是无法满足。
以两分类问题为例,林火图像的类别标定通用做法有纯手工标定和半手工标定。纯手工标定是指直接观察图像,分别将图像中火焰像素和无火像素对应的向量模式进行类别标记;半手工标定是指借助图像预处理办法,如图像分割,先将图像切分为“火焰区域”和“无火区域”,再按区域内的像素对向量模式进行标记类别。前者完全由人力决定,由于肉眼难以细微到像素水平,该方法费时费力且易出错。后者虽有所改进,但针对森林火灾图像而言,受光照条件、覆盖物遮挡、气候条件等影响,分割出来的火焰区域甚至是不连通、不连续的,也很难准确标记[10-11]。针对以上问题,本文提出了一种半监督的矩阵模式分类方法(semi-supervised matrix-pattern Ho-Koshyap algorithm with squared approximation, Semi-MHKS),具备以下优点:①直接采用分块矩阵设计分类器,有利于保留图像的结构信息;②模型训练仅需要少量的标记样本,较之标记像素的工作更为轻松和准确,可显著减少因像素标记不准确而造成的监督信息错误;③图像分块的样本数可大幅度下降,有利于减轻分类器的训练负担;④采用双线性判别函数进行分类,导出的问题是一个严格凸优化问题,算法的收敛性有理论保证。
1 相关工作
采用矩阵形式表示样本,早期版本是针对人脸识别问题的特征提取和识别任务[12-13]。现已应用在图像纹理描述、分类器设计和并行计算等方面[14-18]。就矩阵模式的分类方法而言,其主要思想归功于MHKS。后继的针对矩阵模式的全监督型方法较多,且可与其他方法结合,提出了多视图学习(multi-view learning)、全局学习和局部学习的矩阵模式分类器等[19-21]。但文献中鲜见Semi-MHKS原因为:①矩阵模式学习方法较新,其基础理论尚待进一步完善,且未能引起学界重视;②应用领域有待扩展,目前主要集中在容易标定类别的人脸识别问题上。开辟一个新的应用领域,需要大量的前期准备工作,如背景知识储备、数据采集与清洗、样本标签等,如LapMatLSSVM (Laplacian matrix-based least square SVM)[22]。以下简单回顾双线性判别函数、全监督的MHKS和半监督LapMatLSSVM的矩阵模式学习方法。
1.1 双线性函数
1.2 MHKS
其中,1=;2=;为合适大小的单位矩阵。式(2)中第一项用于度量模型的经验风险,且通过引入松弛变量r(≥0)来解决少量矩阵模式错分问题。式(2)中第二项采用类似于SVM的间隔思想,用以度量模型的复杂性。正则化因子,用于平衡经验风险和模型复杂度。求解详见文献[18]。
1.3 LapMatLSSVM
结合矩阵学习和LSSVM,并通过拉普拉斯惩罚引入样本的邻域信息,PEI等[21]提出了半监督学习方法LapMatLSSVM,即
2 Semi-MHKS算法
设训练集包含有标和无标样本,不妨设前个是有标样本,记为={1,···,},R×,为对应的类标;后个为无标记的,记为,={+1,···,+q},+=。
对于半监督学习而言,由于获得样本的类别标记代价昂贵,故有<,应给予格外重视;同时尽可能利用大量的无标样本信息以期提高分类器的分类性能。观察式(3),若将LapMatLSSVM的约束矩阵分解为两分块:=[×,×(l–)],前一分块对角元素为样本标记,后者为零矩阵,按分块矩阵乘法展开该约束,易知该约束中仅保留了有标样本信息。故其无标记样本信息只有通过拉普拉斯惩罚项完成,拉普拉斯图中邻接矩阵(图中边的权值)通过计算各分块之间的相似度来定义的,相似度越高则权值越小。对林火图像而言,事实并非如此。如图1所示,直觉上同一类别的图像分块仍可能有较低的相似度,如天空区域和未着火的地表区域,树和杂草的着火区域等。由前期图像分割工作可知,天空背景与火焰极易被分割到相同区域。
为此,借鉴MHKS设计思想,重新考虑设计基于矩阵分块的半监督算法,以适应林火图像问题。
(a) 原图 (b) 图像分块
2.1 模型设计
如图1(b)所示,图像分块之间彼此互不重合。考虑到标记样本少和尽可能重视这些有监督信息,借鉴基于小样本理论SVM的设计思想,采用软间隔形式,定义如下优化问题
2.2 模型求解
模型(4)的左右权和,可通过交替迭代方式完成求解。无论固定谁,式(4)对于另一个向量来说,都是一个严格的凸二次规划问题,以定理1描述之。
定理1.模型(4)是一个严格凸二次规划问题。
简证:对优化变量或,目标函数均为二次函数,且其Hessian矩阵均为单位阵,故目标函数是严格凸的,线性约束构成的可行域为凸集,故模型(4)是一个严格凸二次规划问题。
将偏导数所得方程代入式(6)整理,得
其中,为学习率;()为第次迭代的右权向量。
以上求解过程,用算法1总结如下,设置最大迭代次数MaxIter。
算法1. Semi-MHKS算法
输出:左右权向量和。
步骤1.随机初始化(0),计算,1。
步骤2.更新矩阵(),()。=[1,···,,+1,···,+q],=v;=T+1/2。
算法1中的收敛性问题,用定理2描述并给出证明。由于的更新是通过梯度下降法完成,根据优化理论可知,该方法是收敛的。
定理2. 优化问题(4)中的是收敛的,且存在唯一解。
证明:问题(4)中的采用梯度下降法进行更新,故收敛。由前文知,和相互依赖,且满足=,迭代形式记为(t)=(t)。
2.3 批量决策问题
对于待分类的图像分块,形如前文的= {+1,···,+q},为避免决策时间过慢,期望能够实现如向量模式的批量决策,由文献[18]可知,样本的决策函数记为
3 实验验证
3.1 静态图像实验
按图1(b)方式将RGB图像分为“有火”和“无火”2个类别,分别标记为“1”和“–1”。实验在对应的灰度图像上完成,根据分类结果将各“火焰”分块按原分块的顺序重新组装成RGB图像,以便于观察可视化效果。因SVM只能训练向量模式的样本,实验中将各分块作了向量化处理,其他3种方法均直接采用矩阵模式训练。如图2所示,第一列是林火图像的原图(图2(a)),对图像分块并标定类别后,按7∶3划分训练集和测试集。为避免训练时SVM产生奇异性问题,分块时尽可能保证训练样本数大于样本维数,该问题可通过调整分块大小实现。LapMatLSSVM和Semi-MHKS利用了剩下的无标记样本进行训练。模型训练完成后,为使结果在可视化具有图像的整体印象,用全部分块进行测试,将判别为“有火”按分块的原次序重新组装成图像并显示,结果如图2(b)~(e)所示。
图2 4种方法的林火图像识别效果图
图2的实验结果表明:向量模式的SVM视觉效果最差,出现了2种类型(“有火”判为“无火”,和“无火”判为“有火”)的判别错误。基于矩阵模式的分类方法,由于无需向量化,各分块的图像结构信息能够保留下来,且该信息显然对判别十分有利,故后3种方法的可视化效果图上,基本上能够见到图像的火焰区域全貌。同时,相对于Semi-MHKS,全监督的MHKS和半监督的LapMatLSSVM的误报警率较高(“无火”分块被判为“有火”)。由于LapMatLSSVM能够适当利用无标样本信息,第2和第3幅图像上,取得了较MHKS更好的分类结果(图2(e)和图2(d))。第4幅图像,“有火”分块数量明显少于“无火”分块。实验中暂未考虑样本不平衡分类问题,取“有火”分块数量相当的“无火”分块作为负类样本,以避免不平衡分类问题。此时训练集与测试集比例未按7∶3比例划分,而直接将全部“有火”样本加入训练集中。即便如此,在实验效果上,SVM,MHKS和LapMatLSSVM均存在将较多背景或烟雾的“无火”分块判为“有火”,误报警率较高。而Semi-MHKS由于从模型设计之初,在利用无标样本信息方面,避免了如LapMatLSSVM的拉普拉斯矩阵的近邻方法,达到减小背景分块的差异性对分类方法的影响。同时,由于矩阵模式分类方法目前无法使用类似于核函数的非线性化方法,为比较公平起见,实验过程中,SVM的实验结果也是在线性核作用下完成的,未考虑其他类型的核函数及核参选择问题。此外,MHKS是基于回归模型导出的,而LapMatLSSVM是基于SVM的近似版本LSSVM导出的,单纯从优化的可行域上来看,不等式约束的可行域显然是包含等式约束的,即此方法的可行域更加宽广。图2的实验结果表明,Semi-MHKS较之其他3种方法具有更高的识别率和低报警率。
3.2 视频图像实验
视频数据来自意大利萨莱诺大学Mivia研究组,公开发布的未处理数据集共有31段视频,包括多种场景下的火焰和烟雾视频。实验中选取与森林火灾内容相关fire4.avi作为实验对象。该视频采集频率为每秒15帧,计240帧图像。每帧图像的分辨率为256×400,采用24位的RGB模式。为突出帧与帧之间的差别,将从视频中每隔1 s取1帧图像,共取16张图像用于训练和识别,按时间序分别记录为Frame1~16,图像分块大小取16×20,仅对Frame1的图像分块进行类别标记。全监督的SVM和MHKS由第一帧的图像分块训练,而训练半监督方法LapMatLSSVM和Semi-MHKS时,采用Frame1~3进行训练,其中Frame2和Frame3作为无标样本使用。由于训练向量模式的SVM需要考虑奇异性问题,而避免奇异性问题就必须增加训练样本数,以至于需要选择较小的矩阵分块,增加了样本标定工作量。由于图像较多,样本标定工作无法人工完成,需由文献[3]的图像分割方法完成。SVM的训练样本由RGB图像的三通道像素组成。Frame1中共有102 400个样本,随机选择10%进行训练,剩余用于测试,重复5次取平均结果。Frame2~16均作为测试数据,统计该帧的图像分块,判别为“有火”或“无火”分块与原图对应分块标签的一致的百分比,实验结果见表1和表2。实验在Inter Core i7CPU 2.2 GHz,RAM 8 G机器上完成,运行环境windows7系统Matlab 2015b。训练时间采用matlab的CPUtime函数计时。
表1 Frame1上的训练时间和测试精度
表2 视频Fire4.avi的余下15桢的测试精度(%)
(注:同一帧图像上,识别率最高者标记为粗体)
由表1可知,即使在10%的样本集上训练SVM,其训练速度比矩阵分块方法慢近千倍。造成SVM的测试精度只有73.5%的可能原因有2个:①模型训练不充分,但若再加大训练集,则需要更长的训练时间,而且对于高分辨率图像来说,采用这种向量模式的分类方法,基本上是不可行的;②由于像素级的样本的类别标记,采用半手工的图像分割方法完成,存在样本被错误标记风险,从而影响了模型训练。而对于矩阵分块方法,分块样本更容易获得正确标记。从直觉理解上,采用分块标记更符合人类直觉,且分块后每桢只有320个样本,训练时间亦可大大减少。对半监督的LapMatLSSVM和Semi-MHKS而言,在训练过程中虽说均需要交替迭代完成左右权向量求解,但由于前者多一个计算拉普拉斯正则项时间,故LapMatLSSVM的训练时间较Semi-MHKS长。测试精度上,由于半监督方法将Frame2和Frame3的无标样本用于辅助训练,二者的测试精度应该高于MHKS,但由于LapMatLSSVM采用相似度刻画拉普拉斯项,同类中差异性较大的分块导致的较低相似度,反而会影响测试精度。尽管Semi_MHKS在迭代过程需要求解二次规划,但由于样本数少,计算二次规划的时间与求解另2种方法的线性方程差异不大,且算法收敛速度很快。
由于视频帧Frame1-Frame16中均有火焰,但火焰区域与无火区域面积相差较大,Frame1中标记为“有火”的分块共34个,其他286个分块均是“无火”,存在训练样本不平衡问题。3种方法虽然均可通过批量方式实现样本分类,但由于SVM需对每帧近10万样本进行分类,内存无法存储10万阶的核矩阵,本实验中共分10次批量完成。半监督的LapMatLSSVM和Semi-MHKS较之MHKS方法,仅需多计算一个无标样本矩阵,二者测试时间相当,但较之SVM存在明显优势,故表2中只报告4种方法测试精度。
本实验验证了半监督学习机制,较之全监督方法,模型的分类能力有所提高。且通过矩阵分块的方法,能够解决高分辨率的图像识别问题。但SVM是通过引入核方法来提高模型的分类能力,而Semi-MHKS,乃至矩阵学习模式,如何采用类似机制来提高分类性能,仍有待进一步的研究。
4 结束语
就林火识别问题,本文提出了一种基于矩阵分块的半监督学习方法。该方法与传统的向量模式相比,具有标记样本更为方便、分类器训练速度更快等特点。所导出的问题可通过凸优化方法求解,算法收敛性有理论保证。矩阵分块的大小、监督信息的多少均会影响分类器性能,本文的实验结果多数是通过可视化方法评价实验结果,下一步目标之一是如何构造更好的评价指标。其次,Semi-MHKS采用的分块是不重叠的,如果采用类似字典学习的重叠分块情况如何?此外,即使是对RGB图像,文中的训练和识别均是针对灰度图像进行的,设若将各通道的颜色信息融入到分类器设计中,性能如何?这些工作都将留待进一步的研究。
[1] 舒立福. 权威解读森林消防国家行业标准《森林防火视频监控系统技术规范》[EB/OL]. [2019-03-09]. (2016-06-03). http://www.forestry.gov.cn/main/72/content- 877501.html.
[2] 刘凯, 魏艳秀, 许京港, 等. 基于计算机视觉的森林火灾识别算法设计[J]. 森林工程, 2018, 34(4): 89-95.
[3] 杨绪兵, 覃欣怡, 张福全. 基于样条的林火图像多阈值分割算法[J]. 计算机应用, 2017, 37(11): 3157-3161, 3167.
[4] 傅天驹. 基于深度学习的林火图像识别算法及实现[D]. 北京: 北京林业大学, 2016.
[5] 梁青. 基于图像处理的森林火灾监测技术研究[D]. 南昌: 华东交通大学, 2012.
[6] YU C, MEI Z, ZHANG X. A real-time video fire flame and smoke detection algorithm [J]. Procedia Engineering, 2013, 62: 891-898.
[7] MEMANE S E, KULKARNI V S. A review on flame and smoke detection techniques in videos [J]. International Journal of Advanced Research in Electrical Electronics and Instrumentation Engineering, 2015, 4(2): 855-859.
[8] 陈斌锋. 林火自动识别报警系统研建[J]. 森林防火, 2015(2): 41-44.
[9] 周忠. 基于时空特征的林火视频烟雾识别[D]. 南京: 南京林业大学, 2015.
[10] 胡江策, 卢朝阳, 李静, 等. 采用超像素标注匹配的交通场景几何分割方法[J]. 西安交通大学学报, 2018, 52(8): 74-79, 145.
[11] 於敏. 基于区域分割的图像标注的研究[D]. 无锡: 江南大学, 2016.
[12] YANG J, ZHANG D, FRANGI A, et al. Two-dimensional PCA: A new approach to appearance- based face representation and recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), 2004, 26(1): 131-137.
[13] CHEN S, ZHU Y, ZHANG D, et al. Feature extraction approaches based on matrix pattern: MatPCA and MatFLDA [J]. Pattern Recognition Letters, 2005, 26(8): 1157-1167.
[14] LORIS N, SHERYL B, ALESSANDRA L. Texture descriptors for representing feature vectors [J]. Expert Systems with Applications, 2019, 122: 163-172.
[15] WANG Z, ZHU Z. Matrix-pattern-oriented classifier with boundary projection discrimination [J]. Knowledge- Based Systems, 2018, 149: 1-17.
[16] LI D, ZHU Y J, WANG Z, et al. Regularized matrix-pattern-oriented classification machine with universum [J]. Neural Processing Letters, 2017, 45(3): 1077-1098.
[17] SONG H, CHEN G, WEI H, et al. The improved (2D) 2 PCA algorithm and its parallel implementation based on image block [J]. Microprocessors and Microsystems, 2016, 47: 170-177.
[18] CHEN S C, WANG Z, TIAN Y J. Matrix-pattern- oriented Ho-Kashyap classifier with regularization learning [J]. Pattern Recognition, 2007, 40(5): 1533-1543.
[19] ZHU C, WANG Z, GAO D, et.al. Double-fold localized multiple matrixized learning machine [J]. Information Sciences, 2015, 295: 196-220.
[20] ZHU C. Double-fold localized multiple matrix learning machine with Universum [J]. Pattern Analysis and Applications, 2017, 20(4): 1091-1118.
[21] PEI H, WANG K, ZHONG P. Semi-supervised matrixized least squares support vector machine [J]. Applied Soft Computing, 2017, 61: 72-87.
[22] Mivia Research group. Fire detection dataset [EB/OL]. [2019-03-09]. University of Saleno, Italy, 2018-04-30, https://mivia.unisa.it/datasets/video-analysis-datasets/fire-detection-dataset/.
Semi-Supervised Algorithm for Forest Fire Recognition Based on Matrix Pattern
YANG Xu-bing1, GE Yan-qi1, ZHANG Fu-quan1, FAN Xi-jian1, YAO Hong-liang2
(1. College of Information Science and Technology, Nanjing Forestry University, Nanjing Jiangsu 210037, China; 2. School of Computer Science and Information Engineering, Hefei University of Technology, Hefei Anhui 230601, China)
Forest fire image recognition/detection plays a vital role in forest fire monitoring system. Due to its own characteristics and difficulties of forest fire image, the existing studies mainly focus on the vector-pattern-oriented fire image, where each vector-pattern sample corresponds to an image pixel one by one. Since the number of vector-pattern samples is strongly determined by the resolution of the given image, it is time-consuming for training classifier to deal with numerous vector-pattern samples, especially for higher-quality images. How to label samples is another big challenge in the task of image target recognition. However, at present, this labeling work is done manually or semi-manually (for instance, the method of image preprocessing). It is clear that the accuracy of labels directly affects subsequent steps including classifier training and object recognition. Furthermore, owing to the rearrangement of adjacency relationship between pixels, vector-pattern samples, which are generated from image pixel-by-pixel vectorization, unavoidably lost the original image structural information. In this paper, we proposed a matrix-pattern semi-supervised algorithm for forest fire image recognition, named Semi-MHKS (semi-supervised matrix-pattern Ho-Koshyap algorithm with squared approximation). Its advantages lie in 4 aspects: ①Instead of vector-pattern, it adopts sub-matrix-pattern samples to train classifier. In doing so, it is more likely to meet real-time requirements because of smaller size of training set. ②It is easier to label the training samples in the manner of sub-matrix-pattern than that of vector pattern. Moreover, it is also effective for decreasing the error rate in manual-labeling. ③Adopting so-called bi-linear discriminant function, we design a semi-supervised learning algorithm (Semi-MHKS) for forest fire images, which only needs several labeled samples. It is also suitable for classifying the a batch of unknown matrix-pattern samples. ④The algorithm leads to a strictly convex optimization problem, which can be solved by quadratic programming and gradient descend method. It is mathematically proved that Semi-MHKS is convergent in the stage of alternating iteration, with fixed left or right weight vectors of the bi-linear function. Compared to state-of-the-art methods, including vector-pattern support vector machine (SVM), matrix-pattern MHKS, and matrix-pattern semi-supervised LapMatLSSVM (Laplacian matrix-based least square SVM), the experiments on forest fire images verify that our proposed algorithm has higher fire image recognition rate and less training time.
forest fire recognition; vector-pattern; matrix-pattern; bilinear function; semi-supervised learning
TP 391
10.11996/JG.j.2095-302X.2019050835
A
2095-302X(2019)05-0835-08
2019-06-13;
2019-08-20
江苏省自然科学基金项目(BK20161527,BK20171543);国家自然科学基金项目(31670554,61871444)
杨绪兵(1973-),男,安徽六安人,副教授,博士,硕士生导师。主要研究方向为模式识别、神经计算、图像处理等。E-mail:xbyang@njfu.edu.cn
张福全(1977-),男,甘肃玉门人,副教授,博士,硕士生导师。主要研究方向为林业物联网、图像处理等。E-mail:zfq@njfu.edu.cn