一种支持向量机和数字图像相结合的能见度检测算法
2019-01-30胡霖
文/胡霖
1 支持向量机
1.1 支持向量机(support vector machines,SVM)
支持向量机(support vector machines,SVM)是一种先进的机器学习方法,其理论主要是建立在统计学习理论VC维理论和结构风险最小化原理基础之上。
支持向量机在机器学习方面最主要的优势是在解决小样本、非线性和高维模式识别问题中,支持向量机能够解决“维数灾难”和“过学习”等问题给信息识别造成的阻碍。另一个优势为支持向量机是一种发展比较成熟的机器学习方法,理论成熟,数学模型易于理解。
支持向量机促进了模式识别、函数估计、回归分析、时间序列预测等方面的发展,在文本识别、手写字体识别、人脸图像识别、基因分类及时间序列预测等领域有着重要应用。
1.2 支持向量机基本算法
支持向量机是一种两类分类器,其基本算法如下。
设海量信息中的样本集中n个样本,样本集表示为(xi, yi),i=1,2……n,可以表示样本属于xi的类别。实际应用中,支持向量机依据训练样本的信息找到识别样本所需的超平面将训练样本分为两类。在识别样本的超平面中,ω是一个n维向量,x是样本的向量表示,b为实数。
对于给定的样本,理想的情况是使两类分类边界的间距最大,称之为间隔,间隔在数学上的定义为归一化间隔ω和b后,间隔可以表示为:
归一化后的间隔,称为几何间隔。
在两类样本之间的几何间隔中,ω是自变量,目标函数是关于ω的二次函数,约束条件是ω的线性函数,这时,支持向量机的目标识别问题就转化为二次规划函数的求解问题,此时它的约束条件为:
为了解决目标识别过程中产生的误差问题,此时需要引入松弛因子和惩罚因子C,引入后信息识别的过程中支持向量机会在错分时继续工作,此时几何间隔在约束条件下变为:
利用拉格朗日乘子,最优决策函数为:
1.3 支持向量机核函数
在信息识别的过程中,往往存在线性不可分的问题,这种情况下需要引入核空间理论,核空间理论可以解决线性不可分中的高维运算过程中的内积问题。在支持向量机算法中,不同的核函数可以在信息识别中有不同的效果。
在信息识别过程中,穷举搜索法可以帮助找到最合适的核函数和核函数参数。用穷举搜索法可以利用线性核函数、多项式核函数、径向基核函数、二层神经网络核函数等进行实验,并在实验的过程中自动根据数据情况调整核函数的参数大小。
1.4 支持向量机与数字图像在能见度识别中作用
现阶段,由于气候和环境的变化,能见度识别受到了更广泛的关注度。支持向量机与数字图像可以帮助实现更高质量的能见度识别效果,支持向量机可以深度挖掘能见度较低情况下的影像信息数据,为人们提供更加直观的图像信息。
2 基于支持向量机和数字图像相结合的能见度检测算法
2.1 能见度检测算法的重要意义
近年来,全球气候不断变暖,恶劣天气频发,特别是我国很多城市,雾霾天气多发,雾霾天气给社会生态环境和人们的正常生活带来了很大的困扰,特别是在交通出行方面。飞机、高速、水运等都会受到雾霾天气的影响,进而取消航班、封闭高速以及停运。准确的能见度检测可以有效地缓解雾霾天气带来的交通问题。
以往,能见度检测主要是通过人眼识别或者利用一起进行检测人眼进行能见度检测,受到视力和主观因素的影响,存在的误差较大;利用仪器设备进行检测经济成本较高,操作又十分困难。因此,基于支持向量机和数字图像相结合的能见度检测算法受到了越来越多的关注。
2.2 基于支持向量机和数字图像相结合的能见度检测算法
能见度监测的依据是《中华人民共和国道路交通安全法实施条例》,第81条规定如下:机动车在高速公路上行驶,遇有雾、雨、雪、沙尘、冰雹等低能见度气象条件时,应当遵守下列规定:
(1)能见度小于200米时,开启雾灯、近光灯、示廓灯和前后位灯,车速不得超过每小时60公里,与同车道前车保持100米以上的距离;
(2)能见度小于100米时,开启雾灯、近光灯、示廓灯、前后位灯和危险报警闪光灯,车速不得超过每小时40公里,与同车道前车保持50米以上的距离;
(3)能见度小于50米时,开启雾灯、近光灯、示廓灯、前后位灯和危险报警闪光灯,车速不得超过每小时20公里,并从最近的出口尽快驶离高速公路。
基于支持向量机和数字图像相结合的能见度检测算法,主要流程如下:
2.2.1 根据不同用途,创建不同功能的图像库
在支持向量机中,图像库的数据集分为两个,一个是训练样本的数据集,另一个是验证训练样本准确性的数据集。
根据《中华人民共和国道路交通安全法实施条例》规定的内容,又可以把训练数据和验证数据分为三个类别:训练数据集的图像根据能见度在200米、100米和50米范围内。
实际操作中,要选择不同等级的能见度的天气状况的视频或图像,视频需要按帧进行计算,按照能见度的大小,将这些视频或图像按照高能见度(200米范围),中等能见度(100米)和低能见度(50米范围)进行分类。值得注意的是,为了提高算法的计算速度,视频每帧和图像应当设置将图片大小统一设置为256×256,并将照片标记为high、mid和low三个等级,同时设置照片数量。验证数据集中的图像设置方式与训练图像相同,区别是验证数据集中的图片数量较少,通常设置为训练数据集中图像数量的12.5%即可。
2.2.2 对能见度不同的图像分别进行预处理
对能见度不同的图像分别进行预处理,首先是要为图像加上标签,将high、mid和low三个不同等级的能见度图像分别标记为标记为0、1、2三个标签,并生成标签文件用于网络识别;然后,通过生成训练过程中需要的图像数据库文件和均值文件。
2.2.3 对训练中的图像进行训练
能见度检测模型主要是依据训练样本中的数据进行能见度判定,因此训练样本的质量十分关键。对训练样本进行训练,将训练样本进行归纳类别,用于识别图像数据库中的图像属于哪个级别的能见度。
2.2.4 优化能见度检测模型,对不同情况下的能见度进行检测
在图像苦衷,不同能见度的图像根据训练样本,会自动经过支持向量机的分类进入一个类别,根据类别将能见度进行分类,识别能见度高低。
4 总结
极化SAR图像分类一直是学术界研究的热点问题,针对极化SAR图像的分类问题,本文展开了实验研究。本文提取了预处理后Radarsat-2咸宁地区极化SAR数据的3种测量数据,7种极化目标分解特征,6种纹理特征和颜色特征,在这些特征基础之上进特征选择,并利用不同的分类算法进行分类,得出如下结论:
(1)多特征融合对各地物的分类精度具有促进作用,在测量数据基础上的分类精度上尤其显著;
(2)利用单一特征的分类精度整体低于多特征融合下的分类精度,表明了多特征对地物的表征更加完整,在分类时具有更强的适用性;
(3)根据本文提出的特征选择参数来选择特征并组合成特征向量用于分类,有效降低了分类时的计算量,解决了特征数据的冗余问题,实验结果表明,在不同分类器的实验中,运行时间均有缩短,最多缩短34秒。
5 结束语
现阶段,受到全球气候变化的影响,加上工业等对环境的污染,雾霾天气出现的频率很高,给人们的正常生活和社会的经济发展带来了很多问题,特别是在交通运输方面,影响了飞机、客运和水运等,高精度的能见度检测方法是缓解雾霾天气影响交通运输问题的重要方法。因此,本文介绍了支持向量机相关概念、原理、用法,并提出了一种支持向量机和数字图像相结合的能见度检测算法,为能见度检测提供一种合理的算法。