APP下载

基于数据挖掘的多波段激光数据分类算法研究

2020-12-10赵丽莉

光通信研究 2020年6期
关键词:条纹波段数据挖掘

赵丽莉

(长春理工大学 光电信息学院,长春 130000)

0 引 言

光谱分析是光源频谱特性获取的重要手段,对激光的频谱分布、功率谱等的量化分析需要借助特征提取与聚类分析等手段完成[1]。多波长干涉图像被应用于很多领域,在军事激光告警系统需要对入射激光的方向与波长进行识别从而完成针对性的反应,对干涉图像频域分析是一种实现手段[2];在民用中,表面形貌扫描检测可以获取被测物的高精度面型信息,多波长干涉图像可解调计算获得精细的面型变化[3]。对于多波段激光混叠光谱而言,特征的提取往往更加困难,若能实现对大量信息进行快速准确分类,将对有效信息的提取具有重要意义。

近些年随着计算机科学技术的不断发展,分析处理算法的种类不断增加,性能不断提高,数据挖掘技术在分类检测领域的优势凸显出来,对激光干涉条纹中的数据挖掘进行分类,根据干涉条纹信息中频率与振幅属性进行分类,从而实现对同类型信息的提取及对同类型噪声的抑制[4]。采用数据挖掘技术可以实现对干涉条纹数据进行分类识别,构建干涉条纹数据库,提高干涉条纹数据处理能力,故研究针对干涉条纹数据的数据挖掘分类算法具有重要意义。

对干涉条纹数据的分类是建立在多谱段和高光谱的数据挖掘特征获取基础之上的,根据机器学习[5]、深度学习[6]和自适应参数调整[7]等手段,完成数据分类识别。传统方法包括多元回归法[8]、K最邻近法[9]和模糊分类法[10]等挖掘干涉条纹数据频率和振幅之间的关系,通过自适应学习算法对多谱段干涉条纹样本进行数据挖掘分类。刘璇等人[11]利用机器学习算法对高光谱植被数据进行分类识别,获得的波段特性区间为农业植被评价提供了数据支撑;袁书萍[12]采用数据挖掘技术对激光荧光光谱数据进行分类,通过多节点并行处理方法大幅提升了分类速度。余晓娅等人[13]通过偏最小二乘回归数据处理手段,完成了藻类遥感图像的分类与识别,平均正确率在80%以上。

为了解决混叠光谱[14-16]的分类与识别,本文提出一种基于数据挖掘技术的自相关提取分类算法。构建数据结构模型,采用数据结构特征提取技术对多波段激光数据进行属性分类与特征挖掘,最终实现了光谱数据的特征提取与分类。

1 数据分类模型

1.1 模型构建

为了对光谱数据进行特征分类[17-18],从而分离不同激光光源的频谱信息,构建了针对多波段激光数据的分类模型,完成特征信息的提取。由于多波段激光数据存在光谱混叠的现象,所以需要采用模糊非线性分析方法进行特征提取,从而完成特征量的量化分析。多波段激光特征数据分类模型如图1所示。

图1 多波段激光特征数据分类模型

对多波段激光数据分类需要分离不同激光光源的频谱信息,从而构建基于特征量化分解的聚类算法进行多波段光谱特征数采样和分布结构分析;采用特征数据模型结合分类映射方法完成多波段光谱数据的关联规则设计,实现自聚类。设多波段激光特征原始数据为xi,i为波长轴向上的任意采样位置,则经分布概率分类映射后可将海量激光特征数据降维至有限数据集合:

式中,xk为第k个样本的数据。对该样本空间进行属性分类,对初始激光数据进行压缩映射,获得k个样本,表示为ki,iR,R为实数集,imax=k。

1.2 特征提取算法

在上述结构模型的基础上,分析多波段激光特征数据的量化特征,构建其自回归平均模型,则该模型中的样本可表示为

式中:φ0,φ1, …,φm为多波段激光特征数据分类规则的自回归系数;数据的频率特征集合中包含m个频率值点,m为该集合的最大值;i为其特征量集合中的第i个;数据的功率特征集合中包含n个频率值点,n为该集合的最大值;j为其特征量集合中的第j个;ξ为高斯分布。依据数据分布概率对原始数据xk的秩进行分布概率分析,可以获得数据样本序列y(xk),并对其进行相位随机化组合处理,再完成傅里叶变换,可得到新秩序为

式中,F为傅里叶变换。通过傅里叶变换可对数据频域特征进行分析处理。

2 基于数据挖掘的类别挖掘

2.1 特征数据属性挖掘

在数据分类模型中已经通过特征提取将原始数据进行了分类,但这个特征数据仍然是包含多波段特征的,要想获取每个细节信息,还需要将特征信息按照其不同属性进行归类。由于同一类特征具有相同的属性,所以可利用自相关计算模式完成属性分类,设x(t)为训练样本。则训练向量模式为

式中,t为训练数据时选择对应样本位置,tk。

计算特征数据的属性隶属度函数为

式中,ωij=(ω0,j,ω1,j, …,ωk-1,j)T为自适应算法的加权系数,对应功率特征集合中第j个数据的0~k-1个系数的转置。对式(5)迭代循环求最小值,就能得到特征数据的数据挖掘判据。

2.2 多波段激光特征识别算法步骤

由此衰减权值系数进行自相关提取分类,对多波段光谱数据进行信息融合,从而获取全局最优解,识别步骤如下:

(1) 提取多波段光谱数据,数据降维,实现有限集X的获取,并依据映射关系构建k个样本;

(2) 分析量化特征,构建自回归平均模型A(m,n);

(3) 通过映射向量y(xk),计算表征属性类别的样本训练y′(xk);

(4) 在总体数据k个样本中选取t组训练,得到训练向量x(t);

(5) 计算特征数据的属性隶属度函数dj,对其循环求最小值,得到特征数据的数据挖掘判据。

3 实 验

3.1 实验数据获取

为验证分类算法的识别性能,首先需要获取合适的多波段激光数据,采用静态傅里叶干涉模块完成对混合多波段激光的入射光进行相干处理,从而得到多波段激光数据。系统结构如图2所示。

图2 多波段激光数据获取系统

系统中光源采用昊量光电公司生产的半导体激光器,3种激光器的波长分别是532、561和660 nm。输出功率可调,实验中采用30 mW,功率稳定性为0.5%。干涉模块采用静态傅里叶变换干涉具实现,如图2(a)所示,两个反射镜中有一个具有微小倾角φ(φ1°),故从A点到B点的光程差逐渐增大,与BC段反射光形成连续的光程差变化,实现空间光程差扫描,形成干涉条纹图像。

3.2 算法仿真分析

为了验证分类算法的识别性能,在Matlab软件中仿真实验完成,由采集卡累计获取多波段激光混叠光谱信息。数据分类训练样本为150,初始聚类参数设置为(0.2,0.2),数据属性类别为3(分别对应3种激光中心波长),分类加速因子为2.8,自适应学习速度为[0,1],向量rk量化权值为0.85(在0.80~0.95之间遍历寻优)。对电荷耦合元件(Charge Coupled Device,CCD)采集的一帧干涉条纹数据进行分类建模测试,待分类数据空域谱如图3(a)所示,分别采用本文算法、传统均值分类算法及最小二乘法分类算法,结果如图3(b)~(d)所示。

图3 数据及数据处理结果

由仿真结果可知,在针对同一组多光谱数据进行分类获得的数据分类集合与聚类组系数之间的关系中,图3(b)属性分类效果最佳,图3(c)和图3(d)均实现了一个特征波长上的有效分离,而另外两个的区分性很差。由此可见,本文所提算法可将3个特征波长的数据有效分离,这样再完成傅里叶变换获取光谱分布时就能够大幅提升每个光源光谱分布的光谱纯度。

3.3 结果对比

为了量化算法的分类能力,对比数据选用在原始光源中引入噪声后的光谱数据,对不同测试方法的分类识别误差进行计算,对比结果如表1所示。

表1 分类识别误差对比

由表可知,附加噪声强度越大,分类识别误差越大,3种算法的识别误差平均值分别是0.110、0.191和0.167,本文算法相比传统算法具有更好的识别效率,对于多波段光谱数据具有更强的分离能力。在此基础上对3种算法的运算耗时进行了对比测试,当数据总量为10 GB时,3种算法的运行耗时分别为5、16和21 s;当数据总量为20 GB时,3种算法的运行耗时分别为8、24 和32 s;当数据总量为50 GB时,3种算法的运行耗时分别为14、33和46 s。由于本文算法在特征提取之前已经完成了数据降维,所以自回归计算的时间开销相比传统算法要小,提高了算法的运算效率。

本实验采用了3个激光器(3个不同的中心波长),而获取其频域信息是采用将二维图像压缩至一维数据的方法实现的,所以整体数据分类是对一维数据的特征提取运算,当入射激光的中心波长数更多时,会增加干涉条纹的混叠程度,但是干涉图像压缩后的数据量是不变的,所以处理速度基本不变。但随着波长数增多会导致干涉条纹混叠程度更加严重,从而增大识别误差,如遇该种情况可采用获取多组图像对数据进行相关处理的方式减小识别误差。

由此可见,本文算法的分类误差小、速度快,在多波段激光数据分类应用中优于传统数据分类算法,具有更好的应用价值。

4 结束语

针对多波段激光数据在光谱获取中往往由于频谱混叠导致特征数据分离不清的问题,本文设计了一种针对多波段激光原始数据的特征分类模型,提出了基于数据挖掘技术的自相关提取分类算法。因为不同中心波长的属性特征不同,所以采用自相关计算模式实现了对数据属性的隶属度判断。实验针对实测的混叠激光数据进行了分类识别,结果表明,本文算法相比传统均值分类算法和最小二乘法分类算法具有误差小、耗时少的优势,验证了其具有更好的应用价值。

猜你喜欢

条纹波段数据挖掘
春日暖阳
探讨人工智能与数据挖掘发展趋势
谁是穷横条纹衣服的人
别急!丢了条纹的斑马(上)
别急!丢了条纹的斑马(下)
基于并行计算的大数据挖掘在电网中的应用
M87的多波段辐射过程及其能谱拟合
一种基于Hadoop的大数据挖掘云服务及应用
日常维护对L 波段雷达的重要性
条纹,条纹,发现啦