APP下载

基于SVM的X射线天文图像点源探测算法

2016-05-27马志贤吴中耀游寒旭

关键词:支持向量机光谱

马志贤, 吴中耀, 游寒旭, 朱 杰

(上海交通大学 电子信息与电气工程学院,上海 200240)



基于SVM的X射线天文图像点源探测算法

马志贤, 吴中耀, 游寒旭, 朱杰

(上海交通大学 电子信息与电气工程学院,上海 200240)

摘要:宇宙中多数天体在天文图像中呈现点状结构,使得针对天文图像点源探测和提取算法的研究成为热点.提出了一种X射线天文图像点源提取算法.首先,利用阈值分割分离部分背景噪声;然后利用峰值检测的方法获得潜在点源的位置和中心亮度;而后,根据X射线图像光谱的特点,提取点源和背景的光谱特征,利用支持向量机(SVM)进行有监督训练获得分类模型;最后,利用该模型筛除潜在点源中的错误探测.设计实验,应用该算法到NGC 4552 星系的X射线天文图像的点源探测.相较于参考算法wavdetect,本算法能够达到相同的误差率(约5%),但具有更高的处理效率.

关键词:X射线点源; 阈值分割; 峰值检测; 支持向量机; 光谱

0引言

自20世纪70年代以来,超过一百颗搭载天文望远镜的卫星发射升空,用于多波段的天文物理学的研究,包括多尺度结构的探测,基于光谱的物质成分分析等.这其中,因为多数天体呈现点状或类点状的形态,使得天文图像点源的探测和提取成为热点.然而,存在多种因素影响点源的探测.首先,天体与地球的距离达到数光年,观测望远镜接收到的光子数量有限,它们在图像中的亮度是有限且较暗的;其次,观测仪器的点扩散效应(PSF)以及仪器效应的存在,产生了背景噪声,影响点源的识别[1-2].

Malias等[3]对目前的天文图像的点源提取算法进行了回顾,总结出三类方法:(1) 基于轮廓提取及匹配的算法,如霍夫变换[4];(2) 基于峰值检测和滤波的方法,如“wavdetect”[5],该算法是目前天文领域常用的处理算法,已经作为Chandra观测平台工具箱CIAO中的函数[6].(3) 基于质心提取的算法,如“Centroid extraction”[7].虽然这几种点源提取算法都有成功的应用,但也存在一些不足.基于轮廓提取的算法复杂度高,算法效率低;后两种算法中,“wavdetect”采用的全局背景估计的策略降低了准确性,而质心提取算法对背景噪声的处理效果不好.

针对X射线天文图像的特点,本文作者提出了一种新的点源探测算法.采用峰值检测的方法对潜在的点源进行探测,而后根据X射线图像点源光谱特点设计伪点筛除机制,去除错误探测的点源.在X射线波段,观测设备的CCD通过长时间接收不同能量光子的累积,统计具有不同能量光子的数量可以获得相应的光谱信息[8].而点源和背景的光谱特征存在区别,可以帮助筛除潜在点源中的错误探测,提升点源识别的准确性.支持向量机(SVM)作为优秀的分类器,被广泛用于数据分析的各个领域[9].采用SVM作为不同成分光谱特征的分类器,建立分类模型,用于伪点的筛除.

文章将按如下内容展开:第1节中,说明基于阈值分割和峰值检测的潜在点源探测算法;在第2节中,简要介绍基于光谱特征特征提取的SVM分类训练方法;针对提出的点源提取算法的实验以及分析会在第3节给出;最后一节进行总结.

1潜在点源探测算法

X射线天文图像中,每个像素对应的数值反映了光子的个数,光子的数量越多,该像素在图像中的亮度越高.文献[1]指出图像中的点源是原始图像与点扩散函数卷积后的结果,且PSF类似于二维高斯函数,使得卷积后的点源能量集中在点源区域的中心.通过峰值检测可以帮助定位点源的中心,确定点源的位置.Freeman等[5]的工作表明,X 射线天文图像的背景服从泊松分布,且相对于点源光子数是较少的,可以采用设定亮度阈值的方法对图像进行预处理,去除部分背景干扰.

1.1背景噪声削弱

设I表示图像矩阵,亮度阈值为TBright,则背景削弱后的图像矩阵IS为:

(1)

其中(x,y)表示像素点的坐标.对IS进行归一化,得到:

(2)

通过阈值分割削弱背景噪声,能够有效地突出点源,便于后续的峰值检测,如图1所示.

图1 X射线天文图像背景去除样例图

1.2潜在点源探测

对于预处理后的图像矩阵,设计算法获取潜在点源的中心位置信息,设计了一种基于峰值检测的算法.传统的峰值检测算法需要遍历所有点,且对于二维矩阵,获得所有峰值的位置算法的时间复杂度很高,为O(n3).作者不采用遍历的算法,而是通过寻找最大值的方法获取点源的中心位置.如图2所示,每次寻找矩阵中的最大值,记录其坐标(x,y);而后设定相邻峰值半径r,该点半径为r的区域内的所有像素的数值设为0;继续寻找下一个最大值,直到最大值低于设定门限TPeak,该算法的时间复杂度为O(n2).

图2 潜在点源探测算法流程图

2光谱特征提取及分类

由于背景噪声中存在数值较大的点,探测的潜在点源中存在错误提取,需要进行筛除.本节中,提出基于光谱特征分析的分类方法,首先对点源和背景的光谱进行分析,提取相应的特征;而后介绍采用SVM获取分类模型并帮助伪点去除的算法.

2.1光谱特征提取

文献[8,10]给出了光子数(PI)的描述,对于一片观测CCD,有C个通道,每个通道对应具有某一能量的光子,其映射关系由式(3)所示:

(3)

其中Ei表示第i个通道的总能量,运算符⎣·」表示向下取整.由此,设通道C为自变量,光子数PI为因变量,得到对应区域的光谱图.

如图3(a)为单个源的光谱图,其中虚线对应点源,实线表示背景噪声,选取的区域大小为10×10的方形区域.图3(b)所示为多个区域光谱叠加的结果,可以看出在[1,150]通道内,点源的PI远多于背景噪声,并且出现PI峰值的通道不同.表明根据光谱可以区分点源和背景.

图3 光谱特征对比图

(4)

(5)

其中x表示特征向量,xi表示第i个特征,i=1,2,…,N.K表示类的个数.

定义光谱特征向量x,

x=[PI1,…,PI150,Peak,Avg,Var],

(6)

其中Peak表示光谱中峰的个数,Avg表示所有通道PI的均值,Var表示方差.

2.2SVM分类器

支持向量机基于统计学习理论,采用结构风险最小化准则,在最小化样本点误差的同时,最小化结构风险,具有较高的泛化能力[13].除此之外,核函数的使用使得SVM对于高维特征的处理具有较高的效率[9].SVM作为有监督的机器学习方法,需要给训练集的样本添加标签,本研究的问题属于二分类,设定点源的标签为1,背景噪声的标签为-1.

首先给出样本的定义,编号为i的样本Si,设xi为特征向量,yi为样本标签.则有:

(7)

其中N表示样本的个数.SVM的目标就是寻找超平面w·x+b=0,使得位于该平面两边的点分别属于不同的类别,满足:

(8)

式(8)也可以写为紧凑形式:

(9)

SVM要求其决策边界的边缘是最大化的[9],等价于最小化下面的目标函数:

(10)

考虑到存在不可分样本的情况,引入惩罚因子c和松弛变量ξi,加上约束条件后,SVM分类的目标函数转化为:

(11)

该目标函数的求解可以归结为凸优化问题,通过拉格朗日乘子法求解,新的目标函数转变为该优化问题的拉格朗日函数,如下所示:

(12)

其中前两项是需要最小化的目标函数,第三项表示与松弛变量相关的不等式约束,最后一项是要求ξi的值非负的结果.

求解式(12),令L关于w,b,ξi的一阶导数为0并带入(12)中,得到该拉格朗日函数的对偶函数LD:

(13)

(14)

其中xr,xs为两类中任意一对支持向量.

具有决策边缘最大化的分类函数为:

(15)

其中x为待分类样本的特征向量,NSV表示支持向量的个数,NSV越小,特征的可分性越好.

若该分类问题是非线性的,引入核函数Φ(·)代替式(12),(14)中的内积xi·xj,要求该函数满足Mercer定理,即计算一对特征向量的核函数等价于在变换后的空间中计算这对向量的点积[9].非线性分类的最优分类函数由下式给出:

(16)

3实验及结果分析

结合前文的分析,设计实验,讨论算法的性能,并且以“wavdetect”算法的结果作为参考,进行对比.本节首先对实验对象NGC4552进行介绍;然后对潜在点源探测算法参数的选择进行说明;最后通过对多区域点源探测,分析提出的算法的性能.

3.1实验对象说明

本次实验选取的对象为NGC 4552,这是一个典型的椭圆星系,位于Virgo星系团中(红移z=0.001134).实验数据来自于“Chandra Observatory”观测平台,观测时间为2001年4月22至23日,曝光时间56.8 ks[15],X射线图像利用CIAO v4.8获得.由于原始图片较大,选取3个100×100的区域进行说明,如图4 (a)~4(c).其中区域1的点源亮度与背景接近,区域2的点源亮度远高于背景噪声,区域3包含暗、亮两种点源.

3.2参数选择

在提出的点源探测算法中有3个参数需要进行说明,分别是亮度阈值TBright,峰值门限TPeak以及相邻峰值半径r.其中相邻半径r的设定参考“wavdetect”参数设定,本次实验中r=4.对于TPeak,假设背景已去除,伪点筛除的性能足够好,本次实验中TPeak=0.对于TBright,不同的区域其数值的选择不同,针对3个区域,设定的亮度阈值分别为0.6627,0.0667以及0.0549,可以看出对于点源亮度与背景噪声接近时的亮度阈值门限远大于点源亮度较高时的情形.

3.3分类模型获取

选取Chandra平台多次观测的数据,对已经确定位置的点源,设定区域大小为10×10的方形区域,提取光谱特征向量.同理,对于背景区域也提取相同大小区域的光谱特征.本次实验的训练集共有300个测试样本,点源和背景样本的数量均为150.

利用libsvm工具箱[14]对训练集进行有监督训练.考虑到样本的特征维度较高,采用RBF核,并利用交叉检验获取分类准确率最高的惩罚因子c以RBF参数γ的数值.通过多次训练,取分类效果最好的模型作为伪点去除的分类器.

对于建立的SVM模型,其中的支持向量的个数为116,相对于训练样本个数是比较少的,说明了选取的特征的可分性很高.

3.4NGC 4552点源探测

利用确定的参数和分类器模型,对3个区域的点源进行探测并筛选错误点源,实验结果如表1所示.可以看出点源探测算法的准确率是较高的,探测到的点源个数与“wavdetect”相当.在处理时间上,算法处理时间与“wavdetect”持平.但考虑到所使用的MATLAB的算法执行效率远低于C语言,可以认为本方法的运算效率更高.

图4给出了探测的结果,在图4 (a)~4(c)中以点源中心位置坐标为中心,半径为5 pixels圈出了探测到的点源结构;图4(d)~4(f)是提出的点源探测算法与“wavdetect”算法探测到的点源中心坐标的对比图.可以看出,在区域1和区域3,两者探测到的点源基本相同;在区域2,两者探测的结果差异较大,有3个不同的点.结合图4(b),这3个点是点源的可能性更大.

表1 NGC 4552点源提取结果

图4 NGC 4552多区域点源探测结果图

4结论

根据X射线天文图像及不同成分光谱的特点,提出了基于SVM的点源探测算法.以天文学中广泛应用的“wavdetect”算法作为参考和对比,本算法被应用到NGC 4552星系X射线图像点源探测中,获得了接近于前者的准确率以及更高的处理效率.表明采用图像分割和峰值检测进行潜在点源探测,以及利用X射线图像光谱特征进行分类进行伪点筛除的方法具有较好的效果和可行性.

然而,该算法还存在不足.“wavdetect”能够给出识别点源的轮廓信息,而本算法目前只能给出位置信息;除此之外,对于星系中心所在的高亮区域,本算法的鲁棒性还有一定欠缺.这也是后续努力的目标.

参考文献:

[1]Selig M,Enßlin T A.Denoising,deconvolving,and decomposing photon observations-derivation of the D3PO algorithm [J].Astronomy & Astrophysics,2015,574:399.

[2]王婧颖.星系团和星系群中 IGM 标定关系的 X 射线研究及在低频射电观测中的应用 [D].上海:上海交通大学,2013.

[3]Masias M,Freixenet J,Lladó X,et al.A review of source detection approaches in astronomical images [J].Monthly Notices of the Royal Astronomical Society,2012,422(2):1674-1689.

[4]Hough H P.Method and means for recognizing complex patterns:U.S.Patent 3,069,654 [P].(1962-12-18).

[5]Freeman P E,Kashyap V,Rosner R,et al.A wavelet-based algorithm for the spatial analysis of Poisson data [J].The Astrophysical Journal Supplement Series,2002,138(1):185.

[6]Fruscione A,Mcdowell J C,Elvis M,et al.CIAO:Chandra′s data analysis [C]//Silta D R,Doxsey R E.Observatory Operations:Strategies Processes and Systems.SPIE:Orlando,2006.

[7]Luo L,Xu L,Zhang H.Improved centroid extraction algorithm for autonomous star sensor [J].Image Processing,IET,2015,9(10):901-907.

[8]Hong J,Schlegel E M,Grindlay J E.New spectral classification technique for X-ray sources:quantile analysis [J].The Astrophysical Journal,2004,614(1):508-517.

[9]Tan P,Steinbach M,and Kumar V,et al.数据挖掘导论(完整版) [M].北京:人民邮电出版社,2012.

[10]Pulse Spectrum.PI:Pulse Invariant [EB/OL].[2015-12-28].http://cxc.harvard.edu/ciao/dictionary/pi.html.

[11]Yang L,Li D X.Image threshold segmentation method based on genetic algorithm [J].Information Technology,2015,11:116-120.

[12]Otsu N.A threshold selection method from gray-level histograms [J].Automatica,1975,11(285-296):23-27.

[13]史峰,王辉,郁磊,等.MATLAB智能算法30个案例分析 [M].北京:北京航空航天大学出版社,2011.

[14]Chang C C,Lin C J.LIBSVM:A library for support vector machines [J].ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3):389-396.

[15]Xu Y,Xu H,Zhang Z,et al.Chandra study of X-ray point sources in the early-type galaxy NGC 4552 (M89) [J].The Astrophysical Journal,2005,631(2):809-819.

(责任编辑:包震宇)

An approach of point sources detection in X-ray astronomicalimage using support vector machine

MA Zhixian, WU Zhongyao, YOU hanxu, ZHU Jie

(School of Electronic Information and Electrical Engineering,Shanghai Jiao Tong University,Shanghai 200240,China)

Abstract:Since most of energy sources in our Universe appear point-like structures,the study of point sources detection method on astronomical images has become significant.In this paper,a point sources detection approach on X-ray astronomical image was proposed.Firstly,a thresholding method was used to separate the background noises.Then,the peak detection method was taken to detect the positions of potential point sources.After that,we extracted spectrum features of point sources and backgrounds,and generated the classification model using the Support Vector Machine.Finally,the correct point sources were got after discarding of spurious detections with the classification model.Our approach was applied to the X-ray image of Galaxy NGC 4552.Compared with “wavdetect”,our approach has the same performance of accuracy with a detection error rate of 5%,but a higher efficiency.

Key words:X-ray point sources; thresholding; peak detection; support vector machine; spectrum

中图分类号:TP 919.8

文献标志码:A

文章编号:1000-5137(2016)02-0230-07

通信作者:朱杰,中国上海市闵行区东川路800号,上海交通大学电子信息与电气工程学院,邮编:200240,E-mail:zhujie@sjtu.edu.cn

基金项目:国家自然科学基金(61271349,61371147,11433002);上海航天科技创新基金(SAST2015039)

收稿日期:2016-02-29

猜你喜欢

支持向量机光谱
基于三维Saab变换的高光谱图像压缩方法
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
星载近红外高光谱CO2遥感进展
改进 C-V 分割算法在多光谱成像仪中的应用
基于GPU的高光谱遥感图像PPI并行优化