基于改进密度聚类算法的天体光谱自动分类处理
2017-11-07邓诗宇屠良平
文/邓诗宇 屠良平
基于改进密度聚类算法的天体光谱自动分类处理
文/邓诗宇 屠良平
随着我国大型巡天计划的迅速开展,海量天体光谱数据分类,尤其高效的自动化分类技术成为了我们迫切研究的重要课题.本文提出了根据密度可达原则,改进的密度聚类算法——哈曼顿距离密度算法(MD-DBSCAN),应用于多种我们熟知的光谱中.针对来源于美国SDSS-DR8的天体光谱数据,对比DBSCAN、NED-DBSCAN、MD-DBSCAN三种算法的相关性能表现对比,得出相应的结论。
天体光谱分类 欧氏距离 标准化欧氏距离 曼哈顿距离 核主成分分析法
1 前言
光谱是一种包含了许多高维、非线性特征的复杂数据,同时伴随着大量的噪声和数值缺省的特点,并且涵盖着相应的信息,其中天体光谱最为突出。以中科院国家天文台的郭守敬望远镜(large sky area multi-object fiber spectroscopy telescope,LAMOST)为例,其于2008年落成,2011年正式开启巡天行动。它的投入使用为我国的天外星系研究,犹如天体光谱研究提供了百万级数量的数据。然而,面对如此海量的天体光谱数据,一些已经运作的天体光谱分类方法以无法实现精确的计算。由此,急切需要开发更高运算性能的天体光谱分类方法。本文运用了密度聚类方法(DBSCAN)可以很好的分析出光谱的类别,同时提出了改进的方法,以便可以更好的选取数据,进一步筛选精确的、有效的数据,获得更真实的天体光谱数据分类。
2 算法介绍
2.1 一种欧氏距离密度聚类算法定义与步骤
定义:
Def-1对象的Eps邻域和近邻,如图1所示;核心对象,边界对象,噪声对象,如图2所示;直接密度可达,密度可达,密度相连,如图3所示。
Def-2 欧氏距离:
步骤:
输入:数据集A,包括n个核心对象,参数Eps为对象的领域,参数MinPts为最小的长度值。输出:将位置相邻的对象聚为一簇(或聚类)集合,能够识别噪声对象。
Step 1:首先将数据集A中的所有对象标记为未处理状态;
Step 2:for数据集A中每个对象tdo;
Step 4:ift已经归入某个簇(或聚类)标记为噪声;检查对象t的Eps邻域REps(t);ifREps(t)包含的对象数小于MinPts;标记对象t为边界对象或噪声对象;标记对象t为核心对象,并建立新簇(或聚类)Q,并将t邻域内所有点加入Q;forREps(t)中所有尚未被处理的对象vdo;检查其Eps邻域REps(t),若REps(t)包含至少MinPts个对象,则将REps(t)中未归入任何一个簇(或聚类)的对象加入Q。
2.2 一种标准化欧氏距离密度算法定义与步骤
2.3 一种曼哈顿距离密度算法定义与步骤
3 数据准备与预处理
本文的数据来源于美国巡天计划中SDSSDR8的光谱,在其中0266-0305天区中选取噪声比中值大于10的星系(Galaxy)光谱3864条,类星体(Quasar)光谱3864条,恒星(Star)光谱3864条的原始数据,光谱波长插值到380.1nm~754.0nm,步长0.1nm,均匀采样3650个点。
噪声处理:一种基于均值漂移的尺度空间滤波法。
流量归一化:光谱流量进行归一化处理。
特征提取:核主成分分析。
图1:领域、近邻
图3:直接密度可达、密度可达、密度相连
原始光谱和特征光谱分别如图4和5所示。每次实验随机选取星系(Galaxy)、类星体(Quasar)、恒星(Star)中各自的样本数据,多次使用得出平均值,以便使实验的数据更趋近去真实情况。
4 结语
据我们所知目前天体光谱的分类还不成熟,需要待优化的方面很多,有待于我们去深入研究,但是其中的星系(Galaxy)、类星体(Quasar)、恒星(Star)已经被我们所熟知,也有一定的代表性,因此本文将三种实验方法应用其中,同时对比了ED-DBSCAN算法、NED-DBSCAN算法、MD-DBSCAN算法之间所表现出来的性能,结果MD-DBSCAN算法的平均分类稳定数目值更小且算法运算时间也更短。因此,在研究天体光谱分类中具有一定的现实意义。
图4:原始光谱
图5:特征光谱
[1]赵永恒.天体光谱获取率最高的望远镜—LAMOST.现代物理知识,2007(05):3-5.
[2]Zhao Y H,Chu Y Q,Li G P,et al.The Large Sky Area Multi-Object Fiber Spectroscopic Telescope (LAMOST).天文和天体物理学研究(Research in Astronomy and Astrophysi cs),2012,12(09):257-260.
[3]Rodriguez A,Laio A.Clustering by fast search and find of density peaks.Sci ence,2014,344(6191):1492-1496.
[4]Duan F Q,Zhou M Q,Zhang J C.Nonlinear scale space filtering based on mean shift[J].Journal of Jilin University,2007,37(03):634-639.
[5]Xiang M S,Liu X W,Shi J R,et al.Estimating stellar atmospheric parameters,absolute magnitudes and elemental abundances from the LAMOST spectra with Kernel-based principal component analysis.Monthly Notices of the Royal Astronomical Society,2017,464(10):3657-3678
作者单位辽宁科技大学理学院 辽宁省鞍山市 114051
邓诗宇 (1990-) 男,辽宁省辽阳市人。硕士研究生学历。运筹学与控制论专业。