APP下载

基于改进密度聚类算法的天体光谱自动分类处理

2017-11-07邓诗宇屠良平

电子技术与软件工程 2017年17期
关键词:欧氏天体光谱

文/邓诗宇 屠良平

基于改进密度聚类算法的天体光谱自动分类处理

文/邓诗宇 屠良平

随着我国大型巡天计划的迅速开展,海量天体光谱数据分类,尤其高效的自动化分类技术成为了我们迫切研究的重要课题.本文提出了根据密度可达原则,改进的密度聚类算法——哈曼顿距离密度算法(MD-DBSCAN),应用于多种我们熟知的光谱中.针对来源于美国SDSS-DR8的天体光谱数据,对比DBSCAN、NED-DBSCAN、MD-DBSCAN三种算法的相关性能表现对比,得出相应的结论。

天体光谱分类 欧氏距离 标准化欧氏距离 曼哈顿距离 核主成分分析法

1 前言

光谱是一种包含了许多高维、非线性特征的复杂数据,同时伴随着大量的噪声和数值缺省的特点,并且涵盖着相应的信息,其中天体光谱最为突出。以中科院国家天文台的郭守敬望远镜(large sky area multi-object fiber spectroscopy telescope,LAMOST)为例,其于2008年落成,2011年正式开启巡天行动。它的投入使用为我国的天外星系研究,犹如天体光谱研究提供了百万级数量的数据。然而,面对如此海量的天体光谱数据,一些已经运作的天体光谱分类方法以无法实现精确的计算。由此,急切需要开发更高运算性能的天体光谱分类方法。本文运用了密度聚类方法(DBSCAN)可以很好的分析出光谱的类别,同时提出了改进的方法,以便可以更好的选取数据,进一步筛选精确的、有效的数据,获得更真实的天体光谱数据分类。

2 算法介绍

2.1 一种欧氏距离密度聚类算法定义与步骤

定义:

Def-1对象的Eps邻域和近邻,如图1所示;核心对象,边界对象,噪声对象,如图2所示;直接密度可达,密度可达,密度相连,如图3所示。

Def-2 欧氏距离:

步骤:

输入:数据集A,包括n个核心对象,参数Eps为对象的领域,参数MinPts为最小的长度值。输出:将位置相邻的对象聚为一簇(或聚类)集合,能够识别噪声对象。

Step 1:首先将数据集A中的所有对象标记为未处理状态;

Step 2:for数据集A中每个对象tdo;

Step 4:ift已经归入某个簇(或聚类)标记为噪声;检查对象t的Eps邻域REps(t);ifREps(t)包含的对象数小于MinPts;标记对象t为边界对象或噪声对象;标记对象t为核心对象,并建立新簇(或聚类)Q,并将t邻域内所有点加入Q;forREps(t)中所有尚未被处理的对象vdo;检查其Eps邻域REps(t),若REps(t)包含至少MinPts个对象,则将REps(t)中未归入任何一个簇(或聚类)的对象加入Q。

2.2 一种标准化欧氏距离密度算法定义与步骤

2.3 一种曼哈顿距离密度算法定义与步骤

3 数据准备与预处理

本文的数据来源于美国巡天计划中SDSSDR8的光谱,在其中0266-0305天区中选取噪声比中值大于10的星系(Galaxy)光谱3864条,类星体(Quasar)光谱3864条,恒星(Star)光谱3864条的原始数据,光谱波长插值到380.1nm~754.0nm,步长0.1nm,均匀采样3650个点。

噪声处理:一种基于均值漂移的尺度空间滤波法。

流量归一化:光谱流量进行归一化处理。

特征提取:核主成分分析。

图1:领域、近邻

图3:直接密度可达、密度可达、密度相连

原始光谱和特征光谱分别如图4和5所示。每次实验随机选取星系(Galaxy)、类星体(Quasar)、恒星(Star)中各自的样本数据,多次使用得出平均值,以便使实验的数据更趋近去真实情况。

4 结语

据我们所知目前天体光谱的分类还不成熟,需要待优化的方面很多,有待于我们去深入研究,但是其中的星系(Galaxy)、类星体(Quasar)、恒星(Star)已经被我们所熟知,也有一定的代表性,因此本文将三种实验方法应用其中,同时对比了ED-DBSCAN算法、NED-DBSCAN算法、MD-DBSCAN算法之间所表现出来的性能,结果MD-DBSCAN算法的平均分类稳定数目值更小且算法运算时间也更短。因此,在研究天体光谱分类中具有一定的现实意义。

图4:原始光谱

图5:特征光谱

[1]赵永恒.天体光谱获取率最高的望远镜—LAMOST.现代物理知识,2007(05):3-5.

[2]Zhao Y H,Chu Y Q,Li G P,et al.The Large Sky Area Multi-Object Fiber Spectroscopic Telescope (LAMOST).天文和天体物理学研究(Research in Astronomy and Astrophysi cs),2012,12(09):257-260.

[3]Rodriguez A,Laio A.Clustering by fast search and find of density peaks.Sci ence,2014,344(6191):1492-1496.

[4]Duan F Q,Zhou M Q,Zhang J C.Nonlinear scale space filtering based on mean shift[J].Journal of Jilin University,2007,37(03):634-639.

[5]Xiang M S,Liu X W,Shi J R,et al.Estimating stellar atmospheric parameters,absolute magnitudes and elemental abundances from the LAMOST spectra with Kernel-based principal component analysis.Monthly Notices of the Royal Astronomical Society,2017,464(10):3657-3678

作者单位辽宁科技大学理学院 辽宁省鞍山市 114051

邓诗宇 (1990-) 男,辽宁省辽阳市人。硕士研究生学历。运筹学与控制论专业。

猜你喜欢

欧氏天体光谱
基于三维Saab变换的高光谱图像压缩方法
太阳系中的小天体
测量遥远天体的秘籍
一分钟认识深空天体
星载近红外高光谱CO2遥感进展
新天体类型罕见
苦味酸与牛血清蛋白相互作用的光谱研究
铽(Ⅲ)与PvdA作用的光谱研究
基于多维欧氏空间相似度的激光点云分割方法
三维欧氏空间中的球面曲线