基于影响空间和数据场的LAMOST低质量光谱分析
2022-04-06杨雨晴蔡江辉杨海峰赵旭俊殷晓娜
杨雨晴,蔡江辉,2*,杨海峰*,赵旭俊,殷晓娜
1. 太原科技大学计算机科学与技术学院,山西 太原 030024 2. 中北大学计算机科学与技术学院,山西 太原 030051
引 言
LAMOST[1-2]作为目前世界上光谱获取率最高的天文望远镜,为包括天文学以内的众多领域的科学研究提供了大量的珍贵样本[3-4]。 然而随着巡天工作的不断深入,待观测的目标越来越暗,低信噪比光谱的数量也越来越多。 如何有效处理低信噪比光谱一直是业内公认的难题。
为了获得低信噪比光谱中的有价值的信息,研究者们提出了诸多方法[5-8]。 比如说: 基于Hilbert-Huang变换[5]的方法将含噪短波信号进行经验模态分解,通过最大相关选择包含短波信号信息的固有模态函数进行信号重构,然后对重构信号进行谱减法降噪。 基于傅里叶变换的方法[6]利用傅里叶变换得到二维光谱的频率域,然后通过加权滤波、低通滤波过滤噪声。 Wigner变换[7]与加权滤波、低通滤波的结合有效地将噪声和信号分离,但其对截止频率的参考信号质量要求更高。 Robnik和Seljak[8]提出了一种基于高斯匹配滤波的行星检测技术。 目前,低信噪比光谱的分析和处理方法存在较多问题,针对低信噪比光谱流量分布特征开展分析的研究较少。 本文从低信噪比光谱流量分布特征分析出发,介绍了低信噪比光谱的分解及聚类分析方法。 该方法利用影响空间和数据场分析低信噪比光谱的流量分布特征并实现低信噪比光谱的特征提取,然后对特征谱进行聚类分析,最后探讨了各类低信噪比光谱的成因。
1 实验部分
1.1 数据选择
实验从LAMOST DR5 pipeline分类为Unknown的光谱数据中选取了50 000条光谱进行了实验。 以可能存在特征线的波长范围的局部谱(4 000~5 500,6 300~7 000,8 400~8 800 Å,如图1中黑色曲线所示)为数据对象,利用影响空间和数据场对局部谱进行分解和特征提取,并对特征谱(图1中粉色曲线)进行聚类,进而分析了各类光谱的差异,揭示了各类低质量光谱的形成原因。
图1 实验数据样例Fig.1 A sample of test data
1.2 特征分析方法
1.2.1 基于影响空间和数据场的低信噪比光谱分解
本文以位于同一影响空间[9]中的点为一个小集团且数据分布的稠密程度与小集团中的成员数成正比,每个数据通过场[10]发射的能量随距离的增加而降低。 光谱中的特征线分布稀疏,特征线相对远离其小集团内的其他非特征线则其数据场相对较弱。 各流量的数据场计算方式如式(1)
(1)
式(1),Xi为样本点,Xi=(fi,wi), (fi和wi为Xi的流量和波长),|IS(Xi)|为Xi的影响空间的成员数,‖Xi-Xj‖为样本Xi到Xj的欧式距离。
根据数据场对各样本点降序排列,并依次访问排序后的各点及其所在小集团的所有元素。 点的初始访问标志置为0,访问后其访问标志修改为1。 原始光谱被分解为0、1对应的两条谱线,以访问标志位为0的点为特征谱(图1中的粉色曲线)开展聚类分析。
1.2.2 聚类分析
以各特征谱所在小集团的数据场均值为插值对特征谱进行波长统一和流量插值,并对插值后的特征谱开展K-means聚类。
2 结果与讨论
对50 000条Unknown光谱进行了K-means聚类分析,将特征谱划分为5大类,每类的均值谱及光谱范例如图2—图6所示,其中左、中、右图分别为聚类中心光谱及其该类中随机的两条光谱。
Type1(图2),主要特征为连续谱信噪比较低,导致LAMOST pipeline模板匹配结果置信度较低,被分类为Unknown。 但是通过特定波长段较强的发射线特征,可以计算其视向速度(或红移),从而对其光谱类型作出初步诊断。 该类光谱占比较少,约2.7%。
Type2(图3),主要特征为光谱信噪比不低,且光谱蓝端或红端出现疑似特征线或分子带,但与线表无法匹配,此类光谱类型基本无法识别,约占Unknown总数的23.6%。
Type3(图4),主要特征为光谱蓝端信噪比极低,其他波长区域的连续谱和线的特征较弱,特征分析能发现部分疑似特征线,无法判定其类别,此类光谱占比达48.0%。
Type4(图5)主要特征为红蓝两端拼接问题导致5 700~5 900 Å局部光谱突起明显,其他波长区域的连续谱和线的特征较弱,模板匹配的效果较差,此类目标在屏蔽掉5 700~5 900 Å波长区域突起的光谱后,可能进一步识别其光谱类型,尤其对于某些珍稀天体的搜寻具有较好的价值,约占24.2%。
图2 Type1低信噪比光谱聚类中心及范例Fig.2 The center and examples of the first type of low SNR spectrum
Type5(图6)主要特征为存在大量缺省值,曲线中部分位置为一条平直线,特征信息丢失而无法分辨其类别,约占1.5%。
图3 Type2低信噪比光谱聚类中心及范例Fig.3 The center and examples of the second type of low SNR spectrum
图4 Type3低信噪比光谱聚类中心及范例Fig.4 The center and examples of the third type of low SNR spectrum
图5 Type4低信噪比光谱聚类中心及范例Fig.5 The center and examples of the fourth type of low SNR spectrum
图6 Type5低信噪比光谱聚类中心及范例Fig.6 The center and examples of the fifth type of low SNR spectrum
2.1 光谱的天区分布分析
图7统计了各类光谱的比例以及其在天区的分布。 可以看出,五类光谱总体分布在B,F,GAC和M天区,基本未呈现HD和VB天区的光谱,其中以M和F等较暗天区比例较高,而B和GAC天区相对较少;相比于其他类型,Type1在M天区所观测的比例较高,这和该类光谱信噪比总体较低,而发射线可以识别的特征是一致的。
图7 各类低信噪比光谱的比例及其在天区的分布Fig.7 The proportion of five types low SNR spectraand their distribution in the sky area
2.2 观测时的视宁度分析
图8给出了各类光谱在观测时的视宁度分布,图中未呈现明显的规律,视宁度大于2.8的比例较大,也即这些Unknown光谱观测时的环境较差,而Type3(图中绿色部分)有部分光谱观测环境较好,是由于其他原因导致pipeline无法有效识别。
图8 各类低信噪比光谱的视宁度分布Fig.8 Seeing distribution of low SNR spectra
2.3 观测目标的亮度分析
图9为各类光谱的亮度分布。 可以看出各类天体的星等峰值集中在17 mag,统计图的轮廓有向较暗的方向偏峰的特点,但特别暗的接近LAMOST极限星等的极少。 因此,目标天体的亮度影响光谱质量,从而无法被LAMOST pipeline识别的可能性比较微小。
图9 各类低信噪比光谱的亮度分布Fig.9 Magnitude distribution of low SNR spectra
2.4 各类光谱的光谱质量分布
我们在图10中统计了每类光谱在各波段的信噪比分布。 光谱信噪比大致集中在(0,30),Type5信噪比相对较高;红蓝两端,尤其是蓝端的光谱质量对整条光谱的影响较大,而i和z波段的质量相对较高,这与LAMOST整体的信噪比分布基本一致,即本次分类与光谱质量的分布没有直接关系。
2.5 光谱仪与光纤分布
图11为低质量光谱所对应的光谱仪和光纤号的统计结果。 各类光谱分布的主要光谱仪分别集中在: 3,12,15;1,12,16;1,6,13,15,16;1,12,13,14;1,5,10,11,15上,说明上述光谱仪观测的光谱质量总体较差。 以Type5为例,除4和16号光谱仪上没有出现数据点外,其余光谱仪上均有数据点分布;1号光谱仪的19号光纤,5号光谱仪的19号光纤,10号光谱仪的105和19号光纤,11号光谱仪的49号光纤以及15号光谱仪的19号光纤出现的低质量光谱较多,分别占该类总比例的5.41%,5.41%,6.76%和5.41%,9.46%以及5.41%,对这些光谱仪和光纤所对应的光谱,在深入分析时需进行检验。 上述统计数据对数据处理与分析乃至设备维护等工作具有一定的指导意义。
图10 各类低信噪比光谱的信噪比分布Fig.10 SNR distribution of low SNR spectra
图11 各类低信噪比光谱在光纤和光谱仪上的统计分布Fig.11 The statistics distribution of different types of low SNR spectra on SPID and FiberID
3 结 论
分析了低信噪比光谱的分布特征,给出了一种低信噪比光谱分解和聚类分析方法。 该方法借助影响空间和数据域的相关技术分析了光谱流量的空间分布,然后依据上述分布对低信噪比光谱进行分解和特征提取,最后在特征光谱上完成了最终的聚类和结果分析。 将所有低信噪比光谱分成了5类并揭示了各类光谱的形成原因,不仅为光谱观测计划的制定提供了依据,同时为低信噪比光谱分析和处理提供了新的手段。