APP下载

基于深度残差网络的恒星光谱类别预测

2021-05-11王天翔范玉峰王晓丽王传军

光谱学与光谱分析 2021年5期
关键词:集上恒星残差

王天翔,范玉峰,王晓丽,龙 潜,王传军

1.中国科学院云南天文台,云南 昆明 650011 2.中国科学院大学,北京 100049

引 言

LAMOST,全称“大天区面积多目标光纤光谱望远镜”,是世界上光谱获取率最高的望远镜,可同时获得4 000个天体光谱[1]。目前LAMOST已经发布7季数据,在最新发布的DR7中光谱数量已经高达1 448万条,如何对海量光谱进行有效利用成为亟待解决的问题。对这些光谱进行分类是天文数据处理的重要一环。通过对恒星光谱的分类,研究人员可以从中获取有效温度、质量和半径等物理信息,也可以研究银河系的结构和演化过程[2]。目前主流的恒星分类系统是MK光谱系统。每个恒星都根据其有效温度由高到低排序,依次分为O,B,A,F,G,K和M七种光谱型,每种光谱型又根据温度从高到低细分为0—9的次型光谱,本文不涉及光度型分类。

目前光谱自动分类的方法主要有三种类别,分别是基于距离度量的方法、机器学习的方法和基于模糊逻辑知识系统的专家系统。Schierscher等[3]将Artificial Neural Network(ANN)运用在对Sloan Digital Sky Survey(SDSS) DR7恒星光谱的分类上。Liu等[4]对LAMOST数据使用线指数和SVM算法对恒星光谱进行MK分类。其中SVM方法对A,F和G型恒星分类效果达到90%的准确率,对O,B,K和M型恒星只有52%的准确率。Kaushal等[5]针对已标注数据太少,难以训练深层神经网络分类器的问题,提出一种半监督方法。该方法在无监督学习阶段使用自动编码器对无标签数据进行提取特征和聚类,用有标签数据进行微调,最后在主要光谱类别的平均准确率达到89%。在涉及光谱次型的分类模型上,Gray等[6]提出一种专家系统,通过直接与MK分类标准对比来将恒星光谱分类。在信噪比大于100的数据集上可以达到0.6个光谱次型的精度。刘蓉等[7]使用非参数回归的方法在分类精度上达到了2.2个光谱次型。Kheirdastan等[8]使用ANN,SVM,K-means方法,分别达到1.39,1.53,1.65个光谱次型的精度,光谱次型的分类精度尚待提高。本文参照He等[9]提出的残差网络提出一种基于深度学习的方法来实现光谱次型高精度预测,并分析网络的预测依据。

本文的主要贡献有两个,第一是提升了光谱次型的预测精度,在LAMOST数据集上平均绝对误差为0.3个光谱次型。第二是让模型定位光谱特征,对光谱分类结果有一定的解释能力。

1 方 法

模型主要由卷积层、激活层、最大池化层、平均池化层、全连接层和恒等映射组成。在第一个卷积层使用形状为1*7的较大的卷积核来提取光谱的总体特征,并使用内核为1*3的最大池化层进行特征筛选。最大池化层可以在尽可能保留特征的同时减少参数,防止过拟合,提高模型的泛化能力。后面卷积层的卷积核大小可以在1*3,1*5和1*7等形状中选择,文章将在第2节分析使用不同形状卷积核得到的结果。模型采用GELU作为激活函数,可根据光谱数据分布进行非线性激活,表达式可以近似为

(1)

在最后一个卷积层使用平均池化层对特征图的参数求均值,得到一个Channel*1的向量作为全连接层的输入,其中Channel为特征图的通道数。全连接层的输出是一个标量,作为对输入光谱的预测结果。由于激活函数的不可逆性,以及卷积核提取光谱特征时或多或少会有信息丢失,深层模型存在退化问题。文献[9]中提出的残差结构的恒等映射使这个问题得到缓解。在训练网络时,由于残差结构的存在,反向传播可以同时沿着残差连接进行传播,提高了训练效率。如图1所示,这里以1*5的卷积核为例,其中黄色方块为卷积层,红色方块为最大池化层,粉红色为平均池化层,橙色为GELU激活层,紫色为全连接层。鉴于LAMOST数据集有非零几率存在错误标签,本文使用Log-Cosh作为损失函数来降低坏样本影响。Log-Cosh函数定义见式(2)

图1 模型总体架构Fig.1 Model architecture

(2)

2 实验部分

2.1 数据

实验采用的数据来自于LAMOST DR5中的部分恒星光谱。从星表中随机抽样,选取共80 000条恒星光谱,并剔除掉红移偏差为-999以及信噪比在u,g,r,i和z任一波段内为-999的异常数据,确保数据的有效性,数据集详情见Github(https://github.com/HubCatt/LAMOST-)。对数据集所有光谱截取3 699~8 750 Å波段,然后进行max-min光谱流量归一化

(3)

其中x为原始数据,min和max分别为光谱的最小、最大流量,X*为归一化后的光谱。归一化可以加快梯度下降求最优解的速度,加速模型收敛。个别类别缺乏数据,但由于本实验采用的是回归模型,所以并不影响训练效果。使用0.0~6.9来标记光谱类型,其中整数部分表示光谱型,小数部分表示光谱次型。例如2.2表示A2型恒星光谱。O型光谱由于数量较少,在本实验中都标记为0,各类别光谱数据按照7∶1∶2分为训练集、验证集和测试集。

2.2 光谱次型回归

使用训练集对模型进行训练,并在验证集上进行超参数调整。最后在测试集上对模型进行评估。定义以下三种误差来衡量模型性能。

最大绝对误差

i=1,2,…,n

(4)

式(4)中,n为样本个数。

平均绝对误差

(5)

标准差

(6)

为了选择最优的卷积核形状,本文对4种不同卷积核的网络在测试集上的预测结果进行对比,结果如表1所示。实验表明:网络使用1*5的卷积核时所得结果平均绝对误差小,预测误差分布集中在较小值。可以取得较好的结果,91.4%的光谱预测误差在0.5个光谱次型内,平均绝对误差降低到了0.3个光次谱型。

表1 各形状卷积核实验结果Table 1 Experimental results of convolution kernels with different shapes

将预测值作为横坐标,标签作为纵坐标画一个平面,平面上的一个点代表一条光谱,对测试集上共16 249个点作二阶非线性拟合,设置置信度为95(如图2所示),可以看出,所得到的函数基本可以看作斜率为1的直线,并且置信区间与直线基本重合,这表示模型可以很好的预测光谱型和光谱次型。

图2 二阶非线性拟合Fig.2 Second-order nonlinear fitting

将文献[7-8]中使用的非参数回归、K-Means方法,以及Adaboost CART回归树算法运用在本文中的训练集和测试集上。表2为深度残差网络与上述三种方法的预测误差统计,图3为深度残差网络与其余三种方法预测误差的分布情况。可见深度残差网络性能远优于非参数回归等方法。由于非参数回归中的核宽采用自适应方式,取待预测样本与训练集各个样本的最小距离,故在大样本数据集上耗时过大。与非参数回归相比,训练良好的深度残差网络预测速度快,并且准确率更高,误差更小,更符合大数据时代光谱处理的要求。相较于Adaboost算法需要训练多组弱回归(分类)器,本文的深度残差网络只需训练一个模型即可。

表2 深度残差网络与非参数回归等方法的预测误差统计Table 2 The statistical error of prediction by Deep residual network, Nonparametric regression, et al.

图3 深度残差网络与非参数回归等其他方法预测误差分布情况Fig.3 The error distribution of prediction by Deep residual network, nonparametric regression et al.

2.3 模型分析

利用文献[10]中提出的类别激活映射(CAM)方法分析模型在给一条光谱预测时所关注的一些特征,通过此分析模型可以对分类结果做出解释。将得到的CAM进行伪彩色变换,拉伸,并与光谱图像加权求和,便可得到图4所示的类别特征映射图像,其中颜色越接近红色的波段对分类越重要。实验中从A,F,G,K各抽取2条光谱画出CAM图像,并在每幅图下给出了各类别的分数。对于A型恒星光谱,模型关注的区域为H原子吸收线存在的波段,红色精确覆盖了Hbeta,Hgamma和Hdelat,但忽视了Halpha,初步推断是Halpha较弱的原因。对于F型恒星光谱,模型的关注区域为一阶Ca离子线存在的波段,H原子吸收线存在的波段,以及一阶S离子线存在的波段。在F型恒星中,中性H原子谱线和一阶金属离子谱线都是比较明显的。对于G型恒星光谱,模型关注区域大致在3 800~4 400 Å波段,G型星中Ca离子线达到了最强,并且出现一阶Fe离子线与一阶Ti离子线,这些谱线存在于这个波段。对于K型恒星光谱,其主要以金属谱线为主,模型主要以Mg线5 179 Å附近以及3 699~4 390 Å波段为判别依据。

图4 类别特征映射图(CAM)Fig.4 Class activation mapping

3 结 论

光谱分类是天文数据处理的重要一环,目前被广泛使用的模板匹配方法存在计算冗余、依赖数据质量等问题,其他一些方法大都没有涉及光谱次型的分类。本文提出基于深度残差网络的深度学习模型来对光谱类别进行预测,并赋予了模型可解释性。实验结果表明,本方法在所使用的LAMOST数据集上可以将91.4%光谱预测误差保证在0.5个光谱次型以内,预测平均绝对误差为0.3个光谱次型。与非参数回归等方法相比有更高的准确率和预测速度。在模型分析中,本文讨论了模型分类依据,主要包括Balmer线系、金属离子谱线。对比文献[4]中线指数分类提出的,Hgamma,Fe和Mg的组合对O-G分类较好,Fe,TiO2和G4300的组合对晚期恒星分类较好,本文CAM图像与文献[4]的结果基本相符,下一步工作将通过修改模型输出维度来提高CAM的定位精度。

猜你喜欢

集上恒星残差
基于双向GRU与残差拟合的车辆跟驰建模
(18)刺杀恒星
基于残差学习的自适应无人机目标跟踪算法
Cookie-Cutter集上的Gibbs测度
链完备偏序集上广义向量均衡问题解映射的保序性
基于递归残差网络的图像超分辨率重建
恒星的演化
恒星不恒
复扇形指标集上的分布混沌
平稳自相关过程的残差累积和控制图