基于深度学习方法分类红团簇星与红巨星分支恒星
2025-01-12王冠宇罗杨平黎鑫李启达
摘要:为了获取更纯净的红巨星样本,采用基于深度学习的方法对来自APOGEE-2的2万多颗星的演化类型进行了分类;使用APOKASC-2中的4216颗星为训练集,将神经网络训练出的模型应用到红巨星分支恒星和红团簇星的分类中;以APOKASC-2中的1807颗星为测试集,模型应用到测试集的结果显示,该方法的均方误差、均方根误差、平均绝对误差分别是4%、20%、9%。接着将模型应用到来自APOGEE-2的2万多颗星,得到结果的均方误差、均方根误差、平均绝对误差分别是5%、24%、8%。此外,分析使用了LAMOST DR7的数据进行测试,结果显示此方法的准确率目前能达到98%。通过对比,我们的方法与部分其他分类方法的准确率基本一致。未来可以将此方法应用于更大样本的红巨星分支恒星和红团簇星的分类工作。
关键词:红巨星支;机器学习;恒星参数;星震学;红团簇星
中图分类号:P145.9文献标志码:A文章编号:1673-5072(2025)01-0086-09
Classification of Red Clump Stars and Red Giant Branch StarsBased on Deep Learning Method
Abstract:To obtain a purer sample of red giant branch stars,the study classify the evolutionary types of over 20 000 stars from APOGEE-2 with deep learning method.The model is trained using 4216 stars from APOKASC-2 as the training set and applied to classify red giant branch and red clump stars.Using 1807 stars from APOKASC-2 as the test set,the result obtained shows that the mean square error,root mean square error,and mean absolute error of the method applied are 4%,20%,and 9%.Applying the model to more than 20 000 stars from APOGEE-2,the mean square error,root mean square error,and mean absolute error of the results are 5%,24%,and 8%.Additionally,the analysis is tested with data from LAMOST DR7,demonstrating a current accuracy of 98%.The accuracy of the method in this study is basically equal to that of some other classification methods after comparison.Therefore,our method can be used in larger sky surveys for the classification of red clump and red giant branch stars.
Keywords:red giant branch;machine learning;stellar parameters;asteroseismology;red clump stars
红巨星分支恒星是发生在氦核燃烧之前的一个恒星演化阶段。这类恒星拥有一个简并的氦核心,其氢壳层持续燃烧,光谱型通常属于K或者M类型,代表中低质量恒星。相比之下,红团簇星是一类低温的水平分支恒星,相比于大多数亮度相似的红巨星分支恒星,红团簇星的温度更高。它们被视为红巨星分支的高密度区域,或是朝向更高温度膨胀的一部分。它们大部分经历了氦闪,是进入稳定的中心氦核聚变燃烧阶段的低质量恒星[1-2]。由于红团簇星的光度和颜色表现出极高的稳定性,因此常被用作测量距离的标准烛光[3-6]。这一特性使得红团簇星在Teff-lg g图中形成一个高密度分布区域,相对容易识别。然而,值得注意的是,该位置也存在着来自红巨星分支恒星的污染[7],从而可能对银河系研究的一些课题产生影响。因此,需要挑选这些红巨星的不同演化状态并进行分类。
Hon等[8]采用监督学习,使用一维卷积神经网络从具有星震学信息的红巨星光谱中学习特征参数来训练模型,通过对来自Kepler巡天[9]的红巨星光谱图像进行训练和测试,成功区分出红巨星分支恒星(RGB)和氦燃烧恒星(HeB);此外,他们还预测了5379颗红巨星的演化状态。次年,Hon等[10]又改进了卷积神经网络分类器,使用来自Kepler巡天的14 983颗星的低分辨率光谱完成了对红巨星分支恒星(RGB)和氦燃烧恒星(HeB)的分类工作,并利用4年、356天、82天和27天的测光时间序列数据来训练模型,测试集的准确率分别达到了98.3%、98.3%、95.4%和93.2%。He等[11]运用XGBoost集成学习算法,利用LAMOST光谱[12]成功分类出红团簇星和红巨星分支恒星;同时,还用该方法结合Kepler所提供的星震学参数信息来训练模型,估算了主红团簇星(Primary RC)的年龄和质量,结果显示主红团簇星的年龄和质量估算的不确定性分别是31%和13%。李启达等[13]运用来自LAMOST DR5和Kepler的红团簇星样本,使用核主成分分析与随机森林相结合的方法对恒星年龄进行预测,测试集结果显示,模型的相对误差平均值为13%。Leung等[14]基于APOGEE DR14的数据,运用深度学习方法对恒星参数进行预测,结果表明,即使是在信噪比较低的情况下,也能确定18种元素丰度并且误差在0.03 dex。
本研究利用光谱和星震学参数信息的同时尝试用新的方法来探索这个问题。首先,应用随机森林算法计算出各特征参数之间的重要性因子。其次,选择重要度排序前4的参数,并结合来自APOKASC-2[15]的真实演化状态标签形成输入矩阵,完成对模型的训练,并通过模型在测试集的表现来评估其准确率。此外,本文还对Shetrone等[16]处理过的来自APOGEE-2[17]的具有真实演化状态标签的数据进行分类,进一步验证此方法的可行性。最后,我们与同样利用LAMOST DR7数据的He等[11]使用的XGBoost方法进行了比较。
1数据
1.1数据介绍
APOKASC[18]的目标是从Kepler中获得大量具有天体物理学意义的星震学数据,Kepler使用短周期和长周期两种观测模式,其中短周期适合研究矮星和亚巨星,而长周期适合研究红巨星。同时,来自APOGEE光谱能针对较冷的恒星和已脱离主序的演化阶段的恒星提供最精确的测量结果。APOGEE-2是SDSS-IV[19]的重要组成部分,主要利用高分辨率光谱研究银河系内的大概300 000颗恒星并确定恒星参数。
在数据方面,使用Pinsonneault等[15]创建的 APOKASC DR2星表,结合Borucki等[9]在Kepler所获得的星震学参数,总共得到6676颗带有演化状态的红团簇星(RC)与红巨星分支恒星(RGB)。由星震学得到的高精度恒星参数样本是目前可靠性最高的,所以很适合作为机器学习的训练样本集,更好地帮助本研究训练出优秀的模型。
同时,还使用了Shetrone等[16]从APOGEE-2 DR14选取的26 097颗带有演化状态的红团簇星与红巨星分支恒星的大样本作为此模型的第二个测试集,来进一步验证和测试模型的可行性。
最后,将模型应用于来自LAMOST DR7的1541颗带有演化标签的红巨星样本,以便与He等[11]使用的XGBoost方法进行比较。
1.2数据筛选
在机器学习的过程中,构建的模型参数会对模型的表现产生很大的影响,所以选取过程和方法尤为重要。APOKASC DR2 数据是由Pinsonneault等[15]的工作得到的,该星表中含有许多参数信息,如周期、频率、表面重力、年龄等。接着,通过与Leung和Bovy[14]的研究结果进行数据交叉匹配,获取每颗星的化学信息以及其他恒星参数[20],从而更好地探索不同参数之间和参数与演化状态之间的特征关系。同时,也剔除了含有坏值、空值的数据。经过处理后,共得到了6023颗同时具有空间位置、速度、年龄、金属丰度以及其他化学信息和演化状态的星。接着以7∶3的比例将其随机划分为训练集和测试集,分别包含4216颗和1807颗星。测试集中RGB和RC的比例分别为60%和40%。图1展示了该样本在Teff-lg g的分布,并且用不同颜色表示不同的演化状态。
样本中同时存在着少量演化状态为模糊状态(AMB)的星,本文测试了保留这些星而训练出的模型,如图2(a)所示,图中纵坐标对应每颗星的真实演化状态标签值,横坐标对应着模型所预测的演化状态标签值。对应颜色越深,表明对应值越趋于一致,预测的准确率也越高。数据表示对应预测的准确率,而括号内的数据表示对应的红巨星数量。同时,剔除这部分星而训练出的模型在相同测试集上的表现如图2(b)所示。通过对比发现,剔除演化状态为AMB的星后模型表现更好。
同样地,把来自APOGEE-2 DR14的数据也与Leung等[14]的研究结果进行交叉匹配,获取包括丰富的化学信息在内的更多参数信息。同时,也剔除了含有坏值、空值的数据。最后,得到24 946颗具有年龄、金属丰度以及化学信息和真实演化状态的星表来作为第2个测试集进一步验证此模型,其中RGB和RC的占比分别为78%和22%。
此外,按照He等[11]所描述的数据处理步骤,同样从LAMOST DR7中筛选出了1541颗带有演化状态的星。在去除了样本中含有空值的部分后,最终得到了1431颗星,作为与He等[11]方法进行比较的样本。
2方法
2.1特征参数的挑选
在本文中,首先使用随机森林算法对特征参数进行重要度排序以筛选和提取特征参数。随机森林算法[21]基于决策树,通过评估每个特征在决策树中的贡献,并得出其平均值,从而得出特征的重要性。借助于此方法,可以得出不同参数之间的相关性,并且挑选出最适合成为神经网络的输入矩阵的特征参数。同时该方法具有良好的鲁棒性,可以避免过拟合的情况。光谱参数通常包含关于恒星的化学丰度、温度等信息,这些参数对红巨星的分类至关重要,因为红巨星的光谱特征会受到其内部结构和化学丰度的影响。而星震学参数涉及到恒星内部的振动频率,提供了恒星内部结构和演化信息。在选取特征参数的过程中,组合不同的特征参数可能涉及到这些参数之间的相互联系。例如,将光谱参数和星震学参数相结合训练模型,可以更全面地揭示红巨星的性质,从而提高分类结果的准确性。
通过随机森林所得出的特征参数与恒星演化状态相关性排序如图3所示,这里选择排序的前20个参数进行展示。通过测试发现,许多的恒星参数之间也是高度相关的,如图4所示。
采取随机森林方法选择了前5个参数作为模型的特征参数,分别是R(半径)、Rho(密度)、Dnu(频率)、lg g(seis) (由星震学方法得到的表面重力)、age(年龄)。值得注意的是,这5个参数都是星震学参数。尽管完全由星震学参数参与训练的模型在测试集表现得非常好(图5(a)),但是这些参数数量极少,难以在大样本数据中普遍运用这些参数所训练出的模型,所以在特征参数的挑选上排除了一些只能由星震学获取的参数。当只保留光谱数据作为特征参数来训练模型时,在测试集中得到结果并不理想(图5(b))。综上分析,最终选择了采用光谱和星震学相结合的方式作为本文对特征参数的选取策略。这样不仅可以有效弥补只用光谱参数训练导致的模型准确率不足的问题,同时也可以弥补星震学数据缺乏的问题。
理论上,通过随机森林方法按重要度排序的参数选取的越多,训练出的模型效果也会更好,与之相对应的训练时间也会更长,测试结果如图6所示。但是在不断调整和测试的过程中,发现保留4个特征参数来参与模型的训练效果是相对最好的。所以本文选取重要度分数在0.08以上的参数,从而合理地选取前4个参数来估计恒星演化状态,分别是fakemag(预测得到的恒星亮度)、age(年龄)、lg g(表面重力)、Teff(有效温度)。在这4个参数中,只有年龄是通过星震学方法获取,其余3个参数是通过光谱得到。
2.2模型的选取
目前,通过星震学得到的恒星参数的样本量很少。因此,基于大样本数据,通过机器学习来获取恒星参数和性质是一种高效且准确性较高的方法。在本次工作中,使用了来自He等[22]在2015年提出的ResNet网络架构。在理论上,更深的神经网络会比浅层网络表现更好,但是事实上深层网络会因为层数太深,网络复杂程度过高,可能会出现过拟合等问题,反而表现不如一些浅层网络。因此He等[22]在研究中提出了残差网络来解决这个问题。在此次工作中,使用的是基于ResNet架构的ResNet_50 (208层) 神经网络。
在网络结构的优化器选择上,没有选择RMS prop,AdaGrad,SGD等传统优化器,而是选择了Google团队在2023年研究出的LION (EvoLved Sign Momentum)优化器,经过多种数据和多轮测试的结果表明,LION相比传统的优化器表现更好[23]。
随后,对网络超参数进行调整,并将由随机森林算法选取的前4个特征参数输入搭建好的网络中进行训练,最终选择表现最佳的模型。图7展示了本文方法的具体流程。
3结果
3.1测试集结果
经过300轮次的训练得到了最终的模型。图2(b)展示了此模型在测试集中1807颗星的预测结果和真实结果的混淆矩阵。通过观察混淆矩阵,发现将光谱和星震学参数结合并应用机器学习的方法具有显著优势。这种综合的输入方式不仅能够弥补仅使用光谱参数导致准确度不足的情况 (如图5(b)所示),同时也能够解决目前存在的星震数据稀缺的问题 (如图5(a)所示)。
在图2(b)中可以观察到训练模型对RGB的预测数量为1016颗,其准确率达到93%;而对RC的预测数量达到690颗,准确率达到了96%。这些结果表明此模型能准确地挑选出RGB和RC。
图8展示了本文模型预测结果与原始测试集在Teff-lg g分布上的比对。图8(a)、(b)分别显示了原始测试集中RC、RGB样本在Teff-lg g平面中的分布,其中不同颜色代表了对应的年龄信息。可以观察到测试样本中,年老的星基本上都属于红巨星分支恒星,而红团簇星大多都比较年轻。这也一定程度地说明了,年龄是与演化状态相关性较大的特征参数,是初步区分和判断的依据。图8(c)、(d)分别展示了模型预测结果中RC和RGB样本在Teff-lg g中分布,颜色同样是年龄信息,可以看到模型表现良好,基本上完整重构出了与真实标签值相同的结果。
3.2APOGEE样本的测试结果
图9展示了此模型运用在APOGEE-2的测试样本所得结果的混淆矩阵。如图所示,在经过数据处理筛选过后的24 946颗星中,演化状态为红团簇星的一共有5383颗。此模型的结果预测了4680颗属于RC,预测准确率达到87%。演化状态为RGB的有19 563颗,此模型结果预测有18 557颗属于RGB,预测准确率达到了95%,括号里显示了分别对应的恒星数量。不过,在模型作用在测试集数据的结果中,预测RC的准确率要比预测RGB高。但是,在用APOGEE-2的数据测试时,预测RGB的结果却比RC的结果要好,这可能是因为在APOGEE-2的训练中RC的覆盖率较少。
图10展示了模型预测的结果与原本测试集比较的Teff-lg g分布。上部左侧子图中显示了原测试集总体的Teff-lg g分布,其中不同的颜色代表着不同的演化状态,同时用对应颜色的实线表示了数据的密度轮廓。中间和右侧子图分别展示了测试集中真实RC和RGB的Teff-lg g分布,这里分区间画出了密度分布,并用白色的实线表示密度轮廓。下侧子图则是此模型所预测结果的Teff-lg g 分布,整体如上部子图所示,也用不同的颜色标识出了不同的演化状态。对比上下子图可以观察到,本研究不仅很好地挑选出了几乎所有RGB,而且也基本重构出了RC的分布。
3.3与其他工作对比
对照He等[11]的数据筛选步骤对LAMOST DR7进行筛选,一共得到了1431颗红巨星样本,接着运用模型对1431颗红巨星样本的分类,结果准确率达到98%。与之对比,He等[11]采用XGBoost方法在测试集上的准确率为96%。他们的测试集主要来自LAMOST DR7,通过与 Kepler交叉匹配后筛选出了信噪比大于70的1793颗星,作为验证XGBoost方法的测试样本。图11展示了模型的详细预测结果,其中纵坐标对应每颗星的真实演化状态标签值,横坐标对应模型所预测的演化状态标签值。观察到模型对RGB的预测数量为439颗,准确率达到98%;对RC的预测数量达到962颗,准确率也达到了98%。与之对比,He等[11]在测试集中对RGB的预测准确率为94%,对RC的预测准确率为97%。通过对比发现,在合理的误差范围内,本文方法的准确率与其基本一致。
4结论
本文通过Pinsonneault等[15]得出的来自APOKASC-2的大样本RGB和RC星表,构建了一个可以区分大样本RC和RGB的模型。接着,通过测试集和Shetrone等[16]从APOGEE-2 DR14选取的26 097颗带有演化状态的星表来测试了此模型的准确性。测试结果表明,模型在测试数据中能够准确地挑选出RGB和RC。对不同的演化状态进行了准确分类,证明了该方法的可行性。此外,本研究还将模型的准确率与其他分类方法进行了比较,结果显示与之前的研究结果在合理误差范围内基本一致。未来,计划进一步发展这一方法,并将其应用于更大规模的恒星样本,促进对银河系星族结构动力学的深入探讨[24-34]。
参考文献:
[1]ELSWORTH Y,HEKKER S,BASU S,et al.A new method for the asteroseismic determination of the evolutionary state of Red-Giant Stars[J].Monthly Notices of the Royal Astronomical Society,2017,466(3):3344-3352.
[2]CASSISI S,SALARIS M.A critical investigation on the discrepancy between the observational and the theoretical Red Giant luminosity function ‘Bump’[J].Monthly Notices of the Royal Astronomical Society,1997,285(3):593-603.
[3]PACZYNˊKKI B,STANEK K Z.Galactocentric distance with the OGLE and Hipparcos red clump stars[J].The Astrophysical Journal,1998,494(2):L219.
[4]GIRARDI L,GROENEWEGEN M A T,WEISS A,et al.Fine structure of the red giant clump from Hipparcos data,and distance determinations based on its mean magnitude[J].Monthly Notices of the Royal Astronomical Society,1998,301(1):149-160.
[5]ALVES D R.K-band calibration of the red clump luminosity[J].The Astrophysical Journal,2000,539(2):732.
[6]GROENEWEGEN M A T.The red clump absolute magnitude based on revised Hipparcos parallaxes[J].Astronomy amp; Astrophysics,2008,488(3):935-941.
[7]LOˊPEZ-CORREDOIRA M,CABRERA-LAVERS A,GARZOˊN F,et al.Old stellar Galactic disc in near-plane regions according to 2MASS:scales,cut-off,flare and warp[J].Astronomy amp; Astrophysics,2002,394(3):883-899.
[8]HON M,STELLO D,YU J.Deep learning classification in asteroseismology[J].Monthly Notices of the Royal Astronomical Society,2017,469(4):4578-4583.
[9]BORUCKI W J,KOCH D,BASRI G,et al.Kepler planet-detection mission:introduction and first results[J].Science,2010,327(5968):977-980.
[10]HON M,STELLO D,YU J.Deep learning classification in asteroseismology using an improved neural network:results on 15 000 Kepler red giants and applications to K2 and TESS data[J].Monthly Notices of the Royal Astronomical Society,2018,476(3):3233-3244.
[11]HE X J,LUO A L,CHEN Y Q.Identification,mass,and age of primary red clump stars from spectral features derived with the LAMOST DR7[J].Monthly Notices of the Royal Astronomical Society,2022,512(2):1710-1721.
[12]ZHAO G,ZHAO Y H,CHU Y Q,et al.LAMOST spectral survey:an overview[J].Research in Astronomy and Astrophysics,2012,12(7):723.
[13]李启达,李清,罗杨平.基于 LAMOST 数据与机器学习方法测定大样本恒星年龄[J].西华师范大学学报(自然科学版),2023,44(2):195-200.
[14]LEUNG H W,BOVY J.Deep learning of multi-element abundances from high-resolution spectroscopic data[J].Monthly Notices of the Royal Astronomical Society,2019,483(3):3255-3277.
[15]PINSONNEAULT M H,ELSWORTH Y P,TAYAR J,et al.The second APOKASC catalog:the empirical approach[J].The Astrophysical Journal Supplement Series,2018,239(2):32.
[16]SHETRONE M,TAYAR J,JOHNSON J A,et al.Constraining metallicity-dependent mixing and extra mixing using [C/N] in alpha-rich field giants[J].The Astrophysical Journal,2019,872(2):137.
[17]MAJEWSKI S R,SCHIAVON R P,FRINCHABOY P M,et al.The Apache Point Observatory Galactic Evolution Experiment (APOGEE)[J].The Astronomical Journal,2017,154(3):94.
[18]PINSONNEAULT M H,ELSWORTH Y,EPSTEIN C,et al.The APOKASC catalog:an asteroseismic and spectroscopic joint survey of targets in the Kepler fields[J].The Astrophysical Journal Supplement Series,2014,215(2):19.
[19]BLANTON M R,BERSHADY M A,ABOLFATHI B,et al.Sloan digital sky survey IV:mapping the Milky Way,nearby galaxies,and the distant universe[J].The Astronomical Journal,2017,154(1):28.
[20]SKRUTSKIE M F,CUTRI R M,STIENING R,et al.The two Micron All Sky Survey (2MASS)[J].The Astronomical Journal,2006,131(2):1163.
[21]BREIMAN L.Random forests[J].Machine Learning,2001,45:5-32.
[22]HE K,ZHANG X,REN S,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2016:770-778.
[23]CHEN X N,LIANG C,HUANG D,et al.Symbolic discovery of optimization algorithms[Z/OL].(2023-5-8)[2024-10-7]https://arxiv.org/pdf/2302.06675.
[24]WANG H F,LO′PEZ-CORREDOIRA M,CARLIN J L,et al.3D Asymmetrical motions of the Galactic outer disc with LAMOST K giant stars[J].Monthly Notices of the Royal Astronomical Society,2018,477(3):2858-2866.
[25]WANG H F,LIU C,XU Y,et al.Mapping the Milky Way with LAMOST-III.Complicated spatial structure in the outer disc[J].Monthly Notices of the Royal Astronomical Society,2018,478(3):3367-3379.
[26]WANG H F,CARLIN J L,HUANG Y,et al.Mapping the Galactic disk with the LAMOST and Gaia red clump sample.III.A new velocity substructure and time stamps of the Galactic disk asymmetry in the disk between 12 and 15 kpc[J].The Astrophysical Journal,2019,884(2):135.
[27]WANG H F,LO′PEZ-CORREDOIRA M,HUANG Y,et al.Mapping the Galactic disc with the LAMOST and Gaia Red Clump sample:II.3D asymmetrical kinematics of mono-age populations in the disc between 6-14 kpc[J].Monthly Notices of the Royal Astronomical Society,2020,491(2):2104-2118.
[28]WANG H F,LO′PEZ-CORREDOIRA M,HUANG Y,et al.Mapping the Galactic disk with the LAMOST and Gaia red clump sample.VI.Evidence for the long-lived nonsteady warp of nongravitational scenarios[J].The Astrophysical Journal,2020,897(2):119.
[29]WANG H F,HUANG Y,ZHANG H W,et al.Diagonal ridge pattern of different age populations found in Gaia-DR2 with LAMOST main-sequence turnoff and OB-type stars[J].The Astrophysical Journal,2020,902(1):70.
[30]WANG H F,HAMMER F,YANG Y B,et al.The dark matter tidal stripping history of the Sagittarius core with N-body simulations[J].The Astrophysical Journal Letters,2022,940(1):L3.
[31]WANG H F,CHROB A′ KOV A′" ,L O′PEZ-CORREDOIRA M,et al.Mapping the Milky Way disk with GAIA DR3:3D extended kinematic maps and rotation curve to≈ 30 kpc[J].The Astrophysical Journal,2022,942(1):12.
[32]WANG H F,YANG Y B,HAMMER F,et al.Reconstructing the whole 6D properties of the Sagittarius stream with N-body simulation[Z/OL].(2023-12-20)[2024-10-7].https://arxiv.org/pdf/2204.08542.
[33]李祥,杨鹏,罗杨平.基于LAMOST和Gaia DR3探测银河系盘翘曲的进动[J].西华师范大学学报(自然科学版),2024,45(1):87-92.
[34]杨鹏,李祥,罗志全,等.利用LAMOST红团簇星探索银河系外盘屋脊结构分布[J].西华师范大学学报(自然科学版),2023,44(6):647-654.