多任务Lasso回归法在恒星光谱物理参量估计中的应用∗
2015-06-26常丽娜张培爱
常丽娜 张培爱
(暨南大学信息科学技术学院广州510632)
多任务Lasso回归法在恒星光谱物理参量估计中的应用∗
常丽娜 张培爱†
(暨南大学信息科学技术学院广州510632)
多任务学习方法在机器学习、计算机视觉、人工智能领域已得到广泛关注,利用任务间的相关性,将多个任务同时学习的效果优于每个任务单独学习的情况.采用多任务Lasso回归法(Multi-task Lasso Regression)用于恒星光谱物理参量的估计,不仅可以获取不同物理参量间的共同的特征信息,而且也可以很好地保留不同物理参量的特有的补充信息.使用恒星大气模拟模型合成光谱库ELODIE中的光谱数据和美国大型巡天项目Sloan发布的SDSS实测光谱数据进行实验,模型估算精度优于相关文献中的方法,特别是对重力加速度(lgg)和化学丰度([Fe/H])的估计.实验中通过改变光谱的分辨率,施加不同信噪比(SNR)的噪声,来说明模型的稳定性强.结果表明,模型精度受光谱分辨率和噪声的影响,但噪声对其影响更大,可见,多任务Lasso回归法不仅操作简便,稳定性强,而且也提高了模型的整体预测精度.
恒星:基本参数,方法:数据分析,方法:统计,方法:其它诸多方面
1 引言
现在的大口径兼大视场望远镜,如我国的郭守敬望远镜[1−2],美国的Sloan数字巡天望远镜[3−4]等,可以得到大量的光谱数据.如何在海量光谱数据中测量出恒星光谱的物理参量也成为了天体光谱数据处理中最基本、最重要的内容.恒星光谱物理参量主要有表面有效温度(Teff)、重力加速度(lgg)与化学丰度([Fe/H]).目前,人们研究提出了多种关于恒星光谱物理参量自动估计的方法,主要有人工神经网络(Arti fi cial Neural Network,ANN)算法和最近邻算法(Minimum Distance Method,MDM).如由Bailer-Jones设计的820:5:5:1结构的ANN[5]用于恒星表面有效温度的预测,2000年又开发了双隐层、多感知器的前馈ANN系统;Fuentes等的K-近邻算法[6]、Allende的加权平均算法[7]、Zhang等的变窗宽非参数回归法[8−9]等都是MDM的变形.
由于光谱数据海量的特点,以及光谱在传输、接收过程中往往受到大量噪声的干扰,例如光子噪声、天光线以及设备的噪声等,影响了最终恒星光谱物理参量的估计效果.在进行模型预测前,要对高维数据降维、剔除噪声干扰,相关的方法有主成分分析(PCA)、滤波法等.Tibshirani于1996年提出的Lasso[10](Least Absolute Shrinkage Selection and Operator)算法由于其计算速度快、精度高,备受青睐.恒星光谱包含了恒星中物理参量的信息,但目前许多模型分开考虑恒星光谱物理参量,失去了物理参量间潜在的联系.近年来,在机器学习、计算机视觉、人工智能领域,多任务学习(Multi-task Learning,MTL)方法引起了众多学者的研究兴趣,目的是获取不同任务间的潜在关系,将多个相关任务同时学习,进而充分利用任务间丰富的信息.这样的学习方法有利于任务的互相学习,更能突显它能提高预测模型的预测效果和泛化性能的优势.比如,Evgeniou等[11]使用多任务支持向量机的方法用于提高消费者消费偏好的预测准确率;Bakker等[12]通过实验说明了在少量图像类别情况下多任务分类方法能够提高分类器的泛化性能.虽然使用Lasso可以对每个任务独立地进行有效的学习[13],但它忽略了任务间潜在的联系,易造成数据的过度拟合,影响最终模型的表现效果.在多任务学习中,Liu等[14]通过有效的L21范式最小化可以让不同的任务获取共同的特征,然而这种约束过强,没有考虑每个任务所特有的特征信息,可能会降低预测模型的泛化性能.而本文使用的多任务Lasso可以克服这些不足,在对多个任务同时学习的同时,不仅可以获取不同任务间的共同的特征信息,而且也可以很好地保留不同任务的补充信息[15].如果将建模分析每个物理参量的问题看作一个任务,则可将物理参量同时建模分析的问题转换为多任务学习问题,从真正意义上实现物理参量的同时建模分析.然后在多任务Lasso的基础上进行通常的线性回归对恒星光谱物理参量lg Teff、lg g、[Fe/H]进行估计,它避免了多个任务分开独立计算的繁琐,更重要的是提高了恒星光谱物理参量的整体估计精度和预测模型的泛化性能.
2 多任务Lasso回归法
在大数据时代的背景下,多任务处理变得尤为重要.假设有m个任务,给定数据n是样本数,d是样本特征变量数,j=1,···,m. Xj所对应的响应变量对于恒星光谱,涉及的所有物理参量对应的光谱数据是一样的,即对所有任务,输入样本Xj是相同的,但本文使用的方法不限于此,它具有更广的适用性.需要预测的线性回归模型[16]为:
其中,wj∈Rn×1,表示任务j的回归系数向量.为了同时计算m个任务的m个回归系数向量,即W=(w1,···,wj,···,wm),需要优化的多任务Lasso模型为:
虽然传统的Lasso使用稀疏回归(基于L1-范式)可以有效、独立地对每个任务进行预测,但它忽略了任务间潜在的联系,易造成数据的过度拟合.基于L21范式的组稀疏可以让不同的任务获取共同的特征,然而这种约束过强,没有考虑每个任务所特有的特征信息,可能会影响预测模型的泛化性能.上述(2)式中,不同任务在获取共同的特征信息的同时,正则化项D又能有效地保留不同任务的特有补充信息.
对于(2)式的求解采用加速梯度法[17](Accelerated Gradient Method,AGM),AGM不像传统的梯度法,在每次迭代中只用最近的点作为当前的搜索点,而是用前两个点的一个线性组合作为新的搜索点,使收敛速度更快.同时,为了确定参数λ1、λ2,我们使用交叉验证(Cross Validation)进行参数优选.
3 数据
实验数据一:选取恒星大气模拟模型合成光谱库ELODIE中的1 800条光谱数据用于实验,所有的光谱均已经过流量校准.所有样本的光谱波长λ=421~650 nm,光谱的分辨率Δλ=1 nm.3个物理参量的数据范围分别为:Teff:3700~13386 K,lg g:0.00~4.80 dex,[Fe/H]:−2.94~1.00 dex.
实验数据二:选取美国大型巡天项目Sloan发布的SDSS-DR7中的4 000条恒星光谱数据.这些光谱来自102个板块(0266—0367),每个板块最多可观测到640条光谱.实际中随机选用每个板块的部分恒星光谱数据用于实验,在对数波长格式下将其移动到静止波长,截取共同波长λ=398~794 nm,并使用线性插值按照分辨率Δλ=0.1 nm对光谱进行采样.3个物理参量的数据范围分别为:Teff:4163~9685 K,lg g:1.26~4.99 dex,[Fe/H]:−3.44~0.18 dex.
为了更精确地对温度进行描述,实验中用温度的对数值lg Teff代替温度Teff.对每个物理参量的测量效果,采用平均绝对误差δ(mean absolute error:δ)、误差的标准差v(standard deviation:v)和平均误差u(mean error:u)来度量.
4 实验结果与分析
基于ELODIE合成光谱数据,在实验中随机选取ELODIE合成光谱库中的1 800条光谱,分成两部分,75%的样本作为训练集,剩下25%的样本作为测试集.每条光谱在训练和测试之前,首先进行二范数行归一化的预处理,归一化操作为:已知n条d维的光谱数据然后用多任务Lasso回归法对恒星光谱物理参量做估计.我们把这种方法同文献[18-19]的方法做对比,有基于主成分分析的非参数回归法(PCA+non-parameter)、基于Haar小波的非参数回归法(Haar+non-parameter)、基于主成分分析的支持向量机回归法(PCA+SVR)、基于Haar小波的支持向量机回归法(Haar+SVR).参量lg Teff、lg g、[Fe/H]平均绝对误差δ和误差的标准差v的统计结果见表1.
表1 多任务Lasso回归法和相关文献方法对ELODIE数据lgTeff、lgg、[Fe/H]的预测结果误差的比较Table 1 The error comparison of the predicted lgTeff,lgg,and[Fe/H]in the ELODIE data estimated with the multi-task Lasso regression and the methods in the related literature
由表1可见,多任务Lasso回归方法对恒星光谱物理参量的预测效果优于相关文献中的方法,尤其是对lgg和[Fe/H]的预测.观察表2,3个物理参量lgTeff、lgg、[Fe/H]的平均误差均在0附近,说明系统偏差较小;且lgTeff、lgg、[Fe/H]的预测值与真值之间的相关系数分别达到0.985 3、0.966 1、0.779 8;计算不同物理参量间的相关性,lgg的残差与[Fe/H]残差的相关性为0.256 9,Teff残差与[Fe/H]残差的相关性为0.218 9,但是Teff的残差与lgg残差的相关性仅为0.181 5,可见,3个物理量间存在相关性,但并不是很强,这可能与物理参量本身的性质有关,或是恒星的演化影响了彼此间的相关性.图1对上述情况进行了直观描述,lgTeff、lgg、[Fe/H]的估计值有着很好的拟合效果,其中lgTeff的样本点分布均匀,只有极少数偏离真实值较远,拟合效果最好;误差的正态分布图进一步说明了多任务Lasso回归模型适合进行恒星光谱物理参量的估计.对于[Fe/H]的估计值与真值的对比图,可以发现有若干偏离真值较远的点,造成的原因有:(1)这些点可能来自不同的星体,而不同星体之间属性差别较大;(2)观测或仪器的偶然因素造成部分数据偏离真值较大;(3)[Fe/H]本身的复杂性影响了其性能的规律性表现.
表2 多任务Lasso回归法对ELODIE数据lgTeff、lgg、[Fe/H]的预测结果Table 2 The predicted results of lgTeff,lgg,and[Fe/H]in the ELODIE data estimated with the multi-task Lasso regression
鲁棒性也是衡量模型优越性的因素之一,为此将所有光谱的分辨率从Δλ=1 nm分别变化到2 nm、3 nm,并分别对这些光谱添加信噪比(Signal to Noise Ratio,SNR)依次为SNR=20,50,100,150,200的噪声.图2描述了平均绝对误差δ在Δλ=1 nm,2 nm,3 nm下随不同信噪比SNR的变化趋势.3个物理参量的预测精度受光谱分辨率、噪声的影响,当分辨率从Δλ=1 nm变化到Δλ=3 nm,两种误差结果随之增大,预测精度降低.信噪比越低,对3个物理参量的估计结果影响越大,随着信噪比的增大,误差逐渐减小,当SNR=100时,误差基本趋于稳定.综合来讲,噪声对3个物理参量预测效果的影响大于分辨率对它们的影响.误差的标准差在天文学中又叫误差的弥散度,对比3个物理参量的误差的标准差,lgTeff的v值相对最小,也说明了模型在预测lgTeff时稳定性最强,[Fe/H]次之,lgg相对最差.
针对恒星光谱物理参量的估计,本文又作了进一步的实验.由于根据恒星温度的不同,可以将恒星光谱分为7大类:O:>25000 K;B:11000~25000 K;A:7500~11000 K;F:6000~7500 K;G:5000~6000 K;K:3500~5000 K;M:<3500 K,则计算实验所用ELODIE光谱数据的不同光谱类型的物理参量的平均绝对误差δ,实验结果见图3.其中对F类恒星光谱,即有效温度Teff在6000~7500 K时,物理参量误差较大,但仍在误差允许的范围内.
为更好地说明该模型的有效性,下面将其应用于SDSS实测光谱数据.随机选取SDSS实测光谱库中的4 000条光谱,分成两部分,75%的样本作为训练集,剩下25%的样本作为测试集.每条光谱在训练和测试之前,首先进行二范数行归一化的预处理,然后用多任务Lasso回归法对3个物理参量做估计.表3描述了所有光谱的分辨率从Δλ= 0.1 nm,分别变化到Δλ=0.2 nm,Δλ=0.3 nm的3种误差结果.图4对不同类型恒星光谱物理参量的平均绝对误差进行了描述.可见,SDSS实测数据中3个物理参量的预测效果要比ELODIE合成数据的预测效果好,但是有一些共同点:lgTeff的精度最高, [Fe/H]次之,lgg相对最差;平均误差u都在0附近,说明系统偏差小.在不改变光谱分辨率的情况下,lgTeff、lgg、[Fe/H]的预测值与真实值的相关系数R分别为:0.991 7, 0.893 6,0.959 9.以上情况也说明了多任务Lasso回归法针对不同的数据集,对恒星光谱物理参量的估计是稳定的,预测模型的泛化性能比较好.另一方面,类似于ELODIE数据,不同物理参量间存在相关性,但不是很强,lgg的残差与[Fe/H]残差的相关性为0.310 6,Teff残差与[Fe/H]残差的相关性为0.233 2,Teff的残差与lgg残差的相关性为0.260 6.这也是大样本巡天光谱数据自动分析面临的问题,只有考虑了影响光谱的各种因素和演化模型,大样本恒星光谱物理参量的估计才能完全自动化.
表3 SDSS数据物理参量lgTeff、lgg、[Fe/H]在不同分辨率下的实验结果Table 3 The error analysis of lgTeff,lgg,and[Fe/H]with di ff erent resolutions in the physical parameters of SDSS data
图1 左图是光谱物理参量lgTeff、lgg、[Fe/H]的估计值与ELODIE真实值的对比;右图是lgTeff、lgg、[Fe/H]的误差直方图及正态分布情况.Fig.1 Left:the comparison of the estimated spectral physical parameters lgTeff,lgg,and[Fe/H]in the ELODIE data with their real values.Right:the histogram and normal distribution of lgTeff,lgg,and [Fe/H]residuals
图2 平均绝对误差在分辨率Δλ=1 nm,2 nm,3 nm、信噪比SNR=20,50,100,150,200和无噪声下的曲线图Fig.2 The mean absolute error curves with the SNR of 20,50,100,150,200,and full,and the resolution of Δλ=1 nm,2 nm,and 3 nm,respectively
图3 ELODIE数据中不同类型恒星光谱的lgTeff、lgg、[Fe/H]的平均绝对误差曲线图Fig.3 The mean absolute error curves of lgTeff,lgg,and[Fe/H]in the ELODIE data for di ff erent types of stellar spectra
图4 SDSS数据中不同类型恒星光谱的lgTeff、lgg、[Fe/H]的平均绝对误差曲线图Fig.4 The mean absolute error curves of lgTeff,lgg,and[Fe/H]in the SDSS data for di ff erent types of stellar spectra
5 结论
文章采用的多任务Lasso回归法,将多个物理参量同时建模估计的问题转化为MTL的问题,从而可充分利用各物理参量间潜在的信息,从真正意义上实现了物理参量的同时建模分析,避免了繁琐的计算,且从整体上提高了模型的预测精度和泛化性能.使用多任务Lasso回归法对恒星光谱物理参量进行估计,预测精度优于相关文献方法的预测结果,尤其是对lgg和[Fe/H]的估计.基于不同的光谱数据库ELODIE合成数据库和SDSS实测数据库进行实验,说明该模型对恒星光谱物理参量进行估计的有效性.为验证模型的稳定性,实验中改变光谱的分辨率,施加不同信噪比的噪声,结果表明,模型精度受分辨率和噪声的影响,但噪声对其影响更大.综上考虑,多任务Lasso回归法操作简便,稳定性强,估算精度高,但其需要每个任务所对应的样本特征数目相同,所以还有待继续研究去突破这一限制,以能将其应用于更广泛的领域.
[1]Cui X Q,Zhao Y H,Chu Y Q,et al.RAA,2012,12:1197
[2]Zhao G,Zhao Y H,Chu Y Q,et al.RAA,2012,12:723
[3]Noterdaeme P,Petitjean P,Carithers W C,et al.A&A,2012,547:L1
[4]Paris I,Petitjean P,Aubourg E,et al.A&A,2012,548:A66
[5]Bailer-Jones C A L.A&A,2000,357:197
[6]Fuentes O,Gulati R K.RMxAC,2001,10:209
[7]Allende P C.AN,2004,325:604
[8]张健楠,吴福朝,罗阿理,等.天文学报,2005,46:406
[9]Zhang J N,Wu F C,Luo A L,et al.ChA&A,2006,30:176
[10]Tibshirani R.JSTOR,1996,58:267
[11]Evgeniou T,Pontil M.ACM,2004:109
[12]Bakker B,Heskes T.JMLR,2003,4:83
[13]Huang T,Gong H P,Yang C,et al.CBAC,2012,43:46
[14]Liu J,Ji S,Ye J.Proceedings of the 25th Conference on Uncertainty in Arti fi cal Intelligence.Arlington: AUAI Press,2009:339
[15]Liu F,Chong Y W,Chen H F,et al.NeuroImage,2013,84:466
[16]Zhou J,Yuan L,Liu J,et al.ACM,2011:814
[17]Nesterov Y.Gradient Methods for Minimizing Composite Objective Function.CORE Discussion Paper 2007/76 September 2007
[18]张健楠,吴福朝,罗阿理,等.光谱学与光谱分析,2009,29:1131
[19]卢瑜,李乡儒,王永俊,等.光谱学与光谱分析,2013,33:2010
Application of Multi-task Lasso Regression in the Stellar Parametrization
CHANG Li-na ZHANG Pei-ai
(College of Information Science and Technology,Jinan University,Guangzhou 510632)
The multi-task learning approaches have attracted the increasing attention in the fi elds of machine learning,computer vision,and arti fi cial intelligence.By utilizing the correlations in tasks,learning multiple related tasks simultaneously is better than learning each task independently.An efficient multi-task Lasso(Least Absolute Shrinkage Selection and Operator)regression algorithm is proposed in this paper to estimate the physical parameters of stellar spectra.It not only makes di ff erent physical parameters share the common features,but also can e ff ectively preserve their own peculiar features.Experiments were done based on the ELODIE data simulated with the stellar atmospheric simulation model,and on the SDSS data released by the American large survey Sloan.The precision of the model is better than those of the methods in the related literature,especially for the acceleration of gravity(lgg)and the chemical abundance([Fe/H]).In the experiments,we changed the resolution of the spectrum, and applied the noises with di ff erent signal-to-noise ratio(SNR)to the spectrum,so as to illustrate the stability of the model.The results show that the model is in fl uenced by both the resolution and the noise.But the in fl uence of the noise is larger than that of the resolution.In general,the multi-task Lasso regression algorithm is easy to operate, has a strong stability,and also can improve the overall accuracy of the model.
stars:fundamental parameters,methods:data analysis,methods:statistical,methods:miscellaneous
P144;
A
10.15940/j.cnki.0001-5245.2015.01.004
2014-05-16收到原稿,2014-08-06收到修改稿
∗教育部人文社会科学研究一般项目(11YJAZH118)资助†qzhzhang@163.com