基于机器学习的快速射电暴搜寻方法综述
2022-09-17刘艳玲陈卯蒸袁建平
刘艳玲,陈卯蒸*,袁建平
(1. 中国科学院新疆天文台,新疆 乌鲁木齐 830011;2. 中国科学院大学,北京 100049;3. 中国科学院射电天文重点实验室,江苏 南京 210033;4. 新疆微波技术重点实验室,新疆 乌鲁木齐 830011)
快速射电暴是一种持续时间仅为数毫秒的爆发性、高度色散的脉冲式射电辐射天文现象,瞬时辐射流量可达数十央斯基(Jy)[1-6]。2007年,文[1]在分析澳大利亚帕克斯(Parkes)天文台脉冲星巡天历史数据时,首次发现了这种天文现象。直到2013年,文[2]在新的帕克斯巡天数据中发现了4个不同色散量的射电暴后,首次将该类现象命名为快速射电暴。随后,快速射电暴作为一种新发现的天体物理现象被广泛接受[7]。快速射电暴是当前研究最多的天体物理瞬变源之一,但它们的起源以及是否存在多种类型的前身和发射机制仍是未解决的问题[5,8-11]。国内外已有多个团队开展快速射电暴的观测研究。今年2月19日,中国慧眼卫星团队宣布,确认在银河系内发现的快速射电暴FRB 200428来源于磁性SGR J1935+2154[12],这是人类首次证明快速射电暴可以起源于磁性爆发。未来,我们还需要基于大量的快速射电暴观测数据进行研究,以回答更多与其起源和发射机理有关的问题。
除了澳大利亚64 m帕克斯射电望远镜(Parkes Radio Telescope),国际上有多个望远镜参与快速射电暴的观测与搜寻工作,并成功发现了快速射电暴。如美国305 m阿雷西博射电望远镜(The Arecibo Radio Telescope)[13]和100 m绿岸射电望远镜(The Green Bank Telescope, GBT)[14],澳大利亚升级后的莫朗格洛河天文台合成望远镜(the Upgraded Molonglo Observatory Synthesis Telescope, UTMOST)[15-16]和平方千米阵探路者射电望远镜(Australian Square Kilometer Array Pathfinder, ASKAP)[17-18],加拿大氢强度测绘实验望远镜(Canadian Hydrogen Intensity Mapping Experiment, CHIME)[19-20],德国100 m埃菲尔斯伯格射电望远镜(Effelsberg Radio Telescope)[21],意大利64 m撒丁岛射电望远镜(Sardinia Radio Telescope, SRT)[22]。作为世界上面积最大、灵敏度最高的500 m口径球面射电望远镜(The Five-hundred-meter Aperture Spherical radio Telescope, FAST)也观测到了快速射电暴[23-24]。从目前的快速射电暴探测率推断,快速射电暴的发生率非常高,每天有数千起,这意味着宇宙中产生这些辐射源的物体一定很多[5]。预计未来几年,快速射电暴探测率将迅速提高,每年甚至可以探测数百至数千个,快速射电暴的研究进程随着探测率的快速增加进入一个新纪元。因此,如何有效地从海量观测数据中快速筛选出稀有的、真实的快速射电暴,成为开展快速射电暴科学研究首先要解决的一个重要问题。
1 传统的快速射电暴搜寻技术
快速射电暴看起来类似于银河系脉冲星的单脉冲,但是大色散延迟表明,它们通常来自银河系外(目前FRB 200428除外)。脉冲星辐射极其微弱,但具有非常稳定的周期,大部分脉冲星需要通过周期折叠才能得到积分脉冲轮廓。快速射电暴鲜少有周期性重复但明亮的特点,使其搜寻过程与脉冲星有相同也有不同。
射电信号穿过星际介质到达地球的过程中发生色散、散射和闪烁,导致脉冲轮廓展宽和变形,强度发生变化。其中色散的影响最大,表现为高频信号比低频信号先到达,如图1(a)。因此,消色散是传统脉冲星和快速射电暴搜寻过程中的关键技术手段。在快速射电暴搜寻过程中,通过试验一系列的色散量(Dispersion Measure, DM)对观测数据进行频率通道数据移动,消除色散延迟,再对调整后的频率通道数据叠加生成不同信噪比的时间序列(脉冲轮廓),当信噪比最大的色散量出现时,经过消色散处理的脉冲轮廓和动态谱如图1(b)。色散延迟Δt跟色散量的关系为
图1 Lorimer发现的快速射电暴(FRB 010724)[1,25]。(a)消色散前的时间序列和动态谱图;(b)消色散后的脉冲轮廓和动态谱图
Δt=4.15(v2-2-v1-2)DM,
(1)
其中,v1和v2为两个频率通道的中心频率;DM为色散量 。由此可见,色散量越大,信号在频率通道间的延迟越明显。
针对流量较强的脉冲星,其单脉冲与快速射电暴一样,通过信噪比最大的色散量消色散后即可发现。但是对于大部分辐射极其微弱的脉冲星信号,消色散后,还需借助傅里叶变换确定周期,然后进行信号周期叠加(提高信噪比),最后输出候选体的脉冲轮廓、时间-相位图等信息进行确认。
这些罕见且鲜少重复的单脉冲事件由自动化、高性能的基于消色散理论的软件管道进行搜寻,如HEIMDALL[26], Bonsai[7], Amber[27], CDMT[28], Presto[29]和BEAR[30]等。500 m口径球面射电望远镜多科学目标同时巡天规划采用基于HEIMDALL建立的FAST_Miner管道[24],在20多个图形处理器(Graphics Processing Unit, GPU)服务器上进行快速射电暴搜寻,生成的候选体经过初步过滤参数后,由人工进一步检查。文[30]开发了Piggyback后端和BEAR搜寻软件,安装在昆明40 m和新疆南山26 m射电望远镜上进行快速射电暴观测搜寻工作[30]。这些管道对经过大量的色散量消色散处理后得到的时间序列(脉冲轮廓)进行阈值判断,任何峰值信噪比高于阈值的都报告为候选体。由于射频干扰(Radio Frequency Interference, RFI)、系统增益变化或者其他因素,这些算法面临噪声和射频干扰伪装成快速射电暴的挑战,即假阳性:预测为正,实际为负。单脉冲检测程序为了不错过快速射电暴,制造了数以千计的假阳性候选体。最初筛查工作由人工进行,但是,随着快速射电暴观测数据量的增加,特别是多波束、天线阵产生的数据呈指数增长,假阳性候选体的数量也急剧增加。就目前全球快速射电暴事件检测的概率而言,人工筛选快速射电暴是一项繁冗、低效率、高成本的棘手工作。
2 基于机器学习的快速射电暴搜寻方法
在海量的观测数据中寻找罕见的快速射电暴,如同大海捞针。机器学习的应用能够提高搜寻快速射电暴事件的速度和准确率。本文根据是否进行人工构造特征,将基于机器学习的快速射电暴搜寻技术分为基于传统机器学习的方法和基于深度学习的方法。机器学习在搜寻快速射电暴中的应用,实际上解决了快速射电暴和射频干扰或者背景噪声的分类问题。我们一般使用准确率(Accuracy)、召回率(Recall)和精确率(Precison)等指标评估算法的性能。其中,准确率反映算法正确分类正负样本的能力;召回率反映算法正确识别快速射电暴的能力,值越高,代表错过快速射电暴的概率越小;精确率反映预测为正的样本中快速射电暴所占的比例,值越高,代表错分类为快速射电暴的负样本越少。
2.1 数据集的准备
训练样本是机器学习算法应用的前提。然而,目前得到认证的快速射电暴数量非常少,而且可能不是潜在快速射电暴群体的代表性样本,因此,不足以为机器学习建立有意义的训练集。传统的机器学习方法采用来自脉冲星的单脉冲作为快速射电暴样本,如表1。近几年,基于深度学习算法的快速射电暴搜寻应用,通常采用模拟快速射电暴的方法生成样本集,或再补充来自银河系脉冲星的单脉冲充实训练集。因此,目前的机器学习模型并没有对脉冲星的单脉冲和快速射电暴进行区分,而是归为一类,后期处理时再根据周期性以及色散量等做进一步的判断。由于快速射电暴单脉冲形态简单,用较少的参数即可建立仿真模型。在设计快速射电暴仿真算法时,综合考虑色散、散射和闪烁的影响来模拟快速射电暴脉冲信号,然后叠加在真实的仅含有背景噪声和干扰的观测数据上,生成快速射电暴样本。以模拟方式建立快速射电暴样本库,可以通过控制参数获得快速射电暴在色散、宽度、幅度及闪烁模式上合理分布的样本库。
表1 部分样本数据集比较
由于射频干扰来源复杂,种类繁多,模拟射频干扰比较困难,而且射频干扰时刻存在于观测数据中,因此,在现有的研究中,负样本集均由真实的观测数据产生。这也给机器学习模型识别射频干扰带来了挑战。因为无法控制训练样本集中射频干扰的种类及数量,造成某一种或多种类型射频干扰的样本数量偏少,模型无法获得拒绝该类射频干扰的能力,从而降低识别率。
需要指出的是,无论是来自脉冲星的单脉冲,还是模拟的快速射电暴样本,都没有现成可用的公共数据集,研究人员都是针对不同的望远镜、接收机及观测终端记录的数据进行设计。因此,由于样本数量、分布、比例、质量等因素的不同,算法间不能直接定量比较。
2.2 基于传统机器学习的快速射电暴搜寻方法
基于传统机器学习的快速射电暴搜寻方法的实现框架如图2。这种搜寻方法需要有经验的专家花大量时间进行特征构建、提取和选择。特征选择在机器学习中占有相当重要的地位。选取较少的、具有明显物理或统计意义的特征,有助于降低计算成本,提高模型开发和训练速度。基于人工提取特征的机器学习方法的优点是计算简单,模型复杂度低,收敛速度快,对硬件要求低。
图2 基于传统机器学习的快速射电暴搜寻方法实现框架
最早在2011年,文[37]提出了一种简单的二次判别函数的方法自动区分噪声、干扰和快速射电暴。该方法在实践中表现并不好,因为训练样本是一维时间序列,且信噪比没有设下限。训练好的分类器在面对新的脉冲强度随时间漂移的单脉冲或者强射频干扰时,没有识别能力。
随机森林具有较好的抗过拟合能力和处理不平衡数据的能力,在处理大数据集的效率以及对噪声的鲁棒性方面表现突出,非常适用于天文搜寻。因此,随机森林算法在为数不多的快速射电暴搜寻应用中受到青睐。文[16, 31-32, 38]均采用了随机森林算法。文[38]基于经验,针对候选体的动态谱进行特征设计与提取,二维动态谱与一维的时间序列相比,特征信息丰富且更稳定。选取最小观测频率、色散量、信噪比以及候选体事件发生期间和前后区域的图像统计信息等10个特征作为模型输入,在7 649个候选体测试集上实现了95.8%的准确率、95.7%的召回率和97.3%的精确率。文[16, 32]在特征使用方面做了一些改进,将候选体输出结果中的信噪比、宽度以及色散量作为预分类过滤器的参数对候选体进行第1级筛选,对于留下的候选体,再从频率-时间数据提取能够表征候选体噪声和信号的7类统计特征(如候选体事件窗口以及前后宽度相同窗口的均值和标准差等),输入机器学习分类器中识别,实现了98.8%的准确率。这样的两级分类策略降低了后一级机器学习模型的复杂度,但是对于人类经验依赖程度很高,受限于研究人员的认知水平和经验模式。为了验证系统,他们还对含有2 000个模拟快速射电暴样本的数据集进行测试,实现了90%的召回率。值得一提的是,文[16, 32]开发的是一个低延迟(<24 s)的候选体分类管道,实现了准实时分类和电压数据捕获。研究人员利用该分类器发现了FRB 170827,并成功捕捉到了其电压数据,揭示了FRB 170827的时间结构。
文[31]与其他文献中的快速射电暴和射频干扰简单的二分类应用不同,通过人工标记,对射频干扰进一步详细划分为8类,二分类系统在区分单脉冲和这8类干扰时表现很糟糕。因此,针对射频干扰种类多样的特点,文[31]建立了多类别概率分类系统,对每个候选体提取409个特征,经模型预处理后减少到398个。经测试,该分类模型对单脉冲实现了96.3%的召回率和92.35%的精确率。概率多标签分类器的优势是可以根据预测结果,优化人工筛查的顺序和时间分配:属于单类别高概率的快速检查,对属于多个类别的进行详细检查与进一步分析,这在一定程度上避免了错失罕见的快速射电暴。但是,该分类器输入的特征数量比较大,增加了模型的复杂度,降低了处理速度。
文[33]围绕特征选择开展了细致深入的信息增益价值评估实验,最终选取脉冲宽度、脉冲色散量的加权平均值、色散量-宽度曲线的超额峰度、色散量-信噪比曲线的超额峰度以及信噪比这5个具有较好区分度的特征,考虑到实际观测数据流中单脉冲罕见的特点,基于高斯赫尔辛基(Gaussian Hellinger)快速决策树算法开发了单脉冲分类器,该算法专门用于处理不平衡数据流。与以上应用相比,文[33]以最少的输入特征获得了更高的分类器性能,实现了98.8%的准确率、98.6%的召回率和98%的精确率。该分类器的过程版本已经在低频阵列射电望远镜全天空观测(LOFAR Tied-Array All-Sky Survey, LOTAAS)数据中发现了7个新的脉冲星。
2.3 基于深度学习的快速射电暴搜寻方法
卷积神经网络使深度学习在图像识别领域取得巨大进展。深度学习在快速射电暴搜寻中的应用,近几年才开始发展。文[32]采用模拟方式建立快速射电暴样本的方法,解决了深度学习面临的大数据量样本的需求。
文[34]开发了一个子网络层数较少的多输入深度神经网络架构,将候选体的消色散动态谱、色散量-时间阵列、时间序列以及多波束探测信噪比作为二维卷积神经网络、一维卷积神经网络和前馈神经网络(Feedforward Neural Network, FNN)的输入,分别单独提取特征,然后在全连接层整合,最后输出预测结果。该文首次选用模拟的快速射电暴充实训练样本,经过对Apertif的数据测试,该分类器对脉冲星的单脉冲实现了99.7%的召回率。模拟快速射电暴为模型提供了在数量和样本随机多样性的分布上(如跨越更大的脉冲宽度范围)更具优势的训练集,这是以往选用脉冲星的单脉冲作为训练样本无法实现的。另外,该网络的前3个输入之间高度冗余,虽然凭经验三者组合会比单独使用效果更好,但也增加了整个网络架构的复杂性。
文[36]基于8种深度更深的网络模型(如VGG16,VGG19,Densenet121/169/201和Xception等),通过多种组合构建了11个二输入的二分类网络架构。这种网络模型简化了模型的输入,仅将候选体的消色散动态谱和色散量-时间阵列作为输入。经测试,这11个分类模型的准确率和召回率都达到了99.5%以上。该文在文[34]的基础上做了许多改进:如引入迁移技术训练网络模型,减少训练参数;采用乘性融合方法组合二输入模型,提高网络性能;利用翻转技术增加射频干扰的样本数量;采取微调技术提高模型在特定应用中的性能等。该算法包已经嵌入美国绿岸射电望远镜实时快速射电暴搜寻管道,探测到了20颗脉冲星的2 000多个单脉冲[39]。值得说明的是,虽然增加网络层数可以提高模型的性能,但是也提高了模型的复杂度和训练难度,另外,层数增加对模型性能的贡献也可能达到饱和,甚至引起梯度不稳定、网络退化、性能下降等问题。如果能对冗余层进行修剪,将有助于提高模型的整体性能。
文[35]建立了一个由17个卷积层组成的Resnet网络架构,以色散动态谱图作为输入,训练数据是由模拟的快速射电暴样本和仅含有射频干扰和噪声的观测数据组成。经测试,模型实现了88%的召回率和98%的精确率。与文[34]和文[36]不同,它不依赖于传统消色散技术的搜寻手段,而是将训练好的模型直接用于搜寻原始色散动态谱数据中的FRB 121102,并成功从2017年8月26日美国绿岸射电望远镜C波段接收机观测的FRB 121102数据中,发现了93个脉冲。此前,该数据由基于消色散理论的搜寻管道仅检测到21次爆发。因此,该方法比传统的消色散搜寻算法有更高的灵敏度、更低的误报率和更快的计算速度。
基于深度学习的快速射电暴搜寻技术,整体性能较之前有了明显的提升。现有的3篇文献均是直接将特征提取的任务交由卷积神经网络自动完成,这对于深度学习模型计算的复杂度以及训练难度都提出了挑战。在数据预处理过程中,仅对输入网络模型的候选体动态谱图、色散量-时间阵列图等做基本的尺寸调整和标准化处理,在很大程度上减少了数据处理的工作量,同时避免了人工设计、提取特征的不完备性和偏见性。但是,完全依赖网络模型自动提取特征,缺乏可解释性,在训练数据不平衡的情况下出现种类歧视,如射频干扰的类不平衡问题。另外,深度学习算法对于硬件要求较高,收敛速度缓慢,需要花费较长的时间训练。但是其基于图形处理器的前向传播的推理过程非常快,可以满足快速射电暴事件在线搜寻的应用需求。
3 问题与展望
基于机器学习的快速射电暴搜寻技术发展时间相对较短,相关的研究论文较少,且还没有形成大规模的广泛应用。目前探测到的快速射电暴大部分依赖传统消色散搜寻技术。基于机器学习的快速射电暴搜寻技术在研究和应用方面还有继续改进的空间。主要表现在:
(1)由于望远镜类型(单碟或阵列)、接收机类型(单波束或多波束)、观测终端以及数据格式(Filterbank,FITS或者VDIF)等不同,算法需要做针对性设计。望远镜所在地的射频干扰环境对数据质量产生非常大的影响。因此,提高算法的通用性和泛化能力具有重要意义。
(2)除文[35]外,目前的算法都是针对基于消色散搜寻管道生成的候选体分类。在宽带观测中,脉冲的频率结构是高度可变的[40],基于消色散数据频率积分时间序列的信噪比区分快速射电暴和射频干扰,可能导致错过快速射电暴。因此,直接将分类器对原始观测数据流进行快速射电暴搜寻,无论从搜寻速度还是召回率的角度考虑都值得进一步的研究和探索。
(3)目前模型训练所用的样本几乎都是来自脉冲星的单脉冲或者模拟样本,导致训练的模型过拟合脉冲星或者模拟快速射电暴的特性。因此,随着探测到的快速射电暴样本增多,以及对其认知和理解加深,持续优化模拟样本或增加真实观测样本以提高训练样本的质量,对于提高算法的性能具有重要意义。
(4)射频干扰环境会持续恶化,将呈现更复杂的多样性,甚至一些射频干扰会具有色散的特性[30,41]。因此,除了采取必要的射频干扰消除和缓解措施以外,通过解决训练样本中射频干扰的类不平衡问题,可以进一步提高算法的鲁棒性。
(5)目前的算法主要以二分类(天体物理现象和非天体物理现象)为主。不同快速射电暴之间,快速射电暴和脉冲星单脉冲之间,脉冲星的单脉冲之间,以及不同类型的射频干扰之间也存在很多差异。因此,对样本进行更细致的分类有助于进一步提高算法分类的性能。
4 总 结
快速射电暴搜寻速度与准确率对于实现触发多频段跟踪观测和电压数据转储非常关键。未来是大数据时代,就目前观测条件下的数据量已经远远超过现有的处理能力。因此,应用机器学习将有助于解决目前人工筛选快速射电暴候选体难以为继的现状。在分类器设计方面,鉴于深度学习算法对大数据集卓越的学习能力,以及其避免人工设计、提取特征的弊端,深度学习在快速射电暴搜寻应用方面将发挥更大作用。