一种脉冲星候选体验证方法的实现
2017-06-07许余云
许余云
摘要: 脉冲星候选体验证是判断是否找到新脉冲星的关键一步。传统的方式是通过人工与PSRCAT中已知脉冲星数据对比,效率很低。目前,FAST采用19波束接收机系统,脉冲星巡天年数据量预计将产生上亿脉冲星候选体,采用PSRCAT将无法满足FAST的巡天数据处理需求。介于数据库技术在组织和存储数据、高效地获取和处理数据方面优势,提出了一种基于数据库和web的匹配方法去实现脉冲星候选体的验证,并开发了相应的web接口。对Parkes多波束脉冲星巡天在FAST天区部分数据进行处理(约60G),获得了约3万个候选体文件,利用该方法,经过验证得到27颗已知脉冲星对应的247个脉冲星候选体,结果显示对计算中产生的对应周期的候选体均能成功匹配。
Abstract: Validation of pulsar candidates is a key step in deciding whether to find a new pulsar. The traditional way is to compare the artificial and the known pulsar data in PSRCAT, the efficiency is very low. At present, FAST uses a 19-beam receiver system, pulsar survey data is expected to generate tens of millions of magnitude pulsar candidates every year, the PSRCAT will not be able to meet the demand of the FAST survey data processing. A database in the organization and storage of data and efficient data acquisition and processing, we propose a verification to achieve the pulsar candidate matching method based on database and web, and developed the corresponding web interface.To deal with the Parkes multibeam pulsar part survey data of FAST region processed(about 60G), about 30 thousand candidate files were obtained. By using the method, after verification, 247 pulsar candidates corresponding to the 27 known pulsars are obtained, the results show that the candidates of the corresponding period can be successfully matched.
关键词: 脉冲星;候选体;验证;数据库;PSRCAT
Key words: pulsar;candidate;validation;database;PSRCAT
中图分类号: P162.4 文献标识码:A 文章编号:1006-4311(2017)16-0172-04
0 引言
500m口径球反射面射电望远镜(Five-hundred-meter Aperture Spherical radio Telescope,简称FAST)是国际上最大、最灵敏的射电天文望远镜[1]。2016年9月25日FAST建成,并且将开始19波束的脉冲星巡天观测,预计数据容量5000G至10000GB每天,年观测200余天,预计累积数据容量拍字节(PetaByte,简称PB)量级。依据Parkes多波束脉冲星巡天(Parkes multi-beam pulsar survey,简称PMPS)[2-4]在FAST天区800G数据量产生约41万脉冲星候选体和FAST年巡天数据量,预计FAST每年将产生超过5亿的脉冲星候选体,以1%计算经过筛选后将会有超过5百万候选体用于验证。传统脉冲星候选体的验证方式是使用澳大利亚天文学家开发的脉冲星目录(Pulsar Catalogue,简称PSRCAT[5])工具,从脉冲星数据文本中查询,然后人工将脉冲星候选体与文本中的数据进行匹配。对于FAST产生的用于验证的脉冲星候选体,人工方式去查询PSRCAT中的数据进行验证,对每个脉冲星候选体的验证速度难以超过每人每秒1个,以5百万需要验证,每天工作8小时,一个人则将花费超174天才能完成,处理效率较低,满足不了科研进度要求。
数据库技术是实现对数据库中的数据进行处理、分析和理解的技术,具有高效、可靠、完整、自同步等特性,数据库系统一般提供高效的数据控制和数据检索功能,采用SQL语言来进行数据操作[6]。基于数据库的这些优势,本文中我们引入数据库技术,将PSRCAT中已知的脈冲星数据导入数据库,介于脉冲星具有稳定的周期、相对天区坐标和色散量(Dispersion Measurement,简称DM),我们提出一种基于数据库和web技术的匹配方法,直接从未经筛选的候选体文件中找出已知脉冲星的候选体和其对应的谐波文件,快速实现验证过程,同时也间接减少了部分候选体筛选的工作量。另外,开发了相应的web接口1,方便FAST科研人员使用。
1 脉冲星候选体验证参数及利用PSRCAT工具进行验证过程
1.1 脉冲星候选体验证参数
脉冲星候选体是巡天观测数据经过色散、周期折叠处理后得到脉冲星旋转参数组合和统计量分布结果,记录的统计量主要包含天区坐标、色和散量周期(分别对应图1中的①②③)等信息。
脉冲星具有较稳的周期,一般而言,孤立脉冲星靠消耗自转能而弥补辐射出去的能量,因而自转会逐渐放慢,脉冲周期随时间的推移缓慢的增加,周期变化率在10-13~10-20秒/秒之间[7],精确度超过由铯133的原子基态超精细结构跃迁辐射周期变化率[8],根据现有观测结果,脉冲星的周期范围为1.39ms~11.78s[5],即最短周期的为J1748-2446ad[9],最长周期的是J1841-0456[10]。色散指星际介质间的自由电子对电磁波的散射导致不同频率的信号传播速度不同,使得在观测数据中高频的信号会先到达,低频的信号会存在迟延,依据银河系自由电子密度分布C模型[11],DM的值与脉冲星和地球的积分距离相关,距离越大,DM的值越大,现有的脉冲星DM范围一般在2.38 ~ 1778[5]。
依据上述脉冲星的2个主要特征,即具有不同的周期和DM,并且天区坐标也不相同,可以据此进行脉冲星候选体的验证,判断搜索出的信号是否来自于已知脉冲星。
1.2 用PSRCAT工具进行验证过程
PSRCAT包含了澳大利亚望远镜国家设备中心(Australia Telescope National Facility,简称ANTF)中收录的目前所有的已知脉冲星数据,该工具可以在Window、linux、solaris和MacOS等系统中使用。访问ANTF下载psrcat_pkg.tar.gz2数据包,解压、编译后,查找已知脉冲星的周期和色散输入命令如下:
> psrcat -db_file psrcat.db -c "name p0 dm" 0437-4715
上述命令是查询脉冲星J0437-4715的周期和色散,对应的输出如表1。
人工验证候选体,首先从包含噪声和干扰的候选体文件中筛选出具有脉冲星特征的候选体[12],然后查看每一个脉冲星候选体的周期和DM,依据PSRCAT工具中提供的搜寻命令,设定与脉冲星候选体周期、DM等参数信息进行查看比对,看该候选体是否为已知脉冲星的信号,然后再进行人工分类和统计。
2 候选体匹配方法及验证测试结果
由于presto[13]和sigproc[14]等脉冲星搜索软件在计算中寻找周期信号时,识别到的周期也可能是脉冲星自转周期的谐频信号及若干次重复,为验证增加了不小的工作量。因此,为了节省劳动力和提高验证的效率,我们根据脉冲星的参数特点,从数据库的设计出发,构建脉冲星候选体数据表和已知脉冲星数据表,利用Web平台获取后端数据,在这基础上快速实现匹配方法,然后对比已知的脉冲星,验证测试结果。
2.1 数据库表的设计
根据脉冲星候选体记录的统计量,结合其主要特征,我们考虑从文件对应的名称、周期、色散、天区坐标和对应的观测文件考虑,构建数据库表的数据结构和数据项设计如下:
①脉冲星候选体表,记录候选体名称、色散、周期、天区坐标和对应观测文件等基本信息,其中字段YN用于标记搜索出的信号为已知脉冲星。(表2)
②已知脉冲星表,记录脉冲星名称、色散、周期、天区坐标和对应观测文件等基本信息。(表3)
2.2 脉冲星候选体验证匹配方法
根据脉冲星的主要属性,我们将从色散量、周期和坐标来筛选出匹配结果:①由于presto数据处理过程是采用取一系列DM值进行尝试消色散并识别周期信号,经过实际处理,DM值并不一定精确,为了匹配算法的可靠性,我们尽量取了比较大的DM范围(正负200)来进行匹配;②由于观测及presto数据处理过程中存在一定误差,经过测试,匹配周期时,取正负千分之一的误差;③脉冲星的赤道坐标是描述脉冲星的重要属性,它给出了脉冲星的位置信息,由于已知脉冲星的候选体会对应多个候选体文件,可能对应不同的观测区域,为了保证匹配的精确性,我们将只匹配出观测赤道坐标1角秒半径内的已知脉冲星候选体。
具体做法是先从数据库表中读出一条已知脉冲星的参数记录(Pulsar,DM_P,P0_P),然后从以下三个步骤去实现脉冲星候选体验证方法:
①在数据库表中读出某颗已知脉冲星的DM_P值,计算出脉冲星候选体列表中与该DM_P值加减200的所有记录,即满足|DM_P-DM_C|<200;
②将该已知脉冲星的周期P0_P乘以M/N倍(M,N为整数,且M,N[1,100]),即计算出所有的P1=P0_P×M/N,然后将P1与上述记录列表中所有的周期P_C匹配,若匹配满足|P1-P_C|<0.001,则挑选出该候选体;
2.3 验证测试结果
为了验证测试结果,我们将PARCAT中已知脉冲星数据导入数据库,对PMPS在FAST天区的600个观测文件进行了处理,获得了约3万个脉冲星候选体,将计算结果存入数据库。利用人工方式对3万脉冲星候选体进行筛选,得到219个脉冲星候选体,查询PSRCAT中数据,验证得到27颗脉冲星。
有区别于人工验证方式,脉冲星候选体不需要经过人工筛选,即直接从Web平台上用已知脉冲星数据去匹配3萬个脉冲星候选体文件,并且将对应的候选体文件进行标记。
利用2.2节的脉冲星候选体匹配方法将已知脉冲星数据与脉冲星候选体进行匹配,验证发现匹配到27颗已知脉冲星,并且对应505个脉冲星候选体,其中247个对应39颗已知脉冲星,另外258个为噪声及其它信号,统计结果如图2所示。对比人工方式用PSRCAT查询,利用基于web和数据库技术的验证方式,在时间和验证结果上更加高效。
3 結束语
本文设计了一种基于数据库和web技术的脉冲星候选体的验证方法,依据已知脉冲星的参数特征和其对应的候选体关系,给出了匹配方法,并且实现了候选体的快速和准确匹配,同时,开发了相应的web接口,供FAST科研人员使用。
参考文献:
[1]Nan. et al. Five-hundred-meter aperture spherical telescope FAST[J].Sci Sin-Phys Mech Astron, 2005, 35(5): 449-466.
[2]Manchester R N, Lyne A G, Camilo F, et al. The Parkes Multibeam Pulsar Survey: I. Observing and Data Analysis Systems, Discovery and Timing of 100 Pulsars[J].MNRAS, 2001, 328:17.
[3]Morris D. J. et al.The Parkes Multibeam Pulsar Survey - II. Discovery and timing of 120 pulsars[J].MNRAS, 2002,335, 275.
[4]Hobbs G. et al.The Parkes multibeam pulsar survey - IV. Discovery of 180 pulsars and parameters for 281 previously known pulsars[J]. MNRAS, 2004, 352, 1439.
[5]ATNF Pulsar Catalogue, http://www.atnf.csiro.au/people/pulsar/psrcat/.
[6]王成良,柳玲,徐玲数.据库技术与应用[M].北京:清华大学出版社,2011.
[7]Lorimer D, Kramer M. Handbook of Pulsar Astronomy[M]. America:Cambridge University Press,2012:32-53.
[8]沈乃澂.时间标准的变迁(二)[J].中国计量,2012(04).
[9]J. W. T. Hessels, S. M. Ransom, I. H. Stairs, P. C. C. Freire, V. M. Kaspi, F. Camilo. A Radio Pulsar Spinning at 716 Hz[J]. Science. Mar. 2006, 311:1901-1904.
[10]Vasisht G, Gotthelf E V. The Discovery of an Anomalous X-Ray Pulsar in the Supernova Remnant Kes 73[J]. ApJ, 1997, 486:129-132.
[11]Cordes J M, Joesph T, Lazio W. Ne2001.I.A New Model For Galactic Distribution Of Free Electrons And Its Fluctuations, astro-ph/0207156 2008.
[12]Faulkner A J, et al. The Parkes Multibeam Pulsar Survey: V. Finding binary and millisecond pulsars[J]. MNRAS, 2004, 355, 147.
[13]Ransom S. PRESTO: PulsaR Exploration and Search TOolkit [C]. Astrophysics Source Code Library, 2011,7017.
[14]Lorimer D R. SIGPROC: pulsar signal processing programs [C]. Astrophysics Source Code Library, 2011,7016.