专家识谱平台的设计与实现*
2018-04-12雷国洪牛晨辉田海俊张彦霞崔辰州赵永恒
雷国洪, 徐 洋,牛晨辉,3,田海俊,张彦霞,崔辰州,赵永恒
(1. 三峡大学,湖北 宜昌 443002; 2. 中国科学院国家天文台,北京 100101; 3. 华中师范大学,湖北 武汉 430079)
我国自主研发的大天区面积多目标光纤光谱天文望远镜(Large Sky Area Multi-Object Fiber Spectroscopy Telescope, LAMOST)自2012年正式巡天以来,已经获取了700余万条光谱,这些光谱为科学研究提供了丰富的数据基础,科学家已经利用这些数据取得了一系列高质量的研究成果,发表学术论文近百篇。LAMOST为我国在天文学领域跻身世界先进行列做出了重要贡献。
从科学成果上看,LAMOST的大样本数据优势吸引了众多的科学家,一大批科学成果集中在特殊天体的搜寻或特殊样本的构建上,比如,文[1]的贫金属星样本的搜寻;文[2]的类星体样本构建;文[3]的M31/33附近类星体的搜寻;文[4]的白矮-主序双星的搜寻;文[5]的DA型白矮星样本的识别及相关科学研究;文[6]的Am星的样本构建;文[7]的碳星候选体搜寻;文[8]的星系对样本证认等等。LAMOST的样本太大,启动这些研究工作往往需要首先设定一套复杂的判别条件并依靠各种数据挖掘算法或统计方法挑选目标候选体,然后基于人工识谱和多波段测光信息综合证认候选体。机器筛选得到的候选体依然动辄数千、数万甚至数十万,人工判别工作量巨大。
从数据质量分布上看, LAMOST发布的700多万条光谱中(以LAMOST DR4为例),如图1,除了600万条较亮的恒星能被LAMOST批处理程序(pipeline)自动处理给出结果外,11.8万条星系光谱和4万多条类星体光谱,由于信噪比低,pipeline自动处理效果不好,有很大一部分纯粹靠人工一条条识谱确定。还需要重点关注的是,5年巡天观测已经积累了62万余条标注为 “UNKNOWN” (未知光谱)的待识别光谱,这些天体大多数是因为自身太暗,获取的光谱信噪比太低,传统的算法无法处理;也可能有极少数奇异的天体,由于谱型太奇怪,传统的算法无法识别,如文[9]提出了基于加权滤波的低信噪比光纤光谱信号降噪相关算法。随着巡天观测的不断深入,这些未知光谱越积累越多。如何处理这些低质量的数据,是现代统计学和数据挖掘技术面临的一个挑战。
围绕LAMOST天文光谱的处理,在项目组的带动下,一批数据挖掘专家纷纷加入光谱处理的研究课题中,并取得了显著的成果。然而,即使数据挖掘专家能对这些低信噪比光谱给出类别或参数估算值,天文学家依然抱着质疑的态度放弃使用这些数据。这些光谱只有经过人工识别后,才能提升其使用可信度。但是如此巨量的数据仅靠少数专家利用有限的时间、有限的精力完成人工处理是不可能的。
图1LAMOST DR4数据分布示意图,未知光谱记录数已超过62万条
Fig.1LAMOST DR4 with more than 620 thousand UNKNOWN objects
为了改善这种状况,提出构建基于数据挖掘的专家识谱平台,利用先进的信息技术及数据挖掘技术整合常见算法,研发一套集光谱数据管理、可视化与分析为一体的科学与科普教研专家识谱系统。
1 目标分析及结构设计
按照天文学家及天文教育工作者的设想,专家识谱平台应满足以下4方面要求:
(1)集成多种可视化与分析工具、数据挖掘算法,使天文学家甚至普通学生搜寻特殊天体变得更加容易;
(2)围绕低信噪比光谱,开展数据挖掘算法研究,利用机器尽可能多地挖掘有价值信息,减少人工识谱难度;
(3)支持团队协作工作模式,辅助天文教育工作者在教学过程中开展特殊天体搜寻、人工识谱等教研活动,实现有天文特色的研究型素质教育;
(4)能像国际星系动物园(Galaxy Zoo)[10]项目一样,通过发动公众力量,完成需要大量人工干预的天文光谱数据的处理工作,逐步消化LAMOST巡天不断产出的未知光谱。
从上述需求出发,设计了一套专家识谱平台。如图2,平台主要包括3个组成部分:数据挖掘层(Data-mining Layer)、数据节点层(Data Node Layer)、专家识谱层(Expert Layer)。
图2专家识谱平台结构示意图
Fig.2The architecture of expert platform for spectral inspection
(1)数据挖掘层:针对低信噪比光谱,开展各种数据挖掘算法的研究,并利用这些算法最大限度地挖掘低信噪比光谱的科学价值。主要涉及低信噪比光谱的分类问题、恒星光谱的特征提取问题(给出部分恒星的大气物理参数的参考值)、低信噪比星系及类星体的红移测量问题。数据挖掘成果上传至数据节点层,由服务器管理。
(2)数据节点层:管理用户上传的数据。从文件类型上看,主要包括用于存储元数据的数据库文件和存储光谱数据的FITS文件;从数据访问权限上看,包括对所有注册用户可见的公共数据(PublicDB)、组内成员可见的组内数据(GroupDB)以及用户私有的个人数据(MyDB)3个数据层次。该层的数据封装后通过开放数据库连接(Open DataBase Connectivity, ODBC)或Java数据库连接(Java DataBase Connectivity, JDBC)与专家层交互。
(3)专家识谱层:建立多平台的客户端,比如网络客户端、桌面应用程序端、手机APP等实现对光谱数据的在线可视化与分析。可视化主要指星表数据的可视化、光谱图像的实时交互可视化、对应的多波段数据融合可视化。数据分析主要包括红移或视向速度的实时计算、光谱的便捷式模版匹配、谱线的标示、数据查询以及用户反馈等功能。
数据挖掘层接口相对松散,数据挖掘的算法允许用户围绕具体的科学目标自己定制,只要求输出结果为平台兼容的数据格式,平台将逐步集成多种常见数据挖掘算法,譬如用于测光红移、光谱分类、光谱特征提取等特定需求的神经网络、支持向量机、主成分分析等算法。这部分体现平台的高级功能,目前只是预留了大部分接口,后期根据用户需求逐步实现。
数据节点层和专家识谱层耦合性较强,选择在轻量级J2EE Spring框架下实现,其中数据库选用天文上较为常用的MySQL数据库,利用对象关系映射(Object Relational Mapping, ORM)插件实现星表数据的动态管理,光谱数据分析与可视化界面通过Javascript、图表处理显示组件、Mallet小波降噪等插件实现。数据节点层和专家识谱层是识谱平台的基本模块,本文重点论述。
2 功能分析与实现
本节主要讲述数据节点层和专家识谱层的功能分解与实现,其中数据节点层的数据管理,主要利用数据库技术和网络技术实现;专家识谱层中一维光谱数据的在线可视化与分析,主要通过Java图表处理相关技术实现。专家识谱平台目前主要设计了8项功能:用户管理、数据访问权限管理、数据上传、数据检索与下载、多波段信息融合、一维光谱数据的可视化与数据分析、专家信息反馈与知识库管理、虚拟天文台服务等。
2.1 用户管理
平台系统完全模拟真实科学研究团队的协作模式,将用户划分为4个层次:系统管理员、群管理员、专家用户、匿名用户。
(1)匿名用户(Anonymous):浏览开放信息,了解或学习相关知识,比如学习(Learning)模块、常见问题解答(Frequently Asked Questions, FAQ)以及公开的数据,没有导入数据的权限。
(2)专家用户(Expert):可以上传自己的私有数据(包括光谱数据和星表数据),利用可视化工具识别、标识光谱,将处理结果写入数据库。
(3)群管理员(GroupAdmin):群管理员拥有创建新用户、添加组员和删除组员的权限,群管理员自动成为新组成员。
(4)系统管理员(SystemAdmin):除具有群管理员、专家用户权限外,系统管理员可以创建群组并决定某用户是群管理员还是普通用户,同时负责为用户分配最大可用存储空间。
2.2 数据访问权限管理
根据科学研究的实际需求,平台将数据划分为3个层次:个人数据(MyDB)、群组数据(GroupDB)、公共数据(PublicDB),如图3。
图3平台的三类数据库个人数据、群组数据以及公共数据
Fig.3The three kinds of databases in the platform: MyDB, GroupDB and PublicDB
(1)个人数据:用户自己上传的数据表,该数据为私有数据,仅上传者自己可见。
(2)群组数据:群内共享的数据表,该数据由数据上传者提交群内共享申请,由群管理员审核决定数据是否对群内所有成员可见。
(3)公共数据:可被所有注册用户访问的数据表,该数据由群管理员提交申请,由系统管理员审核决定数据是否让所有用户可见。
2.3 数据上传
平台的数据类型主要分为两类:星表数据和一维光谱数据。数据上传界面如图4。
图4CSV星表数据与FITS文件的上传
Fig.4The upload UI of CSV catalog and FITS spectrum files
(1)星表数据:系统主要支持CSV文件格式。用户上传CSV文件数据入库,系统在个人数据中生成对应数据表。CSV文件的第1行被自动识别为数据表的字段名,CSV文件名默认为数据表名称(用户也可以自己指定表名称)。
(2)光谱数据:系统主要支持FITS文件。主要通过两种方式获取FITS文件:像LAMOST、SDSS这样的大型巡天,通常都已经将数据发布在网上,用户只需要在上传的星表数据中提供mjd、plateID、fiberID等唯一标识光谱的信息,系统自动为用户定位相应的FITS文件;像兴隆2.16 m、丽江2.4 m等望远镜产出的小样本光谱数据,用户需要自己将FITS文件打包上传至平台。
2.4 数据检索和下载
这里的数据检索有两层含义:(1)星表文件的检索;(2)所选择星表的内容和用户反馈记录的检索。如图5,如果管理的星表较多,可能需要匹配表名、关键字、数据源等条件检索用户想要的星表。
图5星表文件的检索
Fig.5The query UI of Catalogs
用户可能不熟悉数据库查询语言,为此,系统提供了动态生成常见检索条件表达式及其按照 “与”、 “或” 关系组合形成复杂树形逻辑结构检索条件的功能,如图6。对查询结果,全选或部分选中左侧的复选框,点击右侧的下载 “Download” 按钮,可以打包下载数据,如图7。
图6星表数据及反馈高级检索
Fig.6The advanced query UI of catalog and feedbacks
图7星表数据检索及下载
Fig.7The query and download of catalog
2.5 多波段信息融合
在科学研究过程中,科学家除了查看天体的某条光谱数据外,通常还需要综合多波段的图像或光谱信息,以便准确判断天体类型或测量天体的物理参数。为此,平台提供接口融合SDSS、2MASS等巡天望远镜的测光图像数据。查询界面如图8,查询结果如图9。
图8多波段数据融合界面
Fig.8The UI of Multi-band combinations
2.6 光谱数据可视化与数据分析
该部分包括光谱的局部缩放、谱线标注、等值宽度测量、小波滤波降噪、170多种光谱的模版匹配、红移自动测量、图像保存、打印等基本操作。人机交互操作完全通过浏览器实现光谱可视化,不需要额外安装任何插件。显示界面如图10。
图9多波段查询示例:利用SDSS的SkyServer工具[11],并根据传入的赤经和赤纬自动定位测光图像
Fig.9An example of Multi-band query: the SDSS Skyserver automatically targets the photometric image with the input parameters, i. e. RA and DEC
图10FITS光谱的可视化与数据分析,蓝色曲线为LAMOST观测光谱,黑色曲线为QSO光谱模版,红色虚线为Hα发射线,该发射线及整个模版光谱可跟随鼠标自由移动,以寻求模版与观测光谱的最佳匹配
Fig.10The display and analysis of a fits spectrum, the blue curve is the LAMOST observed spectrum, the black curve is a QSO spectrum template, the red dashed line marks the location of Hα emission line, which and the whole template are movable along with the cursor
通常利用批处理程序pipeline对巡天获取的光谱进行自动模版匹配,基于最佳匹配进行类型判断和参数测量。然而,pipeline对低信噪比光谱的处理效果不好,因此LAMOST产出了相当一部分未知光谱,这些光谱不应该被遗忘。
平台提供全面的恒星、星系以及类星体模版,用以帮助用户实现人机交互式模版匹配。用户挑选模版,通过蒙罩技术剔除光谱上不可靠部分,完成粗略匹配后,系统将自动寻求最佳匹配位置,并自动计算天体物理参数(红移或视向速度等)。
2.7 专家信息反馈与知识库
如图11,对于每条光谱,专家可以通过光谱可视化与分析模块完成人工处理,并将处理结果反馈至数据库。群组数据和公共数据中的每一条光谱,可能会被多个用户分析处理,平台将记录每位用户的分析结果,并形成列表,供科学家参考。经过长时间运行后,系统将收集形成一系列专家知识库。
图11光谱信息用户反馈界面
Fig.11The UI of feedback from users
2.8 虚拟天文台服务
国际虚拟天文台联盟一直致力于将全球范围内的研究资源无缝透明地连接在一起,形成数据密集型网络化天文研究平台。经过十几年的发展,已经拥有了丰富的数据资源、服务资源,包括由从高能伽玛射线一直到射电的全波段数据信息,并且基于这些数据,研发了很多优秀的软件工具,比如Topcat*http://andromeda.star.bris.ac.uk/topcat/tutorial/topcat-tagung.pdf、Aladin[12]、NED[13]、SkyServer[11]、SciServer等。平台将通过后台脚本,实现与这些服务或数据的对接。
3 应用案例
本节以高校天文选修课的主要教学环节设计为例展示专家识谱平台的使用功效:
(1)课前,文[7-8]挑选的318颗白矮-主序双星样本与一些普通恒星的样本数据混合并导入平台,同时按照学号为学生批量注册账号,并设为同一组成员。
(2)在学生初步了解 《恒星的一生》 这一章节后,教师又专门介绍了一些奇特的恒星系统及其科学意义,在平台上演示了各种白矮主序-双星的测光图像、光谱特征,最后分组交叉分发 “白矮-主序双星搜寻” 任务。
(3)在接下来的第2课时,为调动学生的积极性,特意为学生安排了一次天文观测活动 “辇道增七”,用普通的科普望远镜看它是一黄一蓝的双星,该双星与学生要搜寻的白矮-主序双星很像,但存在一些本质上的区别。在高倍望远镜下,黄色的辇道增七A本身还是一个联星,蓝色的辇道增七B是一颗快速自转的Be星。
(4)要求每个学生至少人工识别50条不同的光谱,并在一个月之后提交一份简单的研究报告。
图12中的两幅图像都截取于专家识谱测试平台,在平台上,学生仅需要三到五次鼠标点击即可获取类似的图像。普通学生通过左边天体的图像可以很好地判断是否属于双星候选体,如果要进一步确定,需要分析右边的光谱图像,光谱图像是系统直接读取FITS文件实时动态展示的,支持互动式操作。右边蓝色曲线是LAMOST的实测光谱,经过小波滤波处理(仅需一次鼠标点击),消除了大部分噪声信号,使光谱变得平滑,而黑色曲线是经过两次鼠标点击后从系统调取的白矮星光谱模版。通过蓝色和黑色曲线对比不难发现,蓝色曲线在波长大约650 nm之后的红端,与模版的谱型匹配得不好,这主要是因为该光谱的红端部分由其伴星(图12(a)偏红的矮星)贡献,光谱的红端部分可以用矮星的模版很好地匹配。
图12白矮-主序双星候选体的测光照片(a)及LAMOST拍摄的光谱图像(b)
Fig.12The photometry image of white dwarf-main sequence binary star candidates (a) and their spectrum of LAMOST (b)
识谱平台记录每位同学的识谱结果,教师(群组管理员)很容易检索那些被多个学生同时确认为白矮-主序双星的记录。被不同学生确认的次数越多,该天体属于白矮-主序双星的概率越大。通过这样的研究型教学活动发现,学生对浩瀚宇宙中那些肉眼看不见但客观存在的东西非常感兴趣,通过兴趣诱导,平时或期末成绩鼓励,大部分学生能积极参与,共同努力将绝大多数的白矮-主序双星找出来。教师还可以将那些非常疑似的白矮-主序双星提取出来,分配给物理学院的学生或对天文学真正感兴趣的学生,利用学校每年开展的大学生科技立项活动或本科毕业设计的机会,让学生进一步研究哪些双星属于共包层后双星候选体。
除了上述的应用案例外,目前该平台还可以很好地应用于类星体的人工搜寻(譬如图10)、星系对搜寻、碳星搜寻等科学目标上,既可通过个人方式完成,也可支持团队协助模式进行。
4 总结与展望
本文概述从光谱数据处理的需求出发,基于先进的信息技术研发一套专家识谱平台,以网站形式对外发布服务,帮助科学家提高人工识谱效率,帮助天文教育工作者丰富教学形式,帮助消化未知光谱。
目前该平台还需要继续集成多种数据挖掘算法,正与国际知名的一维光谱可视化软件SPLAT-VO[14]的作者合作,使SPLAT-VO成为专家识谱平台的主要客户端之一。希望经过不断完善,使该平台成为我国大科学工程LAMOST不可或缺的光谱数据处理平台,并使之成为天文光谱科普教育的首选平台。
参考文献:
[1]Li H N, Zhao G, Christlieb N, et al. Test observations that search for metal-poor stars with the Guoshoujing Telescope (LAMOST) [J]. Resarch in Astronomy and Astrophysics, 2010, 10(8): 753-760.
[2]Wu X B, Chen Z Y, Jia Z D, et al. A very bright (i=16.44) quasar in the ′redshift desert′ discovered by the Guoshoujing Telescope (LAMOST) [J]. Resarch in Astronomy and Astrophysics, 2010, 10(8): 737-744.
[3]Huo Z Y, Liu X W, Xiang M S, et al. The LAMOST survey of background quasars in the vicinity of the Andromeda and Triangulum galaxies-II. results from the commissioning observations and the pilot surveys[J]. The Astronomical Journal, 2013, 145(6): 159-167.
[4]Ren J J, Luo A L, Li Y B, et al. White dwarf-main sequence binaries identified from the LAMOST pilot survey[J]. The Astronomical Journal, 2013, 146(4): 82-93.
[5]Zhao J K, Luo A L, Oswalt T D, et al. 72 DA white dwarfs identified in the LAMOST pilot survey[J]. The Astronomical Journal, 2013, 145(6): 169-187.
[6]Hou W, Luo A L, Yang H F, et al. A large sample of Am candidates from LAMOST Data Release 1[J]. Monthly Notices of the Royal Astronomical Society, 2015, 449(2): 1401-1407.
[7]Ji W. Carbon star candidates identified from LAMOST DR2[C]// 中国天文学会2015年学术年会摘要集. 2015: 67.
[8]Shen S Y, Maria A F, Chen L, et al. A sample galaxy pairs identified from the LAMOST spectral survey and the Sloan Digital Sky Survey[J]. Resarch in Astronomy and Astrophysics, 2016(3): 63-72.
[9]毛晓艳, 张博, 叶中付. 基于加权滤波的低信噪比LAMOST光纤光谱信号降噪[J]. 天文研究与技术, 2015, 12(4): 447-454.
Mao Xiaoyan, Zhang Bo, Ye Zhongfu. Using weighted filtering to denoise low-SNR spectra observed through the LAMOST fiber optics[J]. Astronomy Research & Technology, 2015, 12(4): 447-454.
[10]Raddick J, Lintott C J, Schawinski K, et al. Galaxy Zoo: an experiment in public science participation[J]. Advances in Atmospheric Sciences, 2007, 39: 892.
[11]Szalay A S, Gray J, Thakar A R, et al. The SDSS skyserver: public access to the sloan digital sky server data[C]// Proceedings of the 2002 ACM SIGMOD international conference on Management of data. 2002: 570-581.
[12]Bonnarel F, Fernique P, Bienaymé O, et al. The ALADIN interactive sky atlas: a reference tool for identification of astronomical sources[J]. Astronomy & Astrophysics Supplement, 2000, 143: 33-40.
[13]Helou G, Madore B F, Bicay M D, et al. The NASA/IPAC extragalactic database[C]// Proceedings on the 6th Workshop of the Advanced School of Astronomy of the Ettore Majorana Centre. 1991: 89-106.