虚拟天文台
——天文学研究的科研信息化环境*
2013-02-24崔辰州薛艳杰赵永恒
文/崔辰州 薛艳杰 李 建 赵永恒 刘 梁 陈 肖
1中国科学院天文台北京100012
2中国科学院前沿科学与教育局北京100864
3中国科学院紫金山天文台南京210008
4中国科学院上海天文台上海210030
虚拟天文台
——天文学研究的科研信息化环境*
文/崔辰州1薛艳杰2李建1赵永恒1刘梁3陈肖4
1中国科学院天文台北京100012
2中国科学院前沿科学与教育局北京100864
3中国科学院紫金山天文台南京210008
4中国科学院上海天文台上海210030
在过去的几十年间,天文科学数据量已经从GB量级进入到了TB量级。如今,正在从TB量级向PB量级迈进。天文学研究已经进入到了数据密集型时代。面对海量天文数据对存储、计算、带宽、软件甚至工作模式等方面的需求,天文学家连同信息技术领域、计算机科学领域的专家正努力使基于天文数据的知识发现过程变得更加容易。旨在实现科学数据互操作的虚拟天文台就是这方面的积极尝试,它将为数据密集型时代的天文学研究和教育科普提供一个信息化环境。天文信息学则从天文学一个分支学科的高度去考虑天文学的长远发展。文章论述了天文学研究在数据密集型时代所面临的需求,介绍了天文学家为应对数据密集型挑战正在研究开发的虚拟天文台技术,探讨天文信息学所包含的内容和发展天文信息学的必要性,展望了中科院统筹规划天文领域科研信息化工作,建设中国虚拟天文台的前景。
天文学,科研信息化,虚拟天文台,天文信息学,统筹规划
DOI 10.3969/j.issn.1000-3045.2013.04.012
1 天文学研究数据密集型时代的来临
天文数据一直以来就被认为是人类了解宇宙的直接证据。古代天体观测技术不是很发达时,通过各种手段得到的观测数据来之不易,因此被十分珍贵地保存起来。事实证明,历史上流传下来的重要天文数据,不仅为当时创造了巨大价值,也为后世科研工作带来了参考。在观测手段日益强大、科研活动极其活跃的今天,天文观测数据仍被认为是人类重要的成果而被精心地保存。
每一次观测技术的进步,都会带来天文学研究的突破。自19世纪初,意大利天文学家伽利略把自制的望远镜指向天空,人们的视野大大拓宽了,天文学开始进入了新的观测时代。进入20世纪,望远镜的数量逐渐增多,观测能力进一步加强,尤其是各种大口径、多用途的望远镜应用,使天文观测深度和观测广度达到前所未有的水平。
望远镜的应用所带来的直接影响就是天文观测数据的迅速增长。天文数据大规模的产生应该起源于天文数据的数字化过程。这得益于20世纪80年代后期,各种电子元器件尤其是CCD技术的成熟和广泛应用。现代的天文观测手段,可以使望远镜所得到的观测数据直接就生成电子文档。这也为计算机管理天文数据提供了便利。天文数据进一步的增多,使天文学家开始关注天文数据本身的保存、检索、处理等问题。自90年代计算机技术、信息技术大规模普及以来,天文数据也进入了数据密集型时代。时至今日,基于数据的天文学研究手段已经非常普遍。
望远镜设计制造、探测器、数据处理等技术的进步使得天文观测能力不断增强,灵敏度越来越高。天文学家开始规划天区范围更广、深度更深、扫描速度更快的巡天项目。另外,一些新的天文研究领域如伽玛暴、超新星爆发等,使得时域天文观测的需求更加迫切。所有这些科学需求,都直接导致天文数据量成爆炸式的增长。表1列出了当前国际上4个天文观测项目相对于高能物理学领域大型强子对撞机(LHC)的数据产生率[1]。在国内,地面广角相机阵(GWAC)每天的观测数据量可达7.4TB;“天籁计划”大型射电干涉仪阵列一期96个天线的数据流量为4.8GB/s,二期1 000个天线的数据流量为3.2TB/s。天文学已经实实在在地进入了数据密集型时代并开始引领该领域的发展。多波段数据的融合、海量复杂数据的分析和挖掘成为新世纪天文学研究的主要方法。
表1 巡天项目与LHC数据产生率对比
2 当代天文学研究对信息化环境的需求
当代天文学研究从一定程度上讲已经成为一项数据驱动的工作。数据获取、数据管理、数据分析、数据共享,每个环节都充满着对信息化环境的需求。
海量的天文数据带来相应的海量数据存储的需求,需要高效的文件存储系统和检索系统。现代的数据库技术可以较好地解决这样的文件记录、整理问题。数据库内部的索引技术可以很方便地实现检索的任务。但是随着未来天文观测设备能力的增强,产生的数据越来越多,当前的主流数据管理方法已经不能完全满足要求。
天文数据量的增长也给天文数据处理带来挑战。通常观测的原始数据并不能直接用于科研活动,需要一套针对观测设备和环境信息的数据处理程序——pipeline,对原始数据进行加工处理后,才能对外发布使用。有时需要对观测出的数据进行实时或几乎实时的处理。如瞬变源(如超新星爆发、伽马暴等)观测的早期预警等工作。天文数据处理对计算资源的要求在射电望远镜干涉阵列项目中表现的尤为明显。目前国际上干涉仪的阵元个数动辄成百上千,大多数已建成的天文干涉仪阵列,如美国的甚大阵列(Very Large Array, VLA),印度的巨型米波射电望远镜(Giant Meter wave Radio Telescope,GMRT)等都由几十个单元组成。随着干涉仪技术的不断成熟,人们开始筹划或在建越来越大的阵列。例如,我国及国际上正积极筹划的“天籁计划”和1平方千米天线阵(Square Kilometer Array,SKA),预期都由数百乃至数千个单元组成;欧洲即将建成的低频射电干涉阵列(Low Frequency Array,LOFAR)由2万个天线构成的48个基站组成。如此大规模的天线阵列对数据采集、传输、处理等有极高的技术要求。如何应对这些挑战,尤其是如何以可接受的成本来应对目前万亿次每秒甚至亿亿次每秒的实时处理需求是国际上非常关注的一个难题。
天文数据在存储和计算上的需求还体现在海量天文数据融合方面。两个不同的星表之间,相同天体目标各自具有不同ID标识的现象普遍存在。在科研工作中,往往又是期望针对同一目标在不同星表中获得联合搜索的信息。于是就产生了不同星表间交叉证认操作的需求。通常,交叉证认以目标源的位置为纽带,将不同数据库中的数据联系起来,从而获得多个数据库中的参数信息或多波段的数据信息。对于两个记录数分别为M和N的星表而言,交叉证认的计算复杂度是M×N。十几年前,M和N的规模仅在数千到数万的量级,而现在已经增长到了10亿的级别。如果是多星表的交叉证认和融合,所需的计算量可想而知。更精确的证认还需要把天体的类型、亮度等物理特性考虑进去。在科学技术快速发展的推动下,天文学进入了全波段巡天观测阶段,形成了多波段天文学。来自各波段的巡天和观测数据都在急剧增长。有了交叉证认的工作后,这些星表就可以统一起来,全方位地了解天体在各波段的特性。通过多波段的交叉证认可以对天体的物理性质、演化规律获得更全面系统的认识,加深对认证目标源的新的天文理解,为统计分析和数据挖掘做好准备。虽然已经研究了很长时间,大规模星表的交叉证认问题依然是天文学界乃至科学数据库领域研究的热点。
进入21世纪,最新的信号探测技术和信息技术开启了天文学研究的时域时代。下一代概要式巡天项目和程控自主天文台激发了天文学家对时变过程的研究热情。时域天文学的发展带来了观测数据的急增,同时也带来了更多新的挑战。概要式巡天项目,比如大口径全天巡视望远镜LSST和SKA,将每晚对大面积的天区进行快速扫描以发现各种变化事件。程控自主天文台则对有价值的暂现事件展开随动观测以获得进一步的信息。程控望远镜数据收集速度较传统观测模式有数百上千倍的提高,数据联合使得数据复杂性大幅度增加,用于分类和决策的数据挖掘算法在这种情况下也必须全面革新。它带来了新科学的机遇,同时也伴随着全新的挑战。这是一个典型的计算机应用、信息技术和天文学交叉的领域。
异构数据再加上暂现天文事件为数据管理和分析带来全新挑战。时域天文学面临的众多挑战中最核心的一个就是海量数据流的实时挖掘。科学产出不仅依赖于天文事件探测到与否,还需要及时而准确地随动观测和数据分析。这就需要对概要巡天产生的海量数据流快速处理,与以后的数据进行比对,找出各种变化的情况,对这些情况进行分类和特征提取,并给出随动观测的优先级。很多科学领域也面临着类似的情况。海量数据从科学仪器和传感器网络中不断产生,异常事件和有价值的情况必须及时探测和发现,并迅速触发相应的动作。
数据密集型时代天文数据的存储和处理有了新的模式,研究的模式也在快速地发生着改变。科研信息化环境则是天文学研究的内在需求。
图1 虚拟天文台基本架构
3 虚拟天文台和天文信息学
天文学是一门既古老而又生机勃勃的基础学科。她起源于数千年前,而时至今日还不断地为我们带来激动人心的新发现。天文学源自观测,收集数据、处理数据、共享成果,是天文学家传统的研究模式。随着天文学领域数据量的不断增大,科研协作越来越广泛,这种传统的研究模式也必须改变。早在世纪交替之际,天文学家就意识到有必要对天文数据访问所有的过程进行标准化。在这种背景下,一个跨天文学科、计算机学科、信息学科的概念——虚拟天文台(Virtual Observatory,简称VO)诞生了[2]。VO是通过先进的信息技术将全球范围内的天文研究资源无缝透明连结在一起形成的数据密集型网络化天文研究和科普教育环境。
为了将各国在VO方面的努力联合在一起,2002年6月在德国召开了“走向国际虚拟天文台”的国际会议。会上成立了国际虚拟天文台联盟(IVOA)。IVOA成立了多个工作组,致力于为实现数据的互操作而制订相关的标准和规范,使数据产品的生成、数据发布、数据发现、数据访问和获取都在标准的VO框架下进行。天文学家只需登陆到虚拟天文台系统便可以享受其提供的丰富资源和强大的服务,使自己从数据收集、数据处理这些繁琐的事务中彻底摆脱出来,而把精力集中在自己感兴趣的科学研究问题上。
VO的基本架构如图1所示。天文学领域中的海量数据通过大型的数据中心或者小型的研究团队来进行管理,以互联网为平台把这些数据以及相关的计算等资源提供给天文学家等用户使用。这就是IVOA架构中的资源层。数据和计算资源的消费者,或者是个体天文学家,或者是研究团队,或者是计算机系统,通过用户层来和下面的资源进行交互。VO则是这个架构中连接资源层和用户层的那个中间层,它以无缝透明的方式将两者连接在一起。VO为资源提供者提供了技术框架,使得这些资源可以被共享(Sharing),用户能够找到(Finding),得到(Getting)并使用(Using)它们。IVOA制订的一系列协议和规范就是要为这些功能的实现提供指导和约束。
VO的诞生,消除了各数据库系统访问标准不统一的问题,使得数据交叉证认、图像光谱数据的分析等工作有了相应的工具来完成。通过使用这些工具,天文学家可以避免一部分重复性工作,节省了宝贵的时间。经过各国VO团队的努力,前面所述的一些服务,已经部分或全部在VO的框架下得到具体的实现。如VOspec、Aladin、SPLAT、VOSesame、VOplot、TOPCAT、Iris等都是VO的出色的应用程序。目前,全世界已经有上百家天文数据中心或天文项目宣称支持VO的标准,为VO提供标准接口的数据源。可以想象,如果未来的天文数据都在VO的标准下进行统一管理,天文学家只需掌握VO的一些工具,即可应用所有的天文数据来进行科研工作。
在过去的十几年间,国际上多个巡天项目积累的数据已经从GB量级跨越到了TB量级。很快,天文领域的数据量将从TB量级跨入PB量级。随着数据和计算资源的增长,诞生了新的知识发现模式。数据已经成为继观测与实验、理论、计算之后科学发现的第四范式[3]。数据密集型环境下,天文研究所需的资源不但包括数据库、分布式数据,还需要高性能计算、分布式计算(如网格与云计算等)、数据挖掘和知识发现工具、创新的可视化环境等。
计算能力按照摩尔定律每18个月增长1倍,I/O带宽每年增长10%,然而,数据量几乎每年增长1倍。因此,相对于数据量的急速增长,计算能力和I/O带宽的增长远远不能满足需求。我们访问、分析数据,从中提取和吸收知识的能力则越来越显得落后,需要开发和应用更强大的新算法、新方法。这就需要在数据驱动的天文学研究时代培养新一代的科学家和技术专家。
量变带来质变,在数据量从GB跃升到PB后,就需要全新方法和全新模式。目前为止,天文学界所采取的是一种非正式和临时应对的方式,结合e-Science和巡天领域的一些专家来共同推进。天文学家逐渐认识到这种方式的局限性。要全面应对海量科学数据时代天文学研究的挑战,天文学家们需要更宽广的视野和长久的策略。为了使现有和未来大型巡天项目、观测设施等数据生产项目科学产出最大化,天文学需要自身领域的信息科学专家。天文学需要正式创建、承认和支持一个重要的新学科,即天文信息学(Astroinformatics)。
传统的,或者说狭义的VO没有完全解决天文学对天文信息学的需求。IVOA是一个非常有代表性的e-Science信息技术研究项目,核心目标是制订一套完整的标准来实现对全球天文信息资源的发现、访问和互操作。对于天文信息学而言,这只是迈出了最初的一步。还需要更多的、系统性的研究和开发,把计算和分析的科学工具应用到天文学领域,从海量的数据中甄别出新的模式和新的发现。天文信息学代表了数据密集型天文科学研究的一种新模式[4]。它将涵盖一系列内在相互关联的领域,包括数据组织、数据描述、天文分类学、天文概念语义、数据挖掘、机器学习、可视化、天文统计学等等。研究的内容包括:数据模型、数据转换和归一化方法、索引技术、信息提取和整合方法、知识发现方法、基于内容和基于语境的信息呈现、一致化的语义描述、分类学、天文本体论等等。这些技术和方法为在海量数据环境下开展数据挖掘、信息提取和融合、知识发现提供了条件。
2010年6月16—19日,国际上第一次天文信息学研讨会在美国加州理工大学召开。大会的主旨是要为数据密集、计算使能的21世纪天文学定义一个新学科(Defining an emerging discipline for the data-rich,computationally enabled astronomy in the 21st century)。会议以邀请报告和自由讨论的形式探讨了VO、跨学科研究、计算技术发展趋势、数据库技术发展趋势、知识发现和提取、机器学习和人工智能的应用、高维复杂数据集的可视化、下一代科学软件系统、数值密集型理论和数据密集型观测条件下的科学、定量化的新科学、协同工作环境和工具、下一代面向天文信息学的科学家的培养、科普教育新技术、全民科学、科学出版和知识保护的新方法、实用天文语义技术等内容。2011年9月,第二次天文信息学研讨会在意大利召开。2012年9月第三次天文信息学研讨会在微软研究院总部召开。
以国家天文台为首的中国天文学界在2002年提出了中国虚拟天文台(China-VO)的设想。2002年China-VO成为IVOA成员。China-VO的重点研发领域包括:系统平台的开发、国内外天文研究资源的统一访问、支持VO的项目与观测设施、基于VO的天文研究示范和基于VO的天文科普教育等方面。China-VO自提出就将其定位为一个应用型研究计划,目标是成为天文学和信息技术之间的桥梁和纽带,让先进的信息技术服务于天文学的研究。China-VO在其研究和应用的同时,一直是天文信息学的推动者。2006年国家自然科学基金委员会与中科院开始共同设立天文联合基金,把“海量天文数据存储、计算、共享及虚拟天文台技术”列为重点支持的5个研究领域之一,为国内虚拟天文台和天文信息学的稳步发展提供了必要的支持。《2013年度国家自然科学基金项目指南》则更加明确地把这一资助方向陈述为“为解决重大天文项目所面临的数据、计算和信息提取等问题而开展的应用基础性研究,包括海量天文数据存储与共享、数据挖掘、高性能计算及虚拟天文台技术等”。2011年,“天文信息技术”作为“天文技术与方法”专业的一个研究方向被列入到国家天文台2011年硕士和博士招生专业目录。我们有理由相信天文信息学不久将作为天体物理学的一个二级学科出现在科研院所和高校的科研、教学体系中。
4 统筹规划打造中国虚拟天文台
中科院天文领域各研究机构在专项等基金的支持下,经过多年的努力,已经积累了较好的信息化基础。
国家天文台的天文数据服务工作开始于20世纪80年代。2002年中国虚拟天文台计划提出后,以信息与计算中心为代表的国家天文台天文信息技术研发团队在科学数据库、数据互操作、天文应用软件、网格技术、科学工作流、超级计算、协同工作环境等领域完成了大量的工作,发表论文数十篇,取得软件注册权登记3项,多套天文软件和应用系统投入使用,服务于LAMOST大科学工程等重大科技计划和国内外天文学家。
紫金山天文台现有的望远镜数据获取设施基础有稳定、高速的联接各野外台站的信息传输网络,并已成功实施IPv6。已建设资源丰富、架构科学、效能高效的毫米波射电天文、行星科学数据库等数据库。“十二五”期间,还将协同暗物质卫星项目着力建设暗物质与空间天文数据库,配合空间碎片监测网重点建设空间碎片数据库,并配合中国南极天文中心建设中国南极中心天文数据库。已成功建设适应现代天文学研究需求的超级计算环境。
上海天文台总部与佘山园区间已完成高速网络互联,全面启用下一代互联网。高性能计算初具规模,拥有1PB的高速磁盘阵列、计算机集群平台、分布式计算刀片平台、3台SGI Altix系列计算机、2套分布式计算机群,全部设备集中在公共机房,由信息计算中心负责运行和管理。e-Science应用示范项目、天文科学数据库、野外台站等项目顺利通过中科院“十一五”信息化专项验收。“应用于深空探测和天文观测的e-VLBI技术”与“超级计算中的星系和宇宙”入选中科院科研信息化应用优秀案例。“基于下一代互联网的e-VLBI示范平台”作为中科院5个示范项目之一入选国家发改委CNGI项目。
2013年4月16日,中科院基础局组织召开了“中科院天文领域科研信息化研讨会”。这是国内天文学领域首次高端科研信息化研讨会,国家自然科学基金委员会数理学部、中科院办公厅、国家天文台、紫金山天文台、上海天文台60多位代表参加了会议。
会议旨在以组织实施中科院科研信息化“天文科技领域云”项目和国家发改委高技术服务业研发及产业化项目为契机,主动适应信息化时代中国天文学中长期发展的要求,建立中科院天文领域信息化工作统筹协调的工作机制,整合我国天文科技资源和天文信息技术研究开发力量,促进科技资源的共建共享,推进我国天文学科研信息化的进程,通过信息化手段更好地支撑天文学研究和科学知识传播。会议决定正式组建China-VO这样一个群众性学术研究和开发组织,统筹组织中科院天文领域科研信息化研究开发和服务工作。
全新打造的China-VO将充分利用各台站和中科院现有网络、存储、计算等信息化基础设施,借助先进的信息技术和VO领域的研究成果,以国内核心天文观测设备的时间申请、审批,数据汇交、共享和使用为线索,融合天文观测和科研活动所需的科学数据、高性能计算、软件和实用工具等资源,形成一个物理上分散、逻辑上统一的网络化科学研究平台;服务从望远镜时间申请一直到科学论文撰写的整个科学研究过程,实现信息化基础设施及资源与天文学研究活动的直接融合;提升我国天文观测设备的运行水平,促进设备和科学数据的开放共享。
中国虚拟天文台将主要提供4个方面的服务:(1)望远镜开放服务。为国内核心天文观测设备提供统一时间申请、审批和数据归档服务,有条件地向爱好者和公众开放专业设施;(2)数据开放共享服务。在尊重相关数据使用政策和知识产权的前提下提供对国内、国际数据资源的快速访问,支持海量异构数据的过滤、融合等操作;(3)数据分析与挖掘环境。为科研用户提供支持海量高维复杂数据的加工处理与挖掘分析环境,支持天文统计学课题的开展;(4)可视化及公共数据服务。面向科研人员和公众提供海量数据的准实时可视化,为教育、科普等非科研需求提供数据服务。
China-VO将为观测设备管理者提供观测申请和审批、数据标准化归档与开放使用以及成果展示平台;为科学用户、教育用户、公众用户提供观测申请、数据使用和成果共享平台;为相关管理部门提供天文观测设备运行情况以及数据产品使用情况的客观统计数据。
5 结语
在科学技术日新月异的今天,学科之间相互交叉现象十分普遍。当前信息技术、计算机网络技术发展迅速,各种新概念、新技术层出不穷。这其中有很多天文领域值得吸收和借鉴的技术与方法。未来天文领域的发展必定和信息技术、计算机技术息息相关。我们正步入天文数据PB量级的时代,EB量级时代也不再是遥不可及。天文学研究从观测到数据获取,再到数据处理分析,一直到成果发表和共享,都越来越需要借助科研信息化的环境。
虚拟天文台概念的提出为e-Science的发展提供了应用示范,促进了天文学与计算机科学、信息技术的交叉与合作。随着科学和技术的发展,数据密集型环境下的天文学研究对研究方法、研究手段、研究工具和各种支撑条件提出了新的挑战。天文信息学作为数据密集型天文科学研究的一种新模式,正呈现出其勃勃的生机。
1 Graham M J,Djorgovski S G,MahabalA et al.Data challenges of time domain astronomy,Distributed and Parallel Databases.2012,30(5-6)371-384.DOI:10.1007/ s10619-012-7101-7.
2 Cui C Z,Zhao Y H.Worldwide R&D of Virtual Observatory.In:Jin W J,Platais I,Perryman MAC.(Eds.),AGiant Step:from Milli-to Micro-arcsecondAstrometry.Proceedings of the InternationalAstronomical Union(2007)Symposium S248.2008,3:563-564.
3 Hey T,Tansley S,Tolle K.The Fourth-Paradigm:Data-Intensive Scientific Discovery.Second ed.Microsoft Research,Redmond,WA.2009.
4 Kirk D.Borne,et al.Astroinformatics:A21st CenturyApproach toAstronomy.[2011-05-30].http://www8.nationalacademies.org/ astro2010/DetailFileDisplay.aspx?id=455.
崔辰州中科院国家天文台研究员,博士。主要研究方向为天文信息学、虚拟天文台。多年来致力于以虚拟天文台为核心的天文信息学研究和开发:完成中国天文数据中心、SkyMouse、VO-DAS等多套天文应用平台和系统;发表学术论文30余篇,完成译著1部、软件著作权登记3项;主持国家自然基金委、中科院、科技部等国家级科研项目16项;2012年被中国天文学会授予“天文学突出贡献奖”。E-mail:ccz@bao.ac.cn
Virtual Observatory,an e-Science Environment for Astronomy
Cui Chenzhou1Xue Yanjie2Li Jian1Zhao Yongheng1Liu Liang3Chen Xiao4
(1 NationalAstronomical Observatories,ChineseAcademy of Sciences,Beijing 100012,China 2 ChineseAcademy of Sciences,Beijing 100864,China 3 Purple MountainAstronomical Observatory,ChineseAcademy of Sciences,Nanjing 210008,China 4 ShanghaiAstronomical Observatory,ChineseAcademy of Sciences,Shanghai 200030,China)
During the last decades,Astronomy has been stepped into a data intensive era.TB datasets have been in hands,and PB datasets are emerging.Big data in astronomy brings challenges on data management,computing,bandwidth,software,and even the way to do research.Astronomers are working together with experts in computer science and information technology to provide an easy way to discover knowledge from big data.Virtual Observatory(VO)is a data-intensively online astronomical research and education environment,taking advantages of advanced information technologies to achieve seamless,global access to astronomical information.To allow users and applications to access distributed and heterogeneous datasets and services in a consistent and uniform way(interoperability),International Virtual Observatory Alliance(IVOA)has been defined a set of standards and specifications.However,the VO,especially the IVOA,does not address all of the challenges faced to astronomical research and education in a data-driven and data-intensive science research era.Standing on a broader vision,Astroinformatics will act as a sub-discipline of Astronomy to enable data-intensive astronomical science.In the paper,backgrounds and current status of VO research and development are introduced,challenges faced to Astronomy and requirements for Astroinformatics are discussed,activities and achievements from CAS astronomical observatories on e-Science are reviewed,prospects for VO in China is described.
astronomy,e-Science,virtual observatory,astroinformatics,roadmap
*修改稿收到日期:2013年5月4日