科研信息化技术支撑条件发展研究
2014-03-13王胜开王伟
文/王胜开 王伟
科研信息化技术支撑条件发展研究
文/王胜开 王伟
信息化的发展对科研活动产生深刻影响,极大地增强了人们的科研能力和协同合作能力,创造了新的科研工作模式,拓展了科研思路、开辟了新兴领域、推动了科学发展。这一切都是在强大的技术支撑下实现的。随着现代科研问题越来越复杂、科研工作越来越精细、工程规模越来越庞大、科研数据越来越海量,对科研方法和科研手段不断提出新挑战,更加需要现代化的技术条件、网络化的基础实施、信息化的科研环境提供强力支撑。
下面基于科研信息化的基本含义,以科研数据为基线,结合科研工作涉及的主要活动,从数据采集、数据存储、数据传输、数据计算、科研管理等方面出发,阐述科研信息化关键支撑技术的发展状况。
1 数据采集
科学数据已成为信息时代的一种战略性资源,呈现海量化、多样化、复杂化、精细化等发展特点。随着科研信息化的推进,数据密集型、驱动型的科研活动和方式不断涌现。做好数据采集是开展科研工作的第一步,在先进技术支撑下,数据采集正由传统的人工观测、记录方式转为基于网络的、计算机、传感器与PDA等设备支撑下的自动采集、记录方式,并迅速向卫星遥感、遥测获取数据的方向发展。
就我国而言,近年来,我国自主研制的对地观测遥感卫星得到巨大发展,已形成气象、海洋、资源三大卫星系列,并正着手建设环境与灾害卫星星座。新型科研仪器和设备,如巡天望远镜、宇宙观测设施、“子午工程”空间系统等,均可直接产生海量的数字数据。在野外观测和科考活动中,基于e-Science概念的数字传感器和传感器网络、移动数字终端等新的数据采集手段正越来越多地得到应用。
我国自主研制的对地观测遥感卫星已形成气象、海洋、资源三大卫星系列。
在先进数据采集技术与设备的支撑下,数据采集的实时性、自动化、网络化程度越来越高,数据采集的效率、准确性越来越高,为愈加深入的科研实践提供了数据基础和支撑。
2 数据存储
科研数据只有借助一定的存储技术、设备和手段保存起来,才能实现后续的共享、传输和交流等,才能保证科研工作的协同合作、持续有效进行。在科研信息化中,数据存储方面的技术支撑主要涉及科研数据库、数据中心、数字图书馆等的建设与维护,它们正从支撑科研活动的基础资源演变为支撑国家科技创新发展的重要资产和战略资源。
世界数字图书馆
由教科文组织及32个合作的公共团体共同成立,而由全球规模最大的图书馆“美国国会图书馆”主导开发,提供全球读者免费使用珍贵的图书、地图、手抄本、影片与照片等服务。
科研信息化的蓬勃发展对数据存储容量、存取速度以及安全性等提出了更高要求,存储技术已从传统的本地存储发展为网络存储,相继提出了直接附加存储(DAS)、网络附加存储(NAS)、存储区域网络(SAN)、虚拟存储(SV)等网络存储架构,实现了网络技术与存储技术的有机结合,实现了数据存储大容量、快传输、高可用、低成本等目标,并正向更新的云存储方向发展。
云存储是近年来兴起的一种新的数据存储与数据服务模式,云存储平台架构可分为四个层次:将多存储设备互连起来的数据存储层、为多服务提供公共支撑技术的数据管理层、支持多存储应用的数据服务层、面向多用户的访问层。其中,最底层的数据存储层主要基于NAS、SAN等技术,以构建数据的网络存储基础平台;上面三层主要提供对底层存储数据的管理、调度、多用户访问等功能,以实现云存储的“按需使用”功能。
国外状况
近年来,国际上启动了一大批有代表性的数据中心建设计划。例如,美国NSF于2007年9月开始实施的科学数据可持续保存与共享网络伙伴计划(DateNet),旨在创建面向科研信息化的科学数据保存与共享模式;英国多家科研机构联合开展的DISC-UK数据共享项目,目标是在一个复杂和动态的信息环境中形成新的科学数据共享模式,利用各方专业知识,推进数据存储服务,积极探索有助于科研人员在互联网上分享科学数据的新途径;英国的数字典藏中心DCC计划、英国的合格晶体结构数据中心建设项目(CCDC);澳大利亚政府于2008年开始实施的国家科学数据服务网络计划(ARDC),以期全面整合澳全国的科学数据资源,实现科学数据的长期保存和共享利用;等等。
国内状况
进入新世纪,我国着力加强科学数据库建设。例如,2002年,科技部启动了“科学数据共享工程”,先后有24个部门参加了共享平台建设工作;自“十五”起,中科院着手建设科学数据库,有60多个研究所参加了科学数据共享服务平台的建设,现已建成含500多个专业数据库、容量超6PB的数据资源中心,全面提供数据存储、备份与长期保存服务;此外,结合国家重大课题和计划,我国还构建了“中国自然资源数据库”、“大气科学与环境数据库”、“空间环境数据库”、“遥感卫星图像检索数据库”等,在科学研究、经济建设、社会宏观决策、西部大开发、防灾抗灾、国土勘探与资源调查、空间探索与载人航天工程等方面发挥了积极作用。各部门也根据自身专业特点,逐步建立了自己的信息中心,提供专业数据服务,如农业部信息中心、海洋信息中心、国家地理信息系统等。
随着信息化进程的推进,近年来我国数字图书馆的建设发展快速,先后实施了国家数字图书馆工程(NDL)、全国文化信息资源共享工程、中国高等教育数字图书馆(CADLIS)、国家科学数字图书馆(CSDL)、国家科技图书文献中心(NSTL)等工程;其中的CSDL计划,旨在构建为科学研究和国家创新体系服务的科技文献信息支撑系统,可提供网上联合编目、跨库检索与浏览、馆际互借与共享、学科信息门户与咨询等服务。
科学数据库、数据中心、数字图书馆等对科研工作的基本服务方式和支撑方式主要包括数据检索、数据目录、数据下载、软件下载等,还可包括一些个性化的服务。随着数据服务工具和手段变得越来越先进,数据中心、数字图书馆的功能将越来越强大。
3 数据传输
数据传输技术对科研信息化的支撑作用主要体现在高速、宽带、安全网络基础设施的建设与应用上,已成为支撑科研信息化发展的最关键技术之一。互联网前身ARPANET的建设初衷即是推动科研工作尤其是国防科研工作的协同合作、信息共享,目前在其基础上发展而来的互联网已成为全球最大的科研信息化技术支撑平台与环境,为全世界科学家的大协同、大合作、技术交流、突破信息壁垒、联结信息孤岛、实现信息共享等提供了可能,它在极大推动人类科技进步的同时,极大地改变了人类的生产和生活方式,影响与意义深远而广大。
互联网现已成为现代科研工作不可或缺的工作平台与环境,它的支撑作用已从网页浏览、电子邮件、文件传输等基本应用,发展为包括视频会议、多媒体点播、远程教学、信息共享、科研协同等在内的综合应用,特别是为科研活动提供了动态、实时、安全的海量数据传输支持。例如,在中国科技网支持下,我国科学家参与了欧洲核子研究中心(CERN)的高能物理研究网格计划,与国际各大气象科研机构实现了高速、可靠的大规模数据传输,为中、澳、日等国的科学家提供了实时、专用的天文观测数据光传输通道与技术支持等。
国外状况
目前,全球大规模的科研学术网主要包括:欧盟的GÉANT、北美的Internet2、亚太地区的APAN,以及连接中美俄三国的GLORIAD、连接欧洲和拉丁美洲的ALICE、连接中国和欧洲的ORIENT等。
GÉANT高度重视高容量网络建设,努力为欧洲广大科研教育机构提供最佳的GÉANT网络,为欧洲信息化基础设施(e-Infrastructure)提供可靠的数据服务,其未来面临的挑战是要能支持exascale运算(即每秒1018次),并改善网络的便利性,以增进全球合作。
20世纪90年代中叶起,美国陆续提出了有关下一代网络建设的三大计划,即下一代互联网(NGI)计划、超高带宽网络服务(VBNS)计划和Internet2计划,它们均与科研信息化密切相关,目标是建设高性能的下一代网络,开发革命性的互联网新技术、新应用,促进科研机构与科研活动的协同合作。Internet2的最新进展是通过光纤将网速提高到了100Gb/s。
近年来,APAN的各主要组成网络,如澳大利亚的AARNet、日本的SINET3、中国的CERNET等,在传输速度、覆盖范围等方面均取得了长足进步。
国内状况
在支撑科研信息化方面,除公共的互联网外,国内最具代表性的两大网络是中国科技网(CSTNET)和中国教育科研网(CERNET)。
CSTNET由其前身“中关村教育与科研示范网络”(NCFC)和中国科学院院网(CASNET)发展而来,以实现中科院科研活动信息化(e-Science)和科研管理信息化(ARP)为目标,现由十三个地区的分中心组成国内骨干网,拥有多条国际出口,为广大科研院所和科研人员提供高效、快速、优质的网络服务,先后承担了中科院“百所”联网、863网络与信息管理系统等项目的开发任务,现正着手建设基于IPv6技术的中国下一代互联网(CNGI)。
CERNET利用先进网络技术和开放网络软件,将全国高校的海量信息资源予以集成,实现有效共享,通过有序管理和协同计算,发挥综合效能,很好地满足了全国各大高校教学与科研的需要。CERNET现整合了18个大学数字博物馆的资源,通过分布在17个城市的22台服务器联合提供网格环境下的技术支持服务。
4 数据计算
高端、复杂的科研工作需要高性能的超级计算技术支持,超级计算机是科研信息化的重要支柱,是国家科技发展水平和综合国力的重要标志。科研信息化的蓬勃发展对数据计算能力提出了越来越高的要求,随着计算机技术与网络技术的进步,先后产生了以分布式计算和并行计算为基础的高性能计算、网格计算,并正向更新的云计算方向发展。
云计算是近年来兴起的一种基于互联网的最新科学计算技术,它通过互联网上异构、自治的服务为用户提供“按需即取”的计算服务。目前,Google、IBM、Amazon和Microsoft等大公司纷纷建立了自己的云计算平台,为用户提供广泛的云计算服务。相比网格计算,云计算具有更强的通用性,可更好地支持Web应用,未来二者可能走向融合,出现“云格”技术,从而更好地聚合各类分布的资源,支持更加强劲、灵活的大型科学计算服务和应用。
国外状况
近年来,以美国能源部的“先进科学计算研究”(ASCR)、美国NSF的Track1与Track2、美国国防部的“先进高性能计算”(UHPC)、欧盟的“欧洲先进计算合作伙伴”(PRACE)与DEISA等为代表的超算计划极大地推进了全球超级计算技术的发展,云计算方兴未艾。
ASCR计划的主要任务是为新能源与核安全、环境与气候、生物与基因等领域的科研与创新提供高性能的计算与网络技术支撑,使之能对复杂现象进行分析、建模、验证与预测,涉及基于先进计算的科学发现(SciDAC)、理论与实验创新计算(INCITE)、多尺度数学行动(MMI)等跨学科研究项目。2010年,INCITE为69项尖端科研计划分配了约160亿CPU小时的超级计算时间,助其实现突破性进展。
2010年,欧盟联合20多个国家,启动了PRACE项目,联接了多台超级计算机,计划在2019年将运算速度提升至每秒百亿次。2012年,欧洲核子研究中心、欧洲分子生物学实验室和欧洲航天局联合推出了“螺旋星云”云计算系统,用于支撑希格斯玻色子、基因和防灾减灾等领域科研所需的超级计算。
近年来,日本也提出了下一代超级计算机发展战略,旨在为生命科学与医药、新物质与新能源、灾害分析与预测、宇宙起源与构造等科研领域提供技术支撑。
国内状况
进入新世纪,我国高性能计算机研究不断取得重大突破,并在众多大型科学与工程领域得到应用,在海量数据处理、数值模拟、科学计算等方面提供了强大支持。2008年,140万亿次/秒的“深腾7000”和230万亿次/秒的“曙光5000A”相继在中科院网络中心和上海超级计算中心投入使用;2009年,1千万亿次/秒的“天河一号”研制成功。
例如,依托超级计算机提供的高性能计算能力,我国科学家参与完成了国际人类基因组单体型图计划,并独立完成了中国超级杂交水稻基因组计划、家蚕基因组计划、家鸡基因多态性图谱等,率先在国内完成SARS病毒的基因组测序与诊断试剂研制。
5 组织协同
科技要创新,科研活动的组织形式也要创新。信息化与技术支撑条件建设在给技术工作带来效益的同时,也为科研管理和协同工作带来了“新动力”,使科研项目、流程、成果、数据、经费、人员等的管理更加科学、高效,极大地提高了管理水平,节约了人力、物力、财力。在先进技术支撑下,近年来,科研组织模式也产生了新的变革。互联网实现了对各种科研信息化设施的连接,消除了地域、组织界限,使虚拟科研组织逐渐成为一种新的科研组织方式,并得到迅速发展。
国外状况
在美国的DataNet计划中,对创建面向科研信息化的科学数据、科研成果共享模式等做了规划。2010~2012年英国联合信息系统委员会(JISC)对科研项目规划、实施和管理开展研究,以期更新或改变科研管理和业务系统,确保所有解决方案的长期可持续性。英国在《2009英国科研信息化综述》报告中强调,要成立更加科学的组织与管理体系,以创建更好、更系统的科研支撑机制。澳大利亚ARDC计划全面整合全国科研资源,实现科学数据、科研成果的共享利用。欧盟的欧洲信息化基础设施咨询工作组(e-IRG)提出应促进跨不同科研基础设施的通用、长期服务。欧美各大学率先建立面向公众的各类公开课程,通过在线公开课程推进教育信息化的发展。美国哈佛、耶鲁、英国牛津等著名大学,纷纷开设了面向全球的网络公开课,在互联网支撑下,推动全球科研与教育的发展。
在网络化、信息化技术支撑下,欧美的虚拟科研组织和虚拟科研环境建设不断加强。美国的社会技术系统虚拟组织计划(VOSS)、英国的虚拟科研环境计划(VRE)与GOLD计划、欧盟的D4Science与D4Science-II项目等,使虚拟科研环境的建设不断迈上新台阶。
国内状况
近年来,国内在科研虚拟组织方面也取得了长足发展。2002年,中科院国家天文台提出了建设中国虚拟天文台(China-VO)的计划,在国家863计划、国家自然科学基金委重大项目支持下,中国虚拟天文台在数据管理、数据访问、数据挖掘等方面设计开发了多套网络应用工具和服务,虚拟天文台将为全国天文学研究者提供更多服务。2004年,在中科院网络中心成立了“计算化学虚拟实验室”(VLCC),这是一个集科研、软件开发、学术交流、技术培训、高性能计算应用培育、计算化学普及、实验与计算为一体的虚拟科研组织。2007年,中科院与青海湖国家级自然保护区联合成立了“中国科学院青海湖国家级自然保护区联合科研基地”,这也是一个比较典型的虚拟科研组织,建立了基于多个学科数据库的跨所、跨领域协同工作环境。
在先进技术的支撑下,近年来,我国科研管理的政策规划、顶层设计、总体部署、组织协调、人才管理等能力不断增强,推动着我国科研信息化的不断发展。
未来发展趋势
科研信息化发展与技术支撑条件建设相辅相成、互为作用,科研信息化的进一步发展将对技术支撑条件建设提出更高要求,技术支撑条件的进一步建设将为科研信息化的发展提供更好服务。
我们分析认为,未来科研信息化技术支撑条件的发展将呈现以下基本趋势:
1.随着数据采集、传感器技术与设备的发展,在未来的科研活动中,数据采集的实时性将更强、准确性将更高、根据科研需要可采集的数据粒度将更细、范围将更宽,数据采集的无人化、自动化程度将得到进一步提高,尤其是野外或恶劣环境下的数据采集能力将得到进一步增强。“北斗”等卫星系统的部署应用将为未来我国科研信息化的发展带来新的希望。
2.随着存储介质、技术与设备的发展,在未来的科研活动中,数据存储容量将更大、响应速度将更快,网络存储与云存储系统的建设成本将大幅下降,数据中心、数据图书馆将得到进一步扩展,将联合更多科研单位的参与,用户将越来越多,科研数据、科研成果将得到更好共享,国际、国内的交流、合作与协同也将因此得到进一步增强。
3.随着通信技术、尤其是下一代互联网技术的发展,在未来的科研活动中,数据传输网络带宽将更宽、速度将更快,网络安全技术的提高将使数据传输更安全、更可靠。卫星通信、移动互联网的发展将为未来科研活动提供更好的数据传输服务,数据服务的随身性、移动性、泛在性将进一步增强,野外科学考察的技术条件将得以极大改善。
4.随着微电子技术的发展、新材料的发明、新工艺的进步,人类有望继续突破物理极限,CPU芯片的处理能力在未来较长一段时期内将继续以莫尔定律所称之速度不断增长,网络计算、云计算技术逐步走向成熟,高速、复杂科学计算的能力将得到进一步增强,并将推动可视化、智能化科学试验、模拟仿真、样机制造等的发展。
5.科研组织协同方面,在新的管理模式和理念推动下,未来将出现更好的组织协同工具和软件,从而使信息化条件支撑下的科研管理更具人性、更富计划、更加精细,实现科研管理经济性与科学性的完美结合。
科学研究的终极目标是为人类更好地认识自然、改造自然服务,为实现人与自然的更和谐相处、更和谐发展服务。随着技术支撑条件的建设与发展,我国科研信息化水平必将得到进一步提升,从而为我国经济和社会的全面、协调、可持续发展提供更强大科技保障!
(作者单位为中国科学院计算机网络信息中心)