APP下载

前 言

2017-12-30孟小峰,黎建辉,郭毅可

计算机研究与发展 2017年2期
关键词:高能物理数据管理事例

前 言

科学数据是科研活动的输入、输出和资产,是科研人员对其所研究的客观对象相关现象的描述.以大规模巡天望远镜、大型粒子加速器、高通量基因测序仪等为代表的新一代观测与实验装置源源不断产生巨量科学数据,将科学研究推入一个前所未有的大数据时代.这将改变人类几个世纪以来主要研究和理解相对简单、未耦合或弱耦合系统这一局面,大大增强我们详细表征和描述复杂性的能力,以及分析高度耦合复杂系统动态行为的能力.可见,科学大数据管理与分析的能力及水平,成为了未来在分秒必争的重大科学发现中能否胜出的关键.来自于天文学、生命科学、高能物理等应用领域的迫切需求,也正在挑战着当今所有数据管理系统的极限,成为当下科学界和数据管理领域需携手攻坚的难题.

2017年《计算机研究与发展》以科学大数据为专题,结合科学大数据的特点和典型应用需求,重点关注科学大数据管理理论与方法、关键技术与系统,以及各应用领域的最新进展等.本期专题经过公开征稿,总计收到40篇论文投稿,最终收录了5篇论文,内容涉及科学大数据管理基本理论与关键技术,天文大数据、高能物理大数据、遥感大数据等领域大数据管理需求与实践,科学数据众包服务等主题.这些文章为相关领域的研究者探讨科学大数据理论基础及应用、讨论最新的突破性进展、交流新的学术思想和新方法,以及展望未来的发展趋势,提供了很好的交流机会.

大数据时代科学研究是一个大科学、大需求、大数据、大计算、大发现的过程,发展与科学发现过程有机融合,实现全生命周期、全流程管理的科学大数据管理系统具有重要意义.“科学大数据管理:概念、技术与系统”(黎建辉等,中国科学院计算机网络信息中心)阐述了科学大数据的概念和特征,剖析了科学大数据管理面临的挑战与需求,分析了科学数据管理系统当前的研究进展,提出了一种全域科学大数据管理系统架构,并从数据融合、数据实时分析、长期存储、云服务体系以及数据开放共享几个方面分析了科学大数据管理中涉及的关键技术问题.

超大型天文观测技术的出现可以帮助研究人员观测新的天文现象,而这项技术的成功应用建立在海量天文数据的近乎实时产生、管理和分析的基础上,当前的数据管理系统无一能满足这种需求.“天文大数据挑战与实时处理技术”(杨晨、孟小峰等,中国人民大学)针对地基广角相机阵(GWAC)在数据存储、检索、持久化等方面遇到的挑战,设计了分布式GWAC数据模拟生成器,用于模拟真实GWAC数据产生场景.在此基础上,提出一种两级缓存架构,使用本地内存解决多镜头并行输出、实时瞬变源发现,使用分布式共享内存实现秒级查询.通过实验验证,能有效解决GWAC在数据实时处理和管理上的难题.

规模巨大的高能物理实验数据对数据采集、存储、传输与共享、分析与处理等数据管理技术提出了挑战.高能物理数据管理存在数据传输量大、IO瓶颈以及数据处理效率低等问题.为此,“高能物理大数据挑战与海量事例特征索引技术研究”(程耀东等,中国科学院高能物理研究所)提出了一种面向事例的高能物理数据管理方法,该方法可从以文件存储的海量原始数据中,按需抽取物理事例特征并建立专门的索引.同时,提出和实现了海量事例特征高效索引技术,通过系统验证和分析,验证了基于事例特征索引进行事例筛选的可行性,可以大幅提升高能物理数据处理的效率,降低资源的消耗.

遥感数据存在数据量大、数据种类多、数据分布分散等问题,并且遥感应用的复杂程度和个性化程度也不断提高.然而,目前遥感数据管理和服务系统在容量、可扩展性、易用性和性能等方面都难以满足遥感应用的需求.针对该问题,“遥感大数据的基础设施:集成、管理与按需服务”(李国庆等,中国科学院遥感与数字地球研究所)从遥感数据的特点出发,剖析了遥感数据基础设施应当具备的分布、异构、时空连续和按需数据处理等特性,设计了此类基础设施的体系结构,探讨了实现的技术难点与解决思路.该项工作可以实现数据与处理“存算一体”的目标,支持基于大数据的遥感科学合作研究与协同工作.

获取科学数据的最终目的是根据需求从数据中提取有用的知识.由于科学数据具有结构复杂、应用多样等特点,难以通过计算机实现全部自动化提取知识,众包是一种可能的解决方案.“科学数据众包处理研究”(赵江华、周园春等,中国科学院计算机网络信息中心)针对科学大数据众包处理的特点,围绕人才筛选机制、任务处理模式和结果评估策略3个方面对科学数据众包体系进行研究,并通过地理空间数据云平台开展遥感影像信息提取的众包实践.实践发现,科学数据不仅能够通过众包模式进行处理,而且通过合理的设计众包流程能够获得高质量的数据结果.

承蒙各位作者、审稿专家和编辑部等方面的全力支持,本专题得以顺利出版.由于科学大数据管理问题涉及的领域极其广泛,包括了各个不同的科学研究领域.来稿数量大、时间紧、容量有限,所以部分优秀稿件无法刊列,而且本专题也无法全面体现科学大数据方面的最新成果.在审稿过程中亦难免出现不尽人意之处,希望各位作者和读者包容和谅解,希望同行不吝批评指正.

最后要特别感谢《计算机研究与发展》编委会和编辑部,从专题的立项到征稿启示的发布,从审稿专家的邀请到评审意见的汇总,以及最后的定稿修改出版,他们都付出了辛勤的汗水.最后衷心感谢各位作者、审稿专家和编辑部的辛勤工作!

孟小峰 中国人民大学

黎建辉 中科院计算机网络信息中心

郭毅可 英国帝国理工学院

2017年1月

猜你喜欢

高能物理数据管理事例
盛宴已经结束
企业级BOM数据管理概要
用典型事例表现人物特点
定制化汽车制造的数据管理分析
写好典型事例 凸显人物特点
航发叶片工艺文件数据管理技术研究
传神写照,意味深长——写人要关注具体事例和细节
数据挖掘在学生成绩数据管理中的应用研究
数据挖掘在学生成绩数据管理中的应用研究
“例”后有“析”方可取