克服数据交流障碍 新的数据中心
2019-10-12StefanBrseBrittaNestler
文 /Stefan Bräse,Britta Nestler
每一个实验室都会承担多个科研项目 // 每一个科研项目的完成都需要许多人的合作,科研项目的进行也需要信息自由地交流,然而数据在交换时常会遇到了一些阻力。Karsruhe市建造的数据管理和数据分析能力中心有望解决这一问题,利用统一的数字化平台处理来自科研实验中的一系列数据。
大多数情况下,实验数据和模拟分析数据的产生和存储,都消耗了大量的人力、物力和财力,这些数据对科研实验非常重要。可以长久地保存和利用这些数据有着非常重要的意义。数据的丢失也就意味着丢失了已经获得的知识。人工智能的快速发展都是建立在大数据基础之上的,同时,人工智能也将是未来实验室发展的方向,因此,可持续发展科研数据库就更有价值了。
由于缺少高效管理科研数据所需的基础设施和软件,科研人员在处理科研数据时经常会遇到一些障碍。这一缺失直接导致自然科学和工程学科研领域中的许多研究数据无法长期保存和使用。这不仅影响到专业领域内部数据的应用问题,而且也影响到跨学科领域的数据应用问题。2019年7月,Karlsruhe理工学院(KIT)与Karlsruhe大学、Karlsruhe FIZ莱布尼茨信息基础设施研究所合作,建立了MoMaF科研数据中心SDC。它将帮助研发团队克服科研数据管理中存在的障碍。由于自然科学和工程科学领域中的许多专业是相互交织、相互配合的,它们的科研数据和科研成果也常常可以用于双方的科学研究,因此,MoMaF数据中心不仅支持本学科领域中的科研工作,也支持跨学科相关领域中的科学研究工作。
科研数据中心的措施
SDC科研数据中心将通过下述方法为科学研究人员提供支持和帮助:
■开发电子实验室期刊,并将其作为科研工作中有用的虚拟工作环境;
■建立发布和保存数据的资料库;
■为科研数据的管理和数据分析做好推荐服务工作,建立数据推荐服务系统。
■开发各个主管部门、外部数据库与内部资源适用的接口。
■整合现有资源,例如科研数据存储和分类归档。
这些措施是通过Karlsruhe理工学院KIT和合作伙伴Karlsruhe大学(Hs-Ka)、Karlsruhe莱布尼茨信息基础设施研究所(FIZ)中的不同工作组来贯彻落实的。优势互补的相互结合能够制定出以实践为主导的科研数据管理的整体方案。
电子实验室期刊ELNs和数据储存库是SDC科研数据中心的两大支柱,能为科研人员当前的文件资料编撰提供更好的支持和帮助。SDC科研数据中心开发的应用软件简化了科研工作的日常工作流程,为用户提供了优质的服务,从而能够吸引更多的科研人员使用这一软件产品。另外,所有的科研人员都拥有开发许可证,这就能够构建更加广泛的用户群和开发者社区。
电子实验室期刊的开发
数据中心开发的电子实验室期刊软件是在Chemotion ELN电子实验室笔记本项目基础之上进行的。电子实验室期刊软件的开发由有机化学研究所、Steinbuch计算中心和KIT的图书馆等部门共同筹备,并在多个综合小组开展测试。现在已经可以使用的源代码最初是为有机化学领域的科学家使用而编写的,现在正在逐步地推广到相邻专业领域中使用。电子实验室期刊软件开发方的模块化方案能够满足不同实验室用户在实验分析和模拟计算时的不同要求。对于有着相似工作过程和分析过程的科研领域,只需要对电子实验室笔记本软件补充几个模块,就能保证其功能和应用。在MoMaF数据中心框架内的ELN电子实验室笔记本软件将由专门小组安装在各个相关研究所的计算机中,保证了系统里的科研数据和各种当前科研信息不会被泄漏,被带出实验室。SDC科研数据中心将伴随和服务用户使用电子实验室期刊的全过程。
可以交互操作使用的数据库
每一个研究所的电子实验室期刊软件都可以将数据按照交互操作的方式传输给独立运行的科研数据库,这就使得科研人员不但可以随时更新是数据库,还能够获取更多的科研数据和信息。最初,科研人员需要将ELN电子实验室笔记本中的数据传输到KIT理工学院负责运营的数据中心,还要对数据中心的审查过程提供支持。现在,电子实验室期刊软件可以帮助每一个科研人员毫不费力地将数据直接传输到数据库。从长期发展的角度来看,通过这种方式源源不断地提供数据将有利于各个专业专用数据库的建设。有些数据因缺少专业性而不被关注,并很少被重复使用,而那些有着明确专业性的数据、信息将成为科研工作的主要信息来源。在KIT管理学院建成的Chemotion资料库已经可以在科研项目的第一个阶段中应用了,并为其它领域的科研项目提供了示范。
扩展的基础架构——环境和集成
上述电子实验室期刊和资料库的发展离不开基础设施和专业技术的支持。其中的基础设施包括了实现计划工作所需的数据存储能力和计算能力。技术支持包括了各个ELN电子实验室笔记和资料库之间的接口。另外,还有以FAIR公平数据原则为主导的最佳实践模型也是电子实验室期刊和资料库扩展的基础。这一扩展不仅需要有收集、整合原数据的解决方案,而且也需要从法律的角度考虑SDC科研数据中心的研发设计储存问题。