科学数据监管项目的风险管理
2018-02-28杨义民
[摘要] 随着电子科研(e-science)的兴起,科学数据监管成为近年来的研究热点。以科学数据的内涵为基础,本文详细分析了科学数据监管过程中可能存在的数据衰变、老化、技术故障、元数据缺失、版权问题、自然灾害、黑客攻击、财务风险、机构和人员风险等风险。从顶层设计、风险管理策略选择标准、风险管理策略制订等方面,提出了科学数据监管项目风险管理应采取的策略,以为科学数据监管项目的理论研究和实践提供借鉴。
[关键词] 科学数据 数据监管 长期保存 风险管理
[中图分类号] G252 [文献标识码] A [文章编号] 1004-6623(2018)01
[作者简介] 杨义民(1984 — ),河南泌阳人,郑州财经学院图书馆副馆长,馆员,研究方向:图书馆管理与文献资源建设。
一、引 言
进入21世纪以来,电子科研(e-science)的产生让科学数据的作用和地位达到了前所未有的高度,越来越受到科研人员的关注和青睐。在全世界范围内,科研数据关联性研究取得了长足的进步,越来越多的大学、科研机构、图书馆和博物馆开始免费共享自己的数字资源,并尝试携手合作对这些资源进行加工和标准化处理,以保证今后的可获取性和可用性。
科学数据既包括科学研究过程中产生的原始性、基础性数据及根据不同需求加工后产生的衍生性数据,也包括各种大规模观测、勘探、调查、实验和试验中所获得的海量科学数据,以及广大科研人员长年累月的研究工作所产生的大量分散的科学数据。在其生命周期内,科学数据的保存与利用对于后续及其他研究至关重要。科学数据监管作为一种数字资源长期保存策略,其过程复杂且一直在不断发展变化,充满各种不确定性。为了尽量避免不确定性带来的风险,把可能的损失降到最低,科学数据监管工作在项目建立之初就应该对系统可能面临的各种风险进行分析和评估,并形成一套完整的风险管理策略,确保各项工作的顺利进行。
二、 科学数据监管项目风险分析
在任何的数字长期保存系统和数据监管项目中,风险分析都被认为是一项首要工作。通常情况下,数字资源面临的风险主要有:数据衰变,老化,技术故障,元数据缺失、版权问题、自然灾害、黑客攻击、财务风险、机构和人员风险等。
1. 数据衰变。指存储在存储介质中的数据,其性能和完整性缓慢恶化,也被称为位衰减、比特衰变、数据腐烂、数据衰变和静默数据损坏。尽管数据中的数据衰变发生频率很低,但它可能在遇到磨损、灰尘、其他污染物、背景辐射以及高热情况时发生率有所上涨。数据衰变可能会导致科学数据的完整性受到破坏,使科研人员在未来无法获取所需的相关研究数据。
2. 老化。老化可能包括软硬件,存储介质和文件格式等,即使现有的软硬件或存储介质能保持良好的工作状态,但随着技术的进步,它们会很快更新换代,被更好的技术替代。科学数据监管要求长期保存大量的数字资源,而相应的软硬件设备,存储介质和文件格式迟早都会老化,从而导致数据丢失或无法读取。
3. 技术故障。包括系统的软硬件设备,存储介质和网络通信设备出现问题,不但可能会造成科学数据损坏、丢失,还会影响为用户提供相应的服务。
4. 元数据缺失。科学数据的用户群可能非常庞大,如果要确保信息能在未来很长一段时间能准确检索、获取并充分理解,必须有大量不同类型的元数据作为支持,包括对数据本身进行解释的描述型元数据,记录数字保存环境、文件格式等的技术型元数据和记录版权、评估情况和等级的管理型元数据等。元数据的缺失会对用户检索、获取和理解科学数据造成很大困扰,甚至导致数据无法使用。
5. 版权问题。科学数据监管项目在长期保存和发布数字资源时都可能遇到知识产权问题,在数据产生时就应当随时关注其版权,当系统提供数据检索和获取服务时也应当确保数字资源获得相应的授权;同时,用户在下载、使用和共享科学数据时也应当遵守相关的知识产权法律法规,不违规使用数字资源。任何科学数据监管项目都包含数据制造者,数据提供者和最终用户,每个环节都可能存在违反知识产权的风险。
6. 自然灾害。不仅包括洪水、暴雨、飓风、地震、火山爆发、山体滑坡、雪崩和海啸等由大自然造成的灾害,还包括火灾、停电、通讯中断、恐怖袭击、战争等人为因素造成的灾难。任何上述风险都会造成数据的损坏、丢失,如果项目所有数据都保存在一个或少数几个建筑中,还可能导致全部数据的丢失。
7. 信息攻击。信息系统通常都会受到来自外部的攻击,包括非法登录系统,未经授权使用数据,以及对系统数据的破坏、泄漏、修改、禁用和盗取等。任何信息攻击都可能造成科学数据完整性和真实性的破坏,信息安全对科学数据监管项目至关重要。
8. 财务风险。对于任何信息系統来说,长期的财务支持都必不可少。系统软硬件的更新,系统人员的维持和管理,都需要花费大量的资金来完成。系统中任意一个环节出现经费短缺的状况,都可能导致整个项目的停滞、瘫痪,甚至彻底失败。
9. 机构和人员风险。科学数据监管项目通常由一个或多个机构共同建设完成,不同机构或部门之间由于对概念理解不同,技术手段不同,都可能对科学数据的真实性和完整性造成影响。比如无法保证数字资源唯一标识符的唯一性,无法发现数据库系统进行了误操作等。另外,任何科学数据监管项目都需要人力资源的长期支持,比如软硬件的更新、维护,系统数据的监控、校对都需要人工完成。而员工在进行上述工作过程中很可能会产生误操作,从而导致系统数据错误、数据质量下降,或者无法为终端用户提供服务等问题。
三、科学数据监管项目风险管理策略
制订详实、完善的风险管理策略对科学数据监管项目至关重要,甚至在一定程度上决定了整个项目成功与否。通过项目建设之初对系统进行风险评估,风险管理策略的制订应当尽量详实,内容丰富,关注细节,尽量涉及系统可能面临的各种风险。endprint
(一)顶层设计
顶层设计包括科学合理的组织架构、有效的风险管理政策以及可行、明确的科学数据监管服务路线图。科学数据监管服务路线图涵盖科学数据监管计划、活跃数据的基础设施、数据监管及数据管理支持。
数据监管计划工作职责是对数据收集、整合、创新活动等提供监管支持服务;活跃数据的基础设施的主要工作是研发活跃数据的存储设备、通过多种渠道提供访问和存储、开发一些工具协助处理数据;数据监管是对科学数据开发工具和服务整个过程进行监督与控制,规避各种侵权风险;科学数据管理支持的主要工作是日常性的咨询和支持服务。为此,以科学数据管理支持为基础,形成了科学数据监管计划、活跃数据的基础设施、数据监管彼此联系、促进的清晰科学数据监管服务路线图。
(二)风险管理策略选择标准
科学数据监管项目在选择风险管理策略时必须从实际出发,保证选择的风险管理策略能得到有效执行和充分验证。风险管理策略涉及范围也应该尽可能广泛,能最大程度降低项目在运营过程中可能面临的诸多风险威胁。在选择风险管理策略时应着重从科学数据监管项目的硬件环境入手,进行分析和选择。可以从以下方面加以考察:风险管理策略是否考虑数据衰减问题,并采取相应措施,包括数据复制,数据校验,不定期数据可读性和一致性测试等;是否制订文件格式老化解决方案,包括保存格式描述信息,在摄取数据时进行格式一致性检查,制订可接受文件格式列表等;是否充分考虑了硬件设备和存储介质老化的情况,并提出应对措施,比如在项目建设时选择多种技术,多个厂家的存储设备等;系统数据来源是否具有可追溯性,相关的元数据信息是否得到了有效保存。比如元数据自动抓取,不同元数据间映像,元数据验证措施等;是否考虑系统数据的知识产权问题;对用户登录和操作进行认证,限制用户权限和使用数据的范围等。
(三)风险管理策略制订对策建议
科学数据监管项目的风险管理策略要符合上述标准,避免系统可能出现的各种风险,应从以下几个方面入手,制订相应的风险管理策略,保证系统的长期、安全、有效运行。
1. 保证数据安全,避免系统崩溃或数据衰减
科学数据监管项目可能在全世界范围内由一个或多个机构协同工作,除了地理位置不同以外,所采用的通信协议、操作系统、应用软件和数据格式也可能多种多样。因此,在制订风险管理策略时应保证在所有机构的存储设备上协同工作,跨区域、跨平台保存科学数据。
由于每个科学数据监管项目的规模不同,数据使用目的不同,在数据备份时采取的策略也不一样。项目可灵活掌握数据备份的内容,确定哪些数据价值高,必须保存,哪些数据没有价值,可以丢弃。但至少要保证在两个以上物理位置不同的地点对系统数据进行备份,并且在每个地点也保存一份备份数据。
使用云存储技术实现负载均衡,充分利用不同地点的硬件设备,把科学数据存储在多个物理或虚拟的存储空间。同时实时监控磁盘缓存的使用情况,当缓存空间达到上限时,及时清理过时的缓存数据,保证存储系统高效运行。
最后,对整个硬件系统进行实时监控,控制服务器的线程数量,防止服务器端过载,影响用户访问。在每一次数据传输后,进行MD5完整性检测,保证数据的完整性和一致性,并存储检测结果以备查验。另外,还要定期(每30分钟,24小时,每周,每月或每年)对数据完整性和一致性进行检测,发现问题及时修复数据。
2. 保证系统长期有效
科学数据监管项目规模、目标不同,其长期保存时间也不一样,但一般情况下至少应保证系统保存的数据在5~10年时间有效。项目建设过程中应遵循OAIS参考模型标准体系,全面支持OAIS参考模型中的功能和任务,并符合OAIS参考模型中的各种标准要求,保证系统的互操作性。同时,详细描述系统各模块的工作流程及使用的工具,并对描述信息进行保存。对终端用户的软硬件环境,知识背景进行分析,并记录。另外,还应完整复制整个科學数据监管项目的整体框架,并在异地进行备份,制订并测试系统恢复方案,对所有存储数据定期进行检查。
为了保证系统数据的长期、有效访问,系统应对可接受的数据格式进行限制,并尽可能选择通用、开放式数据格式。同时,应制定数据格式列表,并定期对用户进行调研,了解用户使用数据情况,根据实际情况更新系统使用的文件格式,必要时进行数据迁移。在系统摄取数据阶段,检查数据格式,拒绝不符合系统要求的文件格式。对系统文件格式的描述信息进行详细记录,以备系统进行数据仿真或数据迁移时使用。
科学数据监管项目应在开始阶段就确定保存数据的内容、格式以及用户的访问权限和知识产权等问题,虽然没有统一的标准规定何时对系统数据进行数字迁移或数字仿真,但数字长期保存专家应设计完善的数据存储流程,不断关注、学习存储设备最新技术和动态,选择适合数字长期保存的媒介,制订数字迁移或数字仿真方案,确定系统数据格式转换的正式标准。
3. 保证数据长期可理解性
为了保证原始数据的可理解性,在系统提供原始数据同时,还要提供相应的描述性信息—元数据。因此,系统在摄取数据的阶段就同时提取元数据信息,并采用软件自动提取和人工在线测试相结合的方式生成元数据。
系统应尽量支持多种元数据标准,完善元数据信息,并使用相应工具检查元数据质量,必要时请元数据专家进行人工检测。同时开发元数据检索工具,实现纯文本文件的深层次全文检索。
为了保证元数据的完整性和真实性,系统应定期自动对元数据进行MD5校验,同时对系统文件,网页和服务器应用进行实时监控,保证为用户提供的数据与系统存储的原始数据没有任何不同。当有新版本元数据出现时,确保每个数据都分配了不同的信息唯一标识符,并对数据的变化情况进行记录。
4. 保证数据知识产权
科学数据监管项目中的大部分数据价值都很高,是众多科研人员长期努力积累的结果,所以应受到严格的保护,确保其知识产权不受侵犯。因此,在科学数据监管项目进行数据加工之前就签订数字版权协议,确保系统所保存和提供访问的数据符合法律法规和相关的管理规范,并进行定期的检查和更新。endprint
科学数据监管项目可能由多个机构共同组成,因此应明确对用户访问进行分层控制,明确不同等级用户的访问权限,同时对数据访问进行分层次管理,确保不同访问级别的用户不违规使用系统内数据。
任何使用系统数据的用户必须经过认证许可,签订数据知识产权保护协议,并对其访问系统数据的情况进行记录。如果发现用户有违规使用的情况,应及时禁止其今后的访问请求。
对于正在进行中的科学数据监管项目,应制订数据保护期限,如规定3~5年时间内,系统数据只能由科学实验小组的成员进行访问和使用,在实验项目结束3年后再向公众开放等。
[参考文献]
[1] 钱鹏,郑建明. 高校科学数据组织与服务初探[J].情报理论与实践,2011( 2):27-29.
[2] 傅小锋,李俊,黎建辉.国际科学数据的发展与共享[J].中国基础科学,2007( 2):30-35.
[3] 杨淑萍.关于数字资源长期保存风险管理问题的探讨[J].图书馆学研究,2007(7):83-87.
[4] 臧国全. 数字迁移风险管理[J].中国图书馆學报,2006(3):54-56+86.
[5] David S.H.Rosenthal, Thomas Robertson, Tom Lipkis, Vicky Reich, SethMora bito. Requirements for Digital Preservation Systems:A Bottom-Up Approach. D-Lib Magazine, 2005 (11). http://www.dlib.org/dlib/november05/rosenthal/11rosenthal.html,2017-05-10
[6] Rosenthal,David S H. Format Obsolescence: Assessing the threat and the defenses [J].Library Hi Tech, 2010(2):195-210
[7] 王艺园. 数字保存系统风险管理研究[D].郑州大学,2009:12.
[8] V.M. Rao Tummala,Y.H. Leung. A risk management model to assess safety and reliability risks [J]. International Journal of Quality&Reliability Management, l996 (8):53
[9] 温芳芳.国外科学数据开放共享政策研究[J].图书馆学研究,2017(9):91-101.
[10] 王海彪,卫军朝.科学数据管理关键因素研究——基于爱丁堡大学科学数据管理实践及启示[J].图书馆杂志,2017(1):20-26.
[11] 王元锋, 臧国全. 数字保存系统风险管理[J].现代情报, 2009(2):210-213+216.
[12] 郭营.基于SPOT模型的数字保存风险管理研究[D].郑州大学, 2014:14.endprint