业务系统数据归档研究
——以中国石油业务系统数据归档实践为例
2020-01-07中国石油档案馆中国人民大学电子文件管理研究中心
王 强/中国石油档案馆、中国人民大学电子文件管理研究中心
高 强/中国石油档案馆
当今,越来越多的组织机构将数字化转型视作重塑组织架构、改善运营模式、优化资源配置等的重要途径。数字化转型过程中各类业务系统层出不穷,其特征是“包含动态数据,不断更新(实时)、能够转换(可操作)以及保留当前数据(非冗余)”[1]。对于档案部门而言,需要认真思考如何将不同类型业务系统中办理完毕且具有保存价值的数据收集归档。本文基于研究业务系统数据归档概念及数据归档价值的视角,以中国石油(下简称“中石油”)业务系统归档实践为个案,分析未来业务系统数据归档应着重解决的关键问题。
1 业务系统数据归档的概念及意义
1.1 业务系统数据归档的概念
随着数字化转型的不断深入,越来越多的业务系统开始呈现数据驱动特征,以数据库文件、电子表格文件、数据体、数据集、模型等形式存在的数据态文档日益增多。数据态文档与以电子文件为主要表现形式的数字态文档在语义连续性上存在较大差异,一般来说前者语义离散,后者语义连续[2]。因此,数据态文档管理不能采用传统归档的管理方式[3]。为了更为准确地涵盖业务系统中存在的各类数据,本研究以“业务系统数据”指代“业务系统管理的所有机构中的活动数据与证据”。业务系统数据归档指将各类业务系统中产生的具有保存价值的数据进行内容和技术鉴定、确定保存内容和方式、实施分类整理、建立语义关联,使之固化、可理解后收集保管。归档后的业务系统数据成为具备原始性、权威性等档案属性的数据,可不依赖原有系统环境,且不可更改,可见没有改变其作为业务活动的记录和凭证的特性。此外,由概念可知,业务系统数据归档强调数据保管权限的移交以及一系列使数据及其证明信息实现档案化管理的手段。因此,业务系统数据归档不能片面地等同于电子文件归档,更不能同于数据备份。
1.2 业务系统数据归档的意义
第一,数据归档是企业进行依法合规管理的内在要求。法规遵从是企业管理的基本要求,而企业合规管理能力是体现企业国际竞争力的重要方面。数据归档后成为电子档案,是数据发挥凭证作用的前提和基础,也能使企业进一步提高数据内控能力,有效避免数据被恶意篡改、恶意损毁等违法行为的发生。通过归档固化业务数据,不仅能有效防止业务数据被非法利用,还能使数据在不依赖业务系统环境下被长期保存与妥善利用,发挥其应有的凭证价值和信息价值。
第二,数据归档是企业加强数据治理的重要举措。从发展趋势看,数据利用正从业务管控转变为业务驱动,数据逐渐成为能直接创造价值的企业无形资产。而针对数据不完整、不一致、不准确、共享难的问题,国内外很多企业启动了数据质量提升与数据治理项目,用以提升决策支持效率、统一数据标准、明确数据认责以及构建全面的数据管理能力。通过数据归档,数据的质量得到有效控制,特别是将归档要求前置,与前端业务流程和系统运行进行充分融合,在源头上和过程中规范了数据质量。
第三,数据归档是企业发挥数据价值的重要手段。数据归档将不同业务系统的数据汇集起来,为大数据、人工智能等信息技术进一步实现突破奠定了庞大的数据基础,充分发挥了数据价值。此外,归档后的数据还能减轻业务系统负担,提高业务系统运行效率进而最大程度实现数据集成共享,同时为跨业务数据的分析应用和数据聚合效应的发挥提供数据基础。数据归档后,其不仅被赋予了过程、来源、结构信息,并且还经过了可视化封装,因而不再仅是简单的数字,还同时具备了丰富的研究价值。不仅如此,由于此时的数据可完全脱离其产生环境独立存在,利用者无需再与其来源系统进行数据接口开发就可被授权使用该数据,极大降低了使用该数据的难度,也丰富了其可被利用或引用的场景。
2 中石油业务系统数据归档现状分析
2.1 中石油业务系统及其数据类型
中石油信息化建设按照“共享中国石油”目标,确定了“统一规划、统一标准、统一设计、统一投资、统一建设、统一管理”的“六统一”原则,采取建设集成信息系统的工作模式。目前建成了包括投资、财务、人力资源、物资采购等9条业务主线的企业资源计划(ERP)集成应用平台,以油气生产物联网、工程技术物联网为代表的物联网系统平台,建设了集中存储的云计算中心和移动应用平台,统建业务系统共87个,覆盖企业勘探开发、炼油化工、管道建设、油品销售、金融贸易、经营管理、基础设施等多个领域。
需要指出的是,当前业务系统划分主要按照业务主线标准与信息化战略规划。这一划分方式虽然有利于业务梳理与集团公司整体的信息化建设,却不能很好地匹配业务系统数据归档需求。本研究从归档实践出发,结合业务系统数据形成特点与数据归档需求,将业务系统划分为四大类。
一是以油气水井生产数据系统、管道生产管理系统、工程生产管理系统等为代表的生产运行类系统。该类系统主要是对日常生产运行所产生的数据进行收集、汇总、审核、上报、综合统计查询,系统内的数据会在固定周期内稳定、持续地产生。这类数据主要用于历史分析,大多保存在关系型数据库中,数据量整体增幅不高且平稳。如管道生产管理系统,形成的数据以长输管网主要节点所产生的温度、压力、流量等抽样数据和各级生产与销售部门填报的管输与销售数据为主。而数据利用形式多以报表、图形展示为主,以当期或近期数据来进行对比或对未来数据走向与发展趋势进行分析。
二是以管道完整性管理系统、油气生产物联网系统、工程技术物联网系统等为代表的连续监测类系统。该类系统通过相关设备对实体环境和系统进行实时监控,数据形成特点是快速、实时、大量、连续、动态。一般情况下,该类系统数据或存储在实时数据库中,或经过抽样保存在关系型历史数据库中,可视作随时间延续而无限增长的动态数据集合。其中单个数据所体现的信息量较小,一般需要通过人工或机器进行解读后方可使用,而数据集合的数据量又很大,无法进行长期保存。因此,一般设置时间窗口,超过时间窗口的数据就不再保存,或抽样后进行定期的数据库备份及线下保存。连续监测类系统的数据利用形式以现场监控和后期趋势分析为主。
三是以物资采购管理系统、人力资源ERP系统、销售ERP系统等为代表的经营管理类系统。该类系统数据形成特点是产生周期长、在业务系统中进行加工处理,其中结构化与非结构化数据都占有一定比例,描述某项业务活动时经常需要结合两类数据。在数据保存方面一般采用结构化数据库方式,以数据备份形式对数据进行长期保存。系统内的业务数据通常需要同时依靠数据结构和系统展示逻辑方可使用,脱离业务系统进行使用较为困难,此外跨系统应用一般需要进行二次开发。
四是以电子公文系统、合同管理系统、投资管理系统、工程项目管理系统、科研管理系统等为代表的综合管理类系统。该类系统数据形成特点是依据业务流程、规则产生,数据周期与业务周期相同,其中非结构化数据占比较大,主要包括企业的各种文档、报表、账单、网页、图片、扫描件,以及大量的音视频文件等。
2.2 中石油业务系统数据归档工作
在业务系统数据分类归档理念指导下,中石油积极推进业务系统数据归档实践工作,并归纳出了数据归档应遵循凭证归档原则、业务导向原则、系统稳定原则、条件成熟原则和分批集成原则,初步探索出了一条合理、高效的业务系统数据归档路径。中石油业务系统数据归档的主要工作及成果包括如下方面。
第一,稳步推进业务系统数据归档工作。目前中石油业务系统数据归档工作重点在综合管理类系统和经营管理类系统的数据归档上,已经完成了电子公文系统(OA)、财务ERP和财务管理系统(FMIS)、合同管理系统和招投标系统的数据归档工作。此外,电子采购系统、办公管理系统(审计)、勘探与生产技术数据管理系统以及工程项目管理系统有较为明确、迫切的数据归档需求,下一阶段将着重对这些系统的数据进行归档。
第二,明晰业务系统数据归档基本流程。基于业务系统数据分类归档理念,利用综合管理型系统的数据进行归档实践,中石油总结出了综合管理型系统数据归档的基本实施流程,并制定出不同业务系统归档范围、归档元数据规范和集成接口技术规范,未来将进一步探索其他类型业务系统归档流程。
第三,明确业务系统数据归档需求。为梳理业务系统数据归档现状,中石油制定“十四五”期间企业数据归档工作计划,对87个统建业务系统进行问卷调查,结果显示将近70%的业务系统具有明确的数据归档需求,这为后续数据归档工作计划制定提供了可靠依据。
第四,统一业务系统数据归档格式。为保证归档数据长期可读、可用、可理解,必须对归档数据格式进行统一规定。通过制定归档格式规范,业务系统数据归档格式可基本实现统一。
3 中石油业务系统数据归档的关键性问题
3.1 数据归档概念混淆不清
业务主管部门和档案部门能否对数据归档概念达成共识是实施业务系统数据归档需要解决的首要问题。统建业务系统的问卷调查结果显示,60个业务系统主管部门(占统建系统的68.9%)表示数据应当进行归档,但多数认为将数据备份或离线保存就是归档。可以看出,多数业务部门将数据归档视为一种保障数据安全的数据恢复策略,并非是档案工作领域归档的通常意义[4]。这会导致业务主管部门对档案工作产生误解,继而仅从自身业务管理和需求实施业务数据管理,不考虑数据归档的基本规范,不利于业务系统数据归档。
3.2 数据归档价值认知不足
数据归档价值认知决定了业务主管部门参与到数据归档活动中的主动性,因此,如何确保业务主管部门形成正确的数据归档价值认知是实现业务系统数据归档需要解决的重要问题。业务主管部门常常出于安全保密、数据所有权的归属、能力权限范围等因素考虑,认为数据归档对业务活动支撑的作用有限。如部分业务主管部门认为业务数据应该由业务系统自行保管,不愿意共享给其他系统与用户;部分业务主管部门认为数据归档后档案管理系统不能提供面向专业的细分应用和资源服务而不配合数据归档活动等等。这种狭隘的认知不仅会加剧组织机构各个业务系统之间的数据壁垒,导致业务系统数据共享难度加大,还会大大加重业务系统的负担,降低业务系统运行效率。并且,如果在业务发生变化或者系统发生改造时产生数据丢失或损失关联信息的情况,将对企业数据资产造成极为严重的影响。
3.3 数据归档责任主体不明
界定数据归档责任主体,厘清相关责任主体的权责范围是有效开展数据归档的前提。没有清晰的权责划分可能导致多主体管理混乱,继而影响数据归档的成本与效益。数字化转型背景下,档案部门将不是唯一的组织机构数据资产保管单位,数据管理中心、数据资产部门等的设置可能会形成新的业务系统数据归档的权责划分格局。如,为统筹公司数据管理和大数据应用,今年中石油成立了专门的数据管理中心,主要工作任务包括构建数据治理体系、规划数据共享创造价值路径、优化基础设施等数据生态环境、开展数据挖掘和分析、提供专业的大数据应用技术服务。从职能角度来看,数据管理中心与档案管理部门并不冲突,两者无法相互取代。在这样的情况下,如何划定业务主管部门、数据管理中心和档案管理部门的工作范畴及职责,成为未来数据归档过程中不可避免的问题,将直接关系到档案机构在未来数据归档活动、数字资源体系建设及知识服务等相关工作中的定位。
3.4 数据归档范围不清晰
数据归档的对象并非面向所有业务系统数据,它只是确保具有保存价值的业务数据长期可读、可用、可理解,因此划定数据归档范围是数据归档要解决的基本问题。目前我国企业各类文件归档范围划定主要参照《企业文件材料归档范围和档案保管期限规定》(国家档案局第10号令)和《电子文件归档与电子档案管理规范》(GB/T 18894-2016),它们主要面向传统载体环境和电子文件归档,但是在当前的数据环境下,这些规章制度的现实指导意义不强,如中石油统建业务系统生产数据达到近12PB,数据量大且数据类型复杂多样。如何制定与时俱进的归档范围和面向数据的档案资源目录体系,将成为新的研究与实践课题。
3.5 数据归档策略不健全
归纳出“数据归档是什么”“为什么要进行数据归档”“由谁来进行数据归档”“数据归档归什么”的关键问题后,“如何进行数据归档”的核心问题自然呈现出来。业务系统数据归档具有复杂性,主要表现在:第一,业务系统类型不同,数据归档需要考虑的侧重点不同。如,综合管理型系统一般可以事件为中心进行处理,但是经营管理型系统就需要利用结构化数据库形式进行处理。第二,业务系统中文件存在的数据形式不同,数据归档需要考虑的管理手段不同。如,结构化数据与非结构化数据归档应该采用不同的归档方式。第三,以数据驱动为特征的业务系统归档将更为复杂。对于此类系统,中石油当前均是采用“降维”的方式,即将结构化数据转换为半结构化或非结构化数据进行归档。如电子会计归档是将系统中的结构化数据,按照规范要求,配置生成固定模板的版式会计凭证、账簿和报表文件(pdf格式),将流程信息以XML形式封装。这种方式虽然在解决系统平台依赖性、提高可理解性方面有一定的优势,但在维护数据的完整性及大数据分析利用等方面存在劣势。因此,面对复杂的业务系统数据归档需求,如何研究出体系化的归档解决方案与策略,应当成为未来数据归档着重研究的问题。