面向智能档案管理的企业数据治理路径研究
2018-05-29钱毅刘涛
文 / 钱毅 刘涛
信息化是所有企业档案工作发展的必经之路。经过数十年的发展,包括企业档案在内的信息化已经取得了大量成果,初步建成了以档案目录中心,以基础数据库、档案利用系统、档案网站为基础的档案信息化体系。企业档案与通用的行政类档案相比,由于业务对象的专业要求高、规模大、类型多,面临的问题也更复杂。目前不少企业已经花费巨资搭建了技术层面的信息平台,积累了海量的档案信息资源。但我们应当看到,“两化融合”的政策要求、“大智云移”的技术背景、智能制造的产业趋势都对企业档案信息化提出了更高的要求,促使其踏上脱胎换骨式的升级之路,要求它逐步进入智能档案管理阶段。本文拟从企业档案信息化发展阶段入手,研究企业档案通过数据治理而满足智能档案管理的方法与路径。
一、智能档案管理是企业档案信息化的重要发展方向
信息化是信息资源不断丰富、技术应用不断扩展、资源开发不断深入的一个连续性过程。诺兰模型指出,任何一个行业、国家或地区的信息化大体都要经历初装、蔓延、控制、集成、数据管理和成熟六个阶段,企业档案信息化亦不例外。胜利油田的档案信息化历程[1]与东风汽轮机厂四代档案信息系统的演变[2]就清晰展现了档案信息化发展的不同阶段。
从推进方式、建设规模、建设重点、档案管理方法革新程度等角度来看,企业档案信息化大致经历了目录数据库建设、档案数字化、电子档案管理等阶段,目前正向智能档案管理阶段发展。智能档案管理是档案信息化的高级阶段,是新技术环境的客观要求,是实践数据—信息—知识—智能的信息化发展路径的必经之路。目前,业务系统更多地呈现出数据驱动、模型驱动的特点,所形成的档案越来越多地以数据密集型产品的形式出现,档案资源颗粒度的精细化客观上也要求档案部门提供更为智能的信息服务。
二、当前企业智能档案管理中存在的主要问题
坚实的数据基础是智能档案管理的前提,数据的质和量决定了智能管理的成败。智能档案管理要求数据资源既要在数量上具备一定的规模,又要在质量上满足准确性、完整性、可用性、规范性等要求。只有做好充分的数据准备工作,各种智能算法、平台、系统、设备才有用武之地,才能充分发挥档案资源的价值。当前我国企业档案数据管理还存在不少问题。
(一)档案数据质量存在不足
档案数据质量是指档案作为一种数据产品所具有的一系列属性特征,包括准确性、一致性、完整性、规范性、稳定性等。[3]钱毅认为,数据可以按照属性—属性关系—属性值三元结构进行理解,档案数据的总体质量包括“属性”的选取质量、“属性关系”的表述质量和“属性值”的取值质量三个方面。[4]
目前,企业档案系统中的数据在这三个方面的质量状况普遍不太乐观,具体表现为系统之间数据不一致、数据定义缺失、数据重复、完整性差等。这些问题产生的根本原因是缺乏对数据质量的有效控制,要解决这些问题不能仅仅关注局部应用,还需要综合考察企业档案数据流转的各个环节,制定系统完整的解决方案。近期兴起的数据治理是一系列涉及数据管理的流程、政策、标准以及相关技术手段的集合,能够较为有效地应对数据质量问题[5]。
(二)档案数据现状与企业信息化发展模式不匹配
企业信息化发展模式已经从早期具有“孤岛”特征的部门信息化向整体规划模式和数据驱动模式发展。新的发展模式要求档案数据具备更高的整体水平,而当前多数企业的档案数据现状并不能完全满足企业信息化新的发展模式需要。
部门信息化是早期信息化工作的典型形态,多数企业遵循以部门信息化为主导的发展路径,往往在开展到一定阶段后才开始实行各部门数据之间的集成和联通。这种模式存在的纵强横弱的痼疾导致了典型的信息孤岛现象,造成企业数据不能有效流通和共享。
整体规划模式是企业信息化集中管理的必经之路,主要是通过整体规划将企业核心业务进行整合,实现前台业务与后台数据的总体管控。该模式体现出的集约化和集中管理原则既符合技术潮流的发展趋势,也与我国的企业档案管理体制相吻合。目前,一些大型企业如国家电网、中国联通、中石油等已经建立起集团层面的一级架构,拥有档案统一集中管理的系统平台,开始具备整体规划管理档案的基础条件。
数据驱动模式意味着业务系统信息化的进一步深入发展,数据开始取代传统的文件驱动着各项业务的进行。在金融、电信、先进制造等领域已经开始规模化地使用数据驱动系统,如海尔集团的个性化定制系统开始尝试依据用户的个人需求数据进行产品设计,航空领域基于CAD的柔性制造系统已实现设计、生产、成型等环节都依靠数据驱动模式进行工作。
目前企业档案数据总体上难以匹配企业的信息化发展模式,多数企业档案信息化仍处于模块化的孤岛阶段,档案管理还深陷为不同部门、不同系统之间协商数据接口的重复工作之中。企业信息化的深入发展要求档案管理从孤岛阶段的分散式管理向集中式管理转变,制定较为完整成熟的数据标准体系,提供规范统一的数据接口,并进一步形成业务数据体的整体归档方案。
(三)档案数据管理不能完全满足智能档案服务需要
智能档案管理需要大量数据作为基础支撑,并依托数据构建场景、主题、模型、本体等对象用于智能分析与关联,这些都对档案数据提出了特定的管理要求。目前,企业档案中的存量部分多数还是以纸质形式存在,通过数字化获得的成品大多数以非结构化图像形式存储,二者都需要进行大量的数据化工作。在传统的档案管理环境下,档案标准化程度低、关联性差,缺乏对档案数据内容的发现和组织,难以实现集中管理和跨部门的共享交流。总体来看,企业档案数据描述丰度不足,缺乏对业务对象和主题内容的构建,这也是档案领域进行知识管理的最大痛点,如无改进,亦难以支撑智能档案服务的进行。
三、企业档案智能管理依托数据治理的必要性
鉴于目前智能管理是企业信息化向上突围的必然阶段,笔者认为需要通过数据治理提供的手段,将大量存量档案进行数据化进而形成用于分析的数据集。同时,在业务系统中实施数据治理,能够从源头上获得高质量的自动汇集的数据,为后续档案智能化服务提供数据基础。
(一)数据治理的概念及主要框架
根据Gartner对于数据治理的定义,数据治理是通过组织、人员、流程和技术的相互协作,将数据作为企业核心资产的管理与技术手段。目前,国际上主流的数据治理框架包括DAMA数据治理知识体系、DGI数据治理框架、IBM数据治理框架和TERADATA数据治理框架等,其中应用最为广泛的是DAMA模型。DAMA认为,数据治理是规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据价值。[6]3该模型把数据治理分为数据管理职能框架和环境元素框架,职能框架以数据治理为中心定义了十种主要职能,在环境元素框架中则识别出过程、技术和人员等关键元素,并为每一个管理职能提供了机制保障的一致性方法[7]。
(二)数据治理有助于满足智能档案管理需求
1.满足数据层面的细颗粒化需求。从管理对象上看,智能档案管理关注颗粒度更细的以结构化形式表达为主的数据,而非以文件形式存在的资源,即智能档案管理是基于“数据”尺度的。“数据”尺度的管理工作比“文件”尺度更深入、更细致,而现有文档管理总体上是基于“文件”尺度的。因而需要基于数据管理的需求对现有文档管理方法、标准等进行修正、提升乃至重建。
2.满足高度集中的数据共享需求。智能档案管理不同于一般数据管理的核心特性在于,其数据集中程度与规模都超出一般系统的处理能力范围。企业部门如果存在本位主义思想,将导致档案管理工作相互孤立,数据共享困难,因而需要强化数据集中,加强企业内部的级联、互联和关联建设,制定统一的数据接口标准,形成集中的业务数据平台,保证企业内部数据的开放与共享。
3.满足以关联管理为主的利用需求。整体上看,当前文档标准重在内部整序与自洽,以法规遵从与文件治理为第一要务。这对于“文件尺度”的档案资源管理而言是比较充分的,能够保证大量文件档案实体的规范管理。但对基于数据颗粒度要求的智能档案管理而言,需要更多地从数据关联角度进行规则提炼、场景描述,以便对大量的档案数据进行有效的组织与分析。
总之,通过开展数据治理,能够提升数据质量,促进档案数据管理从分散式管理向集中式管理转变,从粗粒度向细粒度转变,从孤立分散向开放共享转变,并逐步满足企业档案智能管理的数据要求。
四、企业档案数据治理路径
企业档案智能管理需要建立在较高的档案信息化基础之上,要求企业具备必要的资源基础和较高的软硬件水平。目前企业档案在数据量的积累方面已经卓有成效,但在数据质量方面距离智能化的要求还有一定差距,因而需要面向智能档案管理进行数据治理方案的设计与实施,采取循序渐进的路径进行推进,具体步骤如图1所示。
图1 企业档案数据治理路径
(一)开展主题资源建设
围绕主题建设档案资源是面向智能档案服务的第一步骤。企业档案并非泛泛的资料集合,而是依托企业具体职能,遵循来源原则进行管理的有秩序的相对完整的资源集合。面向智能档案服务时,应首先选择资源建设的主题,并围绕主题来构建企业档案主数据,在此基础上进行参考数据和元数据设计。
1.确定主数据。主数据就是关于业务实体的数据,被认为是用于智能分析的“黄金”数据。在档案理论与实践中,“职能”可视为最大的业务实体,档案业务的核心工作如归档、整理、鉴定等基本上都围绕职能开展。企业档案资源建设需要大力拓展主题范围,围绕多元主题进行资源组织。总体上看,主数据应以企业职能为基础,选择当事人(如员工、组织、角色)、产品、位置、项目等作为主题进行构建。企业依托既有的档案资源进行主数据建设,有利于开展多维分析与关联研究,最大程度复用企业档案资源与数据。例如,电网公司目前已经开展了各业务系统的数据采集工作,在基本完成以职能为核心的档案资源的原始积累后,就需要围绕服务主题进行主数据建设,如项目、线路、客户,甚至电线杆等,用于支撑后续智慧电网的建设。金融企业针对贷款的个人和机构进行数据收集,在构建客户主数据的基础上就能进行包括信用能力、资金实力、兴趣爱好在内的综合画像,以便开展个性化智能金融服务。
2.设计元数据与参考数据。根据选择的主题,应在开展主数据建设的同时进行该主题有关的元数据设计。对于通用的主题对象,应遵循既有的元数据规范,结合企业自身需求进行设计;对于没有标准的主题对象,需要基于通用的元数据分析框架进行元数据规范设计,如文件实体可基于ISO23081-1模型进行设计,长期保存对象元数据需要参考ISO14721的信息模型进行设计。参考数据就是所谓的取值列表或值域,需要综合大量的业务规则来进行编制。在跨业务的应用中,往往需要对参考数据进行映射和标准化工作,以保证数据的一致性。
(二)提升档案资源质量
智能档案管理需要成熟的高质量的完整的档案数据基础,通过数据治理能够有效提升资源质量。以DAMA数据治理模型为例,它提供了多种用于维护、保障、提升数据质量的手段,比较典型的如确立数据架构、实施数据质量管理等。
1.确立数据架构。数据架构用于定义整个组织的数据蓝图,明确数据的属性、属性值及属性关系。部门级单一应用的主数据和参考数据建设相对容易,在企业级跨应用环境中则比较复杂,确立数据架构可以在企业数据环境中有效防止数据孤岛,管控数据冗余,保证数据一致性。
2.实施数据质量管理。企业档案数据质量问题主要表现在准确性、一致性、完整性、时效性等方面。数据治理提供了多种手段用于实施数据质量的持续管理,如通过戴明质量环提供的PDMA(Plan Deploy Monitor Act 计划—实施—监控—行动)模型可以在管理层面提供保障。同时,主要数据治理模型都提出了各自的数据质量指标,定义了数据质量业务规则,提供了测试和验证数据质量的技术工具。通过这些管理和技术手段能够支撑在数据全生命周期中持续性地实施数据质量管理。
(三)构建档案数据管理保障机制
数据治理作为一项长效机制,应当在企业层级而非部门层级构建包括数据生命周期、数据安全等在内的保障机制,建设以数据为中心的整体管理框架,为档案数据管理提供可靠的持续的保障。
1.开展数据生命周期管理。在企业档案数据管理中,生命周期管理应作为一种普适管理手段进行实施。一方面,这是由于档案数据本身处于数据生产流程下游,对前端数据的形成规范和质量具有前馈作用;另一方面,档案数据管理本身也是一个周期较长的过程,需要关注数据从接收到长期保存或清理的全过程。具体来说,档案数据生命周期需要关注摄取(导入、抽取、著录、归档)、处理(编辑、整合、转换、删除)、管控(验证、编辑、更新、清洗)、保存(迁移、备份、恢复)、利用(导出、汇总、挖掘、检索)等大量数据处理工作。
2.制定数据安全计划。安全是档案数据的生命线,适用于档案信息化所有发展阶段,智能档案管理阶段亦是如此。数据安全工作包括计划、制定、执行相关安全策略和规程,以确保档案数据在使用过程中有恰当的认证、授权、访问和审计等措施。
(四)形成数据治理文化
企业档案数据应被视为企业的核心资产之一,因而需要持续性地构建围绕企业档案数据治理的基本环境,营造良好的数据治理文化氛围。具体而言,应在组织和人员设置、政策规范制订等方面采取措施。
1.组织人员设置。数据治理需要构建明确的管理主体,大型企业可以考虑成立类似信息文档委员会的部门,作为管理整个企业文件、档案、数据的最高决策机构,其下可成立数据治理委员会、数据管理制度委员会等组织。档案数据治理工作应依托档案部门进行,设置部门数据管理专员岗位,有条件的还可成立独立的数据治理办公室(DGO)进行专项工作,保证档案数据治理有领导、有责任人员,从而形成责任网络。DAMA模型就提供了30种明确的数据管理角色,用于支撑数据治理工作的各个环节。
2.政策规范制订。数据治理离不开大量具体规范的支撑,需要在政策、标准、流程、指南等层面进行综合建设。政策是结合企业档案管理的整体业务需求形成的战略层面的数据治理整体方针,是数据治理体系的总体指引;标准是在业务层面上指导数据治理主要管理功能的规范;流程与指南则在操作层面上指导具体的管理措施和技术行为。总之,通过政策规范制订,可以为企业档案数据治理提供战略方针、业务标准与操作指南。
[1]葛红.企业档案信息化建设的实践与思考[J].档案学通讯,2011(1):92-94.
[2]郭欣仪.企业档案信息化的探索与实践——以东汽综合档案信息化平台建设为例[J].档案学研究,2016(3):90-93.
[3]宋敏,覃正.国外数据质量管理研究综述[J].情报杂志,2007(2):7-9.
[4]钱毅.档案数据库质量控制的内涵与策略[J].档案学通讯,2015(6):56-60.
[5]张宁,袁勤俭.数据治理研究述评[J].情报杂志,2017(5):129-135.
[6] DAMA International.DAMA数据管理知识体系指南[M].北京:清华大学出版社,2012:3.
[7]刘桂锋,钱锦琳,卢章平.国外数据治理模型比较[EB/OL].http://kns.cnki.net/kcms/detail/44.1306.G2.20180211.1401.002.html.