警务云端数据治理成熟度评估研究
2021-11-20宋嘉鹏周西平
宋嘉鹏,周西平
(中国人民公安大学 国家安全学院,北京 100038)
大数据时代下,数据在理解个体行为与防控社会风险中的地位愈加凸显[1]。数据治理作为保证数据质量与安全的重要手段,也愈加不可或缺。2019 年6 月28 日,大阪G20 数字经济特别会议,习近平主席指出要共同完善数据治理规则,确保数据的安全有序使用。运用大数据提升国家治理现代化水平成为政府部门的核心任务之一。2019 年12 月27 日,全国公安科技信息化暨大数据智能化建设工作会议,国务委员、公安部部长赵克志同志提出要把大数据智能化建设作为科技兴警的重要抓手,并上升为公安部党委的一项战略工程。作为运行和存储数据的有效载体,云的出现促进了大数据技术的进一步发展。美国国家标准技术研究院(NIST)将云技术定义为“一种模型,用于使人们能够对共享的可配置计算资源(例如网络、服务器、存储、应用和服务),可以通过少量管理工作或服务提供商的交互实现快速配置和发布”[2]。云技术的创建聚合了多种服务,使用户可以随时随地享受这些服务[3]。对于警务部门来说,云技术可以提供低成本的存储设施、全天候的运行机制、托管服务以及数据自动化分析功能。所以针对警务数据搭建专属的云基础架构、建立私有云服务是一个不错的选择。需要注意的是,警务数据关联大量国家机密和个人隐私,如何在合理利用云技术的同时确保数据安全,良好的数据治理策略更必不可少,也是警务部门需要考虑的问题。鉴于NIST 向云消费者提供了许多建议,其中之一就是组织在使用云技术之前必须考虑数据治理策略。因此警务部门在利用云技术、建立警务云平台的同时,也应重视相应的数据治理工作。为评估警务机关的云端数据治理水平,本文根据现有研究,采用综合集成研究视角,借鉴文献中关于数据治理的成熟度评估模型,提出符合警务工作特点的云端数据治理成熟度评估指标与成熟度等级,为制定不同地区的警务云端数据治理政策提供合理依据。
一、警务云端数据文献回顾及治理现状
(一)文献回顾
云端数据治理,顾名思义,是对存储于云端的数据进行治理,本质上也为数据治理。因此必须要明确数据治理的概念。目前,国内外学者对此有不同解释。国际数据管理协会(DAMA)认为:数据治理是对数据资产的管理活动行使权力和控制的活动集合[4];数据治理协会(DGI)认为数据治理是对数据相关事务的决策和授权,是一个针对信息相关流程的决策权和问责制的系统,该系统根据商定的模型执行[5]。国内对于数据治理的定义也莫衷一是,包冬梅[6]和单勇[7]以及张宁等人都各自给出了数据治理的概念[8]。总体来看,不同领域的数据治理均有共通点,即通过明确参与方各自职责、协调数据相关方达成数据利益一致,来实现组织掌握数据的价值最大化。对数据治理的概念明晰后,程广明等人提出了云端数据治理的概念:云端数据治理是以云端数据为主要治理对象,制定与云端数据战略、数据管理、数据优化、数据安全与隐私保护等相关策略,指导组织规划、构建、评估和优化数据治理体系的活动集合[9][10]。由此可见,数据治理是保证云端数据质量与安全性、提升云用户满意度的必要手段。
成熟度评估已经在信息系统领域中应用几十年之久。该方法起源于质量管理领域,随后扩展到IT 领域以管理软件开发[11]。数据治理成熟度模型是为了评估组织当前在对于数据的应用、管理的等级,方便组织或第三方针对具体情况制定下一步数据治理方案。IBM 公司于2007 年建立了数据治理成熟度模型,通过衡量组织在11 个领域的进展,对组织的数据治理成熟度进行评级[12];DataFlux公司的数据治理成熟度模型将组织的数据治理成熟度分为无组织纪律、非主动求变(被动反应)、积极主动、管理支配四个级别,由参与者、政策规定、技术水平、面临风险四个方面进行评估[13];斯坦福大学[14]、Gartner[15]、Oracle 等公司或科研机构也给出了一套完整的数据成熟度模型。国内方面,数据治理成熟模型也在不断普及。张宇杰等人通过六个要素、十六个具体指标对政府的大数据治理进行成熟度评估[16];程广明构建了人与组织、策略和能力的三维架构的大数据治理模型,并将组织的大数据治理成熟度分为五个等级进行评估[17]。模型同样被应用在高校[18]、公共安全[19]等多个领域。虽然各模型在分级、标准、具体条件等有所不同,但都是遵循由无序到成熟的数据评定等级,组织通过不断优化数据质量,提升管理能力、技术手段、法律意识等来提高数据治理评定等级,以期最终达到既定成熟度等级。
作为一项新兴技术,云技术被认为是具有颠覆性的,因此需要严格的数据治理策略[20]。由于技术的更新,国内外专注于非云数据治理的成熟度模型并不能完全适用于云端数据治理领域。关于云端数据治理成熟度模型的文献数量较少,Al-Ruithe 建立了一个模型对组织在云端数据治理方面的成熟度进行评估,该模型将云端数据治理分为十个域进行评估,成熟度被分为五个等级:非云数据治理,初始云数据治理,基本云数据治理,可接受的云数据治理和全面的云数据治理,通过对组织在十个域的表现进行评级,确定其云端数据治理能力[21]。同年,程广明等人也提出了一种评估云端数据治理成熟度的模型,其分为六个职能域,通过对组织六个职能域评估后得出评级;评级由低到高为初始级、管理级、定义级、量化级和优化级。该模型采用的是“木桶定律”,即每个职能域下,评分最低的过程域,其得分即为所在职能域的得分。该模型可供组织进行自评,也可由中立的第三方进行评估,从而得出更加客观、真实的评估结果,更清楚的发现组织在云数据治理方面的不足,以达到优化数据治理的目的[22]。本文选取了7 个具有代表性的云与非云数据治理成熟度模型进行要素梳理,见表1。
表1 较为成熟的数据治理成熟度模型
由此看出,云端数据治理成熟度评估与数据治理成熟度评估虽有相似之处,但是在评估指标、衡量等级以及评估难度方面均有着一定差异,关于云端数据治理的成熟度评估的文献也并不丰富。国内对于数据治理的成熟度评估多集中于电子政务、高校、金融等行业,且多为对数据安全、数据质量等某一环节进行评估,缺乏针对警务部门云端数据治理成熟度的全面评估机制。
(二)警务云端数据治理现状
云技术在警务部门的应用主要体现在各警务部门打造的警务云平台中。近年来,为适应大数据时代,丰富破案手段,增强预警能力,提升警务数据的处理效率,各地公安机关开始构建“警务云”。
由于警务数据较为特殊,包含大量国家机密及公民隐私,因此警务云被建设为“私有云”。云技术的引入,解决了服务器的负荷问题,灵活分配了闲置的IT资源,民警可通过手机、电脑等多种终端调取数据,数据运转流畅度提升。但云技术作为一项新兴技术,实施云端数据治理依然繁琐复杂。因此各地公安机关仍然面临以下问题:一是云中数据实时共享难度大。由于审批手续繁琐、部分地区不同警种间仍存在“竞争”,再加上警务平台相互独立,因此云端数据无法做到实时共享。二是数据安全存在隐患。警务数据内包含大量国家机密与个人隐私,将数据放置云端存储,由于透明度缺失、控制难度大,可能造成数据泄露、数据丢失等问题。三是多地公安机关缺乏完备的云端数据治理计划,数据治理的目标与愿景不明晰。第四是缺乏云端数据法规。对于数据的管控难度大,且容易造成法律纠纷。五是部分地区公安机关领导层缺乏对云端数据治理的关注。数据治理是公安机关制定政策、流程和标准以管理、使用和开发数据重要支柱,必须给予足够重视。
基于以上现状及问题,为有效评估各地警务部门对于云数据的治理程度,有针对性的制定下一步治理政策,本文根据相关文献,构建一个警务云端数据治理成熟度的评估体系。
二、警务云端数据治理成熟度评估及评估机制的完善
(一)警务云端数据治理成熟度评估
1.云端数据治理要素设计原则
反映问题、促进数据驱动警务发展是警务云端数据治理成熟度评估的核心目标。在选取数据治理构建要素时,既要结合IBM、斯坦福大学、DataFlux 等已有文献的数据治理成熟度模型,又要认识到在云环境下,数据相比起在传统的IT环境中已经发生了变化;并且警务数据又有着不同于一般公司、组织数据的特殊性,因此不可完全套用已有成熟度模型的构建要素。在此基础上,本文围绕数据治理的目标和公安工作重点,构建一套既能对比各地公安机关云端数据治理水平,又简单可行的评估体系,以期提高公安机关对于云端数据治理的重视程度。
围绕上述思路,在具体要素的选取上,应遵循以下基本原则:
代表性。尽可能准确反映出警务部门对于云数据管理、数据安全、云法规、人员配备等方面的具体情况,权重在各评估要素间的分配都应该与我国警务云发展水平相适应。
导向性。要素应当体现衡量云数据治理成熟度等级的具体标准。如此,被评估单位方可明确自身云端数据治理情况,找出与评级较高单位的差距,确定未来发展目标,部署下一步云端数据治理建设计划。
全面性。要素选择应涵盖成熟度评估的每一方面,一个良好的成熟度评估体系不会只像调查问卷一样简单询问几个问题,而是通过关键维度就能对警务云端的数据治理水平定级。
可行性。选取要素时,应确保评估要素的数据是可以获取的;要尽量选取客观的定量要素;为确保该体系在全国各个地区的警务部门均可实行,选取要素时要考虑到全国警务云端数据治理状况,便于各地公安机关进行评估和对比。
2.具体构建要素
将表1 引用文献中数据治理成熟度要素进行统计并归类,再结合警务数据的特点,由战略规划、组织结构、数据管理、安全与隐私四个关键维度出发,针对专业性极强的警务云数据,本文选取了13个具体要素作为具体评估指标,形成了本文针对警务云的数据治理成熟度要素,并对每个要素进行了详细说明,见表2:
表2 警务云端数据治理成熟度评估构建要素
3.成熟度级别设定
作为警务云的使用者,公安机关的警务人员很难知道他们对于云数据治理的投资是否收获了相等的数据治理水平[23]。为了使各地公安机关在云数据治理方面认清他们当前所在的位置,获得对本单位云数据治理成熟度的客观评价,详细了解所使用警务云数据治理功能的优缺点。本文参考CMM能力成熟度模型,将警务云的数据治理等级分为了五个级别:初始级别,被动接受级别,主动认知级别,管理控制级别,优化完善级别,见图1:
图1 警务云端数据治理成熟度评级
每个级别都有认定标准,只有当被评估单位达到这一级别的所有认定标准后才可被评为该级别,见表3。随着被评估单位不断建设云中的数据治理体系,其评级会随着升高,整个警务云的数据治理水平也会不断完善。下面将会对每一级的标准进行具体描述:
表3 警务云端数据治理成熟度评级标准
初始级别:处在这一级别的公机关,缺乏有关数据治理的知识,并且缺乏在云计算环境中管理数据的策略,标准,原则和程序[24]。领导层不具备数据治理意识,警务云平台运营人员没有明确的职责与分工。云端数据的质量粗糙。个别警种或部门针对相关数据开展了临时性的数据治理项目,未开展情报共享。警务部门尚未意识到存储在云端的敏感数据随时处在被泄露或篡改的危险中。
被动接受级别:处在这一级别的公安机关,意识到警务云中可能存在数据治理问题,但是依然没有制定相应的数据治理策略。警务人员花费了大量时间进行数据清洗,因此数据的质量得到了一定的改善。公安机关中尚未建立数据治理办公室等数据机构。
主动认知级别:在这一级别中,警务领导层开始制定云端数据治理战略、标准、规范、事后反馈机制,云平台负责人员有了较为明确的分工,负责数据治理的警务人员接受过培训。领导层设置了专门的数据治理办公室。数据质量受到重视。公安机关制定了跨部门的数据治理流程,并且对数据使用进行追踪、记录,保证治理质量和数据安全,但仍未形成相应法规。
管理控制级别:公安机关开始针对自己所使用的警务云划定具体的数据治理指标,方便评估数据治理水平。管理层将警务云端数据治理办公室定性为正式组织结构,明确提出了各警种之间的协同合作。SLA(服务水平协议)中对数据治理的级别、要求和功能有了明确协定。公安机关开始通过量化分析提升治理效果,并建立了完善的反馈机制。数据采集方式得到改善。数据安全得到足够重视,领导层开始强化风险管理。
优化完善级别:这一级别中,公安机关使用的警务云已经具备相当完善的数据治理功能,云工作人员受过完整的数据治理培训,各司其职,相互沟通,保障了数据的时效性。数据采集有了一套完整流程,基层警员采集的数据只需略加清洗即可使用,数据质量得到保证,过期数据被有效清理。元数据归类清晰,导引作用明显。存储在云中的警务数据可快速共享至各部门,且被记录,方便日后倒查。大量创新性技术被引入,提升了治理效率。领导层可根据数据治理结果进行下一步决策部署。数据访问权限规定严格。
(二)评估机制的完善
为使本文提出的评估具有实践可行性,应制定一套完整的质量完善方法。PDCA(戴明环)作为全面质量管理的方法依据,其基本原理是迭代循环,即通过不断循环执行直至问题解决[25]。而成熟度评估作为一个需要不断更新、改进的现实应用型机制,PDCA的过程方法有助于将评估要素集成、形成一套不断完善的可更新流程,以实现对于公安机关云端数据治理能力的全方位评估。见图2:
图2 警务云端数据治理质量评估流程
结语
云技术为公安机关海量数据存储解决了大问题,同时也为云端数据治理带来了挑战。当前,数据治理在云端应用尚处于初步阶段,有关警务云端数据治理研究还是空白。在警务工作中,存在对警务云端数据治理重视度不足、警务人员IT知识缺乏、云端警务数据安全性无法得到保证等一系列问题。因此,本文将成熟度评估引入警务云端数据治理中,结合治理战略、组织、数据管理、数据安全与隐私四个维度对警务部门的云端数据治理水平评估,并通过PDCA 流程不断提升评估质量。为警务云端数据治理能力的评估提供有力参照。需要明确的是,数据治理成熟度评估并非方法论,其虽然可能包含某些促进组织云端数据治理发展的做法,但成熟度评估并非针对某一组织的具体工作计划。随着云端数据资源的不断丰富,云端数据治理实践不断深入,云端数据治理成熟度模型构建也指日可待。