军事数据质量管理研究
2016-10-31戴超凡刘丽华曾赛红张苒
戴超凡 刘丽华 曾赛红 张苒
经过多年努力,我军信息化建设取得长足发展,信息化水平得到大幅跃升,信息化建设进入了一个加速发展的新阶段.与此同时,也遇到信息能力较弱等矛盾问题,面临新的机遇挑战,要求以提高信息资源开发利用效率、夺取信息优势为目标,以网络信息体系建设为抓手,以信息能力建设为联合作战体系能力建设的根本着力点[1],以数据资源建设为核心,突破制约体系作战能力生成和提高的最大瓶颈.当前,大数据战略如火如荼,数据质量问题日益凸显[2].
数据质量已成为我军数据建设质量与效益的关键因素,数据质量评估与控制是确保数据准确能用的关键环节.没有好的数据质量,再多的数据、再强的软件、再好的硬件,也不会有好的应用效果,更谈不上“用数据说话,依数据决策”.数据质量的好与坏,已经成为了体系作战能力“放大器”与“衰减器”的重要因素.重视和改进数据质量问题已成为包括各级数据管理人员和数据工作者的普遍共识.同时,我们也应该清醒地认识到,数据质量问题是一个全军性、全国性,甚至世界性的难题,涉及到数据生命周期的各个阶段,涉及业务和技术两个层面,数据质量改进实践永远在路上.这需要我们找出符合我军网络信息体系建设特点的数据质量评估和控制方法,运用军事系统工程的理念和方法,推进全面数据质量管理.
1 数据质量基础
1.1 数据质量概念与度量
数据质量,是一个要素多维的概念,还具有很强的客观性和主观性.客观上,数据质量是指数据符合客观实际的程度,主要由规范性、有效性、一致性、准确性、完整性和时效性等进行量化约束的指标来度量[2−4].从业务和技术等角度,可以将数据质量维度区分为内在维度和上下文维度,如图1所示.主观上,数据质量指数据的适用度[5],即满足用户需要的程度[6−7].不同的用户和不同的应用,对数据质量的要求也不同.比如,针对主战武器装备数据,战术级装备管理者要求数据精确到单装的数质量情况,而高级指挥员则更关心综合的数量、技术状况和能发挥的作战效能等方面的数据.
数据质量度量是数据管理面临的首要问题,目前主要采用定性与定量相结合的方式对关心的数据质量维度进行分析[2−4,8−10].
图1 数据质量维度
1.2 数据质量控制
数据质量控制指提高或改进数据质量的策略、方法和手段.数据质量控制如同产品质量控制一样贯穿于数据的整个生命周期,其主要方法包括:一是数据质量的评估与监控,二是保证和提高数据质量的策略和技术.
数据质量控制策略多种多样.从数据生命周期来看,数据质量控制可分为两类:一是预防策略,即在数据生命周期的每一个阶段,都有严格的数据规划和约束来防止问题数据的产生.二是事后诊断和修正策略,即在数据演化或集成后,采取特定的方法检测和修正可能的问题数据.从业务依赖性的角度来看,数据质量控制策略可分为两类:一是不依赖特定业务规则,从数据本身寻找特征来解决,如数据格式错误、某些值缺漏等问题;二是与特定业务规则相关,即领域相关知识是消除数据逻辑错误的必需条件.数据质量问题涉及多种原因,有效的数据质量控制方法往往是综合应用多种策略而形成的[2−4,8−10].
1.3 数据质量管理体系
在对数据质量进行客观评估和有效控制的过程中建立数据质量管理体系是实现数据质量持续改进的有效途径.国外关于数据质量管理体系的研究大都基于全面数据质量管理(Total Data Quality Management,TDQM[11−12])的原则、方法和指南,也继承了ISO9000系列标准的框架[13].
2002年,我国统计数据的采集、质量评估、结果公布等开始与国际标准趋同,开启了我国统计数据质量管理体系建设的新纪元[14].近年来,我国公安部[15]等开始尝试运用现代质量管理的方法,在组织内部建立起系统性的数据质量管理体系,对影响数据质量的关键流程和重要环节实施控制,以实现数据质量的不断提升.
2 数据质量管理发展历程
数据质量管理随着信息技术与思维的发展而发展.互联网的广泛使用[16],大数据技术的迅猛发展[17],更是加速了问题数据的产生与传播.
2.1 发展阶段
总体上,数据质量管理可以分为3个阶段.
2.1.1 以“应用”为中心阶段
在早期的磁盘时代,磁盘作为主要存储介质,存储容量小、数量有限、成本高昂.因此,数据录入前对存储策略进行严格设计,数据经过严密筛选.在此阶段,根据用户需求,针对特定的数据集开发特定的应用,数据与应用紧密捆绑,通过代码直接对数据进行操作.因此,本阶段数据冗余少,数据更新及时,审核校验到位,数据质量总体水平很高.
2.1.2 以“数据”为中心阶段
随着数据库及存储技术的飞速发展,数据质量问题日益凸显,数据质量管理进入快车轨道,TDQM逐步建立[11−12],基于规则的数据质量治理方法大行其道[18],应用领域常见于政府统计[14]、公共管理[15]和国防军事[9,19]等行业领域.
从数据管理与应用的角度来看,信息技术的发展,催生并加剧了数据质量问题.
1)数据获取
数据库的出现,促进了数据与应用分离.数据的采集获取与综合集成已经成为了工作重心和研究热点.无论采用哪种方法采集获取数据,均可能产生问题数据:
a)手工录入数据:采集规则不合理、人为录入失误,录入手段不合理等,是造成数据质量的主要原因.
b)数据集成:数据集成带来的质量问题主要是在源数据正确的情况下,造成的数据冗余、匹配错误、数据二义性等问题[20].
c)自动生成数据:数据自动生成条件的合理性和一致性是产生问题数据的主因.
d)网络爬虫:筛选条件设置恰当与否,直接影响着数据质量的高低.
2)数据存储及应用
存储介质的容量从兆级跃升为G级、T级时,基本上可满足用户的存储需求.存储成本的降低,放松了对获取数据的筛选及质量控制,导致大量冗余、不一致,数据质量明显降低[21].同时,数据库管理系统不提供完整的数据质量管理服务,导致从数据采集、集成到存储,可能存在不同程度的数据质量问题.
2.1.3 以“服务”为中心阶段
当前已步入云计算时代,数据存储于“云”中,大数据应用风起云涌.数据建设与应用开始从采集管理数据转向从数据中获取有用信息[17],从单纯的数据积累到通过数据挖掘开发高价值的数据产品来支持决策[2],终端用户开始从原始数据采集加工转向从“云”端通过服务获取数据或数据产品[22].当用户使用“云”端数据时,对其可靠性和可信度提出了更高要求[23].
在本阶段,数据质量问题甚至超越了数据本身,数据质量管理是服务提供商需要重点考虑的问题之一.通过分析、改进、提高“云”中数据质量,挖掘数据的内在含义及语义关联信息,进行深度的数据质量管理,有助于支持决策.
2.2 数据质量管理框架模型
全面数据质量管理[11−12]旨在通过对数据质量进行全面分析研究,综合组织和用户的需求,建立涵盖管理制度、规范标准及技术手段的数据质量管理框架模型,涉及从质量问题定义、分析、改进策略,从评估、检测到改进的方法和工具.
数据质量管理必须以分析用户需求为前提,从管理制度、标准规范及方法技术3方面构建数据质量管理框架模型[24],如图2所示.
1)数据质量元数据
主要包括数据质量元模型,数据产品,业务规则、维度及需求,度量、验证及行动等规则.
2)数据质量评估监测
主要包括数据剖析、数据质量度量及数据质量验证.
a)数据剖析:以异常检查为目的,基于业务规则对数据进行剖析,找出数据值被评定为与用户或业务期望不符的情况.
b)数据质量度量:依据应用需求确定数据质量维度,与业务规则相结合确定度量指标,运用定量与定性相结合的方法进行质量度量.
c)数据质量验证:将度量后的数据质量水平与用户期望的水平或阈值相比较.阈值应根据用户上下文使用环境进行设置.
3)数据质量控制
主要包括数据质量改进、操作管理、数据治理等.
a)数据质量改进:通过使用六西格玛、持续改进等活动从而避免数据质量问题再次出现.
b)操作管理:对因数据录入或操作失误造成的错误数据进行及时跟踪和修复.
图2 数据质量管理模型
c)数据治理:对已产生问题数据进行修改纠正.
此外,数据质量管理框架模型还涉及许多其他主题,包括数据质量意识、管理规范、组织结构、职责、角色等,它们涉及数据生命周期中各个阶段的质量管理.
3 数据质量管理现状分析
数据质量管理研究涉及到管理学、统计学、人工智能、数据库等多个领域[25].本节从管理政策、标准规范和方法技术3个层面对国内外数据质量管理工作进行梳理.
3.1 管理制度
管理制度是数据质量管理常态化、制度化的保证.目前,我国政府统计、公共管理部门和重点企业已经开始制定和试行数据质量管理相关制度,如文献[15].美军在数据质量管理方面的研究起步较早,且已形成了较为完善的体系,对我军数据质量管理工作具有一定的借鉴意义.
3.2 标准规范
数据质量管理标准规范主要用于规范数据质量管理工作在技术层面的要求和约定,对影响数据质量的关键流程和重要环节实施控制,以实现数据质量的有效控制和不断提升.标准规范可涵盖对数据生命周期,涉及数据质量分析、质量问题发现、修正改进、问题数据溯源和影响追踪等方方面面.
美国国防部有一套十分完善的数据管理和数据标准化规程,对数据的开发、批准、使用和维护等做出了全面和具体的规定,使数据标准化成为完备、标准的科学体系[19],颁发的《DoD发现元数据规范》和《与DoD数据标准的匹配和映射》等标准规范,有效确保了数据资产质量,进而支撑了美军网络中心数据策略.
相对而言,目前我国数据质量标准规范仍处于起步阶段,侧重于将数据质量评估指标类的相关内容作为标准规范的主要内容,且通用性、可操作性普遍不强[8,15,27−29].
3.3 技术手段
现有的技术手段针对不同的质量问题,采用预先分析和事后诊断相结合的策略,综合运用数据治理、溯源及影响分析、不确定性数据处理等方法,支持度量、检查和改进数据质量问题.
3.3.1 数据关联关系分析
数据关联源于计算机中的表达与现实世界中物体的不一致,是数据集成问题的核心,是数据分析挖掘的前提.错误的拼写、缩写、不同的命名习惯、名称变体等现象会导致大量的数据冗余、不一致等问题,严重影响了集成数据的质量,从而影响进一步分析挖掘的效果.数据关联关系分析的主要任务是:找出不一致、冗余和不完整等数据错误,建立数据集和数据属性间的关联关系.研究主要集中在对象识别、冗余相关分析、重复检测、表象消歧、记录连接和数据值冲突的检测与处理[30−32]等.通过相似度度量函数来描述两个属性或者两组属性之间的相似度,一直是数据关联关系方面的研究重点.
3.3.2 数据约束关系分析
网络环境下的家校沟通更方便快捷,微信、微家园等社交软件的开放和自由,不仅可以加强教师与家长间的交流,更能促进家长间的交流与信息共享。利用互联网的社交平台,可提供家长间的有效交流,分享各自的教育经验,同时能够加强班级团结。各班家长微信群、年级家长微信群、作业群、教育交流群,家长可以通过这些软件进行交流,参与到学校活动。
数据约束是对数据应该遵守的一种语义限制.目前,数据约束的主要表现形式是数据依赖.对于一个关系来说,如果该集合中的所有数据依赖都能够满足,则认为该关系的数据质量达到要求;反之,则认为存在数据质量问题.
数据约束主要分为3类:第1类是函数依赖、连接依赖、多值依赖等传统的数据依赖,它在整个数据库范围内成立.第2类是条件依赖,如内置谓词函数依赖[33]、内置谓词条件依赖[34]等.第3类则是应用结合的依赖.找出这些数据约束,确保数据的完整性和一致性,是提高数据质量的基础.
3.3.3 数据溯源与影响分析
在数据质量管理中,数据溯源及影响分析是极其重要的一环.通过对问题数据的起源追踪,对其派生过程进行展示分析,可获取该质量问题的等级及传播途径[35],从而及时有效地控制问题数据的传播和演化[36].
1)数据溯源
数据溯源技术诞生于20世纪90年代,是随着数据库和网络而出现的一个研究领域.在不同的应用领域,数据溯源有不同的提法,如数据血统、数据谱系、数据志等,其核心是对数据产生来源的追踪和探究,其目的主要是为用户提供数据的起源信息,帮助用户完成数据质量分析、数据起源审核、错误信息定位以及集成流程优化等[37].
目前,数据溯源方法主要有注释和逆运算两种[38],在实际应用中需要二者的有机结合.在标准化方面,已形成了开放起源模型[39](Open provenance model,OPM)、Provenir[40]、PROV[41]等多种数据溯源模型,并针对不同应用领域构建了一系列溯源系统,如数据库应用中的DBNotes[42]、VDS[43]和Trio[44]等,工作流应用中的myGrid[45]、Kepler[46]和Vistrail[47]等.
2)数据影响分析
问题数据的影响分析主要包括问题数据定位、后续数据模式影响、后续数据实例影响和业务影响[48]等方面.
分析数据影响时,需针对问题数据进行逐条分析,避免将正常数据剔除,同时推荐提供问题数据修正和恢复机制.
3.3.4 不确定性数据管理
由于不确定数据具有庞大的实例集合、概率维、多样的数据形态等显著特点,使得数据质量问题广泛存在而且难以有效解决.目前主要集中在不确定性数据的预处理、集成、存储、检索及查询分析处理等方面开展研究[49−52].
在军事等领域,数据的不确定性普遍存在,其存在性未知而且各属性值存在误差,如测绘导航数据、军事物联网采集获取、多源情报数据等.尽管数据预处理能够提升原始数据集合的质量,但也可能会丧失原始数据集合的部分性质,导致无法返回高质量的查询结果.
4 军事大数据质量问题分析
我军数据建设,经过“九五”以来的持续建设,特别是在一系列全军性大型工程建设的牵引下,取得了重要阶段性成果,各领域已形成了一批有代表性、可用、实用的数据资源,并且这些成果在业务工作以及演习演练和抢险救灾等重大活动中得到了应用,发挥了巨大的军事效益.在大数据背景下,数据质量问题尤为突出.近年来,我军数据建设开始关注数据质量问题,一些领域和系统已经采用基于规则的审核校验方法来评估和控制数据质量[9],但是重心仍局限于数据的采集与共享,局限于结构化数据的质量评估与控制,对数据质量的重视程度和资源投入还远远不够,缺少专业权威的部门及手段对数据质量进行有效评估和控制,数据的规范性、一致性、准确性、完整性和时效性等关键质量要素还难以得到有效保证,这也将直接影响数据建设成果的价值和使用.
4.1 记录型数据常见质量问题
记录型军事数据的常见质量问题如下:
1)数据有效性问题,主要是指数据值不符合客观逻辑或军事需求,如经度大于180◦等.
2)数据准确性问题,主要是指数据不够真实客观.一是数据不正确,如出生年月符合有效性要求,但是填报的数据不符合实际情况.二是数据不精确,如经纬度的小数保留位数不足等.
3)数据一致性问题,主要是指存在于多个数据库表中同一属性的取值及含义不一致.一是数据量纲不一致.比如射程,有的采用公里,有的采用米.二是数据取值不规范,此类问题在名称和地址类数据中非常普遍,还与各业务领域数据应用字典的规范程度及遵循情况直接相关.
4)数据完整性问题,主要是指数据不能完整地与军事需求相对应,不能反映研究对象的全貌.如部队情况,没有提供部队基本情况、任务、部署和实力等全面数据.
5)数据时效性问题,主要是指数据不是当前采集的,或者采集的不是当前的状态.
4.2 文本型数据质量问题分析
在大数据背景下,数据资源开始由结构化数据为主向半结构化甚至非结构化数据并重转变,从数据库向文档资料和网页信息扩展,这导致数据质量问题开始由记录型数据质量问题向文本型数据质量问题延伸.
文本数据被认为是用自然语言“编码”的信息.其来源可能是不明确的,语义性与用户密切相关,上下文关联性灵活多变,导致可能存在更多的质量问题.常规的数据质量管理方法,尤其是大多数数据治理方法,往往不适用于处理文本数据质量问题.即使检测到文本数据质量问题,在不使用任何智能化处理手段之前,这些数据质量问题很难修正.根据用户对数据质量的特定要求,分离出重要的特定段落或子集,然后使用传统技术进行有限的处理,是一个比较务实的思路.若要处理大规模的文本数据质量问题,则需运用新的数据质量管理策略和手段提供支撑,如通过使用基于证据的概率模型组合多个(噪声)信息源.处理文本数据质量问题的成本是一个不可忽视的因素.如果成本大于从文本提取的信息价值,则数据质量问题的处理将变得毫无意义.
5 军事大数据质量管理思考
目前,我军数据质量管理理念逐步树立,数据质量评估体系开始具体化,数据质量控制手段措施进入实际操作层面,数据质量管理机制已现雏形.但是,总体上来看,还处于数据质量管理与控制的初始阶段,离全面数据质量管理的目标还有很大差距.同时,由于不同国家、不同领域的组织结构和制度环境等存在明显差异,当前主流数据质量管理框架与我军实际数据环境不相适应,还难以形成从研究到应用再到研究的良性可持续发展的闭环,因而很难有效解决我军数据质量管理面临的矛盾问题.军事数据质量问题产生的原因涉及到数据建设、管理与应用的全生命周期,有的是数据库设计问题,有的是采集规范问题,有的是采集工具问题,有的是采集流程与制度问题,还有的是数据应用问题.针对军事数据质量管理的需求和我军数据建设的实际,建议开展以下几个方面的工作和研究.
1)军事数据质量管理是一个复杂的系统工程,需要牢牢树立全面数据质量管理的理念,将数据质量管理作为军事数据建设的基本内容,以全面数据质量管理的流程、方法和手段来推进数据质量建设.
2)进一步建立健全数据建设、使用、管理和保障等规章制度,对数据全生命周期内的质量要求制度化、系列化、常态化,规范如何采集到真实、有效、一致、规范的数据,如何管好用好数据,确保各项数据工作正规有序,提升数据质量水平和使用效益.
3)充分借鉴国内外、军内外数据质量管理的先进方法和技术,针对军事大数据特点,深入研究面向军事大数据的质量评估与控制方法,研制通用和专用相结合的技术支撑手段,支持数据质量的评估、检测和修正.
4)数据质量管理涉及管理学、统计学、数据库等多领域多学科多专业的交叉融合.为解决数据质量管理方面的专业人才供需矛盾十分突出问题,建议依托院校设置数据质量管理专业学科和课程体系,或采取院校送学、集中培训、岗位训练等多种方式,培养数据质量管理专业人才.
5)面对新的形势任务,进一步深化军事数据质量问题特点规律的认识,把握实践要求,全面梳理现有成果和实践经验,积极借鉴国内外数据质量管理的先进理念,构建具有我军特色的数据质量管理理论体系,更好地指导和牵引我军数据质量管理工作.