福建烟草数据中心数据质量监控技术应用
2017-11-16章惠民
章惠民
福建省烟草公司漳州市公司,信息中心,福建漳州 363000
经济与管理
福建烟草数据中心数据质量监控技术应用
章惠民
福建省烟草公司漳州市公司,信息中心,福建漳州 363000
以推广福建烟草数据中心应用及提高系统数据质量为目的,结合福建烟草商业公司数据中心平台营销、专卖、物流、人力劳资、综合计划等多个部门的业务主题建设与分析应用项目的具体需要,研究并提出了一种合适的数据中心数据质量监控方法。该方法首先在保证数据质量的前提下成功将烟草公司源系统数据抽取到省公司数据仓库中,然后在数据集市层主要利用星型关系完成数据模型设计作业,最后在BI应用中分析与展现了数据。该方法对整个数据中心的高效应用起到了至关重要的作用。
数据中心;ETL;数据仓库;数据质量
1 引言
数字烟草建设的总体技术按照执行统一标准,按照统一平台、统一数据库、统一网络的要求,逐步实现系统集成、资源整合、信息共享。数据中心是实现系统集成、资源整合、信息共享的必然途径,是行业信息化建设更高层次的要求。
福建烟草数据中心经过初期的建设,已经搭建了包括信息资源标准体系、数据加工存储体系、数据交换服务体系、数据分析应用体系及信息安全保障体系的数据中心基础框架,完成了“打基础、搭平台、初步见效果”的建设目标。
数据质量主要包括准确性、一致性、完整性、可理解性、规范性、及时性等方面[1]。ETL(Extract-Transform-Load 的缩写)和数据建模技术是用活数据中心的关键,ETL决定数据质量,而数据质量直接影响BI的应用。
2 数据中心数据质量监控
数据中心的数据质量是个非常重要的问题,各种存在质量问题的数据,不仅会影响数据中心数据的正确性和真实性,也会影响其它与数据中心相关系统,最终影响使用者和管理者的执行与决策方向。
2.1 影响数据质量的原因
福建烟草数据中心从业务系统抽取数据,经过ODS数据缓冲区进行整合,到仓库层进行分主题加工,再到集市层进行数据集市建设,最终到报表展现,经过了诸多处理环节。各环节过程可能产生数据质量问题的原因如下:
(1)业务系统产生的数据质量问题
业务系统是数据中心部分数据的源头,进入数据中心的数据,基本上是由业务系统的业务人员进行数据录入、管理或由于交易行为自动产生的交易数据,并在每个工作日的晚上抽取到数据中心。业务系统产生的数据质量问题包括数据录入不规范、数据非法篡改、数据时间延时、网络链路不稳定等问题。
(2)数据加工过程中产生的数据质量问题
数据从业务系统端到报表集市端,会经过多层的数据加工处理,由ETL作业进行数据的清洗、转换等加工处理。在这个过程中由于设计、开发、调度等环节因素,可能导致数据质量问题的原因包括源头与目标数据出现不一致、不完整、跑批作业出错、以及作业的非正常执行等问题。
(3)指标计算口径导致的数据质量问题
业务报表的指标数据是通过对集市层数据模型按照相关数据维度、粒度进行指标的加工产生的。在指标计算加工过程中产生的质量问题主要包括存在不一致的指标计算口径、指标计算公式出错、开发人员开发失误等。
2.2 数据中心数据质量管理措施
目前数据中心主要按照数据标准化、数据检核、作业运行检查及监控、元数据辅助查找问题及报表试运行检查等几种方式来保证数据质量安全,具体内容如图1所示。
图1 数据质量监管Fig.1 Data quality supervision
2.2.1 数据标准化
在ODS层中设定标准层和错误层,其中业务数据在从源系统加载到数据中心后,会按照设定的代码标准对数据进行清洗。对不能符合标准的数据,为确保不影响实际业务,先允许其进入标准层,但同时会记录在错误层中,通过定期对比和检查错误层数据,可以找出源自业务系统的错误数据。查找出原因后再进行数据校正可以减少很多因源头数据错误导致的数据质量问题。
ODS分层抽取和汇聚规则如下:ODS平台分为4个数据区,分别是缓冲数据区、标准数据区、错误数据区、共享数据区。缓冲数据区:存放各地市的业务系统的接口数据,数据库表结构贴近业务系统表结构,需要对各地市的数据进行合并,数据保存30天。标准数据区:数据标准化实现信息资源标准体系在ODS平台的落地,标准数据区存放经过数据过滤、清洗、转换后的数据,数据保存30天。错误数据区:用来存放数据标准化过程中错误的数据,数据保存30天。共享数据区:ODS平台未来将成为全省业务系统的数据共享中心,共享数据区存放对外接口数据,数据保存30天。
标准层存储的是正确的数据,错误层存储的是不符合标准的数据,目前采用的机制是对不符合标准的数据,仍进入标准层,待业务系统解决不符合标准的数据后,重新对指定时间段的数据进行批量运行操作。
错误层数据存储的是不符合主数据标准的数据信息,这些数据会定期反馈给业务系统方进行数据检查清洗。关键数据标准就是主数据标准。ETL调度监控可以采用ETL工作流控制和控制表双重控制方式,同时ETL开发留出接口,可以在非正常情况下重新抽取。控制表可以分为数据准确性控制表和ETL控制表两大类。目前作业时间消耗可以到24以上数据中心ETL调度监控可以看得到每天具体的作业时间消耗。
2.2.2 数据审核
在ETL过程中,使用三个层次的审核程序进行质量检核,具体包括文件层次审核、记录层次审核和业务层次审核。文件层次审核会比较每次抽取的源与目标数据的记录量来检查ETL作业执行情况。记录层次审核对单条记录进行值域检查、唯一性检查、完整性检查、历史拉链检查和代码映射检查。业务层次审核主要包括指标对比和业务规则检查。数据审核程序在作业执行后跑批,并生成数据质量报告,运维工程师将每天检查数据质量报告以发现数据质量问题。
业务层次审核主要是人工对比业务系统报表计算的指标数据是否一致。指标对比是开发相应的作业,通过设定一个指标的阀值或波动率来判断相应指标是否存在异常。如假设卷烟日销量在5万条~10万条为合理区间,则低于5万或超过10万则会自动报警。指标对比需要通过人工设定阀值,外加开发作业,系统自动判断来实现的。
2.2.3 作业运行监控
ETL作业运行,往往会因源系统服务器问题、网络问题等原因造成作业无法正常跑批。另外,ETL作业跑批过程中,也可能由于执行异常导致中断。
目前数据中心ETL调度程序对每个作业的跑批情况进行日志监控和短信预警。监控程序会定时检查日志,一旦发现异常就会发送预警短信。运维工程师接收到预警信息后会重新启动报错的作业以完成进行正常跑批。处理时间主要取决于源系统服务器或网络恢复情况,一般情况会导致数据加工有所延迟。
由于作业间依赖关系较多,作业异常出错后续作业不能运行,而后续的作业通过人工重跑,这就是断点保护措施。异常处理和断点保护目前都是短信提醒,手工按作业调度顺序重跑。目前国内大部分BI系统的调度都是采用人工方式进行异常处理的,如建行、电信、厦门银行、福建中烟[2]。
2.2.4 元数据辅助检查
元数据管理系统提供的质量问题追溯和血统分析,构建数据全生命周期管理模式,可以在发生数据质量问题后进行分析,辅助开发人员快速定位出错的相关ETL作业和数据表。
2.3 数据质量监控主要技术思路及创新点
2.3.1 数据质量监控主要技术思路
数据质量监控主要技术有:(1)设计数据质量评价指标体系及模型,参照数据准确性、一致性、完整性、可理解性、规范性、及时性等关键约束,实现质量指标计算、统计分析和综合评价的实时、自动处理,满足系统动态、实时进行数据质量好坏量化诊断和评价的要求,主要包括数据质量指标定义模型、数据质量评估算法或规则及数据质量诊断与评价结果。(2)设计数据质量校验规则,一是对基准表和比对表进行检索,检索某一待比对字段值在两表对应记录中的字段值集合是否一致;二是对基准表和比对表进行检索,检索某一待比对字段值是否在两张表中同时存在;三是对基准表和比对表进行检索,检索某一比对字段值在两表对应的记录中是否一致。(3)应用接口信息实时采集技术,通过API代理调用、日志分析、数据库记录分析、旁路监听等手段采集基础信息,实现实时数据接口监控,进而实现数据的关联链接和数据血统分析及影响分析。2.3.2 创新点
数据质量监控创新点有:(1)设计了一种ETL过程分层质量检核方法,使用三个层次的审核程序进行质量检核。(2)提出了一个数据清洗框架,分离出逻辑规范层和物理实现层。逻辑层设计数据处理流程,确定清洗过程需要执行的数据转化步骤;物理层实现这些数据转化操作,并对它们进行优化。(3)构建了数据全生命周期管理模式,并制定出全量和增量数据校验时的数据存储和索引方案。(4)使用相应的管理手段来保障和提升数据监控质量,形成一个完整性的数据质量管控体系和全面有效的数据质量保障机制,实现技术与管理的相辅相成。
2.4 数据中心数据质量提升方法
数据质量管理贯穿整个福建烟草信息化建设过程,覆盖福建烟草商业系统各信息系统的建设。基于当前数据中心建设情况,结合未来数据中心深化应用的需求,可以从以下几个方面提升数据质量。
2.4.1 规范和推广主数据管理及应用
人员、机构、卷烟等主数据是数据中心报表维度模型的主要数据来源。当前各业务系统在主数据对接集成方面还未进一步推广和应用,各系统各自独立维护相关基础数据,给数据中心数据集成整合方面带来一定困难。因此,规范和推广主数据管理,可以促进全局企业数据视图的建立,促进基础数据质量问题的解决。
2.4.2 加强源头业务系统质量管理
业务系统作为数据产生的源头,需要加强在数据录入规范、数据防后台篡改等方面的管理,主要包括:(1)进一步加强对数据录入人员的培训,通过技术手段防止非法无效数据录入及产生;(2)进一步加强对有访问数据库后台人员操作的审计,坚决禁止对后台数据的非法篡改。
2.4.3 建设数据质量管理系统
一般完善的数据中心,都有一套健全的数据质量管理系统,辅助管理人员、运维人员、开发人员更好地发现、管理和解决数据质量问题。数据质量管理系统可在现有数据中心的质量监管工具基础上,基于元数据管理系统,辅以源系统变更监控、关键指标稽核、质量问题提报及处理、质量分析报告等管理功能。
2.4.4 建立健全数据质量管控机制
依据数据生命周期管理模式各阶段特性,建立数据质量控制机制,及时发现数据质量问题,不断改善数据的使用质量,从而提升数据的可用性,实现数据更大的商业价值,具体包括:(1)制定数据质量的发现、评估及报告机制;(2)增加问题数据核查方式,主要采用全部检查和抽样检查;(3)在数据产生、存储、管理、使用等数据生命周期每一环节上定位数据质量问题产生的根源,促进建立或实施有关的工作流程来解决数据质量问题,保证数据质量的持续改善。
3 结论
本文分析了影响数据中心数据质量的原因,针对这些原因给出了相应的解决措施,并阐述了数据质量监控的主要技术思路及创新点。此外,本文还提出了提升数据质量的方法。
数据质量监控技术的应用,降低了项目开发与系统集成因数据源异构,数据结构不一致等原因带来的难度,是福建省烟草公司数据中心项目成功的关键。随着大数据时代的到来,数据质量必将受到越来越多的关注。
[1]郭志懋,周傲英. 数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2081.GUO Zhimao, ZhOU Aoying, Review of data quality and data cleaning research [J]. Journal of software, 2002, 13(11):2076-2081.
[2] 密红,何利力,杨秀梅. 烟草数据中心ETL 技术应用[J].计算机应用系统, 2011, 20(5):184-187.MI Hong, HE Lili, YANG Xiumei. ETL technology applied in date center of tobacco company[J].Computer Systems &Applications, 2011, 20(5):184-187.
:ZHANG Huimin . The application of data quality monitoring technology in Fujian tobacco data center[J]. Acta Tabacaria Sinica,2017, 23(2)
*Corresponding author.Email:huimin005@163.com
The application of data quality monitoring technology in Fujian tobacco data center
ZHANG Huimin*
1 Information Centre, Fujian Provincial Tobacco Company, Zhangzhou Branch, Zhangzhou 363000, China
In order to promote and improve the quality of system data application in Fujian tobacco data center, a suitable data quality control method was proposed which combined specific needs of main business construction and various projects, such as marketing,monopoly administration, logistics, human capital, integrated planning. Data from source system of tobacco companies were extracted to data warehouse of the provincial company to ensure data quality. Data model was designed mainly by star model in data mart layer. The collected data were then analyzed and displayed in BI application. It is concluded that the method can play an important role in enhancing the whole DC project efficiency.
data center; ETL; data warehouse; data quality
章惠民. 福建烟草数据中心数据质量监控技术应用[J]. 中国烟草学报,2017, 23(2)
章惠民,硕士研究生,高级工程师,主要研究方向为视觉图像与模式识别、信息安全、物联网、云计算、数据中心,Tel:0596-2931330,Email:huimin005@163.com
2016-06-22;< class="emphasis_bold">网络出版日期:
日期:2017-02-13