APP下载

交通大数据质量控制架构与清洗方法

2024-02-02席加熠沈凯龙沈湘萍

黑龙江交通科技 2024年1期
关键词:校验数据中心质量

席加熠,詹 璐,沈凯龙,沈湘萍

(1.中交信捷科技有限公司,北京 100011;2.北京北大千方科技有限公司,北京 100085;3.天翼云科技有限公司,北京 100007)

1 引 言

随着人工智能、云计算以及物联网等先进技术的快速发展,大数据逐渐成为落实“交通强国”建设、推动“数字交通”发展的新型生产要素和推动交通行业数字化转型的核心驱动[1-2]。国内外专家学者针对数据质量控制方法开展了一系列研究,但大多聚焦于通过人工智能算法识别、处置动态交通数据流中的数据重复、数据缺失问题[3-8],对覆盖领域广、数据种类多的综合交通大数据中心往往难以适用,所以迫切需要构建一套科学合理、贴近业务的交通大数据清洗治理方法论,以指导交通大数据中心提升数据质量。针对上述问题,融合信息技术与管理制度,结合业务实际提出了一套交通大数据质量控制方法论,为配置数据质量校验规则和实现数据清洗治理提供指导,实现业务流程的优化再造和数据质量的全面提升。

2 数据质量控制架构

综合交通运输大数据中心既是数据流转的底座,也是业务协同的中枢,涉及与众多行业企业、业务处室及相关管理单位的数据对接汇聚,数据质量的提升也需要多方配合。因此,针对结构化交通数据“采集-盘点-校验-清洗”全生命周期构建数据质量控制架构,见图1。

(1)数据采集:通过数据抽取工具和数据采集服务协议两种方式分别从数据源头单位对接获取行业数据,实现数据融合。

(2)数据盘点:按照行业领域、性质和特征梳理数据资源,支撑个性化校验清洗策略的制定。

(3)数据校验:采用自动化和人工两种校验方式,识别交通数据资源中存在的规范性、完整性、准确性、一致性、时效性和可访问性问题。

(4)数据清洗:以自动化处置为主,人工清洗为辅,增加、删除、修改识别到的数据质量问题。

(5)数据质量管理:成立专项数据治理工作组,统一领导业务处室规范数据质量控制工作,协调处置技术手段无法解决的数据质量问题。

3 交通数据分类

(1)行业领域:按照数据来源、数据适用场景等条件,将交通大数据划分为地面公交、共享单车、轨道交通、出租(含网约)等领域,支持追溯数据源头,验证数据质量问题产生的原因并要求相关单位整改。

(2)数据性质:将各领域数据表分为基础数据和动态数据两类,以区分数据清洗频率。其中基础数据指人员信息、证件信息、企业信息等变化频率不高的数据,动态数据指位置、订单、流量等实时产生的高频变化数据。

(3)数据特征:细化到字段级别,以能否还原交通运输行业运行情况为判断依据,将数据分为还原型和描述型,从而确定不同数据的清洗治理粒度及方法。其中,ID、编号、经纬度、速度、时间等能够反映运营态势、还原出行链条的关键字段均属于还原型数据,姓名、里程、金额、数量等用于完善相关信息的字段则属于描述型数据。

4 数据质量校验

参考《信息技术数据质量评价指标》(GB/T 36344-2018)[9]中数据质量评估维度,结合业务实际设计数据质量校验标准。采取人工校验与自动化校验相结合的方式校验数据质量问题,人工校验是自动化校验的前提,通过定期定量人工核验数据质量问题的方式积累数据质量问题分析规则,再配置到Python、SQL等专业软件工具中自动清洗处置。数据质量校验方法及标准如表1所示。

表1 数据质量校验

5 数据清洗治理

结合数据中心持续对接、每日更新的数据传输特点,采用循序渐进、不断积累的方式清洗后续接入的新数据,不对存量数据进行处理,通过积累治理后数据不断降低数据库中脏数据占比,直至不再影响业务使用。数据清洗治理既包括管理制度,也包括技术处置。

5.1 数据治理机制

考虑到数据中心非数据源头的工作实际,针对数据质量问题产生原因不明或数据中心无法处置的问题,构建清洗治理管理机制,成立专项组织机构,协调数据源头单位处置。

(1)数据治理组织机构。

建议交通运输管理部门成立数据治理专项工作小组,统一领导数据质量提升工作。来自行业企业的数据,经工作小组确认,交由相关业务处室协调确认问题产生的原因,并提出整改要求;来自省交通运输厅及其他行业外管理部门的数据,则由工作小组发函确认。

(2)数据治理工作流程。

①数据对接:数据中心通过协议、接口等方式从源头单位获取数据。

②数据校验:基于数据质量问题分析规则开展数据校验工作,识别存在的数据质量问题。

③数据清洗:通过技术手段实现数据清洗转换,并将治理后数据保存入库。同时,梳理形成无法处置的问题数据清单,提交至数据治理专项工作小组。

④数据抽样:定期从治理后数据中抽取样本,人工查验是否存在尚未发现的数据质量问题,进一步补充数据质量规则库。同时,梳理无法确认的问题数据清单,提交至数据治理专项工作小组。若连续数次未发现新的数据质量问题,则判断规则完善,暂停数据抽样工作。

⑤问题确认:数据治理专项工作小组归纳整合无法确认、无法处置的问题数据清单,并分发至相关责任单位协调解决。

⑥规则补充:根据数据源头单位返回情况,补充修改数据质量规则库,以支持次日的数据校验工作及清洗治理工作。

5.2 数据清洗技术

数据中心中动态数据变化频率较高,采用增量接入方式不断产生新的数据记录,因此必须对每条传入的数据都做校验清洗。静态数据变化频率偏低,采用全量传输方式对接的数据可能完全一样,因此仅对新增数据校验治理,以节省数据中心算力。

还原型数据中,每一条记录均代表着交通运输行业中人、车、企的一次关键行为或一项关键信息,是追踪行业走向、还原业务态势的核心要素。故需要明确还原型数据中存在的所有质量问题,并给出相应的治理方案。

描述型数据则是进一步丰富人、车、企、事件特征的补充要素,可以在还原型数据治理完全后,酌情改善数据质量。

六类数据质量问题的清洗方法如下。

(1)数据规范性:基于SQL Sever数据库管理系统及SQL语句,参照大数据中心的数据标准,采取统一加工转换的方式修改字段名称及类型,替换数据字典,实现标准化处理。

(2)数据完整性:依托SQL Server数据库管理系统,以编号、身份证号等唯一标识为索引关联同一主体含义相同的字段,若全部为空值则提交至数据治理专项工作小组协调处置;若其他数据表中相同字段有值,则直接关联填充。数据接入不完整情况在数据抽样阶段整理至问题数据清单,由数据治理专项工作小组负责补充接入。

(3)数据一致性:在标准化处理时统一数据库中同义字段命名和格式;使用SQL语句,以唯一标识为索引关联相同含义的字段,若存在数据缺失则直接填充;若记录内容不同,无法确定正确项目,则录入无法处置的问题数据清单,与源头单位协调后处理;与业务逻辑不相符的数据记录,也交由源头单位协调后处理。

(4)数据准确性:与行业实际不相符、格式不正确的还原型数据,需提交至无法处置的问题数据清单,与源头单位确认清洗路径;与行业实际不相符或格式混乱的描述型数据,可直接采用置空删除的方式处置。若可以明晰的、简单的数据格式问题,则直接由数据中心调换统一格式,如刷卡金额存在“400”、“600”等明显有误数据,则转换为“4”、“6”。重复数据以保留最新记录,删除旧记录为准。

(5)数据时效性:数据时效性问题均需归纳至问题数据清单,由数据治理专项工作小组协调确认。

(6)数据可访问性:将断开的数据传输链路归纳至问题数据清单,由数据治理专项工作小组协调确认。无法调用的数据表,则交由数据中心工程师检查确认。

6 实例验证

以成都市2022年6月至2022年10月的轨道交通数据为例验证研究成果,数据内容包括地铁票卡类型、地铁刷卡数据、地铁站点信息、地铁线路信息、地铁线路客流信息、地铁线网客流信息、地铁站点客流信息。

6.1 数据质量校验

样本中数据质量问题如表2所示,部分数据质量问题范例如表3、表4所示。

表2 轨道交通领域数据质量问题

表3 问题6数据质量问题

表4 问题7数据质量问题

6.2 数据清洗治理

针对表2中识别的数据质量问题,分别采用如下方法清洗治理。

(1)数据转换:采用标准化处理的方式,统一替换地铁票卡类型表和地铁刷卡数据表中的数字代码(对应表2中序号1、4)。

(2)数据关联验证:以地铁刷卡信息中首条和末条非员工卡刷卡记录推断线路运营时间,辅以网络信息验证后,将运营时间填充到地铁站点信息表中(对应表2中序号2)。

(3)问题归集验证:将数据质量问题归纳整理,形成问题数据清单提交至轨道集团验证。经确认,轨道集团补传地铁闸机、遗漏地铁站点位置信息,修正明显异常的数据刷卡记录,并调整线网预测客流算法和数据传输链路,保证传输数据稳定准确(对应表2中序号3、5、6、8、10)。

(4)数据删除:按照数据中心工作需求,将非运营时段的累计客流均置为0(对应表2中序号7)。

(5)修改校验规则:经确认,轨道集团偶尔会补传清分数据导致清分日期明显晚于出站日期,属正常业务工作,故修改相应校验规则(对应表2中序号9)。

数据清洗治理成效范例如表5、表6所示。

表5 问题6治理后数据

表6 问题7治理后数据

经清洗治理,除补传数据导致的入库延迟外,90.9%的轨道数据质量问题均得到校正,后续传入数据质量明显提高,相同数据质量问题未重复出现。

7 结 语

经过多年信息化建设,各地市的综合交通运输大数据中心基本跨过数据采集汇聚阶段,向业务赋能迈进。交通数据质量的控制与清洗治理作为数据应用关键,已经成为交通数字化转型的重要研究方向。

从数据汇聚者角度出发,提出了交通数据质量控制架构,提炼归纳了6个数据质量校验维度并进一步给出了数据质量校验路径。同时,从管理和技术两个角度入手,分析了提高综合交通运输大数据中心数据质量的方法论。以成都市城市交通运输数据为例,验证了数据质量校验规则方法的可行性和数据清洗治理路径的适用性。受限于数据汇聚者的身份,综合交通运输大数据中心更多依靠源头单位处置数据质量问题,还需进一步探索采用先进技术自行清洗治理的方法,以提高数据清洗效率。

猜你喜欢

校验数据中心质量
酒泉云计算大数据中心
“质量”知识巩固
质量守恒定律考什么
做梦导致睡眠质量差吗
民航绿色云数据中心PUE控制
炉温均匀性校验在铸锻企业的应用
质量投诉超六成
基于云计算的交通运输数据中心实现与应用
大型电动机高阻抗差动保护稳定校验研究
基于加窗插值FFT的PMU校验方法