公交场景下数据质量提升策略研究
2024-01-07淑燕
淑燕,熊 文
(云南师范大学 信息学院,云南 昆明 650000)
0 引言
数据质量对数据价值至关重要。高质量数据能够准确反映现实情况,为决策提供有力支持。而低质量数据会对信息社会造成困扰,影响数据挖掘结果,产生不利影响[1]。根据Gartner最近的调查结果,糟糕的数据质量会造成平均每年1 500万美元的损失[2]。在美国,因数据质量问题而导致的年度总成本超过3万亿美元[3]。因此,清洗脏数据以提升数据质量至关重要,是保证后期数据挖掘和分析准确性的前提。
1 相关研究工作
基于以上现状,本文借鉴文献[4]研究大数据治理的思路,以中国知网(CNKI)、Web of Scienc(WOS)、IEEE、ACM和Springer为来源数据库,以 “数据质量”和“数据治理”为检索词,时间范围“2010年—2022年”,进行文献的检索(检索时间2023年05月07日),统计分析后得到如图1所示结果。
图1 2010—2022年数据质量相关文献分布
通过文献计量分析可以得出如下结论:
(1)数据质量问题得到广泛关注。由图1可知,相关研究文献在总体分布上呈现出上升趋势,数据质量问题已然成为国内外学术界关注的焦点。目前,国内研究与国外仍有一定的差距,这启发研究人员需在数据质量方面投入更多的研究。
(2)数据质量相关问题缺乏清晰、系统的概述。由文献计量分析的结果得知,尽管国内外对数据质量的研究有了一定成果的积累,但研究内容普遍集中在描述某类数据质量问题或某种清洗策略,并没有对相关问题进行较为全面、系统的梳理。
(3)数据质量的应用性不足,交通领域的相关研究还有所欠缺。目前的研究多以概念性、描述性和定性分析为主,偏重于理论的概括总结,针对数据质量面临的实际问题,还缺少相关的实践案例支撑。
2 数据质量问题归纳
基于以上研究,统计文献所列出的数据质量问题,通过归纳、整理将脏数据定义为:数据冗余、数据缺失、数据异常、数据错误、数据冲突和数据稀疏这6类数据质量问题,具体内容如表1所示。
表1 数据质量问题的归纳和定义
3 数据质量分析
3.1 数据集
本研究使用国内某城市真实的交通数据为研究对象,数据采集时间2021年7月至2022年2月。数据集大小为364.6 GB,包含公交刷卡表、二维码表、进出站表、蓝牙表、Wi-Fi、GPS和静态数据表在内的7个交通数据表。
3.2 数据质量问题
(1)数据异常。经过数据探查,发现GPS数据中存在大量的数据异常,图2是对所有异常点偏离距离的统计,纵轴表示偏离距离的范围区间。
图2 异常点偏离距离分布
(2)数据缺失。经过数据探查,发现进出站表中存在大量的数据缺失问题。以08360路线上的车牌号为“A001**”的样本为例,2022-01-01 08:02:16至2022-01-01 09:05:47时间段内,缺少停站编码为08360102至08360107之间的进出站数据。
4 数据质量提升方法
4.1 HNFC
HNFC具体流程如下:首先,检测是否存在超过经纬度合理区间的范围异常,有则删除范围异常数据。然后,根据瞬时速度阈值检测GPS跳跃异常。如果两GPS点的瞬时速度超出阈值,则认为该数据属于跳跃异常。最后,对检测到的跳跃异常数据进行修复,这一步可以通过使用中值滤波来实现。中值滤波算法可以根据周围正常数据的分布情况,对异常数据进行修复。
评价指标如下。
(1)范围异常过滤率(RFR):衡量算法过滤掉范围异常数据的能力。公式为:
(1)
(2)跳跃异常修正率(JCR):衡量算法修正跳跃异常数据的能力。公式为:
(2)
其中,rangeE为检测到的范围异常数据;jumpE为检测、修复的跳跃异常数据;totalD为GPS总数据量。
4.2 MDFC
MDFC具体流程如下:首先,通过检查进出站表中停站编码属性的连续性,判断是否存在缺失数据。之后,对于缺失的进出站数据,填充停站编码、路线和方向等信息,然后根据静态信息表,填充站点名称、经度和纬度等信息。此时,只有进出站的时间信息还未得到修复。最后,结合公交车的GPS数据,完成对进出站时间信息的修复。
评价指标[5]如下。
(1)使用缺失修复比率(MRR)作为路线名、停站编码、行驶方向、站点名、经度和纬度修复的检验指标。其中MRR如公式(3)和公式(4)所示。
(3)
(4)
其中,xk,o为缺失数据的真实值;xk,r为数据的修复值;δxk,o,xk,r描述修复正确与否,当修复值与真实值相等即修复正确时计数为1,修复错误时计数为0。
(2)平均相对误差(ARE)作为时间修复的可信程度,其数值越小,说明修复值与真实值之间的差距越小,修复的准确性越高。其中ARE如公式(5)所示:
(5)
5 数据质量提升实验
5.1 HNFC实验结果分析
数据异常清洗实验则选取2022年2月的20 353.610万条GPS数据为研究对象。首先对GPS数据按照车牌号进行分组,然后按照时间戳对组内的数据进行排序。该方法共检测到503.905万范围异常数据以及457.299万条跳跃异常数据。实验结果表明,HNFC范围异常过滤率RFR为2.48%,跳跃异常修正率JCR为2.25%。
5.2 MDFC实验结果分析
数据缺失清洗实验则选取08360路线上车牌号“A002**”于2022-01-07 07:35:06至2022-01-07 08:33:17时间段内一次完整的进出站数据为研究对象。该路线完整进出站数据共包含28个站点,随机去除[02,05]和[18,21]之间的公交车进出站信息,然后使用上述MDFC的方法对缺失的进出站信息进行修复。统计得到MRR达到100%,ARE稳定在1%以下。到站时刻修复的结果如图3所示。
图3 MDFC时间信息修复对比
6 结语
本文首先运用计量分析方法对近年来数据质量相关的研究进行了较为系统性的探讨和梳理,归纳出6类数据质量问题。其次,以一个真实的公交大数据平台为例,文章探讨了公交场景下的数据异常和数据缺失问题,研究了HNFC、MDFC的数据质量提升方法。实验结果表明,HNFC可过滤掉2.48%的范围异常,修正2.25%的跳跃异常。MDFC可以保证进出站时刻的平均误差稳定在1.0%以下。这证明了本文所述数据质量提升方法的有效性。