基于大数据技术的家宽覆盖地址数据治理方法
2017-02-06雷水平李杰龙江立斌汪新勇
何 庆,雷水平,李杰龙,江立斌,易 娜,汪新勇
(中国移动通信集团广东有限公司南方基地,广东 广州 510640)
1 引言
电信运营商家庭宽带(以下简称“家宽”)业务的核心基础数据——家宽覆盖地址数据的质量对其发展越来越重要。传统粗放的数据管理方式导致了大量数据质量问题的涌现,如数据缺失、信息不准确、格式不统一等,成为运营商家宽业务发展的瓶颈之一,亟待解决。
数据治理[1]为从企业视角处理地址数据质量问题提供了理论基础。数据治理是指从使用零散数据变为使用统一主数据,从具有很少或没有组织和流程的治理到企业范围内的综合数据治理,从尝试处理主数据混乱状况达到主数据井井有条状态的一个过程,目的是建立数据拥有者、使用者,以及数据和支撑系统之间互补的关系,从全企业视角协调,统领各层面的数据管理工作,确保内部各类人员能够及时、准确地获得数据支持和服务[2]。
大数据时代给电信运营商数据质量管控带来了挑战[3-5],但也提供了契机。近年来已有国内外学者开始研究大数据治理问题。谈韵等人[6]针对支撑电网大数据应用所采集的数据,研究了电网大数据治理体系。李吉元[7]针对运营商如何利用好系统的数据资源的问题,以移动精准营销平台为依托,对大数据的治理进行了研究,以Hadoop的MapReduce并行处理框架和MPP库为基础,通过云化ETL和爬虫技术设计实现了移动精准运营平台的数据挖掘以及数据预处理功能。金天骄[8]根据税务治理需求,搭建政务云税务云环境,基于税务云环境开展税务数据治理,通过数据治理实现各类数据的集中定义和管理,为建立统一数据视图、数据仓库、数据集市提供语义基础,充分利用大数据、云计算技术,提升数据治理能力。
鉴于此,本文将对电信运营商家宽覆盖地址数据的质量问题,以数据治理理论为基础,利用大数据技术对家宽覆盖地址数据的治理方法展开研究,以提升家宽覆盖地址数据的质量。
2 治理家宽覆盖地址数据面临的挑战
覆盖地址数据的质量问题主要有信息杂乱(即数据中掺杂非地址信息,如手机号、订单号)、格式不统一(各地市的地址格式不相同)、关键数据缺失(如经纬度、街道、房号等数据缺失)、数据冗余(同一地址重复出现)等。由于缺乏统一的地址管控标准,使得家宽覆盖地址数据的处理面临3个方面的挑战。
(1)如何解决海量地址数据的存储和复杂运算问题
思考:在这个过程中,幼儿为了得出缺角的圆是否会遇到遗失的角,进行主动查阅资料、主动交流分享,并得出答案。这个过程充分体现了幼儿自主学习的过程。在自主学习的过程中,他们不仅熟悉的掌握了绘本《失落的一角》的故事内容,也在主动查找的过程中,体会到成功的喜悦,激发幼儿自主学习的欲望与兴趣。
家宽覆盖地址数据量达到亿级别,兼具数据存储和处理能力的传统工具(如Excel)在性能和灵活性方面无法满足要求。此外,地址数据处理还涉及有大量的非结构化数据(文本)操作,普通的数据库处理起来需要耗费大量的时间。因此,要研究解决家宽覆盖地址数据的存储和复杂运算的方法。
(2)面对多种数据质量问题如何设计有效的处理流程
同一个地市会存在多种不同的数据质量问题,不同地市之间的数据质量问题也存在差异,设计有效的数据处理流程要能兼顾解决以上两个方面的问题。
(3)如何实现快速检验治理后的数据是否满足质量要求
由于地址数据量大,不可能人工对其进行检验,因此,需要实现快速自动化检验地址数据治理结果。
3 数据处理技术架构
大数据技术为海量数据的存储和计算提供了技术支撑[9],针对家宽覆盖地址数据的质量问题,提出了基于大数据技术的数据治理架构,接着对地址数据治理逻辑进行了分析,最后探讨了数据治理的技术架构。
3.1 数据治理逻辑
治理数据不仅要保证数据处理的效率,还要能实现对治理后的数据质量是否达标进行校验,数据治理逻辑如图1所示:
图1 大数据治理逻辑
首先对存在质量问题的数据进行处理,然后通过校验方法检验处理结果,接着将检验结果实时反馈给处理环节,对不符合要求的数据再次进行处理,通过这种处理和校验之间的不断迭代来最终保证数据治理的质量。
3.2 地址数据处理技术架构
为解决地址数据处理过程中的存储和计算问题,提出数据治理技术架构,如图2所示。
◆数据存储层:利用HDFS[10]解决家宽覆盖地址数据的存储问题,其中Sqoop用以实现关系数据库与HDFS之间的数据传输,YARN/Zookeeper用于管理分布式集群资源。
◆数据处理层:在HDFS基础之上,利用分布式计算框架Spark实现数据处理算法,同时解决数据处理过程中的性能问题,MySQL用于存储结果数据。
图2 数据治理技术架构
◆数据校验层:数据自动化校验服务利用地图开发平台提供的API接口,通过MySQL向地图开放平台传输数据,并实时返回校验结果。
4 家宽覆盖地址数据治理方法
根据3.1节的数据治理逻辑,本节对处理和校验环节进行了分析,包含处理算法和校验算法两部分。
4.1 家宽覆盖地址处理算法流程
家宽覆盖地址处理流程如图3所示,其流程描述如下:
(1)抽取总表的数据;
(2)以地市为基准对总表进行分表处理;
(3)利用正则表达式匹配规则,编写程序处理问题数据;
(4)判断去除的数据是否包含有用信息,若无,对无用的干扰信息置空;若有,则保留有用数据;
(5)根据校验环节返回的数据检验结果,优化数据处理规则;
(6)输出家宽地址数据处理结果。
4.2 家宽覆盖地址校验算法流程
数据校验算法流程如图4所示,校验思路见图4左侧。首先抽取数据库清洗后的地址数据,然后调用地图开放平台提供的API接口对处理后的地址进行校验,最后获取校验返回的结果,检验地址是否符合标准,详细流程见图4右侧。
图3 数据处理算法流程
图4 数据校验算法流程
5 案例分析
5.1 案例描述
以某省某电信运营商为例进行探讨。随着该省家宽业务的快速发展,家宽覆盖地址的质量问题逐渐凸显,问题地址数据量大、涉及区域广,严重影响运营商该业务的发展。通过分析得知,地址数据的质量问题主要集中在“掺杂非地址信息”、“非自建地址”、“不符合七级地址规范”3个方面。
5.2 解决方案
(1)数据治理流程
综合上文提出的数据治理方法,结合本案例公司的家宽地址数据的特点设计了数据处理和校验流程,如图5所示。
(2)环境搭建
◆硬件环境
集群硬件:3台2×8核CPU、128 G内存的x86服务器。
◆软件环境
操作系统:Linux系统;
软件:CDH5.4.5、MySql、python 3.4、SecureCRT 7.3、Navicat Premium。
5.3 结果分析
通过对案例省份各地市的家宽覆盖地址数据进行自动化处理,使该省满足质量要求的家宽覆盖地址数在原来的基础之上提升了24.5%。表1展示的是案例运营商家宽覆盖地址治理前后的对比示例,通过对比处理前和处理后的数据,从表1中可以看出非地址信息(如编码XQ0024、电话号码0760-218178、特殊字符(FTTH)等)被处理,覆盖地址质量得到提升。
图5 某省某运营商家宽地址数据治理流程
6 结论
针对电信运营商家宽覆盖地址数据的质量问题,结合数据治理理论,利用大数据技术提出了数据治理技术架构,设计了数据处理算法和校验算法,实现了对有质量问题的地址数据的高效自动化处理,最后以某省电信运营商为例验证提出的数据治理方法,结果表明该方法可以有效改善家宽覆盖地址的质量问题。本文提出的数据治理方法目前只解决了已有家宽覆盖地址数据的质量问题,后续在家宽覆盖地址数据源的质量管控问题上需展开更加深入的研究。
[1] 桑尼尔·索雷斯. 大数据治理[M]. 匡斌,译. 北京: 清华大学出版社, 2014.
[2] 张一鸣. 数据治理过程浅析[J]. 中国信息界, 2012(9): 15-17.
[3] 李卫,张云勇. 大数据时代电信运营商数据管控研究[J].移动通信, 2014,38(13): 10-14.
[4] 杨迪,马怡安,王铮,等. 运营商在大数据背景下对数据质量管理体系的探索及思考[J]. 互联网天地,2016(1): 73-79.
表1 家宽覆盖地址治理前后对比示例
[5] 宗威,吴锋. 大数据时代下数据质量的挑战[J]. 西安交通大学学报(社会科学版), 2013,33(5): 38-43.
[6] 谈韵. 电网大数据治理体系初探[J]. 电子技术与软件工程, 2017(5): 182-183.
[7] 李吉元. 基于Hadoop的移动运营大规模数据治理[D]. 南京: 南京邮电大学, 2014.
[8] 金天骄. 税务数据治理在运营商政务云平台的实现方案研究[J]. 邮电设计技术, 2016(6): 69-73.
[9] 孟小峰,慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展, 2013,50(1): 146-169.
[10] Shvachko K, Kuang H, Radia S, et al. The Hadoop Distributed File System[C]//Symposium on MASS Storage Systems and Technologies. IEEE Computer Society, 2010:1-10.★