解密邮政行业大数据应用
2016-10-15翟松钢
翟松钢
行业大数据的应用是基于行业本身的特征去做的思考,我们会在行业大数据应用方面把从需求角度分为两大类:一方面是提供管理的支撑;另一方面是对数据中心建设的需求,包含数据的集中存储和计算,也会涉及到数据资产管理的需求。
数据资产管理的概念,最近提得非常多。因为在数据时代,数据作为有价值的资产应当如何去管理,这方面其实包含很多需求,像数据治理、数据标准以及元数据标准的应用,数据加工和数据共享方面的需求。
从行业内部来看,数据来源有两个方面,一方面是业务系统内部所产生的数据,每一个行业都积累着大量的历史数据。另一方面是内部数据之外涉及到第三方应用的数据。从目前行业大数据应用角度来说,真正有价值的应用还是在业务系统内部的业务数据,但第三方的数据也在逐渐引入,并产生价值。
基于需求之外,我们把大数据的应用进行一些固定的场景化,其中一个应用场景,可以称之为业务数据的即席查询,在业务系统原始结构下,直接进行明细及初步汇总数据的即席查询,实时看到系统的状况。
第二个场景是数据挖掘方面,这是我们大数据应用的重要领域,结合行业特征引入一些相关算法,创建一些相关模型,进行深入地分析并产生行业的业务价值。第三个场景是数据资产管理,包括元数据、数据质量监控、数据共享,以及大数据公司经常考虑的一个数据变现渠道的管理。
另外,在数据仓库的应用方面,简单来说是数据的统一存储、数据仓库技术的建模以及数据集市的应用。基于这样的应用场景,综合起来说,其应用主要建立在以行业应用系统积累的结构化基础之上,而大量的数据还是依托于行业运行多年的历史数据所带来的价值。
基于需求和应用场景的规划,需要构建一个基于OLTP+OLAP+Hadoop的大数据支撑环境,支撑联机事务处理、联机分析处理,以及分布式的存储与计算。我们需要更多地结合用户的业务特征、业务场景去构造出符合用户真正应用需求的解决方案,这才是真正的业务指导。
邮政行业跟其他行业相比较,有一些特殊性,总体来说是中国邮政集团及其下属相关机构。从大的方面来说,邮政业务分为两个部分,一部分是普遍服务,一部分是便民服务。
普遍服务指什么呢?有人群存在的地方一定有邮政业务,在中国的邮政法里规定的中国邮政地区行使一些公共服务的职能,这些是基本支撑的服务功能。
除此之外,实际上还会产生非常多的便民服务,包括邮务、速递物流和金融,从组成来看,有31个省级分公司,上万条邮路。由此可以看到,整个邮政行业的业务以及整个结构还是非常复杂的,基于现状,目前中国邮政实现了物流、资金流、信息流的三流合一。
从行业跨度来看,除了邮政本身的邮务之外,速递物流和金融,两个行业在国内行业里还有非常强的竞争力。跨行业是更外围的数据,宏观经济、公共职能的信息提供给邮政服务,还有包含散落在互联网的数据。从数据构成复杂度的情况来说,邮政构成也相当复杂的,从体量角度来说,结构化的数据大约占总量的20%,而半结构化、非结构化的数据大概占80%,数据真正的价值密度相差非常大。半结构化、结构化的数据,主要包含内部的一些客服的语音数据,现场的视频监控数据和一些电子类的凭证数据。
金融类型的数据包含银行、保险、证券产生的交易数据。邮务类比较多信件、报刊,还有邮资分校业务。速递物流的数据,还有外部的数据以及其他支撑系统产生的数据都很好理解。
我们与中国邮政的合作历程非常长,从2001年开始到现在,我们参与到金融的客管系统、反洗钱系统、内容管理系统。
在邮政行业,我们在大数据方面有一些实际的应用案例。在中国邮政信息化规划的蓝图中,可以看到以邮政三大业务板块为核心的规划下,周边规划大概有11个应用支撑板块,包括战略管理、投资管理、绩效管理以及人力资源管理、财务采购管理、风险审计、营销以及网络。为了支撑相关的业务系统的实现,从信息化规划角度实现了五大信息化平台。包括战略决策平台、企业集约管理服务平台、风控管理平台、全程全网的业务服务平台以及三大板块的核心业务平台。
在整个邮政业务大集中的情况下,我们发现了一个非常有意思的情况,各省邮政反而在这种情况下面临新的挑战—数据都集中了,各省该如何做这些事?
邮政集团公司不断增强管控,作为省级公司和经营实体的市场拓展和业务经营的精细化管理压力越来越大。数据成了重中之重,在省级邮政大数据的需求面前,其数据特征跟我们前面所分析的邮政行业具有相同的特征,数据来源较广泛,数据组成较复杂,业务跨度非常大。如何用统一平台来实现数据整合、数据分析以及数据管理,这是省级公司所面临的一个巨大挑战。
基于这样的现状,我们推出了邮政行业省级大数据平台,规划分三个区域:核心数据区、分析数据区以及历史数据区。从结构化角度来说,核心数据区是元数据层,通过数据仓库建模的技术对数据进行重新的整理编排形成PData层,结合应用场景和应用主题产生PMart;从分析数据区我们用IWA的组建来满足机器查询的要求;历史数据区,我们采用hadoop架构。
每个解决方案都不是万能的,基于这样的行业实践,也可以看到,我们在行业当中应用的实践方式。(根据演讲内容整理,未经本人审核)