APP下载

一种数据分析标准流程的实现方法研究及应用

2018-01-18陈广开陈观娣

数字技术与应用 2018年9期
关键词:数据分析

陈广开 陈观娣

摘要:CRISP-DM模型为一个KDD工程提供了一个完整的过程描述。该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段。本文根据CRISP-DM模型,构建了一种标准化流程的数据分析系统,实现了数据分析从业务理解向数据理解的无缝衔接,目前,这套系统已应用在电力营销稽查业务上,实现了数据统计与分析自助式操作,极大提高了数据价值利用度,效果较好。

关键词:数据分析;标准流程;业务理解;数据理解

中图分类号:TP391 文献标识码:A 文章编号:1007-9416(2018)09-0085-03

随着互联网技术的快速发展,人类活动产生的信息交织为密集的网络,企业内也建立了越来越多的信息应用,这些应用记录着企业运行数据。随着业务的发展和时间的积累,数据变得海量、多源和异构,这些海量数据蕴含丰富的知识和有用信息,但也给企业使用带来困难。

因此,提高数据利用率,挖掘数据潜在价值,就显得很重要。当前在数据统计、分析和挖掘方面,很多系统都采用CRISP-DM模型进行实现,本文基于CRISP-DM模型,构建了一种标准化流程的数据分析系统,实现了数据分析从业务理解向数据理解的无缝衔接和自主定制。

1 问题提出

1.1 CRISP-DM模型简介

CRISP-DM (cross-industry standard process for data mining),即为“跨行业数据挖掘标准流程”。此模型于1999年欧盟机构联合起草。现CRISP-DM模型在各种KDD过程模型中占据领先位置,2014年统计表明,采用量达到43%。CRISP-DM模型为一个KDD工程提供了一个完整的过程描述。该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段,6个阶段分别是:商业理解、数据理解、数据准备、建模、评估、部署。各阶段关系如图1所示。

1.2 现状及存在问题

就方法学而言,CRISP-DM本质来看就是在分析应用中提出问题、分析问题和解决问题的过程,非常适合工程管理,适合大规模定制,以至CRISP-DM如今已经成为事实上的行业标准。“调查显示,50%以上的数据挖掘工具采用的都是CRISP-DM的数据挖掘流程”。

而实际数据挖掘过程中,通常是业务人员与数据分析人员通过语言或文字沟通后,由数据分析人员构建业务理解到数据理解的过程。因数据分析人员对业务理解不精,致使建立的数据模型与实际业务存在偏差,导致最终数据分析结果与真实情况存在差距。

再者,一般的数据挖掘工具,对数据准备到建模的过程处理比较好,提供了丰富的工具,但在获得业务数据方面则有缺失或考虑不周,需业务人员先提供业务数据,业务人员再找信息化部门或运维商获得数据,这二次数据交接过程时常也导致业务数据发生了变化。

本文根据CRISP-DM模型,构建了一种标准化流程的数据分析系统,实现了数据分析从业务理解向数据理解的无缝衔接,让业务人员不需要太多的数据分析的专业知识,通过拖拉和选择即可实现自助式的数据分析需求。

2 数据分析标准流程实现

2.1 数据流程实现设计

为降低业务人员对数据分析类软件的使用难度,结合业务人员对业务流程的易理解和关注特性,对CRISP-DM模型的实现过程做流程化操作分解,让用户在一步步指引过程中完成数据分析过程。

2.1.1 数据注册

数据分析,首先要关注的是数据分析范围。这个范围一定是可灵活伸缩和扩展。一般企业数据环境中,会存在一个或多个信息化系统,数据普遍以结构化数据为主,非结构化数据为辅。同时,日常数据分析既有常规性,也有即时性。例如:对一些突发事件,立即调用数据,执行分析,得出结果,因此,需提供一个数据注册功能,将常用数据进行注册,形成数据项清单,以备需时使用。

以结构化数据为例,设计“数据接入管理”和“数据注册管理”两个过程。

(1)数据接入管理:管理数据源、数据库表、数据列字段以及接入状态等内容。

(2)数据注册管理:对接入数据进行管控,选择需要的表及列注册,注册后方可使用。

其关系如图2所示。

2.1.2 业务理解与数据理解衔接

业务人员在日常工作中,比较习惯使用流程类软件,例如ERP系统、OA系统等,这些系统特征就是嵌入了流程化操作,基于这个操作特性,在数据分析操作过程中,引入数据规则、数据专题和数据标准化流程的概念。

(1)数据规则:为数据分析的最小操作单元,实现日常数据分析集的归类和复用。提高数据分析操作过程效率。

(2)数据专题:为数据分析应用的最终载体。一个数据专题可通过一个或多个数据规则的组合,形成更加丰富的数据分析能力,解决复杂业务数据分析的需要。

(3)数据标准化流程:以描述、分析、设计、开发、测试、评估、发布组成7个操作流程对应CRISP-DM模型。其对应关系如图3。

2.2 数据分析过程处理

通过上述流程化设计,數据分析过程处理操作将变得极为简单,具体过程如下:

(1)业务描述:结合业务,编写业务统计需求。

(2)业务分析:对业务统计需求,填写业务分解分析。

(3)数据设计:对一个或多个分析,选择需用到的数据项,在设计过程中,可通过数据注册功能进行查找和选择。

(4)应用开发:对一个或多个设计,选择注册表和列,由系统生成对应的SQL语句,以JSON结构体存储。

(5)应用测试:对开发的应用,进行数据测试,形成数据结果。

(6)应用评估:对形成的数据结果,进行效果评估。

(7)应用发布:对评估合格的应用,发布平台,固化为统计或分析应用。

以上流程化处理,实现了CRISP-DM模型的7个阶段。

3 数据分析标准流程应用

3.1 应用体系结构设计

为验证基于CRISP-DM模型实现流程化数据分析效果,基于电力营销稽查业务场景,设计开发了电力稽查专题分析应用系统,其应用框图如图4所示。

图4框图中,纵向分为外部数据采集接口和内部数据标准化分析应用两部分,横向由下而上分为存储层、计算层和展现层。

系统基于MVC设计模式,SSH框架,采用JAVA语言设计,中间件采用weblogic,数据模型采用JSON结构存储。

3.2 主要应用功能

系统提供库表接入、库表注册、数据规则、数据专题、数据模型、分析与统计应用、系统支撑等管理功能。

其中库表接入、库表注册、数据规则和数据专题四个核心功能通过服务接口调用方式协调工作,执行效率和稳定性较好。

在数据规则、数据专题功能中,提供业务理解、数据理解、数据准备、分析建模、验证与评估、实施与运营组成的7个标准化、流程化操作环节,如图5所示。

3.3 应用层次及效果

以电力营销稽查业务为例,稽查人员结合风险分析,利用电力稽查专题分析应用系统,通过自主创建数据分析专题,实现缩小稽查范围,精准定位问题的能力,特别针对时间跨度长的高风险问题,比如电费核查及追讨,可轻松整合历史数据进行挖掘分析,促进了稽查班员从传统操作型向数字智慧型转变。

4 结语

基于CRISP-DM模型,构建了一种标准化流程的数据分析系统,实现了数据分析从业务理解向数据理解的无缝衔接,通过提供数据统计与分析自助式操作,支持自主定制数据分析规则、专题,实现营销稽查数据挖掘分析及应用。从实际应用情况来看,提高了企业对数据的使用水平,挖掘出了很多往常无法发现的数据价值,实现了数据赋能,有较好推广价值。系统后续还可强化数据计算能力,如引入大数据、分布式等技术,提高海量数据运算效率,进一步缩短数据统计及分析的等待时间。

参考文献

[1]J Hyldegrd.Collaborative information behaviour--exploring Kuhlthau's Information Search Process model in a group-based educational setting[J].Information Processing & Management,2006,42(1):276-298.

[2]Levy A Y,RajaramanA,Ordille J J.Querying heterogeneous information sources using source descriptions [C].In 22nd Intl.Conf.on Very Large DataBases(VLDB),Bombay,India,1996:251-262.

[3]白鱼秀,郑欢欢.基于CRISP-DM模型的移动GPRS业务关联规则应用研究[J].物联网技术,2017,7(3):98-100.

[4]梁霄波.电信客户细分中基于聚类算法的数据挖掘技术研究[J].现代电子技术,2016,39(15):95-98.

[5]卢文祥.基于logistic回归模型的保险单续款预测研究[D].哈尔滨:哈尔滨工程大学,2017.

[6]Eric Newcomer,Greg Lomow.Understanding SOA with webser-vices[M].北京:電子工业出版社,2006.

[7]李立博.面向服务的多源异构数据整合平台的设计[J].计算机工程与设计,2011,32(1):141-144.

[8]范春梅.基于CRM的移动通信流失预警建模[J].中国培训,2017,(6):283-284.

猜你喜欢

数据分析
基于matlab曲线拟合的数据预测分析
佛山某给水管线控制测量探讨
SPSS在环境地球化学中的应用
浅析大数据时代对企业营销模式的影响