商务智能架构中的数据采集平台
2012-08-15丁琳
丁 琳
SAP中国思爱普(北京)软件系统有限公司,上海 201203
1 关于商务智能
商务智能(Business Intelligence, BI)是企业利用数据仓库(DW)、数据挖掘(DM)、在线分析处理(OLAP)和决策支持系统(DSS)等现代信息技术对企业经营过程中产生的大量结构化和非结构化业务数据和信息进行收集、整理、分析,以便辅助企业做出争取决策,采取有效战术行动,优化业务流程,全面提升企业绩效的工具、方法和技术的统称。借助商务智能这一手段,企业可以在市场日益变化,竞争愈加激烈,组织结构复杂,企业规模快速扩张庞大的商业环境之下,保持高效运营、正确决策、快速响应,实现企业从数据到信息、从信息到知识、从知识到利润的转化。
2 商务智能数据采集的问题
企业实施商务智能项目时,数据的采集和集成是通常遇到的问题。由于实施过程一般分阶段分梯度进行,因此企业BI始终要面对业务流程随市场环境趋势不断变化的现状,系统架构始终处于不断补充扩大的过程。
在企业内部随着信息化的历史变迁,从部门级应用,到各公司独立应用,再到企业一体化应用,企业使用不同厂商、不同版本的各种管理软件。如果说这种系统应用的广度已经使人头痛,更头痛的是集团型企业各种信息系统的集成问题。如从数据集成到应用系统集成,再到集团型企业所面临的人员集成、信息集成、流程集成、应用平台集成等方面,涉及面越来越多,集成重点也愈来愈从技术走向业务系统。
与此同时,行业市场激烈的竞争环境,迫使企业不得不在应用系统逐步整合集中的进程中,同步进行大规模的企业范围内的数据整合,以BI作为企业战略重要支撑。那么企业BI必然率先解决数据驱动的根本,即解决数据的获取、转换和整合等问题。
3 数据采集平台作为商务智能架构补充
目前,全球各大软件厂商提供的商务智能解决方案均是将业务应用的操作型关系数据库作为商务智能数据仓库或集市的ETL数据源,这种解决方案旨在将业务流程和操作与业务分析和查询分离,应用组合各司其职合理架构。因此,市面上大部分BI产品本身只对数据仓库或集市或OLAP进行单向提取和展现操作,也就是“只读”的操作,展现层不提供大量和频繁的数据写操作。试想一旦BI产品具备数据写处理,BI的产品定位和架构界限划分将变得模糊不清,在实际应用中也难免出现业务需求匹配解决方案时的定位混淆问题。即使市面上有少数BI产品具备访问权限可控的“回写、转存”功能,启用功能时势必要谨慎考虑对数据仓库或OLAP多维分析的数据更新频率和重构立方体的工作量问题,事实上这类BI产品的“写处理”能力非常局限,一般仅处理单表中度量型或备注型的字段更新,也不具备工作流和规则引擎等基本流程控制功能。
笔者提出,在商务智能体系架构中增加构建一层数据采集平台,作为核心业务应用组合架构中的重要补充来源,从而解决企业快速获取非系统性数据来源或外部来源数据导入系统的问题,以保证企业数据资产完整性以及信息充分有效性,实现商务智能支撑企业决策的要求。
4 数据采集平台的解决方案
数据采集情况复杂,方式种类繁多。较为常见的情况是业务应用系统之间跨多数据库,结构化、半结构化和非结构化的数据源,以及手工填报录入和导入源文件等。简单的采集方式可以是网页手工录入数据,扫描条形码,自动化定时数据抽取,修正或者补录过程等方式,最终是为数据存储或数据分析提供基础内容。可见无论何种情况方式,数据采集都包括了数据源收集、识别、选取和存储等环节,是一个从目标处理到完成输入输出的复杂过程。
4.1 数据采集平台架构
商务智能的数据采集平台包括对业务数据、协同数据、公用资源以及公司各级下属单位或部门的数据进行采集。数据采集工作主要通过数据采集适配器、网页在线数据填报、客户端数据上报、以及后台批量数据导入等方式,迅速地从生产数据库、文件系统采集到数据,存储到采集数据库及文件系统,并尽量降低给生产数据库带来的影响。
数据采集平台要求数据的准确一致、格式符合BI分析使用,因此设计了数据上报和审核的业务流程,系统层次结构和流程设计如下:
审批层:由具体填报人员以网页在线填报或客户端填报方式,将数据录入填报系统中(系统自动将数据标示为状态写为提交)。
填报层:各分支结构审核人员将在系统中对数据审核(系统中只显示待审核数据),如数据符合要求则通过审核(系统将标志位改为审核),否则退回(系统将标志位改为提交)。
ETL层:由系统自动通过ETL工具将数据写入公司总部采集平台的数据库,ETL过程需根据业务需求具体设计。
2)数据存储分为两层级
各下属单位数据存储:各个下属单位有各自数据库,存储在线填报系统数据。
总部数据中心:总部采集平台数据库,存储各下属单位数据。(审核后数据)。
3)数据采集内容
数据采集平台为数据集成和整合应用提供数据基础,数据采集覆盖整个医药企业应用系统的业务数据,采集数据主要用于为主数据管理及商务智能系统提供数据来源。通过数据采集平台,可以将公司商务智能分析需要的各类业务分析主题的维度和事实都导入到数据仓库的ODS数据区中。
4.2 数据采集平台的四种采集方式
1)数据采集适配器
数据采集适配器是利用Web Service提供服务,自动将需要采集的各级数据中心的应用系统数据源读入中间暂存数据集,然后从数据集将已更改数据写入采集平台数据库中。
适配器方式数据采集过程如下:
适配器客户端发起连接请求;
服务端应答,通过SSL与之建立连接;
适配器客户端发送数据;
服务端接收数据,并在接收完毕后反馈接收状态;
服务端识别数据类型和数据格式的标记,根据类型格式标记从规则引擎中取得数据处理规则对采集到的数据内容进行校验;
将校验信息存入信息反馈库中,校验通过的数据装载采集数据库库,校验失败的缺陷信息到信息反馈库,不进行载入处理。
2)网页在线数据填报
网页数据采集是B/S架构部署的人工在线填报方式,文本信息通过HTML表单形式进行填报,Excel或XML文件以附件的形式上传导入数据库,审批流程控制和工作流由WebService提供服务,数据校验规则在浏览器实现,数据复杂计算规则在数据库后台批处理实现。
数据填报采集流程如下:
用户登陆网页在线填报页面;
根据模板进行数据填报,并提交数据;
服务端识别数据类型和数据格式的标记,根据类型格式标记从规则引擎中取得数据处理规则对采集到的数据内容进行校验;
将校验信息存入信息反馈库中,校验通过的数据装载采集数据库库,校验失败的缺陷信息到信息反馈库,不进行载入处理。
3)客户端数据上报
数据填报客户端是C/S架构部署在用户终端的数据收集和报送的软件工具。
客户端数据采集过程如下:
客户端发起连接请求;
服务端应答,验证客户端的用户权限,通过SSL与之建立连接;
客户端发送数据;
服务端接收数据,并在接收完毕后反馈接收状态;
服务端识别数据类型和数据格式的标记,根据类型格式标记从规则引擎中取得数据处理规则对采集到的数据内容进行校验;
将校验信息存入信息反馈库中,校验通过的数据装载采集数据库库,校验失败的缺陷信息到信息反馈库,不进行载入处理。
采用客户端填报数据有如下优点:
可以在线填写数据,也可以离线填写数据,本地存储,在线同步;
可以将校验规则预置到客户端,减少缺陷数据的产生;
可以将报送失败的数据重新上报;
可以查询上报批次数据;
通过客户端的更新功能可以自动获取服务端的最新业务规则以及报送状态信息,可以进行客户端桌面数据库中数据的备份,查询统计等操作。
4)后台批量数据导入
批量导入方式提供后台批量数据进行集中入库的功能,系统管理人员将符合要求的数据上传服务器系统指定目录即可完成导入工作。
批量导入的数据获取过程:
系统管理人员将上报数据方上报的数据组织成符合要求的数据文件,并存储在离线介质上。
服务器端得到存储介质的离线数据进行校验及导入操作。
将导入结果状态记录在信息反馈库中。
5 结论
数据采集平台,对业务应用系统相互孤立,软件产品系统不兼容,企业应用系统大整合尚未完成的企业,也能尽早的实施商务智能应用,通过中间的数据采集处理,率先完成数据整合,有助于解决企业在信息系统建设过程中的数据不集中不完整等问题,作为商务智能底层架构的补充数据来源,是企业实施商务智能应用的基础。
[1]W.H.Inmon Building the Data Warehouse,机械工业出版社,2003,3.
[2]余长慧,潘和平.商务智能及其核心技术.计算机应用研究,2006(9).
[3]赵青,余志毅,赵洪明.商务智能在企业管理应用中的障碍及策略.科技创业月刊,2008(7).
[4]夏国恩,金炜东,张葛祥.商务智能在中国的现状和发展.科技进步与对策,2012(2).