APP下载

企业数据仓库建立与应用

2021-11-22姜涛

科技信息·学术版 2021年17期
关键词:决策支持数据仓库数据挖掘

摘要:企业级数据仓库如今在各个行业都已经广泛应用,国内各行业的大型企业已经开始重视分析性业务系统的战略布局,并将企业级数据仓库产品的选型列为重中之重。大型企业的数据仓库系统需求基本上都具有大数据量、高性能、高可用性、可扩展性、灵活性、易于管理等特点。本文以大庆油田物资公司构建数据仓库的案例为基础,对筹建数据仓库决策支持系统的优化解决方案进行了初步探讨。

关键词:数据仓库、决策支持、联机分析处理、数据挖掘

大庆油田物资公司,是油田唯一的专业化物资服务保障单位,主要负责油田生产建设所需的一、二级物资集中采购、仓储、供应和物流服务。随着数据库技术的迅速发展以及ERP系统、中油合同系统、物采系统等各种业务系统的广泛应用,物资公司积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,管理层希望能够对其进行更高层次的分析,以便更好的利用这些数据。目前的各种应用系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据之间存在的关系和规则,无法根据现有的数据预测未来的发展趋势。正是因为缺乏挖掘数据背后隐藏知识的手段,从而导致了“数据太多,信息不足”的现象。因此,物资公司数据仓库的建立与应用已经成为必然。

一、理解物资系统数据仓库

在物资公司单个业务单元中,基于ERP系统、物采系统、中油合同等各种操作型系统的数据应用已经存在很多年了。管理人员经常会理直气壮地问为什么现存的系统不够用呢?要回答这个问题,需要阐明与数据仓库相关的风险和收益。首先,考虑面临的风险,很少有人理解操作型系统与决策支持系统的差别;很难将数据集成带来的收益概念化和具体化;由于静态报表已成为标准,用户很难适应交互式的数据界面;很难在整个项目周期中都得到普遍的支持。接着,考虑潜在的收益,数据仓库将会提供毫无疑义的数据集成,确保整个物资系统的数据真实性和一致性;联机分析处理系统(OLAP)将通过一个生动并且易于使用的界面给高层管理者提供新奇的决策支持透视服务;运用数据分析预处理能使业务分析专家迅速发现问题并很快建立解决方案;对服务对象和供应商会有更深的了解,利于提高物资管理项目的效率;常规报表不再需要借助于IT部门的先进的技术服务;用户能够获得元数据,即关于数据的来源及数据转换方式的信息。

1、操作型系统与决策支持系统

虽然物资管理人员经常与操作型系统打交道,但对于在整个企业范围内提供决策支持的了解还是经验尚浅。一个错误的认识是,各种业务系统已经能够提供企业范围的决策支持。操作型系统的设计目的在于实现数据的快速存取,任务或小数据集的快速处理。规范的关系数据库在进行数据的插入、更新和删除操作时能确保数据的完整性,并能优化在多表间进行数据存储的机制。用于决策支持的统计分析需要平滑的数据以及满足查询的最低粒度级。

决策制定者借助于一些软件工具进行决策,这些软件工具可以划分为报表、数据挖掘、统计和数据浏览几个类别。报表可以发展成为总结已被充分理解的业务进程和主题的工具。数据挖掘工具和数据浏览工具使分析人员能够从海量的数据集中察觉业务趋势和发现商机。数据挖掘工具如同一个巨大的钻取机器,它将运用成千上万的公式法则对数据进行汇总、建模和聚合。被称为OLAP的数据浏览工具能为分析人员提供聚合的数据和高效的界面,使分析人员能够快速地操纵数据视图和聚合层次。当你真正地建立了一个包含真实的物资业务主题数据的OLAP数据立方体并获得成功时,你会明白这种强大的数据处理工具意味着什么。从提出问题到解答问题的间隔时间由数天或数月缩减到几秒钟或几分钟,而且用户能够获得数据仓库各个方面的一切数据,用户参与的热情会大大提高,企业就会迅速发现更多的商机。

2、OLAP与物资管理

所有业务都可以按层次分类,惟独物资不可以,因为各种各样的业务相互交叉和重叠。要驾驭这种复杂的情况,我们需要将物资按主题分组,这样对于每个供应商会有多种解决途径。客户可能需要查看关于整个物资业务信息的数据。OLAP工具建立并实施业务分层结构模型,然后将它们与交叉表格汇总相结合。数据浏览器使用户可以对任意两个类别进行行列组合,然后选择一系列度量,在矩阵中汇总。而且,用户能够在层次之间进行上下钻取,以获得扩展或聚合的数据。这是一个强有力的信息展示器,它能令用户凭借标准的、基于代码的统计和查询工具在所允许的小片时间内迅速解决一系列问题。

建立OLAP交叉表格数据结构有多种途径,包括按关系数据表存储,创建专用的多维数据结构,以及建立基于需求的虚拟交叉表格。商业软件既有在客户端处理的应用,又有在服务器端处理的应用,目前许多软件还能提供网络接口。拥有网络接口的服务器端执行软件要比多用户客户端执行的软件廉价,而且能对服务器资源起到调节作用,获得更高的执行效率。

二、建立数据仓库需求

近年来,国内物资行业发展很快。物资企业在发展到一定规模时,企业内部的复杂性增加,客户、供应商资源也在不断扩大。企业要想在复杂的环境中获得成功,管理者就必须能够从宏观上和微观上控制极其复杂的商业结构。数据仓库的建立,能使管理者获得有关决策的信息,形成了完整的物资服务供应链,从整体上降低了运营成本,而且提高了工作效率。面对快速更新的物资行业的挑战,数据仓库为大型物资企业提供了一种具有战略优势的解决方案。

1、确定核心业务

进行数据仓库可行性分析,首先要确立核心业务。需要主要业务负责人参与需求调查,主题是关于决策支持所需的高层信息。在此次调查过程中,调查小组将确立几个关键性的领域,如业务实际利益、数据获取、企业文化、领导等。主要问题通常包括:

列出3个你最需要作出的决策?

作出这些决策你需要哪些报表和工具?

获取新系统信息的最关键的益处在哪里?

什么樣的信息、计算、聚合可能提高你制定决策的水平?

你运用业务系统进行信息分析的可能性有多大?

2、数据源分析

在对管理人员进行调研的同时,要开展数据源分析,包括定义数据目录和数据清单。数据目录用于确定哪些数据适合进入数据仓库,应包括各个信息系统的详细内容及结构信息。数据清单的主要目的是将当前数据源与预期信息需求进行对比。现存信息系统数据加载数据仓库的主要问题有:

在多个应用中使用同一个主题的数据

一些应用包括空的数据结构

系统没有集成,无法自动进行数据的更新、转移和载入,产生数据碎片和数据不一致的现象

多种多样的和不兼容的数据结构使相似的数据结合起来很困难,有时甚至不可能结合起来

3、选择主题领域

基于如下因素,可以开发并优化一组潜在主题领域:

期望利润——通过实施一个主题领域,在客户满意度、企业收益和运营效率方面,系统取得的定量的和定性的利润

数据裂缝——实施一个主题领域所需数据与可支配数据之间的差异

复杂程度——为一个特定的主题创建一个有效的设计方案所需的努力

实施风险——当组织准备充分并具备运营能力,而且所需的系统界面齐全,时间安排得当,广度和深度比例适当时,实施一个特定的主题领域会相对容易一些

通常,最好的主题领域具有最大的潜在利润和最少的风险因素。对业务的深思熟虑会让我们放弃一个显而易见的决策。另外,你必须时刻牢记在心的还有,如果不存在业务对数据的强烈需求,那么数据就毫无价值。企业高层管理者们通常指定一个部門,这个部门将担负起选择第一个主题领域的任务。为了确定最佳的选择,他们列出了潜在主题领域的主要维度的清单,按照期望利润、数据裂缝、复杂程度和实施风险四个类别进行评分,最后计算总分。基于这个分数卡,再对各个主题领域进行分析和定级。通常选出得分最高的三个主题领域进行深层次的分析,从中确定主题领域。主题领域可以设定为采购人员行为报表,因为采购人员最终对物资质量负责,并对采购成本有巨大的影响作用,于是采购人员业务行为方式自然而然地成为了一个逻辑控制点。按照一致赞同的规则,再进一步论证将采购人员行为报表作为第一个主题领域的合理性。然而,这项决定可能没有引起人们充满激情的或持久的支持。可见,要想成功,对这个初始决策的支持必须来自于最高层管理者。

三、组建开发小组

给数据仓库项目配备人员最重要的一个方面是为项目建立一个坚实的业务核心。有调查显示,数据仓库由IT部门运作比那些由商务引导的部门运作失败的几率要大的多。IT人员是必须参与的,但决不是项目的主要驱动力。应当清楚小组的真正灵魂在于那些既掌握数据仓库技术,又透析物资管理进程的人。

四、结语

数据仓库项目开发的一个最基本的目标是:建立一种机制来扩大项目支持者的队伍,同时投资又不能大幅度增加。如果你已经将前期努力凝聚在一个选定的主题领域上,并期望它能成为在后续的生命周期中前进的稳固的基石,那么你的方向是正确的。然而,即使你进行了谨慎的规划,采用了并行的时间表,而且有可以参考的文档和方法,数据仓库项目开发仍是一项极具挑战性的任务。

如果你的数据仓库不是由一个重大而且合理的需求驱动的,那么就不值得去投资。“建立它,你所需要的信息就会来”的途径是一种缺乏解决方案的技术,它对70%的数据仓库项目失败负有直接的责任。数据仓库是一种业务工具,它的真正价值只能由业务来决定。过去人们曾进行过许多将决策支持技术转向用户的尝试,然而成功的情况很少,因为那些努力是基于传送的数据能够应用的这个假设之上的。虽然这个意图是无可挑剔的,但它作出了两个假定,假定一个给定的业务领域能从一个系统的角度充分地理解了自身的目标、需求和进程,进而定义出有用的规则方法;它还假定这个主题领域能像组织一样接受信息、分析信息、交流信息和对信息采取行动。可以看出,数据仓库要想成功,组织必须放开眼光,从一个文化的角度去斟酌机遇,去发展有创造性的解决方案,并随时准备采取行动以推动所需的变革。

参考文献

[1]中国物流与采购联合会  中国物流平台发展报告(2018-2019)  中国财富出版社.

[2]W.H.Inmon著 王志海译  数据仓库 机械工业出版社

[3]Pang-NingTan等著 范明、范宏建等译  数据挖掘导论  人民邮电出版社

作者简介:姜涛,1976.11 ,男,汉,山东省莱州市 ,工学学士,大庆油田物资公司信息中心软件室项目长、高级工程师,研究方向:软件设计、开发

猜你喜欢

决策支持数据仓库数据挖掘
基于数据仓库的数据倾斜解决方案研究
数据挖掘综述
软件工程领域中的异常数据挖掘算法
数据仓库系统设计与实现
商业智能分析模式在医保病人住院化管理当中的应用研究
基于R的医学大数据挖掘系统研究
秦山核电应急决策支持系统开发与研究
基于RFID的汽车零件销售策略支持模型
数据复用在存储数据仓库中的运用
数据仓库技术在档案管理领域的应用