基于OLAP的高校数据分析与决策支持系统研究
2019-04-04唐秀忠陈洪磊陆玉发
唐秀忠 陈洪磊 陆玉发
关键词: OLAP; 数据分析; 决策支持; 联机分析; 多维引擎; 数据仓库
中图分类号: TN919?34; P20 文献标识码: A 文章编号: 1004?373X(2019)02?0155?04
Research on university data analysis and decision?making support system based on OLAP
TANG Xiuzhong, CHEN Honglei, LU Yufa
(School of Technology, Puer University, Puer 665000, China)
Abstract: Since the university data analysis and decision?making support system based on the Mahout has the disadvantages of low data processing rate and poor user satisfaction, a university data analysis and decision?making support system based on the OLAP is designed. The snowflake model is used to design the data warehouse module according to different topics, and reduce the time consumption of connection between dimension tables and the reaction table, so as to realize high?efficient query and processing of university data warehouse information. Analysis, induction and summarization of university data are realized by using the online analysis and processing module OLAP and performing operations of slicing, block cutting, drilling and rotation. In the software part of the system, the slicing module, cubic module and representation module are used to send the analysis result of the multidimensional analysis request to users in the form of report and graph by means of the OLAP multidimensional engine, so as to meet users′ needs of data analysis and decision?making analysis in colleges and universities. The experimental results show that the designed system has short time?consumption in associated content updating, analysis result query and file export, and a high actual user satisfaction.
Keywords: OLAP; data analysis; decision?making support; online analysis; multidimensional engine; data warehouse
0 引 言
近年来,随着高等教育的快速发展,各大院校的教育管理信息系统已取得显著的成效。不同的教育部门中会产生不同类型的数据,从不同类型数据中提取出对高校决策分析有用的信息,成为当前专家学者关注的热点话题。OLAP(联机处理技术)是一种专门用于分析复杂问题的具体操作[1],能够为决策人员提供决策帮助,同时可以根据分析决策人员的使用需求快速、灵活、准确地对海量数据进行查询、处理,将处理结果以通俗易懂的形式展现出来,方便决策人员制定正确的决策方案。因此,本文设计基于OLAP的高校数据分析与决策支持系统,能够加快管理决策者对高校数据分析与决策的速率。
1 基于OLAP的高校数据分析与决策支持系统
1.1 系统总体结构设计
高校数据仓库设计中的数据来自不同职能部门的业务数据库,高校数据仓库中不仅有与高校相关的内部数据外还包括与高校无关的外部数据[2]。高校数据仓库的建模工具需根据不同的主题来选择。高校数据仓库设计中,ETL工具利用高校数据模型进行数据重组[3]。数据重组过程包括数据清洗、转换以及保存入库等操作。前端分析工具采用联机分析处理OALP模块对高校数据仓库实行多维分析并对其中数据实施多种OLAP操作,包括对高校数据进行切片、切块、数据比较以及旋转等处理,最终将数据处理结果以图表的形式呈现给决策者。图1为基于OLAP的高校数据分析与决策支持系统总体结构图。
1.2 数据仓库模块设计
高校各部门的业务数据大多以关系数据的形式保存,因此采用“雪花模型”设计高校数据分析与决策支持系统的数据仓库。“雪花模型”属于基于关系型数据库的一种,是面向OLAP的一种多维化信息组织模型[4]。本文依照教学情况对高校数据分析与决策支持系统的数据仓库进行设计。该数据仓库设计选择学院、时间、学生类型以及衡量指标作为四个维度,高校学生类型[5]划分为本科生、硕士生和博士生三种。图2为以教学情况为主题设计的雪花模型图。图2中与中间教学情况反映表相关的四个维度均有各自的属性,维度表与中间教学反映表的连接是通过维关键字。该“雪花模型”的核心为教学情况反映表,是保存真实教学情况数据的地方,且保存的真实数据均为数字属性,如成绩优良率等。该表中涵盖大量的主要教学数据,可以通过扫描该表进行数据查询[6],提升了用户的查询效率便于后续决策工作的开展,同时与教学情况反映表相连的维表通常较小,与中间教学情况反映表的连接用时短,节约大量的数据处理用时,实现对数据仓库信息的高效查询处理。
1.3 联机分析处理OLAP模块设计
联机分析处理OLAP在数据仓库信息分析处理后进行,其通过切片、切块、钻取以及旋转等操作实现面向数据的分析、归纳和总结[7]。本文对高校数据分析与决策支持系统联机分析处理的实现需构建多维的数据模型。构建多维数据模型步骤如下:将高校数据分析与决策支持系统数据仓库作为数据源,基于数据仓库中的反应表与维表,采用ORACLE BIEE维度编辑器和多维数据集构建专用维度,并进行维度共享[8],同时将维度间的层次关系进行有效定义,实现用于决策分析的多维数据模型的构建。多维数据模型有三种物理实现方式,分别是基于关系表ROLAP、基于多维数据库的MOLAP和二者融合的HOLAP,系统设计时选择二者融合的HOLAP,因为其将MOLAP和ROLAP两种结构的技术优点进行有机融合,能够满足用户的复杂数据分析需求。
1.4 OLAP多维引擎设计
OLAP多维引擎可接收到用户的多维分析请求,使用户从多角度、多层面上对基础数据进行查询,将多维分析请求转化为数据仓库中的SQL查询,将获取的数据发送给用户。本文基于OLAP的高校数据分析与决策支持系统设计中,OLAP多维引擎主要由切片模块、立方体模块和表示模块构成[9]。OLAP多维引擎接收用戶的多维分析请求后的处理流程如图3所示。图3中过程1代表模块在接收来自用户的多维分析请求后,将该请求发送到立方体模块;过程2中立方体模块对该多维请求的维的层次进行解析[10],并提取出该维上层次中的数据,构建出均匀的分组,并将分组结果作为参数调用的切片模块;过程3中的切片模块首先对分组情况进行查看,假如分组后的度量数据已存在于数据库中,此时应构建SQL语句,并直接提取该度量数据,反之,可依照源数据中计算度量数据的相关公式计算求得度量数据;过程4中切片模块凭借循环调用切片模块即可得到多维分析后的全部度量数据;过程5即切片模块将度量数据发送回立方体模块;过程6表示模块采用报表或图形的形式将多维数据结果展示给用户。根据以上模块设计即可使高校管理决策者直观地获取以报表或图片形式展现的多维数据分析结果。
2 实验分析
2.1 系统运行功能测试
实验为验证本文基于OLAP的高校数据分析与决策支持系统的应用性能,将本文系统、传统基于Mahout的高校数据分析与决策支持系统和基于数据挖掘的高校数据分析与决策支持系统进行对比试验。利用3台同样型号的计算机分别在一天中的12个时间段内分别进行更新关联内容用时测试、查看分析结果用时测试和文档导出用时测试。本文系统与上述实验中的两个系统在各个时间段内的用时情况分别如图4~图6所示。
分析图4三种系统在不同时刻下更新高校数据关联内容用时结果可知,本文系统更新关联内容曲线在三条曲线的最下方且曲线几乎没有波动,更新关联内容的用时基本在40 s左右,说明本文系统在不同时刻下更新与高校决策者关联内容的用时较短且系统稳定性较强。分析基于Mahout的高校数据分析与决策支持系统和基于数据挖掘的高校数据分析与决策支持系统的更新关联内容曲线均远远高于本文系统曲线。其中基于Mahout的高校数据分析与决策支持系统的用时在60~70 s之间,更新用时变化波动较大且耗时较长,因此可以得出,本文系统在更新与高校决策相关的内容上效率较高。
从图5三种系统在不同时刻下查看分析结果用时曲线可以看出,基于Mahout的高校数据分析与决策支持系统和基于数据挖掘的高校数据分析与决策支持系统查看分析结果用时曲线相差较少且多处发生重合。虽然这两种系统的用时波动较为平缓,但从用时情况可以看出,本文系统的分析用时远远低于另外两个系统,高校决策者可在短时间内查看分析的结果。
系统向决策者展示的结果通常需要以PDF或表格的形式导出,因此测试文档导出用时也是测量本文系统好坏的因素之一。从图6中可以看出,本文系统的普遍文档导出用时在5 s左右;基于Mahout的高校数据分析与决策支持系统的文档导出用时比本文系统用时较多,该系统在不同时刻下的文件导出用时波动较大;基于数据挖掘的高校数据分析与决策支持系统虽然文件导出用时波动平缓,但该系统文件导出用时较长。因此对比曲线得出,本文系统在导出文档的效率较高。
2.2 系統评价
实验采用专家评价法,对本文系统、基于Mahout的高校数据分析与决策支持系统和基于数据挖掘的高校数据分析与决策支持系统三种系统的应用效果进行评分,实验评价系统分数为0~10分,在某高校内随机选取12位管理层决策者,让12位决策者分别使用三种系统后,对系统进行评判,平均评价结果如图7所示。
分析图7可以看出,本文系统在12位管理决策者使用后的平均评分结果均在9分以上,说明管理决策者对本文系统非常满意;基于Mahout的高校数据分析与决策支持系统的评价得分均在7分左右波动;而对基于数据挖掘的高校数据分析与决策支持系统,每一位管理决策者的得分均没有达到及格水平。由此可知,本文系统曲线在最上方且远高于另外两条曲线,说明本文系统具有较强的实际应用效果。
3 结 论
本文设计的基于OLAP的高校数据分析与决策支持系统,根据决策主题来构建数据仓库,并对这些数据进行联机分析处理,准确地对学校的运行情况进行统计分析。根据实验结果可知,所设计系统的更新关联内容用时、查看分析结果用时和文档导出用时效率较高;根据专家的系统评价结果可知,所设计系统的实际应用效果好,用户满意度较高。
参考文献
[1] 侯杰,胡乃联,李国清,等.基于OLAP的矿业集团生产运营决策系统构建研究[J].中国矿业,2016,25(11):11?15.
HOU Jie, HU Nailian, LI Guoqing, et al. Construction of production operation & decision?making system for mining group based on OLAP [J]. China mining magazine, 2016, 25(11): 11?15.
[2] 满毅,章炯民,徐晓锦.一种基于朴素贝叶斯算法的OLAP缓存机制[J].计算机工程与应用,2017,53(6):85?90.
MAN Yi, ZHANG Jiongmin, XU Xiaojin. OLAP cache mechanism based on naive Bayesian [J]. Computer engineering and applications, 2017, 53(6): 85?90.
[3] 王泽奥,吴斌,吴心宇,等.大规模多维网络数据分析框架的研究与实现[J].计算机科学与探索,2017,11(12):1941?1952.
WANG Zeao, WU Bin, WU Xinyu, et al. Research and implementation of framework for large?scale multi?dimensional network analysis [J]. Journal of frontiers of computer science & technology, 2017, 11(12): 1941?1952.
[4] 徐扬,云梦妍,张瑾贤.大学生择业决策支持系统研究[J].当代教育与文化,2016,8(1):95?101.
XU Yang, YUN Mengyan, ZHANG Jinxian. Research on decision support system of undergraduate career choice [J]. Contemporary education and culture, 2016, 8(1): 95?101.
[5] 封超,郭晓.基于CBR的应急情报智能决策支持系统研究[J].情报杂志,2017,36(10):36?40.
FENG Chao, GUO Xiao. Research on Emergency intelligence intelligent decision support system based on case?based reasoning [J]. Journal of intelligence, 2017, 36(10): 36?40.
[6] 王宗水,赵红.大数据变革背景下的顾客网络满意度比较:基于OLAP可视化技术应用视角[J].软科学,2015,29(5):106?110.
WANG Zongshui, ZHAO Hong. Comparison of customer online satisfaction comments in big data revolution: a view of OLAP visualization technology utility [J]. Soft science, 2015, 29(5): 106?110.
[7] 王会举,覃雄派,王珊,等.面向大规模机群的可扩展OLAP查询技术[J].计算机学报,2015,38(1):45?58.
WANG Huiju, QIN Xiongpai, WANG Shan, et al. Scalable OLAP queries processing towards large cluster [J]. Chinese journal of computers, 2015, 38(1): 45?58.
[8] 崔红波,游进国,简兴明,等.Spark环境下的分布式OLAP查询[J].小型微型计算机系统,2017,38(11):2517?2522.
CUI Hongbo, YOU Jinguo, JIAN Xingming, et al. Distributed OLAP query in Spark [J]. Journal of Chinese computer systems, 2017, 38(11): 2517?2522.
[9] 武慧娟,秦雯,孙鸿飞.激励视角下高校智库协同决策机制研究:以吉林省高校智库建设为例[J].现代情报,2017,37(3):8?12.
WU Huijuan, QIN Wen, SUN Hongfei. Research on collaborative decision mechanism of university think tank based the incentive perspective: taking the construction of university think tanks in Jilin Province as an example [J]. Modern information, 2017, 37(3): 8?12.
[10] 易魁,陈豪,赵志勇,等.小湾水电站工程安全分析与决策支持系统研究与构建[J].水力发电,2017,43(3):123?127.
YI Kui, CHEN Hao, ZHAO Zhiyong, et al. Research and construction of engineering safety analysis and decision?making support system for Xiaowan hydropower station [J]. Water power, 2017, 43(3): 123?127.