APP下载

基于诺兰阶段模型的智慧校园数据中心平台研究与设计

2022-07-07陈升晖戚睿

电子技术与软件工程 2022年5期
关键词:数据仓库结构化数据中心

陈升晖 戚睿

(海南职业技术学院资源信息中心 海南省海口市 570216)

智慧化校园起源于数字化校园的概念。国外数字化校园建设起源于1990年美国克莱蒙特大学教授凯尼斯·格林(Kenneth Green)发起并主持的一项名为“信息化校园计划”的大型科研项目。我国的数字化校园向智慧化校园过渡的理论依据为《智慧校园总体框架》、《教育信息化2.0行动计划》、《中国教育现代化2035》、《加快推进教育现代化实施方案(2018-2022年)》等文件。

数字化校园、智慧化校园的建设促进了校园信息化的发展。当前很多高校能够实现“大数据”展示;有的学校建设了“智慧教室”,实现了对教学设备的管理和监控;有的学校进行“大教务”、“大学工”等集成性系统建设,在一定程度上解决了数据孤岛、数据共享、数据一致的问题;有的学校实现了教学资源网上平台,能够实现网上教学授课和教学资源共享。但是,智慧化校园建设依然存在诸多问题,数据共享依然不彻底,新的数据孤岛不断产生,经过多次系统整合后似乎数据不一致现象依然存在,平台间的数据似乎总还要依托电子表格导入、导出,电子表格还要反复填写……可见,当前高校的信息化建设水平距智慧校园目标还有较大差距。

智慧校园的建设总体目标是否需要分解,如何分解,智慧校园应该通过几个阶段实现,不同阶段的衡量标准和阶段性建设目标是什么;以及处在在线联机OLTP(On-Line Transaction Processing System)系统阶段的高校如何实现数字化转型,从而实现智慧化所需的数字基础,是本文研究的主要问题。

1 高校信息化建设阶段模型

关于信息化发展进程,美国哈佛大学教授查理·诺兰(Richard L Nolan)提出了经典诺兰阶段模型(如图1所示),该模型认为,信息化发展必须经过初始、推广、控制、集成、数据管理和成熟6个阶段,各个阶段之间互相联系,以实际应用需求和技术发展逐步推动信息化不断向更高阶段深入,阶段之间不能隔断或超越。

图1:诺兰阶段模型图

信息系统的发展基本遵守了诺兰六阶段模型的发展,特别是该模型敏锐的指出了“数据”的重要性,非常前瞻性的将数据管理作为高级信息系统的第一步。这也与当前各行各业进行的数字化转型大潮相吻合,“成熟阶段”更是与国标“智慧校园”的总体建设目标吻合。但是由于时代限制,诺兰阶段模型并没有预测到互联网对信息系统的影响,以及数据大爆炸后的大数据分析技术、AI技术、物联网技术的技术变革。

根据高校信息化建设进程,结合诺兰六阶段模型思想,借鉴电商行业实践,本文提出高校信息化阶段模型,如图2所示。

图2:智慧化校园阶段模型图

硬件阶段:上世纪 80年代中后期,美国计算机开始进入中国,对高校而言,费用是制约信息化进程的关键因素。

应用普及阶段:90年代高校观念开始转变,除了大量购买计算机硬件,还注重软件应用和教学,这一阶段软硬件应用及教学同时爆发。这一时期代表性建设成果是,计算机机房建设,和各种开发语言和应用软件教学。

管理信息系统 MIS(Management Information System)建设阶段:上世纪末本世纪初,数据库技术、软件开发、软件工程技术不断完善,高校开始引入各种信息管理系统,高校MIS时代开始了。这个阶段代表性成果是各管理信息系统建设如:教务系统、学工系统、高校行政办公系统、后勤管理系统等等。该阶段信息系统的建设通常需要由业务部门提出需求,由软件厂家根据行业经验、开发经验将各种规则与信息系统建设相结合,完成特定的功能。MIS能够提供大量信息甚至报告,但其目标是实现某一领域的管理,因为这些信息通常并非决策所需,MIS的主要作用还是使各项工作管理工作的规范化流程化。

OLTP应用阶段:随着网络技术的成熟和发展,MIS系统间需要各种协同和数据交换。联机事务处理系统将各个系统链接在一起实现数据同步。这一阶段的典型应用为各种集成系统如“大学工”、“大后勤”以及脱胎于企业资源计划管理系统的“校园资源计划管理系统”CRM (Campus Resource Planning);依附于MIS系统群的数据交换系统“数据交换中心”、“一站式服务平台”、“统一身份管理”等系统,这一阶段的主要是特点是实现了局部数据集成和数据交换,解决的主要问题是信息的跨域、跨系统流动。OLTP阶段,消除了部分“信息孤岛”,但大部分信息还是散乱在各系统中,不能根据决策需要,快速的组织数据、呈现灵活的信息报表呈现。

数据治理DG(Data Governance)阶段:该阶段是高校实现数据转型的重要阶段也是智慧校园的毕竟之路,在各高校信息化建设过程中,还处在探索阶段,本阶段的建设目标是实现校园内结构化数据和非结构化数据的集中统一管理,具体包括:主数据和参考数据管理、数据操作管理、数据结构管理、数据质量管理、元数据管理、文档和内容管理、数据安全管理、以及数据开发10个专题。通过该阶段的建设能够高效把信息需求,转化为数字需求,并能快速反馈数据资源是否能够满足信息需求,对已有数据能够快速住址和展现、反馈出缺失数据,能偶将数据作为资产有效管理。

数据发掘与分析阶段:在数据实现有效管理的前提下,借助不断发展的人工智能、高性能网络技术和大数据技术、能够高效的、不断为校园师生提供各种便捷服务,不断促进校园“智慧化”。

2 OLTP阶段的数据中心平台设计

高校信息化发展整体上与其他行业同步,但是相比先进制造、大型电商平台相比还是相对落后。目前高校信息化程度主要集在前文所述的“联机事务处理系统”阶段,该阶段的主要目标是实现智慧校园所需的数据支撑,需要解决4方面问题:

(1)数据规则及管理问题。主要包括数据的定义,数据操作规则,数据的表示形式、亲缘关系问题。

(2)数据组织及呈现问题。快速的将具体数据根据相关规则、途径组织快速、高效、结构化的方式组织并呈现出来。

(3)计算扩展问题。预留数据接口,为专用或通用的数据计算模块对接,为计算组件或模块提供有组织的数据。

(4)数据二次存储问题。对非结构数据的结构化存储,对已有的结构化数据进行定义重构重新组合。

以上4个方面问题通过数据中心平台的数据治理模块、数据处理模块、主题数据库、数据仓库和数据服务引擎接口等4个模块分别实现:

数据治理模块:该模块解决数据规则及管理,包括数据的定义、数据操作规则、数据亲缘关系。本模块将数据作为专门资产应用信息系统技术进行管理,用信息技术处理信息问题。通过该模块建立全局数据字典建立增、删、改、查的规则,建立全局数据字典的改动一致性规则,并能遇见更改后可能出现的程序故障范围。用户能够对数据台账的管理实现自动或半自动的数据维护及优化。通过该系统对规范接入校园的新系统新设备的新数据标准和规范。保证新系统、新设备接入校园所产生的数据有序增长、数据规范并持续可用。

数据处理模块:解决数据组织和再现问题,接受数据需求,该模块对需求进行数据分解并进行重新组织、加工再现。

主题数据库、数据仓库:处理解决数据二次存储问题。为了提高数据检索效率对于非实时数据,对于常用的非实时性数据可经过数据处理后存入响应的主题数据库备查。对于非结构化数据可以先经过数据处理后存入结构化主题库或数据仓库中。

数据服务引擎接口:处理系统算力扩展问题,为数据服务引擎提供标准数据接口,可调用数据处理模块。由数据需求驱动,数据需求经过全局数据系统标定、优化数据目标,并将处理结果传递给数据调度系统,根据数据目标生成查询计划,获得数据结果,生成相应的报表形成相应的知识。全局数据台账、全局数据调度可通过Spark、Hadoop开源工具实现,达到自建低成本的目标。也可通过其他数据处理引擎来实现,如阿里巴巴的数据中台、数据湖泊概念下的系列工具等等,数据中心平台及基础数据整体模型如图3所示。

图3:数据中心平台及基础数据整体模型图

图3中另外2层为数据中心平台的数据支撑,详细说明如下:

第一层主要是数据来源层,有非结构化数据如关物联网设备采集的信息、各种电子文档的采集的信息需要首先将信息的价值密度进行提纯,然后存储到数据主题库中,数据主题库的信息定期存入数据仓库;也有结构化数据的采集,如教务系统数据、学工系统数据、收费系统数据、人事系统数据、后勤等系统数据,分别存入主题数据库,并定时存入数据仓库。

第二层主要是数据交换的各种技术、技术标准和接口的集成,作用是使异构数据能够在数据存储结构中流动。地数据密度价值的文档信息、物联网等信息一般到主题库是单向的。业务系统间为了完成跨操作,往往需要数据穿透,系统间的数据交换通常是双向的。业务系统数据库中的表和数据可分为CREATER(数据的来源)和USER(数据引用)两种类别,不能确定来源关系的一律视为CREATER。ETL技术(萃取传输装载技术Extract-Transform-Load)从非结构数据源、异构数据源抽取有价值、有需要的数据并向目的数据库、数据仓库进行存储的过程,ETL策略就是该过程运行的策略,要想实现这一过程通常还需要第三方工具。

3 OLTP阶段的数据中心平台实施路径

数据中心平台整体框架的各部分建设应有序、稳步推进。数据的分类、清洗,数据词典的确定,主题数据库、数据仓库的建立,是托管数据展现和应用的基础。

(1)数据仓库建设 为了实现对数据资产的有效管理,首先要将数据生成数据库存,本文参照维度建模为理论基础,进行数据仓库设计。第一步,生成业务板块,考虑到OLTP系统处理业务的专用性,首先以现有业务系统生成业务板块。第二步,对业务板块的中的业务过程整合成若干数据域、原子指标、派生指标和抽象维度指标体系的设立。第三步,确定分析指标;第四步,根据分析指标,为数据仓库设计维度表、明细事实表和汇总事实表,形成统一规范的标准业务数据体系。第五步,根据业务特点,以相应的周期定时生成相关业务表,建立统一的数据仓库。

(2)数据治理系统建设 数据资产管理系统,把数据作为资产独立管理,建立和管理“数据”台账的,研究数据库元数据采集引擎,通过用户定义数据来源配置、权限配置、定时获取数据库的元数据和日志,实现对系统数据字典的采集,采集内容应包括数据字段、字段注释、表视图、存储过程等信息,采集信息形数据台账基础。采集完成数据后建立数据清洗规则,对于脏数据要能够自动处理,不能处理的给予提示,可人工批量处理。

(3)数据处理模块建设 数据处理模块建设先建设结构化数据处理部分,非结构化数据在完成数据清晰和格式化后可调用结构化处理模块。

4 数据中心平台应用效果

在数据中心平台建成后,对全校的结构化数据进行了配置,获得了元数据管理权限,实现了结构化数据跨系统提取。目前数据中心平台共接入全校教务、OA办公管理系统、财务收费、等21个主要系统,完成了教师域、学生域、课程域的主题库建设,跨系统可有效管理1243个数据字段,如图4所示。

图4:数据中心平台关键字段统计图

数据中心平台建成后,对跨平台数据检索效果较好,效率较高。以查询学生欠费请款为例,在数据中心平台建成前查询学生欠费明细,需要查询财务系统学费实收费用(以财务系统专业名区分),查询教务系统应收费用(以教务系统的专业名区分),需查询后勤住宿费用。财务系统按年汇总变更数据。学生调整专业、或者教务处更改专业名称,都会造成财务欠费表账目不平。建立数据主题库后,根据同一学生ID可以在相应主题库追踪到专业调整、寝室调整、教材变更情况,每月可生成较为准确的报表。业务数据结构如图5所示。

图5:业务数据结构图

5 结论

本文通过对诺兰模型的改造,对智慧校园目标进行了分解。明确了数据、以及有效的数据管理是实现智慧校园的关键,明确了当前主要目标需要通过数据中心平台完成对数据的有效管理。经过实际数据的检验和测试,数据中心平台有效实现了结构化数据的跨平台查询,数据中心平台也实现了对数据的有效管理,极大提高了跨库查询的效率和准确度。但数据中心平台对非结构化数据的数据萃取、数据清洗能力还较差,非结构数据转化成结构数据后的质量也需要进一步提升,针对上述问题,立足于学校中长期学科和专业发展,进行全校业务全生命周期和跨部门协同管理的规划设计,加强对数据治理、大数据分析应用场景、数据服务接口方面的研究,不断促进校园智慧化建设水平提升。

猜你喜欢

数据仓库结构化数据中心
酒泉云计算大数据中心
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
基于数据仓库的住房城乡建设信息系统整合研究
民航绿色云数据中心PUE控制
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
基于数据仓库的数据分析探索与实践
基于图模型的通用半结构化数据检索
基于云计算的交通运输数据中心实现与应用