构建共享数据中心
2012-08-28周筠
文/周筠
共享数据中心作为校内基本数据的共享平台,将各个业务部门的基本数据进行集中管理,实现统一管理,保证数据的权威性和准确性,为各个业务应用系统和各类服务系统提供权威和准确的数据支持,承担信息化校园中的大量数据、信息、处理以及交换结果。
消除信息孤岛,建立信息与应用规范,提供集成的个性化的服务,是高校信息整合的三个重要目标。为了实现目标,须解决数据不共享、应用不集成、界面不统一等问题。首先要制定信息规范,再从数据、应用、内容、流程等层面进行信息整合,从而实现真正的信息集成。同时通过信息整合建立起各个层面的信息标准,为后续信息的管理与利用提供规范。
共享数据中心作为校内基本数据的共享平台,将各部门的基本数据集中管理,实现统一管理,保证数据的权威性和准确性,为各个业务应用系统和各类服务系统提供权威和准确的数据支持,承担信息化校园中的大量数据、信息、处理和交换结果。因此,共享数据中心的建设是解决多个应用系统之间数据交换和数据共享问题的核心。
数据交换和共享流程
数据采集更新
所有数据来源于各个业务系统,通过通用的数据抽取或同步方法将数据采集到共享数据中心,同时制作数据更新报告。
数据组织整理
按照学校的信息标准对各个部门更新的数据进行整理,报告数据异常,保证数据的一致性和准确性,保留历史数据。
数据共享利用
通过授权,共享和利用共享数据中心的部分或全部资源。共享数据中心实时做出数据使用情况报告。
数据挖掘分析
通过对共享数据和历史数据的OLAP分析,形成各种报表或根据需要展现分析结果,为领导决策提供参考。
体系架构
共享数据中心架构如图1所示。
元数据管理
负责所有与数据结构及数据逻辑相关的定义。
数据集成工具
主要负责数据的转换。即把源数据转化成标准的、权威的数据,把更新后的数据分发到源数据,以及定期的数据更新。
共享数据库
按业务领域的数据规划,抽取出共享数据库中的数据,存储标准化数据和元数据、待处理数据表、分发数据表、操作日志等。
领域主题库
按照查询、分析等方面的需求,形成某个领域、某个维度的专门数据集。
历史数据库
主要存储数据主题库的所有变化历程,并可以恢复某个历史时间点上的数据。
统一的数据访问服务
对外提供统一、标准的访问中心数据库表和视图的访问接口服务。
系统运维管理
监控数据转换的过程,记录数据转换的结果。当发生数据逻辑错误或违反规则的情况,系统立即向相关数据库管理员发出间断性警报。包括数据操作日志(被拒绝的数据、数据处理记录、错误记录)、数据管理、监控系统运行状态等。安全控制
图1 南京财经大学共享数据中心架构
采用多级安全控制体系,分别在应用层、服务层,以及数据库控制层进行权限设置,以保障整个系统的访问安全。
系统功能
基础功能
1. 数据同步
通过数据复制和发送功能,建立各业务系统数据库到共享数据库系统之间的数据双向同步更新机制。各业务系统可及时将更新的业务信息同步到共享数据库系统,共享数据库系统也可将更新的业务信息及时同步给其他业务系统。
2. 支持数据访问下载
共享数据中心可为学校各部门业务系统提供访问和下载信息资源的支撑服务。学校终端用户通过用户身份认证和目录系统授权验证,将数据查询条件及查询要求提交到共享数据中心,共享数据中心分析查询条件及查询要求,对信息资源进行查找、定位、获取、打包返回给服务调用方。
3. 数据检查比对
共享数据中心提供了信息化校园各业务应用系统的数据检查比对支撑服务。学校用户通过用户身份认证和目录系统授权验证,将需要比对的数据提交到共享数据库系统,共享数据库系统再将用户提交的数据和共享数据库中的数据进行一致比对,检查比对的结果将予以标记并返回用户。
4. 数据规则约束检查
共享数据中心的数据保持一致性、完整性、正确性,提供数据规则约束检查手段,对入库数据按照业务逻辑规则进行完整性、一致性、正确性的数据清洗整理,保证共享数据库数据准确、可靠、及时性。
5. 目录服务
按照信息资源管理体系框架,建立信息资源目录标准服务及元数据描述服务。元数据管理
元数据管理完成对共享数据中心的数据库结构的管理维护工作。即对共享数据中心标准表的元数据进行登记,以方便日后的数据管理,主要如下:
1. 表注册。对表名进行中文注释,详细描述该表。表的数量非常多,涉及学校方方面面,表的注册就是为共享数据中心建立档案,供访问者查阅。
2. 字段注册。字段注册为共享数据中心的数据结构建立档案,供访问者查阅。
3. 更新数据库结构。为适应学校信息化的发展和变化,对数据标准的错误或者误差,有时需要更新数据库结构。由于更新牵涉面大,不到万不得已不能更改。更改的原则是对于未使用的表更新、新增、删除字段信息,对已使用的表只能做新增操作。
4. 建立元数据管理系统。完成表的注册、字段注册和数据结构的更新等操作。主题库管理
为了实现统一的数据规划,对需求进行系统化的分析是必不可少的。同时,还要优先制定一套切实可行的数据模型构建标准,才能从众多的系统中将功能交叉的部分归纳出来,最终形成共享数据模型。
在基于多个旧有系统进行共享数据中心构建的情形下,共享数据中心与这些旧有系统的数据库还会有信息的交互。因此,对旧有系统的改造过程包括用共享数据模型替换旧有系统模型,构建新的业务关系及业务规则,对旧有系统进行重构等。经过这样的模型重组,使得多个系统在集成以后更趋于全方位的解决方案,从而为下一步实现信息一体化奠定基础。
在完成标准库的建立之后,根据学校需求,建立相应的分项主题库:
1. 财务库。包含科研经费、教职工工资、学生缴费贷款信息。
2. 成绩库。包含学生各门课成绩、辅修课程成绩、第二专业课程成绩。
3. 课表库。包含各专业教学计划、本学期开课计划、本学期排课列表。
4. 学生库。包含本科生、研究生、继续教育学生、基本信息表。
5. 教职工库。包含在职教职工基本信息、离退休职工基本信息。
6. 学籍变动库。包含学生所有学籍变动、奖惩信息。
7. 科研成果库。包含论文、专著、专利、获奖、鉴定成果等信息。
8. 科研项目库。包含申请、在研、完成项目的信息。
9. 教学资源库。包含教室、多媒体教室、课件、精品课程讲义等信息。
10. 设备库。包含大型仪器设备基本信息及使用情况。
对主题对象的管理有:1.主题对象生成。根据应用的访问权限,对可访问的表的操作封装,以后对数据库的访问都通过对象实现。2.对象权限管理。划分用户的访问权限。3.主题对象查看。根据用户的访问权限,查询接口共享目录,调用相应的接口,将图形化展示对象展示出来。
数据抽取与同步
共享数据中心的数据抽取与同步功能具体应包括:1.从各个业务数据库中实时和定期地抽取数据到共享数据库中;2.各个业务数据库与共享数据库数据的实时和定期同步;3.支持从各种异构的数据库系统和文件系统中抽取数据;4.支持数据转换与清洗,规范数据的格式。主要功能还包括数据的抽取与同步、数据管理工具等。
应用系统的数据层访问需要通过统一的数据访问服务平台对共享数据库和业务数据库进行数据访问操作。我们以元数据为基础提供全局统一的数据模式。在主题库中存储需要共享的数据,作为数据清洗的终点和权威数据分发的起点,将所有的数据处理操作包装成Web服务,以面向服务架构(SOA)的形式注册到ESB总线。以工作流技术构造数据交换的业务逻辑,工作流把对数据的操作编排起来,自动完成数据交换的工作。