APP下载

校园网信息平台的设计与研究

2013-01-28左卫刚

重庆电子工程职业学院学报 2013年6期
关键词:数据源数据中心编码

左卫刚

(山西管理职业学院,山西 临汾 041051)

1 研究背景及需求

近年来随着互联网技术的迅猛发展,国内外各大高校提出了信息化建设计划,然而在信息化建设进程中还存在着一些问题,如:没有长远的建设规划而造成的重复建设带来的资金浪费,数据标准不统一造成的信息不对称,没有统一的数据接口使得系统间信息不能有效共享,缺乏统一的平台来管理各大应用系统。

通过利用信息技术对传统的校园软件环境进行革新,使学校成为一所集教学、科研、管理、服务信息为一体的数字化高校,从而能够满足在校教师及职工对教学、科研、管理服务的个性化需求以及学生对在校学习和生活的个性化需求。在这个现代化、数字化的校园环境下,教师可以获取大量的研究资源、教学资源等,从而通过高质量的教科研来提高学术水平和研究能力;在校生可以通过丰富的学习资源、开阔的学习视野提高自身综合素质,校园网信息平台的提出无疑是满足上述需求的一个有效途径。

2 平台的设计与研究

2.1 总体设计

校园网信息平台建设规划,要以人为本、信息互通、数据共享,能提供及时、准确、高效、随时随地的校园信息化服务。通过“管理化+服务化”的思路帮助学校实现由传统教学应用系统以管理为核心到前端以服务为核心的转变,实现学校各类教学资源的有效整合和配置的最佳优化。

平台的搭建首先是在现有“IT基础设施层”基础上完成“应用支撑层”的搭建。通过对“业务应用”的数据整合,实现数字校园信息资源的共享与交换,并且支撑数字校园对信息整合基础上的应用整合与开发,实现WEB门户、手机客户端等方式的数字校园信息的“综合服务展现”。同时,需要建设数字校园的“信息标准和安全运维体系”,如图1所示:

图1 总体架构

2.2 信息标准

在平台的开发过程中,信息标准的制定是信息化建设的基础工程,它为后期数据规范和信息共享奠定了坚实的基础。而基础信息编码在信息系统中使用频率最高、影响最大,它是制定信息标准的基础性工作。基础信息编码涉及的内容很多,这要兼顾学校的规模、性质、信息化程度和机构设置等。这里着重介绍该校对于人员的编码和二级单位的编码。

表1 教职工类别代码表

2.2.1 学校人员的编码

高校人员的组成很多,其身份也较为复杂,但可以归纳为两大类,即教师和学生。我们基础编码中的人员编码采用十位数字的格式:YYYYCCLLLL,其中前四位YYYY定义为教职工入校或学生入学的年份;中间的两位CC为类别编码,用于区分其身份是教师还是学生;最后四位LLLL为流水号,此流水号按照入校或入学的年份来编写,能足够容纳当年的新增教工和学生,不会产生溢出现象。对教师编码中间两位即CC的编码,我们结合该校实际情况,参考国家教育部颁布的《普通高等学校人员编制的试行办法》进行编制。

该校教职工主要分为以下几个类别:正式在编人员、人事代理、流动编制、外聘人员、临时员工、借调人员、其他人员等,详细设置如表1所示:

举例说明:2013年入校的正式在编人员的第十一位教师工号编码为:2013010011。

2.2.2 单位编码

单位编码是对校内的各个部门的编码,其编码结构包括:单位编号(数字)、单位简称(中文)、单位简拼(拼音)、单位全称(中文),这4个字段都是描述单位的一种方式,在不同的业务活动中需采用不同的方式进行描述。单位编号作为编码的重点,反映了学校内部各个单位之间的关联关系。

编码的规范使学校内的数据成为了一个统一标准的数据集,在不同的应用支撑系统中,采用一致的单位编号来描述包括科室、系部、教研室等校内机构。而各个机构的名称、级别、隶属上下关系、类型(教学、教辅等)等则成为其机构的属性。这样一来,实体在不发生较大变化的情况下,机构的若干调整就不会导致单位编号的更改,所更改的只是其中的相关属性,比如级别、类型等。机构属性的变更即完成了机构的调整,这样就保证了各个应用支撑系统中机构管理的一致性。

根据上述信息标准的要求,本文结合国家和行业标准以及学校的实际要求,制定出《学院信息化数据标准》。该数据标准作为全院范围内数据编码的依据和标准,为数据交换、资源共享奠定了基础,也成为数据字典,为系统数据库设计做好了准备。

2.3 共享数据中心平台的设计

共享数据中心平台是学校统一的数据资源共享互通的应用服务平台系统,校园中的各种结构化数据都是由共享数据平台进行管理的。数据信息交换平台,是学校信息化建设中实现数据共享、信息互通、数据挖掘、数据分析的重要基础。

《学院信息化数据标准》作为基础,共享数据中心平台系统的建设将学校的各类数据聚集整合,使校内海量的数据在异构信息系统之间的交换和共享成为现实。明确应用系统与数据中心平台的接口规范,遵循“谁产生、谁维护”的原则,有效地保证了数据信息的准确一致;建立完整的数据信息,为学校将来的决策支持系统积累原始的分析数据信息,在学校综合查询和决策支持时能够使用;有通用的数据库平台,为学校后续开发的各种应用系统提供支持,保证后期开发的系统建立在数据中心平台上时,避免新的分散数据的产生,共享数据中心架构如图2所示。

图2 共享数据中心架构图

学校内所有的应用支撑系统的数据库是共享数据中心的数据抽取来源,这些数据源主要分为两部分:一部分是学校早期已经建立起来的应用系统的数据库;另一部分是随着信息化建设,后期需要建立的应用系统的数据库。而早期已经建立的应用系统数据库,因为是在共享数据中心平台之前完成的,故其数据库的设计不可能与共享数据中心平台的总体设计相符合,这就需要通过工具等其他手段来完成数据集成和同步。而后期建立的各个应用系统的数据库可以采用统一的信息标准来设计。

所有应用支撑系统的数据集中在共享数据中心库中,全部的数据在此进行集成和同步。它向下从数据源集成数据并保持更新同步,成为各个应用系统之间的共享数据通道;向上为统计分析服务提供数据源,将各个应用系统的共享数据集成在一起。利用数据集成工具从数据源的所有应用系统数据库中提取数据,按照一定规则进行分类后再进行存储。除此之外,保持数据库与数据源更新的同步也是其中一项重要的功能。同步可以采用自动和手动两种,根据数据类型不同分别对待。对于后续建立的应用系统数据,其同步工作通过数据访问层实现,通常可以选择自动同步;而对于原有应用系统数据,我们一般利用数据同步工具使用手动同步方法进行。

应用系统的数据源不一定是相同的,因此在进行数据集成前,要对接入的各个应用系统的数据源进行调研,确保应用系统提供一定程度的数据接口。数据清洗与整合实现共享数据中心的数据采集和分发,被交换的所有数据信息在此可进行抽取、清洗转换、装载入库等数据交换服务,即清理冗余数据,这其实是ETL过程。

ETL的设计分为三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候也是从这三部分出发。数据的抽取是从各个不同的数据源抽取到ODS(Operational Data Store)中(这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同的抽取方法,尽可能地提高ETL的运行效率,ETL的转换流程如图3所示:

图3 ETL转换流程示意图

关系数据库的数据源在实际应用中占大多数,这类数据的抽取一般采用以下两种方式:第一种是全量抽取,这种抽取方式就是将数据源中的表或视图中的数据不加任何改变地从数据库中抽取,然后转换成ETL工具能识别的格式。第二种是增量抽取,此种抽取只抽取最近一次抽取后表或视图中新增和修改过的数据。因全量抽取会消耗很长的时间和较大资源,所以在实际应用中,较多地会使用增量抽取。在增量抽取中,如何捕获变化的数据成为了关键,捕获的方法有很多种,比如建立插入、修改、删除三个触发器,建立触发器方式的优点是数据抽取的性能较高。当数据源表中的数据发生变化,临时表中就会记录触发器感应到的变化数据,然后这些变化的数据将会被抽取出来标记或删除。

从数据源中抽取的数据可能存在格式不一致、输入出错、数据信息不够完整等问题,从而不能完全满足目的库的要求,所以对抽取出的数据进行加工和转换显得尤为重要。对数据的处理可以有两种方式,既可以在ETL引擎中进行,也可以利用关系数据库的特性在数据抽取过程中进行。两者相比,后者直接在SQL语句中进行处理,比在ETL引擎中处理更加高效,对于SQL语句无法处理的可以交由ETL引擎处理。

对数据处理后,放入目的库的最后一步是数据加载,我们需要根据所执行的操作类型和所需数据量来选择加载数据的方法。对于关系数据库型目的库,既可以直接使用SQL语句进行插入、更新、删除操作,也可以采用批量装载方法进行处理,例如关系数据库特有的批量装载工具或API。

ETL的实现有多种方法,常用的有三种,第一种是借助ETL工具如Oracle的OWB、SQLserver2000的DTS、SQLServer2005的SSIS服务等实现,第二种是SQL方式实现,第三种是ETL工具和SQL相结合。前两种方法各有优缺点,通过ETL工具可以迅速地完成ETL工程的建立,有效降低了编码的压力,提高开发效率,但是欠缺灵活性。SQL的方法优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较高。第三种是综合了前面两种的优点,极大地提高ETL的开发速度和效率。

2.4 统一身份认证平台设计

学校内应用系统众多,这就需要一个统一身份认证平台对各个应用系统的用户实行集中管理。本平台采用目录服务来统一存储各类用户信息和各大应用系统信息。

在统一身份认证平台系统构架中,目录服务作为最底层的基础结构,用于存放用户数据和各类信息资源,它与用户是完全隔离的,用户只有登录到统一身份认证系统后,才能根据其用户组策略访问其权限内的应用系统。统一身份认证系统主要包含以下三个部分:应用系统注册完成了用户在统一身份认证平台的注册,用户的各类信息,比如权限等信息由统一平台提供;用户认证用于确认用户的身份,并控制用户的具体访问权限;用户集中管理用于用户在不同应用系统间信息通信,从而实现不同应用系统之间的数据互通和信息共享。

统一身份认证平台提供两种应用系统接入方式,以快速实现单点登录。第一种方式是反向代理,此种接入方式为松耦合式,应用系统无需过多开发,采用反向代理模块和单点登录认证服务的方式对用户信息进行验证,从而实现应用支撑系统的单点登录。第二种是采用集成插件与单点登录认证服务交互验证用户信息,这种紧耦合方式提供多种接口,通过简单调用即可实现单点登录。

3 结语

本文紧密围绕某高校的服务及管理目标,遵循一体化建设的原则,引进先进的设计思想进行平台的总体设计;依据国家和行业标准,制定出符合学校实际的信息化数据标准;共享数据中心平台使各个应用支撑系统间数据得以有效共享,冗余数据得到有效消除;统一身份认证平台使得用户的管理集中化,保证系统安全的同时提高工作效率。

该信息平台能够有效整合学校的教学环境、教育资源、科研数据和服务学生等一系列信息数据,有效实现各处室基础数据共享,实现跨部门之间信息互通,提高工作效率,体现人性化服务,促进学校从管理型向服务型转变具有重要的现实意义。

[1]陈昌品.校园网建设与管理的现状与思考[J].计算机教育,2011,4(4).

[2]王名镇.数字化校园应用[M].北京:机械工业出版社,2010.

[3]许宁.高校统一门户的设计与实现[J].现代图书情报技术,2011.

[4]胡伏湘.高校信息化建设与数字化校园研究[J].计算机教育,2012,10(6A).

[5]缪宁陵.中美高等教育信息化建设比较研究[J].计算机工程,2011,4(6A).

猜你喜欢

数据源数据中心编码
酒泉云计算大数据中心
浅析数据中心空调节能发展趋势
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
关于建立“格萨尔文献数据中心”的初步构想
Genome and healthcare
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
基于云计算的交通运输数据中心实现与应用