APP下载

高校数据共享交换平台的应用与展望

2016-12-10陈伟范宇辰李广宏

中国教育信息化·高教职教 2016年10期
关键词:数据交换数据可视化数据共享

陈伟 范宇辰 李广宏

摘 要:随着高校网络信息建设的不断深入,我校的校园信息化建设正处于一个前所未有的快速发展时期。2011年12月,学校制定并实施了《东北财经大学“十二五”发展规划》,将“信息集成化”确认为学校未来发展建设的四大重点任务之一,标志着我校教育管理信息工作开始朝标准化、规范化的方向发展。本文首先阐述了东北财经大学数据共享交换平台的发展现状,分析了校内教职工和学生的主体需求与当前所面临的主要问题,并针对不同需求提出了相应的解决措施,最后对我校未来将利用数据挖掘技术对学校信息资源进行整合、分析、决策等提出了设计展望。

关键词:数据共享;数据交换;大数据;数据可视化

中图分类号:G642.0 文献标志码:A 文章编号:1673-8454(2016)19-0048-05

一、引言

近年来,随着信息技术产业的蓬勃发展,高校的信息化建设工作也受到了广泛关注。推进高校信息化建设,打造数字化校园已成为各高等院校的普遍共识。2010年,我校完成了数字化校园建设信息门户平台、统一身份认证平台和统一数据库平台“三大平台”建设。由于信息化建设初期缺乏统一规划,数据标准各异,业务系统各自为政,导致数据非集成化并形成了许多的信息孤岛,这使得大量优秀数据无法共享和利用,获得更大价值。我校于2014年又进行了数据共享交换平台的建设。该平台是整个数字化校园建设的重要组成部分,利用此平台对校园内散乱分布的数据进行集成化整合,同时将原来分散、利用率低下的信息资源进行数据挖掘,对于我校的发展战略和决策支持具有重要意义。

二、发展现状

我校从2006年开始着手进行信息化校园建设工作,整体建设历程具有阶段性和分布性的特点。按照《信息化校园建设总体规划》的部署,截至2010年,学校信息化基础设施建设已基本完备,并完成了信息门户平台、统一身份认证平台和统一数据库平台三大公共基础平台的建设。

2012年1-6月,我校完成了应用系统一期项目建设,包括本科生管理服务、研究生管理服务、人事管理服务和办公自动化管理四个系统;至2013年12月,我校完成了應用系统二期项目建设,包括招生管理、宿舍管理、毕业离校、就业管理等七个系统,同时集成了教务管理系统和资产管理系统。

2014年至今,通过对基础平台和应用系统的完善推广,我校将管理信息系统建设作为支撑学校管理现代化的基础,现基本完成对学校各机关部处、教学教辅部门的核心管理业务的横向整合。

统一数据库平台负责集中存储和处理各种信息数据,并为全校提供信息共享交换服务。为了实现业务系统的集成和数据共享,进而为学校领导提供有力的决策支持,需要建立基于数据管理和综合性技术方案的数据共享交换平台,在对大量数据进行安全存储的同时,通过建立畅通的数据访问通道,能够有效协同地将数据进行共享、分析及应用,保证数据共享及交换的时效性、完整性和一致性。[1]

数据共享交换平台主要需完成以下任务:

1.数据的采集

负责采集更新各业务系统数据,利用数据抽取或同步工具将数据采集至共享数据中心,同时生成数据更新报告。

2.数据的整理

按照学校制定的信息化标准进行数据整合,报告异常数据,保证数据的一致性和准确性,并保留历史数据。

3.数据的共享

对统一数据库内的部分或全部资源进行共享和交换,可生成数据使用情况报告。

4.数据的挖掘分析

通过数据挖掘工具对共享数据和历史数据进行分析评估,用报表、视图等可视化工具进行展现,为决策提供参考。

目前,我校统一数据平台可以实现数据导入、共享数据查询与维护、灵活报表管理、统一代码管理、通用组合查询显示、设置数据查询和维护权限以及数据同步等功能,但平台功能仅局限于数据的查询展示,尚不能实现校园内各业务部门的信息交换交换功能。我们希望对各业务部门的资源、平台进行更充分的整合,使得应用系统之间虽不具有直接关联,但数据交换可以在业务数据库与数据共享交换平台上完成,建成一个各应用系统耦合度较低、安全性能较强、可以完成数据集中存储与管理的数据共享与交换平台。

三、实际需求

目前,建设以全局数据为基础的数据共享交换平台已成为各高校信息化建设的核心内容。通过其建设可以有效消除信息孤岛,节约人力、物力、财力成本,提高工作效率。各职能部处可以通过该平台获取其他业务部门的数据信息,通过对数据的交换、共享、分析、挖掘,为广大师生提供更加完善的服务,为学校建设以及科学管理提供重要的依据。

另外,数据共享交换平台的建设是高校信息化建设下一阶段——智慧校园建设的工作基础。完成对学校内大数据有机的整合和继承管理,掌握学校各项活动中发生的庞大、海量数据,并利用大数据处理技术对这些信息资源进行挖掘、整理、分析,为学校的发展提供决策支持,是下一步我校信息化发展的重点工作。

经过多年的建设与发展,我校网络的基础设施建设已经基本完成,已经初步建成了支撑学校日常运行的校级统一信息系统,在业务工作中发挥了积极的作用。但现有的这些系统基本上都是各自封闭的,随着信息技术的发展以及教育改革的不断深入,当前信息系统的现状已经远不能满足学校发展的要求,数据整合工作仍然面临着诸多难题和挑战。

1.数据资产意识薄弱

数据作为重要的无形资产,其利用水平的高低可以直接反应一个高校的教学科研水平和管理能力。目前我校对数据建设的意识相对薄弱,没有充分认识到数据也会在学校的教学科研管理中发挥重要作用,导致学校内部业务系统林立,数据没有形成统一的管理制度,数据资产不能发挥有效价值。

2.数据管理缺乏规范性

目前我校内部已形成了多个业务系统,各部门依据各自的业务需求,分别采用了不同的架构及其开发技术,设计了信息系统建设标准和数据标准。但这些系统在应用及数据层面上彼此分离,导致各单位数据标准不一致,在数据共享平台的建设过程中,不能有效分析数据库表结构,在共享过程中时常出现匹配错误等现象。

3.存在信息孤岛

由于各业务系统的数据维护及管理工作缺乏统一部署,导致我校各业务系统间缺少统一的数据格式和交换接口,虽然部分数据可以通过直接传输等形式实现数据资源的交换和共享,但这种传统方法并不能及时有效地解决大量数据的交互问题,同时各类数据信息分别存储于不同部门或不同地域(分布性)的不同数据库(异构性)中,客观上形成了许多“信息孤岛”。

4.数据挖掘与决策支持应用较少

目前,我校的数据共享交换平台主要应用于数据的展示、查询、统计等单一层面,对数据进行深度挖掘分析的应用较少。合理整合校内数据,不仅能有效提高数据的利用率,优化管理结构,而且可以通过整合进行数据的挖掘、分析和预测,优化学校管理结构。通过数据整合可以大量减轻学校内部行政、教学、教辅等部门繁杂的事务性管理工作,帮助其更加关注于本部门的业务职能,并为部门及整个学校的发展提供决策支持。

四、有效措施

1.建设统一数据标准

我校于2010年12月由东北财经大学数字化校园基础平台建设组进行统一规划,制定并颁发了《东北财经大学信息标准》(以下简称“标准”)。标准的制订参照教育部《高等学校管理信息标准》(CELTS-33)的制订规范,并根据我校特点做了适当补充和调整。

标准根据高等学校职能划分和业务组成,将我校主要管理领域分为学校、学生、教学、研究生、教职工、科研、财务、办公管理、图书、资产与设备十个域,也就是对应图1的十个管理数据子集。

TB——通用/标准数据子集。作为其他十个业务数据子集的公共数据集,构成高校主要管理业务的完整数据标准集。

标准从结构上分为两部分,即数据标准和代码标准。数据标准包括一系列以管理对象为主体的数据项,其作用是明确管理对象所具有的属性,并使其在命名,类型,长度,取值范围等方面标准化。代码标准从属于数据标准,是对数据标准中数据项的属性或取值范围的描述。数据标准和代码标准的层次结构如图2所示。代码标准按照适用范围不同分为国家标准、教育部标准、行业标准、学校标准四个模块。

数据标准为我校数据平台的设计搭建提供了类似数据字典的参考作用,为信息交换、资源共享提供了基础性条件,有效地增加了各业务部门间的沟通效率。但信息标准在新的形势下也应有新的扩展,在建设过程中应与时俱进,不断加以补充完善。

2.建设数据共享交换平台

数据共享交换平台为校内各业务系统提供了一个集成的数据仓库,它将重要的、通用的数据集中到一个数据库内,数据可以在各部门之间进行有效的共享与利用。数据共享交换中心的建设有效解决了“信息孤岛”问题,可以为各项决策提供强有力的支持,最终为实现大数据综合分析提供一个可靠的、统一的数据支撑平台。[2]

应用系统与共享数据平台之间是松散耦合,数据共享交换平台的架构如图3所示。

在数据共享与交换平台中,利用ETL工具通过简单配置实现异构数据和公共数据库的数据同步、数据的解析和清洗、数据的转换等过程。管理员通过ETL客户端可以创建复杂的同步任务,只需要简单的拖拽就可以完成任务的配置。

通过数据共享交换平台,实现对ETL任务的统一监控与管理。

截止2015年12月31日,我校数据交换共享平台在运任务42个,涉及到十个系统,包括财务数据同步、资产数据同步、教务数据同步、一卡通同步、科研数据同步和多媒体教学信息同步。其中,财务系统同步任务共执行819次,资产设备同步任务共执行748次,教务系统教务成绩同步任务共执行714次,教务上课授课同步任务共执行714次,等等。2015年,所有数据同步任务共运行6182次,交换数据量约15个T。

3.完善数据展现

完成数据整合后,如何对积累的海量数据进行有效利用,充分挖掘其潜在价值是首要问题。按照教育信息化建设移动化、智能化、云化的趋势,从数据的使用方式、新媒体展现形式、数据可视化等多角度来完善数据表现,不断加强信息技术与广大师生教育教学、科研管理、公共服务等业务的深度融合。

(1)多层面多角度的数据使用

采用推送(订购),拉取(查询)等形式,用综合查询、大数据综合分析等形式为各级用户服务。如各级管理者使用的通用查询工具、数据管理服务、数据订购服务、数據分析服务等。

(2)多种新媒体形式的数据展现

除了传统的PC端数据展示之外,如何在现有移动信息化技术之后出现的多种新媒体形式,包括微信、微博、移动智能终端的进行数据展现,例如与微信平台、移动校园APP的结合,实现信息anyone,anywhere,anytime随时可达,是下一阶段工作的重点。

(3)数据可视化

在Hadoop上将HDFS存储的PB级的海量数据利用MapReduce处理之后,数据容量缩小为GB级,然后利用R语言等类似工具进行分析研究,最终转化为能为决策支持提供支撑的KB级数据,这依赖于Tableau等数据可视化工具。数据的收集、存贮、转换、筛选、分析、归纳,一切都为最终的展示服务,数据可视化工具能够以一种简便易用的方式将复杂的数据呈现出来,使用户更容易理解,并做出决策。

五、应用特点

1.架构合理,数据可控

以数据共享交换平台为核心,依托ETL技术实现数据的共享与交换,采用星形模型是最常用的实现模式,它使整个数字化校园形成了一个松耦合集成系统,实现数据调度任务的运行、监控、维护,整体系统灵活、安全、可控。

如图6所示,首先,星形架构采用不同业务系统与数据交换共享平台直接联接,而不必把多业务系统充分网状互联,建设成本低,投入小,复杂度较小,易于后期的管理维护。其次,整体系统松耦合,因为采取同步模式实现数据统一,独立业务系统故障不影响其他系统,单点故障不会对整体数字化校园系统造成冲击。最后,当某一业务系统升级或者替换,其基础数据格式、内容将发生变化,只需通过ETL调整其与数据共享交换平台的接口,并不影响与其相关的其他业务系统的正常操作,实现成本低、效率高。

2.操作简单,体验良好

目前,高校的传统业务系统并不兼容,彼此之间难以实现数据共享交流。我校使用的开源的ETL工具Kettle具有基于Java的图形化界面,支持拖拽等方式的可视化设计,能方便使用者便捷地对从业务系统抽取到的数据进行传输、清洗和加载等。同时,ETL屏蔽了应用系统中较为复杂的业务逻辑,为基于数据仓库的分析和应用提供了统一的数据接口。利用数据共享与交换平台,ETL在不同的业务系统之间搭建了一座桥梁,实现数据、业务的互联互通。

3.良好的弹性与可扩充性

数据共享交换平台的核心为ETL技术,具有良好的可扩充性。首先,ETL提供了一些可扩展组件以支持某些ETL定制逻辑的实现,同时支持自定义的SQL查询、JavaScript和正则表达式等,可自行定制开发相关组件满足学校业务逻辑的需要。另外,ETL技术支持典型的结构化数据库系统以及非结构化数据,作为应用广泛的开源工具,典型的分布式大数据架构、数据立方体等数据源也都可以处理,整体架构具备良好的可扩充性。

六、下一步计划

随着人工智能与数据库相关技术的发展,在做好数据清洗与整合的基础上,有效地应用数据挖掘手段进一步处理数据、分析数据,近年来,高校大数据挖掘与分析也成为技术研究的热点。在完成数据整合的基础上,不仅能完成传统的数据库的数据查询、统计、录入等功能,利用数据挖掘技术还可以发现数据中的隐含规则和潜在联系,而且可以通过多种有效手段对数据进行分析、对未来的发展进行预判以及对可能出现的问题进行防范。

1.数据挖掘基本概述

数据挖掘(Data Mining)一般是指在数据库或数据仓库中,利用各种分析方法与技术,对过去累积的大量繁杂数据进行分析、归纳与整合等工作,提取出有用的信息,例如趋势、模式及相关性等,并将其中有价值的信息作为决策参考提供给决策者。通俗地说,数据挖掘就是从数据中发掘信息或知识。[3]

目前,数据挖掘技术已被广泛应用于医疗、商业、科研、金融、工程管理等领域。在高校中引入数据挖掘技术,可以加快推进学校管理方式的转变,即以科学管理方式取代传统管理方式,提高高校管理质量和教学水平,提升人才培养效果,有效增强学校竞争力。

2.数据挖掘的方法

(1)关联分析

关联规则的挖掘主要有两个步骤:首先是要从数据集合中找到频繁项集,然后通过找到的频繁项集产生关联规则。

关联规则挖掘的第一阶段,必须从数据集合中,根据某一项目出现的频率来找到隐含的频繁项集,其中某项目组出现的频率称为支持度,只要某项集的支持度超过初始设定的最小支持度时,就算找到了频繁项集,然后再继续寻找下一个集合。

关联规则挖掘的第二阶段,是找到频繁项集中产生的关联规则。系统预先设定一个最小信度,如果某一规则得到的信度超过最小信度,就称这个规则为关联规则。

(2)决策树方法

决策树的输入是一组带有类别标记的样本,最终会生成一棵二叉树或多叉树,节点、叶子和分支是它的基本组成部分。决策树方法主要分为决策树生成和决策树剪枝这两个步骤。

决策树的顶端节点叫做根节点,一切决策的过程是从根节点开始的。然后根据系统的需要和特定算法创建子节点,最末端的节点成为叶子。在决策树的分析过程中,每个节点都会遇到问题,对于问题的不同回答就产生不同的分支,直到最后产生叶子节点。这就是决策树分类的整个过程。

(3)遗传算法

遗传算法是由生物进化的过程演变而来的一种算法,含有三个基本过程(算子):选择(繁殖),在旧的种群中选出具有较强生命力的个体,产生新的种群;重组(交叉),选择两个不同个体,转换它們之间的部分基因,产生新的个体;突变(变异),通过对个体进行某些基因的基因突变(1变成0,0变成1)产生新的个体。

3.数据挖掘的目标

数据挖掘的目标是从数据库中发现隐含的,有意义的知识,其主要功能有概念(类)描述、预测趋势、关联分析、聚类、偏差检测、演化分析等。下面以概念(类)描述、预测趋势、关联分析这三个主要功能,结合高校实际情况进行分析:

(1)概念(类)描述

是指通过数据区分、数据特征化比较可以得到对数据的概念或类的描述,简单来说就是对某类对象的内涵进行描述,并概括这类对象的有关特征。

例如:通过对学生基本信息数据进行数据挖掘后,我们可以将接受助学贷款、参加勤工助学、有欠缴费记录等信息的学生划分为经济困难的学生这一类别,并授权就业指导中心、各学院院办等部门在数据共享交换平台查看学生名单,以帮助辅导员更有针对性地了解个别学生生活情况,积极帮助这类学生参加勤工助学、社会实习工作等。

(2)预测趋势

是指通过建立区分概念或数据类别的函数、模型,对未知的对象进行类别预测并加以标记。数据挖掘可以自动在数据库中寻找预测性信息,以往需要通过大量手工分析解决的问题如今可以迅速通过数据得出结论。

例如:对历年学生选课时间、选课人数等数据进行数据挖掘后,系统可以自动监测到学生选课高峰期、某热门课程等,可以为学校合理规划选课时间,合理安排教室等做出预测、规划。

(3)关联分析

大量的数据中存在的某些可被发现的有用知识就是数据关联。很多数据库中都存在着数据关联,但并不为人所知,因此关联就是希望找到隐藏在数据库中的规律和有用的知识。

例如:将每位学生视为一个数据对象,将其学习成绩、在校表现、奖惩情况等属性视为该数据对象的不同数据维度,进行多维数据关联后,可以构建学生考核、测评标准,建立评价指标体系,对学生进行科学测评,减少传统测评中的人为干扰,使对学生的评价更为客观、全面和科学,同时也更加便利。

我校的数据共享交换平台存储了非常丰富的教学、科研、管理等各方面的信息,范围宽广,数据复杂,一方面为我们提供了大量可供研究的数据,另一方面在目标的选择、数据的取舍、算法的性能等方面又向我们提出了很大的挑战。

随着数据挖掘技术的不断进步,我们希望未来可以透过数据表面,分析得到其内在本质,获得更有价值的信息,用更加科学系统的方法对学校的信息资源加以利用,优化资源配置、提高教学质量、提高学校综合实力。

参考文献:

[1]戚丽,蒋东兴,武海平.校园数据中心建设与管理方法的探索[J].中国教育信息化(高教职教),2002(7):54-55.

[2]丁智君.高校数字化校园的数据中心平台建设[D].上海:复旦大学,2009.

[3]Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2007.3:88-100.

(编辑:王晓明)

猜你喜欢

数据交换数据可视化数据共享
XBRL在财务报表网络数据交换中的应用
可视化:新媒体语境下的数据、叙事与设计研究
科学大数据的发展态势及建议
我国数据新闻的发展困境与策略研究
数字化迎新系统宿舍分配模块的设计与实现
贵州大数据产业发展战略理解和实施建议