APP下载

高校数据治理的探索与实践

2018-01-18刘波邹恒华许维胜

电子技术与软件工程 2017年21期
关键词:数据治理数据质量信息化建设

刘波++邹恒华++许维胜

摘 要本文简要阐述了当前数据治理发展趋势和国内高校在数据治理方面的研究现状,总结了高校在数据治理方面的实施思路;并以同济大学为例,介绍了其在数据治理方面的方案设计与内容建设,着重分析了人员信息整合路径、基于主数据平台的人员主数据模型设计,为业务和管理提供高质量的数据支持。

【关键词】数据治理 信息化建设 数据质量 主数据管理 人员信息整合

1 引言

近年来,以社交网络、电子商务、位置服务为代表的新型信息传播方式的逐渐成熟,伴随着移动互联网、物联网和云计算等新兴技术的快速发展与应用,各类终端设备、媒介网络不间断的记录人类活动的信息行为,引发了数据规模的爆炸式增长和数据模式的高度复杂化。当前,数据已成为企业、国家的一项重要资产;同时,海量、多源异构、价值密度低为特点的数据,也向传统数据管理模式提出挑战,数据治理也由此而生。

2 国内高校数据治理研究现状

我国高校信息化经过十多年的发展,目前大多数高校已完成校园网络、信息系统、数字平台的建设。由于在建设初期,信息系统建设多以业务部门牵头分别进行,缺乏全校统一的系统规划和数据标准,导致很多高校虽然已经积累了大量的业务数据,但普遍存在数据质量不高、冗余数据大量存在、数据可用性不高和各业务部门之间数据共享难度较大等问题,这些问题已经严重制约高校日常管理和教学水平的提升。因此亟需通过针对高校个性化场景需求研究,建设一套全校级别的数据治理流程体系来进行数据的全生命周期管理。

当前,国内已有部分学者在高校数据治理领域做了相关研究。李铮铮等针对数据存储管理等提出了抓好顶层设计、制度与标准编制、关键技术研究和安全保密建设等关键环节,加强数据工程建设的观点;李勇军结合具体项目实践阐述了核心准则中“组织”和“整合”在大数据治理中的实际应用,揭示了高校组织中的数据信息标准建设以及信息化管理项整合的重要性。许晓东认为高等教育数据治理可以分为数据的获取和抽取、整合和分析、解释和预测几个阶段,数据治理对于高校组织决策制定、提高大学教学质量、提高管理效率具有重大意义;赵安新从数据融合的视角探讨高校数据融合的路径及其治理框架,从而为互联网+高等教育的信息化建设提供思路探讨。李林提出了数据治理的RACI模型,介绍了主数据管理实施过程与数据质量评估办法。包冬梅等在其设计的CALib 模型的实施与评估中,讨论了数据治理成熟度评估的意义。可以看出,国内学者多从不同的层面,结合管理创新和技术实践推进高校范围内的数据治理思路。

3 高校数据治理的实施思路

3.1 业务问题分析

在实施数据治理之前,首先要对高校信息化建设目前存在的问题进行梳理,从而制定治理目标和策略。我国高校在信息化建设过程中,普遍积累了大量数据,这些数据包括:人事数据、科研数据、设备数据、学生数据、教务数据、图书馆数据、财务数据等,这些数据分散于各个业务系统中,难以满足学校各类管理、教学的需要。

3.2 确定目标愿景

随着教育信息化的快速发展,高校各类业务与日常管理急需数据提供支持。但数据治理不能一蹴而就,需要根据紧急状况和业务需求确定治理的短期目标和长期愿景。

3.3 制定成熟度评估

为保证数据治理效果,高校需制定阶段性的数据治理内容,选择有效的治理指标,制定符合高校的成熟度模型。在保证现有业务正常运转的前提下,逐步推进数据治理框架,使得各项业务逐渐过渡到新的业务框架上。成熟度评估是组织对数据治理状况的考量,已经学者和机构从不同视角提出了成熟度模型。IBM信息治理委员会选取了11个信息治理指标,提出了包括目标、支持要素、核心准则、支持准则的成熟度模型。Gartner 设计的6 阶段的成熟度模型中,给出了每个阶段的行动方案。续瑾成建议成熟度评估最好每年执行一次,及时了解当前成熟度水平。高校在制定成熟度评估时,应结合自身当前关注点,从组织制度、角色职责、数据质量、流程管理、信息监管、技术职称等多方位考虑,制定符合自己的成熟度评估模型。

3.4 加强顶层设计

高校數据治理不是仅仅靠信息部门就能完成的,需要学校自上而下进行推进。校领导、信息部门以及各业务部门协作方可推进,因此需要从人员意识、组织、职责等进行设计,以确保数据治理达到理想效果。

3.5 元数据管理

元数据是关于数据的描述信息,包括专业术语、业务规则、字段信息、数据使用及权限管理等。元数据决定信息架构如何满足业务需求,因此在数据治理过程中,元数据的管理就成为信息治理计划的关键。

3.6 数据标准制定

数据标准是各方就共用业务术语的定义,以及这些术语的数据命名与描述方法达成的协议,它应包括数据如何存储、交换、表示方式以及信息共享规则。高校在数据治理初期,应制定自己的数据标准,按照数据标准进行数据库管理和业务系统更新。

除此之外,数据治理还需要借助平台、工具和技术手段等,结合实际业务分模块推进数据的质量提升与数据管控。

4 同济大学数据治理的探索与实践

4.1 治理实施方案设计与内容建设

经过十多年的建设,同济大学陆续上线了50多个业务系统,积累了大量的数据,存储在各业务系统中。当前主要存在的问题有:

(1)数据分散管理,维护成本高;

(2)数据交换效率不高,部门口径不一;

(3)主数据质量不高;

(4)无法实现精细管理,缺乏全景视图。

为解决该问题,同济大学结合信息化建设目标,提出通过数据整合、流程整合、服务整合,推进数据治理。通过激活历史数据,实现历史数据质量提升与数据整合,构建全校统一的基础数据服务体系。统一规划业务流程,改进现有开发模式,提供开放的开发平台与应用管理平台。对于现有业务服务进行整合,分别建设PC端和移动综合门户,提升师生体验。具体如图1,在该目标之下,同济大学陆续启动了数据仓库建设、数据标准制定、业务流程整合、人员信息整合、主数据管理平台以及综合门户的建设。endprint

首先,对现有业务系统的数据进行分析,结合国家标准、教育部标准,参考美国教育标准,提出了符合高校的数据标准。标准内容包括:教职工、学生、教学、机构、财務、项目、协议、活动、资源、代码十大主题。通过数据标准管理,确保数据标准规范,以供全校层面进行高效集成与共享。

建设数据仓库平台存储经过抽取、转换和加载( ETL ) 的大量历史数据,并利用联机分析处理( OLAP) 、数据挖掘等方法进行分析以支持决策,数据仓库的建设可一定程度上解决高校面临的“信息孤岛”问题,并为各类数据统计分析提供基础数据平台。根据事先制定的规范和数据标准,进行数据仓库架构设计,通过ETL工具对业务系统里的数据进行数据抽取、转换、装载,在数据装载前,需要对业务系统里存在的“脏数据”进行预处理,即数据清洗。数据清洗工作主要包括:标准化处理、空值处理、不一致数据处理、重复数据处理等。

SOA,即面向服务的架构,它包含运行环境、编程模型、架构风格和实施理论等,它的核心是服务。SOA的理念是业务驱动,采用松耦合的、灵活的体系架构来满足随需的业务需求。通过引入SOA架构,可有效整合高校业务部门的零件化资源,并将此封装成专属服务,注册在企业服务总线(ESB)上,供其他业务部门消费。建设基于ESB的数据交换平台,迁移老交换平台作业,实现数据实时、批量交换。

人作为高校里非常重要的组成部分,各业务系统的运转执行与信息更新也是以人员信息为重要基础而存在的,因此保证各业务系统里人员信息的准确非常重要。因此启动了人员信息整合和基于主数据平台的人员主数据模型建设,分别在4.2和4.3节中详细介绍。

4.2 高校人员信息整合

高校在信息化建设过程中,业务部门根据自身业务需求建设了各类业务管理系统,如人事、教务、就业、研究生系统等,所有在校和离校的师生信息都分类存储在这些系统中,由业务部门自行维护,出现一个人员的不同角色、不同时期的信息存储分散,不便于高校对人员进行信息统一管理。通过对分散的人员信息进行整合,为每个人员分配一个唯一编号,将该人员各阶段的经历串联起来,建立综合性人员信息库,实现跨业务、跨时间和跨信息系统的人员信息整合平台,有效提高人员数据质量,同时为业务运行和数据综合服务提供基础数据支持。如图2所示,展示了高校人员信息整合过程。

4.2.1 数据选取

在源头业务系统中,选取人事、教务、研究生等系统中有关师生的基本信息,如姓名、证件类型、证件号、人员类别、人员状态、源编号(职工号、学号)、性别、国家、民族、开始日期、结束日期,并在设计的过程中增加了辅助描述字段,如系统来源、人员有效ID、处理日期、识别标志等。

4.2.2 数据预处理

数据预处理是定期将所选取的人员数据通过数据抽取、数据清洗、数据加载到基础数据存储层,选取增量变化的数据进入人员整合算法处理阶段。数据清洗,主要包括去掉姓名中的空值,身份证15位转18位、校验码转为大写等。

4.2.3 人员整合算法处理

通过系统识别和人工识别的方式对选取的人员字段进行判断,如满足条件,则分配人员唯一编号,如不满足,则进入人工识别通道,通过人工分析,补全相关字段,再进行系统识别。通常,姓名、证件类型和证件号(简称“名号类”)可以唯一确定一个人,因此在系统识别时,设置系统识别的判定条件为“名类号”全不空。 上述步骤只能为 “名号类”全不为空的人员分配唯一编号。如出现证件号少于18位,类号相同姓名不同;证件类型不同姓名相同等特殊情况,则不能进行识别,此逻辑还为其分配人员唯一编号。出现此类情况多因为源头系统数据存在错误或者登记不一致。此时则需要对人工通知源头系统进行核对和修改,改善其数据质量。

4.2.4 可疑数据人工处理

人员关键信息有缺失、或与其它人员的关键信息有冲突时,需要进行人工修正或确认,对于需要修正的数据,源头业务管理人员对信息进行补全或纠正后,重新进入人员整合算法;对于需要确认的数据,确认无误后进入人员信息库。

4.2.5 人员信息库的应用

通过整合后的高质量人员信息库可用于跨部门的综合应用、交叉分析有了可能,提高相关业务系统的数据质量,更准确地完成学校各层面的数据服务和分析决策。

4.3 主数据管理

4.3.1 主数据与主数据管理

高校各源头系统存储的人员(教师、学生)、课程、科研项目、教室等实体数据往往需要跨系统、应用、业务流程中共享使用,这类数据被称为主数据。如源头系统中数据质量低,将直接导致整个架构体系无法发挥应有的作用。通过主数据管理,实现数据的真正可用。

主数据管理包含了流程、治理、政策、标准和工具,用于统一定义和管理组织的关键数据,并实现单点的引用。从内容上讲,通过使用去重、标准化数据、整合规则等手段减少进入系统的差错数据,以形成创建主数据的权威源。因此主数据管理的目标是把关键和共享数据从源系统中抽取成为中枢,并保证在持续使用和维护这些数据的应用中唯一。

4.3.2 主数据建模

实现有效的主数据管理,需要一套适合业务和实际需求的主数据模型。IBM MDM产品提出了核心域模型,在客户、产品、账户和位置信息等方面进行了完善的定义,该模型主要适用于符合金融、保险和制造等行业,高校作为相对特殊的小社会,需要根据高校的实际管理特点和数据现状,对现有模型进行匹配和扩展,并根据该模型重新开发新的数据服务。

高校主数据主要包括: 与教学、科研及行政管理相关的关键数据,如人员信息描述、组织机构、科研成果、设备资产、课程等; 描述实体之间关系的数据,如指导关系、选课关系和聘用关系等。在对数据进行梳理后,结合高校业务场景,设计了面向高校的人员主数据模型。如图3,对高校人员基本信息、组织信息、层级关系、关系角色、通讯地址信息、等进行了个性化描述,基本描述了高校人员全景。endprint

值得注意的是,各高校主数据模型及内容并没有严格统一的标准,信息化建设不同时期,主数据模型也不相同。因此在主數据管理过程中,要根据高校实际业务对主数据模型进行持续扩展与更新,以适合实际需求。

4.3.3 主数据匹配识别与应用

与传统数据库存储的简单逻辑判断规则所不同,一般主数据平台还具有数据匹配与识别功能。在此基础上,基于自我学习的概率匹配算法提出了适用于高校主数据场景的可疑重复处理法。可疑重复处理(SDP, Suspect Duplicate Processing )是对多个系统中现有的数据,进行搜索、匹配和处理可疑重复项的过程。如图4所示,通过对从各业务系统中采集到的人员片段进行可疑重复处理,经过SDP过程处理的数据进入MDM中,形成一份组织内可信赖的、一致性的关键数据,称为“黄金记录”。主数据系统则实时/准实时将“黄金记录”分发给其他需要共享的业务系统里,同时又可以将业务系统中的有更改的主数据信息同步过来进行自我判断,保证主数据的高质量。

5 结论与展望

本文以当前快速发展的新技术为切入点,阐述了国内高校在信息化建设过程中累积的数据问题以及国内学者在数据治理问题上的研究概况,从而提出了高校在数据治理过程中,应该遵循的思路。以同济大学为例,介绍了其在数据治理方面的方案设计与内容建设,并且详细介绍了其针对高校人员信息进行的人员信息整合过程和基于主数据平台的人员主数据模型设计,从而为需要共享的业务系统提供实时的、高质量的人员信息数据。除人员数据外,高校还存在组织机构数据、科研数据、教学数据等,需要做进一步地治理。

数据治理是一个长期的过程,需要结合高校具体情况和实际需求,逐步实现对高校数据资产的有效管控。利用数据治理的成果,为师生提供更优质的服务体验,为管理者提供专属的业务支持和专题全景视图,提高高校管理效率和决策水平。另外,高校在数据治理过程中,应注重数据隐私保护与数据安全防范,通过技术手段、制度规范和监督机制促使数据资产合理的为高校管理和发展服务。

参考文献

[1]李铮铮,庄孝彰.大数据时代高等院校教育数据建设研究[J].中国科技信息,2016(13):124-126.

[2]李勇军,彭琳.大数据治理在高校信息化管理中的探究[J]中国管理信息化,2016,19(03):185-187.

[3]许晓东,王锦华.高等教育的数据治理研究[J].高等工程教育研究,20155:25-30.

[4]赵安新.高校数据融合路径及其治理框架的探讨[J].管理信息化,2016(23):75-77.

[5]李林,钱丹丹.高校信息化数据治理探讨[J].管理信息化,2017(09):66-68.

[6]包冬梅,范颖捷,李鸣.高校图书馆数据治理及其框架[J].图书情报工作作,2015,59(18):134-141.

[7]匡斌,译. Soares,S.Big data governance:an emerging imperative [M].北京:清华大学出社,2014,28-35.

[8]张绍华,潘蓉.大数据治理与服务[M].上海:上海科学技术出版社,2016,

[9]续瑾成.企业数据治理及其统一流程[J].中国管理信息化,2016,9(16):5-57

[10]INMON W H,Building the data warehouse[M]Indianapolis:John Wiley&Sons,2005.

[12]王紫瑶,男俊杰.SOA核心技术及应用[M].北京:电子工业出版社,2008,4-15.

作者简介

章浩(1992-),男,陕西省商洛市人。在读研究生。

刘波(1979-),男,江西省上饶市人。博士。

邹恒华(1977-),女,江西省宜春市人。助理工程师。

许维胜(1966-),男,山东省临邑县人。教授,博导。

作者单位

1.同济大学电子与信息工程学院 上海市 201804

2.同济大学信息化办公室 上海市 200092

3.同济大教育技术与计算中心 上海市 200092endprint

猜你喜欢

数据治理数据质量信息化建设
浅谈统计数据质量控制
大数据治理模型与治理成熟度评估研究
大数据时代城市治理:数据异化与数据治理