智慧校园异构数据集成技术研究和构建
2023-10-21刘雪芳
刘雪芳
(景德镇学院,江西 景德镇 333400)
近些年来,随着信息化的快速发展,传统的数字校园在数据交换上暴露出一些问题,如数据孤岛、数据丢失,以及缺乏统一的数据集成平台等问题。本文旨在通过异构数据集成技术的研究,助力智慧校园建设。异构数据是指当综合系统中要完成相应的任务时,需要访问不同系统模块的数据。通过异构数据集成技术运用,可以实现数据转换、处理和共享等目的,进而加快信息化校园建设的步伐。
1 智慧校园是学校信息化建设的需要
由于近年来高校的不断扩招,校园系统资源及庞大信息数据之间的冲突日趋加剧。这就要求学校要不断改善系统资源和信息数据管理质量,以便更好地服务于师生。中国高校就现阶段而言,引进物联网技术,利用互联网技术、移动通信网络技术以及计算机软、硬件设备等,加快智慧校园数字化步伐,是当前智慧校园建设与发展的必经之路[1]。先进的信息化手段的应用,顺应了社会的发展需求,同时也能极大地提升高校的现代化管理水平,从而促进高校各项工作全面发展。
2 智慧校园建设的目标
智慧校园建设旨在打造一个灵活、智能、高效的校园系统。其一,校园管理者能够又快又准地获悉校园内的物、财、人以及研、学、管等方面的信息,因此在数据方面可以给业务流程的优化以及管理的改进奠定基础;其二,实现自然、人、设备、社会因素之间的相互联通,实现这些因素间互动的智能化;其三,经过集成并融合应用服务,校园管理者可以高效获得校园信息,实现信息共享,加快步伐实现生活、管理、教学、科研以及服务的智慧化发展。
3 智慧校园异构数据集成技术研究和构建
3.1 研究思路
构建基于异构数据集成技术的智慧校园,可以实现智慧校园信息的互联互通和资源的共享。为更好地推进智慧校园异构数据集成技术研究与构建,笔者认为可依据下列思路,开展相应的研究工作:
第一步,建立数据标准,畅通数据交换渠道。在着手开展数字化校园建设之初时,学校便已架构了包含教务系统在内的诸多业务系统。随着投入时间的增加,上述独立的系统会变得越来越成熟,然而各自都有一套自己的数据结构与数据标准,集成要求不一致,很难进行不同系统之间的数据交换。为了确保数据在采集、处理、传输以及交换时具备统一、合理、规范的描述与分类,应率先实施数据标准建设,紧接着以数据标准为依据建立数据模型,为数据共享和数据集成奠定基础。
第二步,构建数据模型,对各种数据形成的权威数据源进行梳理与归纳汇总,保障每个数据都有与其对应的数据源。比如,学生的数据基本上都出自教务系统,教职工的数据则大都出自人事系统,所有数据均有相对应的所有者与生产者,严格遵循“谁生成、谁负责”的原则,确保权责清晰。
第三步,寻找数据源,确定需集成至数据中心的数据。所有业务系统内均存在许多数据,其中大多数为业务系统自身产生的相关信息数据,就其本身系统而言意义重大,但是对别的业务系统而言则没有任何意义与价值,在数据集成时要排除这些冗余信息。实际上数据集成就是以结果数据为导向,具体操作时,要同步进行前三步的工作,确立标准的同时,要对源头进行梳理,小到字段信息均需实施数据集成确认操作。
第四步,打造数据中心,对数据进行转换、加载、抽取、清洗。在抽取数据时,应按照数据标准转换并清洗不规范数据,完全清理冗余数据,然后加载到数据中心。在进行数据转换时,要删除标记字段和时间戳字段。
第五步,共享数据,对数据进行高效管理。以服务接口为媒介,数据中心可以提供全天候数据共享,同时立足于共享数据,在充分考虑到学生的学习生涯与学校教职工的任职生涯结束之后,应用全生命周期数据管理方法对数据进行高效管理。例如,依据身份证件号,对学生的发展历程,教职工的在职、报到、离职等进行全生命周期数据管理。
3.2 构建方案
3.2.1构建数据模型
数据模型的构建要结合学校业务的开展情况,依据国家及行业有关法律法规,着重思考数据的查询、确立、维护、执行等功能,从而编制合理、统一的数据标准。在智慧校园建设调研过程中,笔者与学校教务管理系统、人事管理系统、财务管理系统以及资产管理系统等部门进行了充分沟通和确认,提出数据标准包含以下两种类型:
其一,代码标准。无论哪一个业务系统,其均需用到代码类数据,使用者统称其为代码,比方说籍贯代码、政治面貌代码[3]。智慧校园数据代码标准应当以国际通行的软件开发规范与标准为参考,依据《中华人民共和国教育行业标准JY/T1001-2012》以及学校的规定及发展情况确立。
其二,元数据标准。元数据,顾名思义指的是与数据有关的数据,是进行数据管理的前提[4]。通过使用元数据,可将数据库里数据的分布状况详细地记录下来。元数据标准必须符合数据的规范性、严谨性等要求,换言之,为降低操作期间出现信息损失的概率,要求元数据必须具有易转换性、互操作性。在确立元数据标准前,应先将所有元数据的源头明晰下来,确定属性。学校元数据标准应当在充分考虑学校业务状况的前提下确立,并应与学校资源的扩展实际相符。概言之,在进行数据集成建设时,要立足于元数据标准与代码标准,以数据标准为依据,积极转换已有系统的非标准数据资源。
3.2.2建设数据中心
以代码标准和元数据标准为参考依据,确立数据模型,建设数据中心,然后对数据进行清洗、抽取、加载处理。具体流程为:
(1)数据抽取
鉴于异构数据库在新的业务系统中得到了应用,但是在一些老、旧的业务系统中未得到有效维护,因此,在进行抽取数据的过程中,往往需要采取如下措施[5]:
①使用接口
优势:无需直接访问数据库,较为安全;在开发接口的过程中,可事先转换代码、格式,做好数据清洗工作,同时可在清洗、转换数据期间使用接口。
不足:要求业务系统技术维护人员参与系统研发环节,在字段出现改变的情况下,维护人员一定要积极做出应对,及时更新接口。所以,对于有专业技术维护人员的业务系统,宜采取此方式。
②直接访问数据库
优势:可对数据库进行直接访问,获取到视图或者数据表信息,无中间过程存在,无需额外开发。
不足:需要直接访问数据库,不够安全;在字段属性出现改变的情况下,视图将无法再继续发挥自己的作用,这种情况下就需要数据库管理员进行处理。也正因为这样,对于无技术人员维护的老旧业务系统,宜采取此方式。
(2)数据清洗与转换
在抽取数据环节,难免会遇到数据质量存在问题的情况,这时则需对数据实施清洗与转换操作,操作过程中,可考虑采取主键重复、格式内容清洗、非空检查、逻辑错误清洗、代码转换等方法。如果在实施数据清洗与转换的过程中,由于数据源内出现了代码不达标的情况,还需对不达标的代码等进行转码处理。
(3)数据加载
完成以上操作之后,需进行字段选择和排序,将源头数据与数据中心的数据进行对比研究。假定从数据中心无法发现某条记录,然而源头数据又确实存在,在这种情况下就必须新增操作予以处置。如果某条记录均出现于源头数据和数据中心,然而两者的数据又存在区别,在这种情况下应予以更新处置。
(4)元数据删除与超长同步时间解决方案
考虑到数据的完整性,存在于数据中心的数据将长久存在。但是在数据源记录删除的过程中,数据中心要怎样才能和数据源保持相同呢?笔者认为,应采用逻辑删除方案,也就是新增逻辑删除(SCBJ)字段至所有数据表内。例如,有工作人员删除掉了某一记录的数据源,且被检测到了,这种情况下在进行数据加载的时候必须设置对应的记录的逻辑删除字段为1,此外别的字段要设置为0。对于其他同步服务接口,则需予以过滤处置,以免其影响别的业务系统,采取此方式处理数据,可以有效地解决显示错误的问题。
一般而言,每一个业务系统内的数据有多有少,不尽相同,有些系统内含的数据颇多,导致别的系统在与其进行数据共享的过程中需耗费的时长增加。例如,全量同步40余万条记录,至少需要消耗100分钟,会影响到服务器的性能以及用户操作的满意度。对此,笔者认为可考虑采用时间戳(SJC)字段方案,也就是将一个时间戳字段增设到所有数据表内。不论是哪条记录加载至数据中心,若监测到存在变化的情况,那么立马把时间戳字段赋予当前时间。在进行数据同步处理的过程中,业务系统在初始化环节一次性同步全部数据即可,而在接下来的所有环节里面,均只需要看记录的数据和历史记录时间戳字段值之间的区别,从而判断是否有必要对此条记录进行同步处理。
在实践操作期间,要想使同步时间有所减少,可考虑使用时间戳字段,这样的话也可以简化系统运行的流程。结合时间戳字段与逻辑删除字段,可妥善地处理好历史数据存储的问题,所有记录均会被存储于数据中心内,不再可能遭到删除。
3.2.3数据全生命周期管理
数据中心中完成了大量数据的集成,如职称评审、部门调整、学籍更改等过程的全部数据。此次研究立足于此,提出了全生命周期的定义。不管人员信息发生了怎样的改变,只需输入唯一的身份证件号,即可实现对用户当前身份与状态进行智能的识别。因为历史记录无法彻底删除,一旦入校,学生与教职工的身份信息均可追溯,即可实现对全部在校人员的信息全生命周期管理。再者,在系统中可依据用户的状态信息以及身份信息赋予其对应的权限,这样就可以对业务系统的角色权限进行控制,实现精准访问。
4 结语
随着各高校的信息化发展,数据集成所起的作用日益凸显。不论是向用户提供何种信息化服务,实际上都应以研究数据集成为切入点,此次研究中探讨了不同业务系统异构数据之间的数据集成问题。日后,智慧校园建设应需完成数据治理,确保数据的完整度与可用性,并高度重视数据安全管理,对隐私数据进行脱敏、加密、模糊化处置,以确保数据运作的安全性、稳定性,从而达到实现教育信息化的目标。