智慧校园建设中数据治理体系的研究与实践
2020-01-08季红
季 红
(天津职业大学网络安全和信息化办公室,天津 300400)
1 研究背景
随着高校信息化的建设和发展,数据的问题逐步显现出来。如何有效地管理和利用数据,成为高校信息化发展的新方向。“十三五”智慧校园建设积累了大量的数据、日志信息,这些数据来源众多,缺乏统一的建设标准,独立存储,缺乏有效的整合,形成了新的“数据孤岛”,严重阻碍了学校的发展。按照《2020教育信息化和网络安全工作要点》的工作部署,推动教育数据的有序共享,实现更好的支撑校园服务应用[1]。高校要通过数据的治理与挖掘,提高数据信息价值,从而辅助学校决策,提高信息化管理服务水平。
2 高校信息化建设中存在的数据问题
2.1 缺乏统一数据标准,无法形成校本数据
学校缺乏统一的数据建设标准,缺少顶层规划,数据信息建设中各自为政,独立存储,无法实现数据的共建共享。系统数据在采集和存储过程中杂乱无章,缺乏有效的管理,不能形成权威数据源,无法形成标准校本数据。
2.2 数据质量不高,数据利用率低
学校虽然建设了数据交换中心,但数据存在严重的质量问题,数据来源不唯一,一致性差,固定格式的数据中存在无关字符,数据内容不完整,接口数据流失严重。数据中心里的数据没有进行精细化、全面化的管理,数据冗余较大,脏数据较多,工作效率极低。不能为数据展示分析、综合利用提供高质量的数据。
2.3 数据共享形式单一,缺乏数据综合分析
学校数据对外开放多采用中间库的方式,形式单一,共享内容不可控,对数据使用人员技术要求较高。无法做到全校重视,全体参与,负责数据的教师需要频繁与业务部门对接,重复开发大量数据视图或中间库,效率低下。学校管理缺乏数据的深度挖掘和综合利用,没有真正地发挥数据价值,无法为各级领导及广大师生提供校务数据综合展示的服务。
3 大数据治理的意义及目标
3.1 推动数字资源标准化,形成校本数据模型
从学校信息化建设的实际情况出发,以国标、教标以及信息化行业标准为指导,对全校数据资源和数据模型进行顶层规划设计,形成统一、全面的学校标准,使不同部门建设的应用系统之间数据相互流通共享,实现数据精细化的管理。建立校本数据模型,建立长期的数字资源集成共享机制。
3.2 统一数据治理,形成校内联动的数据业务体系
建设数据治理体系,形成数据资源池,构建全校资源主数据、共享数据、历史数据、数据仓库,形成学校新旧应用系统的数据交换体系,实现不同部门或单位的业务协同和信息融合[2],并为后续新建系统的无缝对接提供规范与基础。建设一站式综合数据服务平台,提供业务数据的采集、清洗、存储、服务、监控的全生命周期管理。
3.3 校园大数据分析,支撑学校信息发展与人才质量培养
利用信息和网络技术,用数据反映学校教学基本状态,校务管理的执行情况。进行深入的数据挖掘,进行数据关联分析,灵活运用聚类、分类等算法,探索或预测导致事件发生的相关性因素[3],为学校不同的用户群体提供智能的数据检索服务。为学校搭建学生安全管理、校外媒体监测、网络日志分析等丰富的校园大数据应用,支撑决策层集中掌握校园整体运行情况,打造大数据时代的智慧校园。
4 高校大数据治理平台的设计与实施
高校数据治理旨在深化学校的数据规范,建立一套符合学校实际需要的数据标准化体系,充分挖掘、共享、分析、利用数据资源,发挥数据价值。数据治理工作从数据质量出发,建立学校数据质量建设和管理准则。将制度落地,通过数据治理系统平台实现数据的集中采集、动态监控、规则执行和数据任务调度,从而发现数据问题,并形成预警,及时整改,实现数据的实时更新和同步。利用数据分析工具产生有用数据,辅助学校各项工作开展,为学校的智慧校园建设提供数据支撑。数据治理平台应包括数据标准管理、全量数据中心、数据质量管理、数据共享交换和数据挖掘分析等功能。
首先对学校数据建设情况进行全面梳理,实现数据信息从生产、存储、流动到使用的全过程进行调研,明确业务流程和数据应用关系,按照规范化的表达方式,展现出学校的业务现状和未来发展需求的公共基础数据模型及业务数据模型[4]。建立数据标准管理平台,为数据治理和大数据分析提供一定的标准规范,以保证信息的高效汇集和交换。进行信息化标准体系建设,厘清数据关系,明确各项数据责任人,全面掌握目前院内业务系统数据现状,使学院在信息的采集、处理、交换、传输的过程中有统一的规范,并且能够有效指导未来各个业务系统升级和建设工作,切实提高学院的信息化标准水平。
建设学校全量数据中心,覆盖整个业务域,从业务系统中提取核心数据,通过抽取(extract)、转换(transform)、加载(load)过程,存储到全量数据库中。再进行集中数据的清洗和验证。依据信息标准规范,对全量数据库进行配置化备份建设历史数据库;通过核验功能,对数据库的规范性进行定期校验,强化数据库的规范性;最终数据中心以服务的方式把统一的、完整的、准确的、具有权威性的主题数据传送给学校范围内需要使用这些数据的操作型应用系统和分析型应用系统[5]。
建成数据质量监控平台,根据不同类型的数据问题,项目将采取相对应的数据质量检测和治理方式。对全校的数据进行实时监控,借助数据质量监控工具,形成权威的数据质量报告,推动学校数据质量完善,深度挖掘数据价值。要求实现:(1)完备性,数据拥有所有必须或适当的部分,拥有的是整个成品的全部。完备性的第一条件是存在性,数据必须存在。(2)一致性,同时满足稳定性和连贯性,必须实现不存在变异或变更。(3)及时性,数据显示要求及时更新,对于数据处理,及时性与数据的可用性相关,要求在一定程度上在正确的时间有他们需要的数据。(4)有效性,数据对一组业务规则、标准或已定义的数据值域的符合程度。(5)完整性,数据对(由数据模型定义的)数据关系规则的符合程度,这些规则的目的是确保数据对概念进行完备、一致和有效地表示。
构建数据开放共享平台,实现数据的共享开放。数据开放共享的意义在于把高校的数据服务,像水、电、煤一样输送给有需要的业务部门、应用系统、开发者、学生和教工团体。面向校级业务部门、二级学院、广大师生及个人用户提供基于权限控制的应用平台,向各类用户开放数据集、数据接口和数据应用3类资源。规范部门间的数据交换,将对开放的数据进行集中管理,使学校数据中心成为发布数据唯一的权威来源。
最终通过大数据的分析和挖掘技术,关联分析学生、老师以及其它几个层面的深度画像,清新地展示不同对象的个性化特性,助力教学及管理过程的个性化和特色化。对在校学生个人信息和学生行为信息的关联进行分析。基于学校的学生素质评价体系,构建每个学生的多个维度的模型,综合各个维度的情况建立全校学生个人行为画像和综合画像,树立学校优秀学生的行为画像,宏观和微观展现学生各方面的情况,有利于学生了解自身整体情况以及和优秀学生的差距,有利于学校统筹规划学生的培养和管理。同时,分析每个学生的素质、技能的发展趋势和学校排名,剖析综合素质和专业技能上升和下降的原因,提供学生、班级和学院的目前素质状况、历史对比和排名对比的行为画像分析报告。
5 结语
通过大数据治理,形成标准化校本数据,以真实的数据进行深度挖掘和数据分析,形成学校人、财、物的综合展现和动态监控,为领导决策提供数据参考。同时通过多维度的分析,掌握学生学习和生活状态,记录成长轨迹;推动个性化的学习和就业,实现精准教学和管理,促进学校的发展。