基于决策分析理念的高校数据治理经验与挑战
2021-09-27谷骞
谷骞
摘要:打通系统之间壁垒,避免数据孤岛。规范数据结构,在已有业务数据的基础上从实际需求出发建立数据分析和展示平台,从采集、规范、关联、挖掘、建模、可视化等方面,充分、有效地利用数据,让各类数据用通俗易懂的方式描述学校业务发展的历史、现状及发展规律,让学校决策层面和业务管理层面能充分了解业务情况,并获得关键指标的预测和预警信息。
关键词:数据分析;决策分析;数据治理;高校信息化
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2021)19-0031-04
随着科技日新月异的发展,学校原有各个业務系统功能自身描述实现性高,但除去共有的基础数据外,彼此之间缺乏扩展性数据的高效互通渠道。大量的扩展性业务数据积累是学校高价值的无形资产,却长期得不到深入挖掘和有效利用,对于学校的业务分析而言,有必要统合数据,建立业务关联,深度挖掘数据价值,让数据发挥应有价值,为学校业务决策提供有效支撑。
1 数据分析必要性
当今时代,科学技术是第一生产力,人才资源是第一资源。高校作为人才培养的重要基地,承担着非常重要的使命和任务。学校要发展,归根结底就是科研能力和教学能力的双面提高。大多数学校为探索发展道路,首选即为调研兄弟院校,学习经验。然而不同的学校侧重点不同,专业发展和经费支持方面有很大的差别。因此根据往年发展经验,及时找出短板与不足,个性化定制发展方案,才能最大化适应学校实际[1]。
将校园、师生、教学、科研等信息以聚合的图形方式直观地展示出来,使决策者能总揽学校的各个关键指标,快速发现潜在问题和短板,及时调整管理和教学策略,提升决策质量,引导学校进入可持续良性发展轨道[2]。另外智慧决策系统也通过行为分析,发现学生和教职工的需求倾向和诉求痛点,为师生的校园活动提供便利。
2 数据分析基础
高校为方便管理,建设了许多业务系统,如教务系统、学工系统、科研系统、一卡通系统等,实现了数字化办公、学习等[3]。也因此积累了大量的教务教学、科研管理、人才培养等多方面有价值的数据,为数据分析的提供了充足的数据基础,能够满足更高级别信息化的需求,因此建设依托现有的共享数据库和数据交换平台的智慧决策系统的条件已经成熟。如何用好现有的数据、激活数据价值,成为下一阶段校园信息化建设的目标[4]。如图1所示。
获取数据是进行决策分析的核心任务,可以用一下几种方式来获取对应的数据:
1)结构化数据采集[5]
结构化数据的采集支持多种数据源,包括数据库、文件系统、Excel、Xml、LDAP、SOAP/WebService、CSV文件和RSS等各种数据源。支持的数据库包括DB2、Oracle、MySQL、MS SQL Server、Sybase等各种主流数据库。
2)网络数据爬取
网络信息爬取技术上使用通用的爬虫工具和框架, 备选有scrapy和pyspider。需要爬取的信息不在校内存储的数据,爬虫爬取适合有一定数据量或定时更新的可公共获取的数据,需要爬取的信息占比较少,也可以通过其他方式获得,如线下导入。业务场景中可使用网络爬取采集方式的数据包括:生源质量和生源分析中涉及的各省历年高考数据、来源学校的信息数据;毕业生满意度场景中企业关于毕业生满意度的数据与其他学校横向比较的毕业生竞争力信息。
3)外部接口数据采集
外部接口数据采集指将校内或校外的通过标准API接口方式开放的数据采集到智慧决策系统内的过程。通用的行业标准接口包括REST API和Web Service。系统应支持外部来源的标准化数据接入,通过动态配置数据源接口地址的方式接入数据,并动态识别接口数据格式,通过配置的方式选择所需的数据项。
4)线下数据导入
线下数据导入指部分线下业务产生的业务数据通过标准的数据模板导入到系统内的过程,通常由分析业务决定数据导入模板的格式,业务数据按模板格式填充后导入系统中。系统支持以Excel模板的形式导入数据。
线下数据主要是各业务系统未录入或未及时录入数据库的数据,以及数据量较少的公共数据,是ETL脚本采集和爬虫采集的补充。线下数据录入并不是系统推荐的数据采集方式,只是在业务系统数据库建设不完善的情况下的一种临时解决方案。督促各业务系统完善数据库建设、最终消除线下数据导入的采集方式是建设本系统的目标之一。
5)网络设备数据采集[6]
一些场景(如学生预警分析)涉及学生上网记录、活动范围、一卡通消费记录[7]等,需要分析AP、上网行为监控、认证计费系统等网络设备日志。可考虑采用syslog或Flume集群等方式对接。
获取数据之后,通过可视化方法充分展现。才是决策分析的目标和意义所在。在可视化展示时,将有关联的多个场景放在一起,形成主题,方便决策者及时了解目前科研教学现状,进而制定出符合发展的规划和决策。
3 挑战与解决思路
1)数据标准不一,易造成数据孤岛
业务系统在建设初期,主要基于管理者的角度来设计。而业务需求方主要站在自身管理便捷的角度,不会充分考虑数据互联互通的问题[9],如图2所示。例如本科生上课系统和研究生上课系统,都需要使用学校教室公共资源。由于承建单位不同,且研究生与本科生教育模式差别较大,两个系统的课程安排数据结构设计差异明显。因此造成的后果就是可能会发生上课时间地点冲突。因此必须制定统一的数据标准和规范,在信息化系统建设初期要求按照标准和规范来设计对应的数据结构,方便应用系统采集对应数据,减少数据孤岛和人为干预。
2)共享数据库不完善