教育统计历史数据的信息化管理设计
2021-01-06成都冯媚
■ 成都 冯媚
编者按:随着信息技术的发展,大数据时代的来临,数据无论在工作还是在生活中发挥的作用越来越大。教育行业统计多年来积淀了大量的历史数据,如何让这些躺着的数据醒过来更好地为教育决策咨询服务,笔者在工作中做出了尝试。本文详细地论述了笔者开发统计平台,盘活历史数据的案例,包括平台开发工具的选择,数据管理功能模块设计,用户权限设置等,供同行们参考。
作为教育部纵向组织管理的两大统计,事业统计和经费统计已有数十年的历史。累计经年的统计工作,积淀下大量珍贵的历史数据,如实反映了国民教育变迁发展的历史足迹。在教育事业发展和信息技术革新的双重推动下,事业统计和经费统计从报表设计到指标解释、从采集软件到存储系统,都一直处于变化和发展状态。虽然这是统计事业发展的必然,但却给我们使用历史数据却带来了诸多困难。
统计工作最终目的是提供数据服务,为教育监管与宏观决策做好全面、及时、准确的数据支撑。实际工作中教育统计部门经常需要提供五年、十年甚至更长时期的历史数据,如何快捷方便地查询使用存储在各种“古董级”软件中的历史数据,成为亟待解决的难题。
由于统计软件更新换代频繁,且各版本之间不兼容,而通常我们使用的电脑仅能安装最近几年的统计软件系统,久远的历史数据就无法通过统计系统查询获取,只能直接对数据库操作。这需要统计人员必须既熟悉报表业务又熟悉各种数据库语言,而且即便这样,多年数据在短时间查询处理,极易发生误差。
随着社会发展,各政府部门、学术机构、公益组织乃至公民个人对教育官方的数据服务需求多年来呈直线上升趋势,历史数据应用困难的问题日益突出。为此我们教育统计部门开始寻找一种统筹性解决办法,以期彻底解决快速准确地处理历史数据的问题。随着计算机和互联网技术的发展,数据仓库、算法电路、数据清洗、图像识别、云计算、网页加密等领域的新成果,使我们可以利用全新的软件系统对海量的历史数据进行统筹管理,实现自定义查询,快捷准确地提取历史数据。于是,我们对数据查询平台的建设需求方案进行了整体设计。
首先,统计平台整体要求采用当今最流行网络开发平台工具J2EE(Java 2 Platform,Enterprise Editi on)开发。J2EE 界面风格新颖,BS 结构,具有后台管理、程序优化、管理级别权限分配、访问账号分配等基本功能。软件功能随教育部口径和数据结构变化而变化,软件易升级和修改。统计平台使用范围为三级,分别是市级教育行政部门、区县级教育行政部门和全市各类学校(单位)。
平台主要包含三项功能模块
1.数据管理:对2003 年以来的历史数据库进行清洗调整,形成标准数据库格式,供查询系统调用:数据导入功能,能对未来数据进行标准化管理,实现各种查询功能:有数据接口,能与市教育局其它数据库对接。
2.数据查询:经清洗的数据库,分事业统计、经费统计报进行数据查询。查询功能包括基表查询、综表查询、自定义查询,重点实现跨年度同指标的历史数据查询。
3.用户权限管理:按平台操作管理权限分为超级用户和普通用户;按对数据访问范围分为市级、县级和学校级用户。
数据管理
具体来说,数据管理包括历史数据库清洗和数据常规管理维护。数据按重要性分类管理:系统所有数据均按标准格式储存,分为三部分:基础数据库、工作数据库、综合查询数据库。其中基础数据库平时为只读状态(需文件簇级加密管理),只有超级用户才能在输入密码后进行基础数据库的导入和维护;工作数据库为平时接收或输入的数据,可自由查询和更改的临时数据。超级用户可以把工作数据库中的部分或全部数据转入基础数据库。综合查询数据库是利用基础数据库和工作数据库生产的各中间过程表为主,一旦生成可永久保存。
1.历史数据库清洗是将历史数据按统一的数据库格式进行梳理,清洗过程中每张基表增加2 个机动指标,便于单独赋值,方便数据筛选。
具体为:
(1)将2003 年以来的全国教育事业统计系统和全国教育经费统计系统的数据库通过专业的数据清洗和整合工具,进行逐校的清理整合。该数据清洗与整合工具需支持Visual FoxPro、MS SQL Server、DB2、Oracle、MySQL等多种数据库形式。
(2)整合过程中需坚持“求同存异”原则,必须忠实原始数据,保证不同年份的同一学校名称一致,同一报表同一指标项名称属性一致,不同学校、不同指标项按一定规则赋名留存。通过整合清理,确保历年历项数据之间的联系,妥善处理指标变更、学校合并拆分等数据异常情况,为跨年跨表的历史数据查询统计做基础。
2.数据常规管理维护包括:
(1)能直接导入教育事业统计、经费统计基表数据库数据(Visual FoxPro 或者SQL 数据库),有基础数据DBF 导出功能,并能将市本级、高新开发区等无单独行政区划的区域学校数据从总数据中分离,且此操作可逆;能读入图片格式报表,导入到数据库管理;能读入Excel表,并转换成数据库格式。
(2)数据管理与维护工具需要具备友好的用户界面,流畅的用户体验,有新建不同格式数据库表功能,使用超级用户能对基础数据进行修改。
查询系统
1.查询的数据源为历史数据和未来数据
首次建设开发的数据包括教育事业统计数据、教育经费统计数据等,事业统计包括普通中小学基础教育报表、职业技术培训和中等职业教育基础报表,包含二维表约68 个(41+27),经费统计基表12 个,每年包含的统计数据项近4 000 个。
2.查询内容
通过软件实现基表查询、综表查询、动态查询,查询界面采用单视窗多图并列显示,对各中间步骤生成的临时查询数据表以及最终生成的结果数据表,均可自由选定区域进行复制、公式计算、打印和Excel 导出等操作,并可根据多条件综合分析需求生成各种分析图表。
(1)基表查询:按照教育部事业统计、经费统计基表查询功能设置,对基表的筛选条件进行扩充,除了“区县名称”“学校类别”“学校办别”“城乡类别”,增加“乡镇类别”,以及两个机动指标。
(2)综表查询:参照教育部事业统计、经费统计软件的综表表样进行固定格式查询,增加对综表每个数据分区县和分乡镇过录查询功能;自动生成我们每年固有的统计资料汇编数据信息表;自动生教育公网数据公报;自动生成报统计局固定格式报表;自动生成城乡均衡、现代化监测数据表等教育行政部门需要的固定格式数据表。
(3)动态查询:分基表提数和综表提数查询。查询界面能点击选择所有表样,查询数据值可以定位到任意报表的不同主栏和宾栏单元格。窗口可以同时打开三个以上表样,以便选择所要查询的指标,选择指标的同时确定筛选条件(能实现多个条件通过“或”、“与”、“不等于”、“大于”、“小于”等方式筛选查询),指标间可以进行公式定义,通过软件自动生成查询数据信息表(包含计数、求和等)。
查询结果能以表格、图形等多种形式展现。
权限设置
系统根据使用权限分为超级用户和普通用户,超级用户能查询管理系统,并对基础数据进行修改;普通用户只有查询使用功能。
普通用户分为学校级、区县级、市级三级;系统权限由市级统一管理。市级管理员可对下级用户的数据可视范围和功能使用范围做灵活配置。当前配置要求如下:
“查询”模块中学校级只能查询本校数据,区县级只能查询管辖范围学校数据及汇总数据,市级可以查询所有数据。
平台除了满足各项查询管理功能外,还需要具有
1.稳定性:软件平台优化,运行稳定,远程访问客户端兼容各种主流浏览器和操作系统,远程访问稳定,不死机,能允许3 000 个用户同时访问服务器,并发6%。
2.保密性:系统对数据库要有加密措施,确保数据在网络上的安全。
3.操作方便:有简单易懂的软件使用说明书,软件客户端易安装,兼容性强,系统操作界面友好,经简单培训使用人员就能轻松上手。
历史数据整合平台在设计上几近完美,但在具体建设过程中却遇到很多困难。由于涉及到2 000 多所学校,十多年的基表数据,清洗起来异常困难,加上不少学校更名,逐一核对建立关联,费时费力。为了方便开发,我们对清洗数据库要求进行了简化,由原来的全部统一改为分段统一,这样避免了某些年份统计报表库结构变化大带来的清洗困难。
实施过程中服务商在平台开发中的难题及解决方法
1.数据清洗
数据库包含Visual Fox Pro、SQL Server 多个版本,以及对应的数据库结构,其指标名称、指标属性、指标增减,经过十多年的历史演变,变化比较多,这直接导致数据清洗整合难度大,服务商采用自身的核心技术产品DCI 进行数据清洗与整合工具,对各科目历年数据进行清洗,努力提高清洗效率和准确性。
2.数据安全
在数据查询需要做到灵活性、高效率和安全性兼顾,安全不仅仅要考虑数据查询的过程安全也包括数据转移的行为安全性,服务商参考数据铁笼建设思路,对数据进行加密,在保证数据管理安全的情况下也监管了数据访问行为的安全,在数据流出数据中心远程边界时能确认是谁在操作相关数据,数据去向可追踪。
3.查询效率
因为数据牵涉的科目和年份维度较多,且系统要支持数据大容量、高并发,为保证数据查询效率,康赛参考Oracle 分区技术,改善查询性能,对分区对象的查询可以仅搜索自己关心的分区,提高检索速度同时均衡I/O,可以把不同的分区映射到磁盘以平衡I/O,改善整个系统性能。
总结
平台现已开发完成,设计的大部分功能都已实现,尤其是动态查询功能,使我们快速准确查询到几年历史数据成为现实,提高了统计服务效率。但要开发出尽善尽美的数据整合平台不是一蹴而就的事,还需要在使用过程中不断完善。如何建立教育基础信息数据库,使教育统计数据不再通过人工填报产生,而是随着业务产生,这样的数据将更加准确、更加及时,这是未来教育统计发展变革方向,也是我们教育统计行业奋斗的目标。