人口与发展数据整合研究
2017-03-30侯亚娟
侯亚娟
摘要:当前人口与发展数据资源没有得到有效的开发和利用,存在数据标准化低、共享程度低、集中度低等共性问题,本文以Q市卫生计生部门为例,在深化部门信息共享的基础上,建立数据源质量控制机制,通过人口与发展数据仓库,来整合人口数据,为深入分析人口及相关宏观综合信息和为人口与发展的决策提供支持服务。
关键词:人口与发展;数据整合;数据仓库;数据质量
中图分类号:C924.2 文献识别码:A 文章编号:1001-828X(2017)001-0000-02
人口与发展数据是信息中的基础性、战略性信息,合理准确利用人口数据,它可以为人口政策、劳动力供求、城镇化,以及教育、交通、住房、社保等问题提供基础依据;对重大问题进行监测评估、挖掘分析、预测预警;为人口发展战略、人口规划提供科学依据。
一、目前人口数据情况分析
目前计生系统使用的数据主要包括:人口普查和专项抽样调查数据、计生业务系统数据以及其他部门的宏观统计数据等。
1.人口普查和专项抽样调查数据
(1)人口普查数据。是指在国家统一规定的時间内,根据国家行政和社会、经济以及科学研究的需要,按照统一的项目、统一的表格、统一的时点和统一的填写方法,对调查区域内的全部人口,逐一地进行调查和登记的过程。(2)人口经常性登记调查数据,包含城乡居民的出生、死亡、常住、暂住、迁入、迁出、婚姻等变动信息。(3)人口抽样调查数据。是从总体中抽出一部分进行调查,并将调查结果推断说明人口总体状况的一种调查方法。
2.计生业务系统数据
计生业务系统数据包括育龄妇女信息管理系统(WIS)、人口共享平台、流动人口信息管理平台、国家人口与宏观管理和决策支持系统以及其他业务系统。这些系统在运行过程中,积累了大量数据,也是我们研究人口数据的重要资源。
3.相关部门的统计数据
主要包括国家统计局、公安部、民政部、劳动和社会保障部等相关部委的人口与经济、社会、资源、环境综合宏观统计数据。主要包括普查、专题调查的汇总数据和统计年鉴数据。
二、人口数据资源利用情况
在人口数据资源利用方面,卫生计生系统和其他政府部门,都没有对数据进行有效的开发利用,都存在很多问题和障碍,人口以及相关统计显现范围广泛、部门众多、项目繁杂、方法多样等特性问题,使人口数据出现标准化、共享化、集中化程度低。
1.数据标准化程度低
因数据的来源没有统一规范,数据的格式、指标解释、共享接口不统一,影响了对数据的利用。同时,即使是同一统计数据,也可能存在着统计范围不同的问题。所以在数据的使用过程中,数出多门、数出多源、标准程度低以及变动性使得人口数据的使用率低下。
2.数据共享程度低。一直以来,民政、统计、公安、人力资源和社会保障、住房和城乡建设等部门都积累了很多和人口相关的信息,但是一些部门对信息共享积极性不高,同时,缺乏信息化建设的统筹考虑,使得数据没有统一标准,兼容程度较低。在计生系统也存在着同样的问题,育龄妇女信息管理系统(WIS)是各个省自己开发的,没有系统的互联互通,就形成了“信息孤岛”,降低了信息的整体使用效能。在计生系统内部,多年建设的信息系统,因为交互性差,数据更新不同步,还存在功能模块重复开发、利用率低等问题,造成数据冗余、重复输入,不一致等问题。
以Q市为例,Q市卫生计生部门系统内部提供新生儿接生信息、出生医学证明信息、计划免疫等信息,但是和公安以及民政部门的人口信息共享未能全面做到。市卫生计生共享平台每月导入其他部门的共享信息,来对WIS数据进行比对、更新。但信息共享程度不够,影响了人口数据的完整性和及时性。
3.数据集中度低
目前,人口数据存在以各种存储介质存储,甚至还有以图片、视频等格式存储,造成数据集中度低,难以提供统一的数据查询服务。
以Q市卫生计生部门为例。最近几年,信息化等到了长足的发展,在全省率先启用了新版育龄妇女信息管理系统和省共享平台,同时在信息化方面投入的大量的人力物力,提高了数据的集中度,但在基层,还存在着一些人口相关数据依赖于表、单、册来存储的现象。
三、整合数据,建立人口与发展数据仓库
人口与发展数据庞大,要整合数据,建立人口与发展数据仓库,就要深入挖掘数据,充分利用各种数据源,加强信息共享,确保数据源质量。
1.制定完善的人口信息共享机制,为人口与发展数据扩容
在统计、公安、教育、工商、卫生计生等部门之间搭建信息平台,建立顺畅的人口信息及相关经济社会宏观信息资源的交流与共享机制,实现信息采集的多渠道、全覆盖和及时准确,切实提高数据信息的共享程度。在卫生计生系统内部,要打破各省自行开发,形成“信息孤岛”的情况。在同一信息不同部门,通过办公自动化系统,在卫生计生上下级之间、部门之间实现网络互动,同时要实现各个系统数据的共享,从而实现人口与发展数据的共享。
2.建立数据质量控制机制,保证人口与发展数据质量
数据质量问题普遍存在于各种数据源之中,在数据整合过程中,虽然可以对数据进行一定的修正,但其作用极其有限,所以数据质量控制至关重要。
建立数据质量控制机制,对于卫生计生内部的业务系统,要规范数据源数据的录入。从数据标准规范、数据校验、数据的定期清理、操作规范等方面进行严格要求,尽可能保证数据质量。
3.整合人口与发展数据,建立人口与发展数据仓库
在完善人口信息共享机制,扩容人口与发展数据,保证数据质量的基础上,整合人口与发展数据,建立人口与发展数据仓库。数据仓库是面向主题的、集成的、稳定的、反应历史变化的数据集合,见图1。首先对人口与发展数据源进行数据预处理,即对部门共享数据、计生系统内部数据、调查数据以及其他人口与发展数据进行抽取、清洗、转化、加载,去掉人口数据中大量的冗余信息、错误信息,转化人口数据中各种不标准数据。把这些经过处理的数据集中存储到数据仓库。通过对数据源的增量抽取,将数据源中新增的或修改的数据抽取,来更新数据仓库,保证信息的及时性,准确性以及完整性。
同时,对卫生计生的数据应用服务都基于统一的人口发展数据仓库实施。包括数据查询;数据挖掘,对人口发展数据仓库中的数据,特别是微观个案数据进行关联分析,获得关于数据的新的知识和信息,为决策提供服务;GIS应用,显示人口数据地理分布;人口与发展主题分析和集中展现;为决策模型的运行提供基础数据和各类参数的选择;对外人口及相关信息查询服务。
四、结语
人口与发展数据的整合,在部门之间,要尽可能的提高和部门的人口数据的共享程度,弥补自身信息范围的不完整性。在计生系统内部,要建立数据质量控制机制,确保数据质量,通过数据仓库,对数据进行整合,为深入分析人口及相关宏观综合信息,预测人口发展趋势,提高人口与经济、社会、资源、环境综合决策的科学性为人口与发展的决策支持服务。
参考文献:
[1]李永胜.人口统计学.[J]成都:西南财经大学出版社,2002.
[2]苏鹏艳.数据整合及数据仓库在政府经济管理信息系统中的应用[D].2009.