大数据技术在统计信息化中的应用研究
2021-11-07刘智聪
刘智聪
摘要:随着大数据时代的到来,给政府统计工作带来了机遇和挑战。近年来,我国统计信息化建设取得初步成绩,但也存在一定的问题,大数据在信息化建设中的应用亟待深入。该文分析了当前统计信息化的现状特点和问题,提出了大数据技术在统计息化发展中应用的对策建议。
关键词:大数据;统计信息化;应用
中图分类号:F222 文献标识码:A
文章编号:1009-3044(2021)25-0146-03
随着电子信息技术的发展,大数据时代已经到来,大数据技术日趋成熟,在各行各业的应用面越来越广。近年来,我国大力推行统计信息化建设,充分利用信息化手段优化统计工作流程、工作方式和工作职能,不断提高统计服务能力,但对大数据背景下的统计信息化建设还需进一步探索。加强大数据技术在统计信息化建设中的应用具有重要意义。
1 大数据的概念和特征
1.1 大数据的概念
在信息化、数字化发展背景下,数据量剧增,结构也趋于复杂化,对于大数据的概念,目前没有完全统一的明确定义,但不同机构和学者对大数据的概念进行了探讨。维基百科对于大数据的定义是:大数据是指使用常用软件工具获取、管理和处理数据所耗时间超过科容忍时间的数据集[1]。Gartner研究机构认为:大数据是一种信息资产,具有海量、高增长率以及多样化的特点,需要新的处理模式,以获得更强决策力、洞察发现力以及物流优化能力[2]。美国麦肯锡咨询公司(2011年)认为:大数据就是对超大树数据的采集、存储与分析的新技术,这些新技术的内涵已经远远超出传统的技术范畴。国内学者徐子沛(2012)认为大数据的意义在于海量数据交换、分析和整合,通过大数据创造新价值、发现新知识,让大数据带来大利润、大发展、大科技和大知识[3]。
1.2 大数据的特征
尽管学者对于大数据的定义各有不同,但是均有如下几个特征:一是数据容量大,具有巨大的数据量以及数据规模的完整性;二是数据的来源多样化,格式多样,涵盖关系型和非关系型数据,数据之间的内在联系需要去发掘;三是高速性和实时性,数据从创建、处理分析是连续的和实时的;四是数据具有价值性,需要利用大数据技术,提取有价值的信息。大数据技术体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式数据存储、数据清洗、建立数据库、机器学习、查询分析、并行计算、数据可视化等[4]。
2 统计信息化发展现状
2.1 统计信息化的概念
统计信息化是将信息化技术应用于统计工作的统称,是利用计算机网络和通信技术,实现对统计数据的收集、管理、汇总、传输和发布功能,以高效地获取更多、更快、更准确地统计信息,从而提高统计机构的管理效率、统计人员的工作效率和统计数据的质量。信息化技术和统计工作的结合,可以推动统计工作和业务流程网络化水平逐步提高,进而提高统计数据质量、工作效率和优化统计服务。
2.2 统计信息化发展现状
我国的统计信息化建设始于20世纪80年代,经过几十年的发展历程,特别是“十三五”时期,统计信息化建设取得长足发展,为统计工作的正常开展提供了可靠保障,为提高统计工作效率、数据质量和服务水平提供了有力支撑。一是全国统计信息化基础设施不断完善,统计联网直报平台运营基本完善,统计信息网络覆盖范围不断扩大,系统资源建设稳步推进,系统运维和保障能力不断增强;二是信息化应用水平持续提高,除了联网直报系统可满足大量用户在线填报日常统计报表外,在各类普查数据采集处理工作中,通过不同采集方式在线采集各类数据,大大提高了数据采集效率和处理能力;三是统计数据管理和服务能力显著提升,已经建成微观数据库、统计基础数据库等,管理数据量近4000亿条,满足不同用户群体统计数据使用需要,同时在部门数据交换共享方面积极推进,成效显著;四是统计信息网络安全保障不断增强,网络安全标准制度体系和保障体系不断健全,安全管理与监控能力不断提升,重要统计数据和关键信息基础设施保护全面强化。随着新一轮科技革命深入发展、大数据应用日益普及,为提高统计生产力、变革统计生产方式、重塑统计生产关系提供了强劲动力。
3 大数据时代统计信息化存在的问题
大数据背景下,统计信息化建设要跟上时代的潮流,还存在一些短板和问题,统计信息化建设尚未充分利用现代信息技术发展成果,也不能完全满足统计现代化改革的新需要[5]。
3.1 数据采集的准确性和安全性有待提高
目前,国家统计局通过统计“四大工程”建设已经建立了较为完善的企业一套表制度,统一采用数据处理软件系统,企业和机构端用户各司其职,共同确保数据上报的准确性和安全性。但是由于企业配合度、统计人员更换频繁、统计指标理解不到位等问题,企业的数据质量难以得到有效保障;同时,企业数据仅来源于企业统计人员上报的报表指标,无法从企业的直接生产数据、上报部门的相关数据等指标对企业的上报数据进行核实,数据的准确性无法保障。在安全性方面,数据在网络传输的过程中,是否被篡改无法及时掌握,是否存在人为干预也无法判断,这对基层统计数据的质量带来一定的影响。
3.2 数据更新、维护和共享机制有待健全
一是名录库管理机制需要完善。统计信息化建设的一项重要基礎性工作就是进行单位名录库的建设、更新和管理,我们目前虽然有基本单位名录库管理制度,但是更新速度慢,手段落后,无法实现自动化管理和更新,在基层统计力量不足的情况下,无法做到对企业信息及时、准确更新。二是数据维护机制不健全,随着社会各界对统计数据使用的重视,各地各部门建立了各种类型的数据库,但是未形成统一的数据库标准;在数据维护上,仅仅依靠各专业人员,在业务工作量大的情况下,数据的更新和维护无法做到及时和准确。三是数据共享机制有待完善,目前统计数据库与各政府部门的数据实现了一定的共享和交流机制,但由于各部门的数据标准和规范不统一,因此共享获得的数据的清洗和整理需要耗费大量的人力和时间,资源的利用率有待提高。