大数据在统计工作中的应用及探索
2020-02-28刘成秀
□ 文| 刘成秀
大数据被称为是新型战略资源,它具有量体巨大、来源多样、生成极快、多变等特点且难以用传统数据体系结构有效处理的包含大量数据集的数据。通常被认为是采用多种数据收集方式、整合多种数据来源的数据,由机器具自动化或半自动化生成,不是专门为统计目的而产生,是有高度应用价值和决策支持功能的数据。大数据作为统计数据的来源“第二规”,应用领域广泛,几乎覆盖数据采集、存储、分析和发布等整个统计过程,对统计工作具有重要的补充作用。在行政记录数据的获取方面,国家统计局积极推进与各部门的合作,加快数据共享机制;在商业记录数据和互联网数据的获取方面,国家统计局不断加大与各类数据企业的合作力度,与阿里巴巴、百度、联通等大数据相关企业签署了大数据战略合作框架协议,利用企业数据完善、补充政府统计;在遥感数据利用方面,积极运用高新技术获取农业领域的海量数据,完善农作物播种面积和产量估计,提高农业调查的科学性、准确性和实效性。不同类型的数据源可用于政府统计数据的补缺,校验、评估、推算等各个方面,基于云计算、互联网、遥定位等领域的大数据技术,可以为政府统计数据处理提供有力度的技术支撑。2015年9月,国务院发布《促进大数据发展行动纲要》,其中重要任务之一就是“加快政府数据开放共享,推动资源整合,提升治理能力”,并明确了时间节点,2017年跨部门数据资源共享共用格局基本形成;2018年建成政府主导的数据共享开放平台,打通政府部门、企事业单位间的数据壁垒,并在部分领域开展应用试点;2020年实现政府数据集的普遍开放。
大数据的应用
1.在医疗卫生领域的运用。以往政府部门多利用对医疗机构的个数、就诊人数及次数等事后数据,对医疗服务状况进行研究,但引入互联网大数据后,可以使用在线数据对疾病发展趋势进行分析。通过对热搜关键词的研究,组建大数据模型,实现对某区域未来疾病动态数据的预测及各城市热点疾病的重点治疗医院进行排名。通过互联网搜索大数据的使用,将提高卫生监测部门对流行疾病发展状况的掌握程度,使其可以提前做好预防策略的制定,完善热点医院的管理督查工作。
2.在统计人口。以往政府进行统计人口的时候,需要消耗大量的人财物,才能完成普查,并获得数据包括全国和地区人口数量、城市和农村人口数量、人口性别比例、人口地域分布、年龄结构、出生死亡率等;若使用互联网,将极快的获取网民所在的地域、性别等数据,同时还可以通过对网民行为的研究,得出其消费的能力、兴趣爱好等特征。
3.在经济发展中的使用。以往官方都以月度、季度等对各项经济指标进行统计,现如今,互联网企业能够利用大数据实现所有经济指标的搜索与完善,使其在第一时间对国民的经济运行情况进行展现,让宏观经济监测及时性、可靠性及覆盖面积得以提高,同时也为宏观经济部门对未来经济的发展行情、预测等提供了数据支持。
4.在社会就业中的运用。以往政府部门都利用毕业生人数增长数量与劳动力需求增长状况的数据比较,分析就业形势。但引入互联网大数据后,就可以利用对网面搜索关键词趋势的研究,了解毕业生就业需求与压力所在。例如,通过对“找工作”一词的搜索数量变化,掌握毕业生求职需求,从而填补人社部数据空白,掌握社会就业需求及就业趋势,做好政策的制定与微调。
5.在价格统计中的运用。以GPI统计为例,价格统计的最新数据来源包括互联网企业数据、电子商务交易数据等,相关数据具有量大、更新速度快等优点,做好相关数据的使用,将进一步减少统计开支,增加指标发布次数。一般可通过以下三种方法利用大数据完善价格统计工作:一是采用搜索方式收集网上交易价格数据;二是与电子商务企业进行合作,获取交易价格数据;三是建立商场、超市、医院等实行电子计价的采价点向统计部门报送交易记录的制度。例如国家统计局从2014年起开展网络抓取部分商品的网络价格来预测居民消费价格指数(CPI)的试点,积极推进有条件的地区利用商场和超市的电子数据进行部分商品的价格收集工作,并利用超市和商场的扫描资料评估CPI新基期权数,等等。大数据在统计工作中如此广泛的应用,大数据时代的数据非常繁杂,数量惊人,近年来,数据安全和隐私数据泄露事件频发,凸显大数据发展面临的严峻挑战。在大数据环境下,数据在采集、存储、跨境跨系统流转、利用、交易和销毁等环节的全生命周期过程中,所有权与管理权分离,真假难辨,多系统、多环节的信息隐性留存,导致数据跨境跨系统流转追踪难、控制难,数据确权和可信销毁也更加困难。如何保证这些信息数据在有效利用之前的安全是一个非常严肃的问题。如何防护数据的安全性,加强安全防护措施显得非常重要。
大数据环境下的信息安全防护措施
加强数据结构化管理。结构化的数据便于管理和加密,更便于处理和分类,能够有效的智能分辨非法入侵数据,保证数据的安全。数据结构化虽然不能够彻底改变数据安全的格局,但是能够加快数据安全系统的处理效率。
加强网络层端点的数据安全性。常规的数据安全模式通常是分层构建。现有的端点安全方式对于网络层的安全防护并不完美。一方面是大数据时代的信息爆炸,导致服务端的非法入侵次数急剧增长,这对于网络层的考验十分的严峻;另一方面由于云计算的大趋势,现在的网络数据威胁方式和方法越来越难以预测辨识,这给现有的端点数据安全模式造成了巨大的压力。在未来,网络层安全应当作为重点发展的一个层面。在加强网络层数据辨识智能化,结构化的基础上加上与本地系统的相互监控协调,同时杜绝非常态数据的运行,这样就能够在网络层构筑属于大数据时代的全面安全堡垒,完善自身的缺陷。加强本地数据安全策略。由于大数据时代的数据财富化导致了大量的信息泄露事件,而这些泄露事件中,来自内部的威胁更大。虽然终端的数据安全已经具备了成熟的本地安全防护系统,但还需在本地策略的构建上需要加入对于内部管理的监控,监管手段。用纯数据的模式来避免由于人为原因造成的数据流失,信息泄露。在未来的数据安全模式中,管理者的角色权重逐渐分化,数据本身的自我监控和智能管理将代替一大部分人为的操作。在本地安全策略的构建过程中还要加强与各个环节的协调。由于现在的数据处理方式往往会依托于网络,所以在数据的处理过程中会出现大量的数据调用,在调用过程中就容易出现很大的安全威胁。这样就必须降本地和网络的链接做的更细腻,完善缓存机制和储存规则,有效保证数据源的纯洁,从根本上杜绝数据的安全威胁。建立数据中心安全系统。针对传统的数据存储,一般都建立了全面完善的防护措施。但基于云计算架构的大数据,还需进一步完善数据存储隔离与调用之间的数据逻辑关系设定。目前,大数据的安全存储采用虚拟化海量存储技术来存储数据资源,数据的存储和操作都是以服务的形式提供。基于云计算的大数据存储在云共享环境中,为了大数据的所有者可以对大数据使用进行控制,可以通过建立一个基于数据为中心的安全系统,从系统管理上保证大数据的安全。