大数据背景下统计数据质量控制方法研究
2022-06-25张海亮
张海亮
(山西工程科技职业大学 计算机工程学院,山西 晋中 030619)
一、引言
随着大数据时代的到来,其数据量大、信息价值高、更新速度快等特点为统计工作拓宽了信息来源,带来发展机遇,同时也提出了诸多挑战。在大数据发展背景下,经济社会发展数字化改变了统计信息源的环境,促进了统计工作的信息化与数字化;借助大数据技术,统计工作的效率与质量得到有效提升。从另一方面看,大数据环境下,“数出多源”“一数多源”等数据质量问题,以及大数据统计模型建立与使用,在一定程度上也制约了统计大数据的有效应用。如何解决数据数量与质量之间的矛盾,如何在统计工作中充分发挥大数据优势,已成为各级统计部门亟须解决的紧迫课题。
二、大数据背景下统计数据质量内涵
在社会生产数字化建设和数字经济加速发展的背景下,“数据”已被普遍认为是一种新型生产要素,在经济社会发展发挥着越来越重要的作用。数据的质量决定着数据的价值,也从根本上影响着数字社会的形成。数据质量,是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度[1]。通俗地讲,数据质量是数据本身所具有的属性满足使用者需求的程度,一般包括真实性、准确性、实时性、完整性和安全性等。在不同历史时期,不同业务领域、不同用户对数据质量的要求不同,对数据质量不同属性的关注程度也存在差异性。
随着信息技术发展和社会各行业数字化进程的加速,数据统计应用需求和场景也在不断扩大,统计数据的用途、使用范围、应用方式、统计指标等也都在发生着深刻的变化。在不同时期,不同国家(或地区)对统计数据质量有不同的定义和要求。它是综合性概念,可以从多个维度反映不同特征因素,包含准确性、及时性、可用性、可获得性、可比性等。统计数据的真实准确是统计数据质量的核心,同时兼顾时效性、可比较性、适用性、保密安全等维度[2]。
由于统计数据质量直接关系政府公信力与权威,且对治国理政决策有重大影响,世界各国越来越重视统计数据的质量管理。在大数据背景下,统计数据的质量除了一般定义下的数字质量属性外,围绕应用需求和客户需求,在数据全面性、系统性等方面提出了更多更高的新要求。
统计数据质量管理与经济社会发展、技术进步、外部环境紧密关联,具有明显的时代特征。在当前大数据背景下,对统计数据质量进行深入研究,提出统计数据质量管控策略对提高统计工作质量和效率具有重要意义。
三、大数据在统计工作中的应用
大数据概念从提出到应用,经过了一个快速发展的历程。随着应用与发展的不断深入,大数据所引起的变革已经深刻影响到社会发展的各个领域。统计大数据在数据来源、数据类型、数据价值、存储量、计算速度等方面与传统统计数据有明显的差异。21 世纪初,关于“大数据量”统计的研究和探讨开始见诸期刊和报道,大数据开始逐步应用在不同业务领域的统计工作中。
(一)应用情况
2013 年国家统计局全国统计工作会和务虚会中,明确提出要树立大数据意识,加快大数据应用步伐[3]。2013 年11 月,为积极推进大数据在政府统计中的应用,国家统计局与百度、阿里巴巴等多家企业签订了大数据战略合作框架协议。同年,许小乐[4]针对“大数据”对政府统计工作的挑战和影响进行了研究。大数据在统计工作中实质性的应用开始不断落地。
简单来说,大数据在统计工作中的应用可以概括为以下几个方面:
在政府统计大数据平台建设方面,国家层面统计大数据中心和网络体系不断完善,统计信息资源大数据稳步发展。2013 年,南通市综合数据管理平台[5]一期工程建设完成,探索了部门信息归集运用新模式。北京、上海、重庆、山东、江苏、甘肃、海南、河北等省(市)统计局均先后建设了大数据平台,应用大数据来提升政府统计数据质量。大数据体系、大数据综合平台的建设和发展有效支撑了政府统计工作。
在政府政务工作中,基于大数据课时实现对国民经济运行指标统计和运行状况预测分析,提高宏观经济运行监测的准确性、实时性;以公安人口信息系统、人口和社会统计数据库(人社数据库)、互联网数据等多口径来源大数据能够实现更加精准详细的人口统计信息;在价格统计中,利用互联网企业数据、电子商务交易数据,以及超市、商场的商品结算信息等大数据,可以实现价格指数更加及时、准确的统计,降低统计工作成本,增加价格指标发布频率和次数[6-8]。
此外,大数据在就业统计、失业预测、交通运输、公共卫生[9]、商业零售服务、电商CPI 统计[10]、司法统计、金融统计[11-13]、证券行业预测、网络社交统计、环境保护和气象等其他专业统计中的也得到了广泛应用。
(二)存在问题
实践表明,大数据应用于统计工作在推动政务信息共享利用,提高统计数据质量,提升统计效率,降低统计工作成本,增强常规统计时效性,丰富统计范围,提升统计服务质量等方面都发挥了非常积极的作用,取得了较好的效果。但是,应用中也存在一些问题。
1.源头数据质量难以控制。在大数据统计中,统计数据一个主要来源是由调查对象自行填报通过联网直报系统获取,源头数据质量难以控制。此外,通过其他方式获取的数据由于缺乏校验机制,数据在准确性、完整性和一致性也难以保证。
2.数据缺乏标准,获取困难。在大数据背景下,为了增加数据的全面性,相关机构和部门建立了各类数据中心,在采集、整合数据的过程中,不同来源的各类大数据由于没有统一的数据格式、缺乏数据标准、技术标准和系统接口标准,阻断了数据采集、交换与共享的通道,增加了统计数据获取难度,阻碍了大数据的有效共享和高效利用。
3.数据安全性保障不足。为不同领域和部门服务的统计资源库由于受限于信息化基础设施,统计数据资源存储方式、数据库管理系统在出现故障或异常时,往往引起数据丢失,造成损失;同时,统计大数据的综合利用也给政府敏感数据、公民隐私信息等数据安全带来隐患。此外,在互联网、云计算等大数据应用环境中,信息丢失、数据破坏也可能造成难以预估的不良影响。
大数据在统计中的应用,给政府统计职能、统计手段、统计业务生产流程、统计工作相关机制体制和法规制度建设等提出了一定挑战。
四、大数据背景下统计数据质量影响因素
在数据采集、处理、存储、应用、展现直至消亡的生命周期中,数据处理、数据应用、数据表现和数据管理等不同维度中各类因素和流程都可能影响数据质量。特别是大数据背景下,数据全生命周期管理具体内容发生了质的变化,数据质量影响因素及其影响贡献率也随之发生了变化。
统计大数据的质量影响因素主要包括以下几个方面:
图1 统计大数据质量影响因素
(一)统计大数据采集
面对大数据环境,在统计数据采集中,数据源与采集方式包括人工统计报表导入、应用系统数据交换、传感器采集、网络爬虫抓取数据等。人工统计报表导入是相对能够保证数据质量的一种大数据采集方式,但是,其效率较低,同时,在报表导入过程中,由于原有表格规范性和导入系统程序接口兼容方面,可能会在数据导入过程中出现错误,特别是报表中的“空值”和“0 值”;传感器采集在统计数据质量检验、特定对象跟踪统计、动态交通流统计、国民经济核算经济流量和存量测算等方面取得了较好的应用效果,传感器本身采集的准确性,以及数据的安全性是当前传感器数据采集的主要制约因素。
采集数据的时效性和质量会由于数据采集方式、采集工具的多样和采集技术的特点而受到一定程度影响。同时,由于数据来源更加广泛和多源,数据间的矛盾性和差异性影响了大数据统计的效率。
(二)统计大数据预处理
大数据环境下采集的数据往往出现一数多源、多源互异等情况,因此,一般情况下,无论以何种方式,通过何种渠道采集而来的数据,都无法直接应用于大数据统计与分析,需要经过一定的预处理来提高数据质量,提高数据可用性。通过数据清洗,可以运用技术手段和方法,按照一定的规则和策略,将采集数据中错误、重复或者遗漏的数据进行规范化处理。对于数据格式不一致、字段数据匹配不正确等问题,则需要通过数据转换来实现对数据质量的管控。
数据清洗和数据转换是最常见的预处理技术,数据预处理的规则直接影响着数据质量。
(三)统计数据存储
分布式存储是当前大数据主要的存储技术,与存储介质类型、数据的组织管理形式有直接关系。对应于大数据的不同特征,应侧重的选用不同的存储技术。不同的存储技术,存储介质对数据存储与访问的及时性、安全性和准确性有影响。
(四)统计数据处理
用于统计大数据的分布式处理技术与统计大数据的数据类型、存储形式相关。基于Java 技术的Hadoop 体系架构具有较强的批处理能力,适用于较大规模数据的批量化处理,但时效性较差,对超大规模数据难以实现集中快速处理。Storm 技术基于拓扑结构来实现数据流转换,更适用于数据集群结构的实时处理,具有更强的时效性和容错性,但其处理稳定性与灵活度不足。Spark 基于直接面向用户的内存式计算框架可以将数据流转化为超低量秒级数据集实现数据自动收集与批量计算,但该技术对系统软硬件有较高要求。
不同大数据处理计算框架模型适用于不同数据类型与数据规模,影响着大数据处理的质量和效率。大数据分析过程中,数据的聚类与分类、数据关联分析和数据深度学习,影响着统计大数据的可用性、准确性,决定着大数据的价值。
(五)数据展示
大数据的可视化展示是大数据前期处理与分析结果的输出,能够直观向用户呈现大数据统计分析的结果,并进行交互处理。数据展示的方式、维度反映了大数据可用性、易于理解等质量特性。
(六)统计大数据应用
经过数据预处理、数据处理与分析后的数据,应用于一定模型即可应用于统计分析、战略规划和决策分析。大数据应用是数据价值的体现,直接反映了统计大数据从采集、预处理到输出成果的可用性和准确性。
除了上述技术层面外,在大数据背景下,相关管理制度、标准规范、统计人员队伍等管理层面诸多因素也影响着统计数据质量。
五、大数据背景下统计数据质量控制方法
在社会经济数字化高速发展的进程中,大数据应用于统计工作是必然趋势。有效控制和提高大数据质量,将有力提升统计工作质量与效率。提高统计大数据质量可以从管理、技术等多个角度,针对其各影响因素进行质量控制。
(一)提高统计工作应用大数据的认识
大数据发展及其在统计领域的研究与应用已证明其有效性与先进性,大数据背景下传统统计工作在面临挑战的同时也迎来了创新发展的新机遇。各级统计机构和管理部门应积极主动适应新形势,增强大数据应用敏感性,克服大数据“恐惧症”,顺应“信息资源”向“信息资产”的转变,充分理解小样本数据精准统计与大数据高效分析的一致性,营造宽容的大数据统计研究应用环境,重视大数据统计工作。
(二)强化大数据统计工作制度保障
建立健全和完善大数据统计相关规范与制度,结合大数据统计工作应用场景,制定修订相关管理办法和要求,保障大数据统计工作相关标准规范的协调性;完善统计业务分类与指标设置,优化统计工作流程,加强统计业务指导与培训,准确理解统计指标;通过加强事前、事中和事后监督加强数据质量检查校验,确保数出有源、数出有据,提高源头统计数据质量。建立与大数据应用相匹配的大数据采集标准体系、大数据采集经费保障体系和大数据技术支撑体系,规范统计工作中大数据应用的方式、流程、技术路线,并建立跟踪评价机制。
此外,为适应大数据相关技术快速发展的特点,政府统计管理部门应在各综合统计、专项统计中要进一步加强大数据统计元数据标准规范的制定、发布、更新和采标监督,加大统计大数据标准规范全流程管控力度,以数据规范性引领统计大数据质量。
(三)集约建设统计大数据信息资源平台
以“顶层设计”理念,充分调研挖掘统计部门大数据应用需求,统筹规划、集约高效建设统计大数据信息资源平台。采用“1 中心N 节点”的总体架构,以云计算、大数据、5G、物联网、“互联网+”等技术为依托,“公有云+私有云”“政务网+专网+互联网”连通跨行业、跨部门数据信息系统,以“普查数据+专项调查数据+联网直报系统”核心统计数据资源与第三方商业数据资源相结合,融合构建统一的网络管理、资源管理、安全管理、业务部署等系统管理功能,集约建设高性能高可用的计算、存储、网络、安全信息化基础支撑体系和数据信息资源库,支撑统计大数据的交换、共享和业务应用。
统计大数据信息资源平台是大数据应用于统计工作的重要支撑,对提高数据采集的及时性、准确性、高效性具有重要意义。统一的数据采集、共享交换平台,合理规范了数据采集的范围,有效避免了非权威、不完整、质量差数据纳入到统计数据源;基于统一元数据标准建立的数据质量管控与评估系统,将数字质量管控贯穿于数据全生命周期,实现对“数出多源”“多源一数”“多源异构”等数据进行规范化转换、清洗、质量校验与预处理,从数据采集端实现对数据质量的把控;采用云计算、云存储、区块链等技术,能够有效提升数据存储与访问的效率与安全性。
(四)加强统计大数据的深度挖掘分析
大数据的“4V”特性,一方面反映了其价值与作用,另一方面也为其开发利用提出了要求。面对统计大数据“海量”信息,充分了解大数据优势,借助大数据挖掘分析技术对统计大数据进行整合,利用SAS 等多元化统计工具,从大量统计相关数据中获取有价值的信息,面向用户需求对传统统计方法进行补充与优化,为统计工作提供坚实基础。
数据挖掘一般包括对大数据的清洗、转换、集成应用、挖掘分析、模式评价和最终的知识表达。在大数据统计中,应根据数据资源构成特点、统计业务模型等因素,选择适宜的大数据处理技术进行模型计算与数据挖掘,并结合统计业务需求定义不同深度、不同维度、不同粒度、不同发布频次的数据输出形式。
(五)完善创新大数据背景下统计信息化体制机制
结合大数据信息资源平台建设、大数据技术应用要求,建立、完善和创新大数据背景下统计信息化建设、应用和管理体制机制。目前,随着数字政府的推进,各省政务信息化建设呈现出“云端集中”趋势,随着5G、人工智能、IOT、云边端计算一体化等技术的推广应用,数据采集、处理与展示开始向智能化、便携式、移动化方向发展,需要建立相应的统计大数据信息资源平台建设、运维和管理体制机制。
此外,“互联网+”新业态蓬勃发展,开源互联网思维,以及众创、众包、众扶、众筹平台,都为大数据统计工作与统计大数据应用发展提供了良好的“生态圈”。统计大数据共享、大数据开发应用、大数据统计产品等都为大数据背景下统计数据质量管控打开了新的空间。
(六)培养统计信息化复合型人才
随着大数据背景下统计信息化相关机制体制的建立健全,原有统计信息化人才的配置要求、岗位职能以及培养模式都应随着形势适时调整。内部培养与外部引进相结合,加快培养适应大数据发展需求,既精通统计业务又掌握信息技术的复合型人才,同步加大大数据、云计算等信息化领域专业人才引进,打造高素质的统计信息化专业人才队伍。加大与互联网企业、科研院所、高校、社会团体等联合构建大数据统计创新平台,在学术研究、技术合作、应用交流中持续培养创新型人才。依据大数据、信息技术发展特点,制定定期培养与动态考核相结合的人才考核评价体系,构建学习型统计信息化人才队伍。
六、结语
统计工作通过对数据信息的收集、汇总、计算、分析来获得或者反映事物的特征与规律,影响着国民经济的方方面面,对国计民生、社会发展都起着巨大的影响作用。伴随着信息技术发展与社会数字化进程,统计工作既得益于大数据而有了创新与发展,又受碍于大数据质量问题而受到诸多挑战与困难。在大数据背景下,提升统计数据质量是一项复杂而艰巨系统工程,政府统计主管部门、各级统计机构都应该积极主动迎接大数据时代的到来,通过管理层面、技术层面多措并举采取有效策略解决大数据统计数据质量问题,推动统计事业高质量发展和统计工作现代化服务。
当然,在推动大数据统计应用的同时,我们还需要与时俱进加强数据安全、网络与信息安全意识。在大数据背景下,网络与信息安全将是统计工作未来无法回避的又一挑战。