大数据时代背景下统计数据质量的评估方法及适用性分析
2015-06-11祝君仪
祝君仪
[摘要]阐述了大数据时代的统计数据特征和质量准确性需求,分析了包括逻辑规则检验、核算数据重估、计量模型分析、统计分布验证、调查偏差评估、多维评估延伸六种评估方法的概念特征以及适用性。为了适应大数据时代的发展需求,需要加强对统计数据质量评估方法的研究力度,进一步完善评估体系,实现中国统计研究的新变革。
[关键词]大数据;统计数据;准确性;评估方法;适用性
[DOI]1013939/jcnkizgsc201529041
1大数据的出现与应对
1.1大数据的概念特征
大数据的概念从字面上可以理解为庞大的数据集合,当然,如今的数据早已不局限于单一的数值变化,而是在数字网络概念中彼此交叠幂次增长的非结构化信息统筹。根据IDC报告,我们可知全球数据量的惊人变化,2009年80万PB,2010年增幅达50%,达到了120万PB,至2011年跃至190万PB,激增的数据量印证着大数据时代的到来,见下图。
2009—2011年的数据量变化柱状图
虽然对于大数据还没有约定熟成的理论定义,但是在本文中我们不妨直观地将其理解为涵盖数值数据和非结构化数据,并对其进行分析整合的海量数据集。
大数据的几项具有辨识度的特征,首先是数据集在体量上应超越TB数量级,其次是数据信息应多样化,有数值数据,也有像是图片、视频、音频等非结构化数据,再次是数据的产生、采集和处理应快速及时,最后是数据集整合的数据信息应具有全面性和有效性。
1.2大数据对统计研究的挑战
大数据的庞大数据体量,快速增长处理需求,多样化全面性数据整合等现实情况都让统计研究面临着巨大挑战。传统的单一维度的样本抽查的研究分析模式已经不足以保证统计数据的准确性。因此,我们不仅要扩大研究分析的样本量保证统计结果的客观性和真实性,还要通过增加反馈信息的呈现路径,激发目标群体的新型互动模式,将文字、图片、视频、音频等都纳入数据库,从而增加数据维度,获取高品质海量数据,实现统计研究新变革。
2大数据时代背景下统计数据质量的界定
2.1统计数据质量的含义
统计数据质量的核心在于其准确性,在大数据时代背景下,统计数据质量还需考量统计目的,即满足统计目的的具有准确性的统计数据呈现。
2.2统计数据质量的特征
根据上述统计数据质量的含义,我们可以提炼出有关大数据时代背景下统计数据质量的两点特征。第一,是针对数据内容,应在客户接受范围内控制误差,保证数据采集处理的快速及时,并符合统计目的。第二,是针对数据呈现,要有规范性的闡述,保证统计数据的口径计算等采用相对一致的方式,表达完整,直观易懂,尽量避免歧义冗长。
3各类统计数据质量的评估方法及适用性分析
3.1逻辑规则检验
逻辑规则检验法,是宏观的针对总量数据的一种评估方法,即根据统计数据中各个指标之间相互作用,彼此粘连的内在逻辑关系,来衡量测试数据的真实性和可信度。
由于这种逻辑规则检验法是基于传统的统计理论,且可操作性强,易被客户理解接受,所以在实际统计数据评估中应用广泛,常被用于政府统计部门的统计工作。但是,这种方法存在明显漏洞,因为其检验规则过于单一,只要不出现重大逻辑冲突则推论出数据可信,加上即使出现了逻辑矛盾,仅通过比较无法获知问题所在,无法确定问题数据的准确范围无法规避结果的多重性,使得结果相对粗略草率。
根据以上分析判断逻辑规则检验法的适用性,我们可以将其作为初步评估统计数据的方法,在宏观经济统计数据中以它为基础,结合其他方法,进行复式检验,能够更好地得出统计结论,获得民众理解和认可。
3.2核算数据重估
核算数据重估法,是一种对于逻辑规则检验法延伸拓展的评估方法,即基于待评估数据的核算体系重新设定的统计指标,从而重新估算统计数据,然后对比现实数据,实现对统计数据质量的评估。这种评估方法的基本思路是一种在重新计量中的重复调查,扩充针对性的资料,将理想数据与实际数据对比分析,找出问题所在。
这种重估统计指标的评估方法与逻辑规则检验一样是在假设基础核算构成准确性的前提下进行的,而重设的统计指标与现实统计的指标方式仍具有差异性,因此其对比评估的结果只能作为一种参考性依据,能找到问题数据的大致方向但无法呈现具体错误情况。它尤其适用于判断GDP的增速准确性。
3.3计量模型分析
计量模型分析法,也是一种针对总量数据的评估方法,即在难以确定统计数据确切逻辑关系的情况下,建立模型评估,检查是否出现差异情况。这种方法的关键是建立模型,寻找异常点,在操作过程中需要先根据统计理论和统计目的建立相应的计量模型,再将样本数据进行相应估算检查,反复调整,多次代入评估,最终得出结论。
3.4统计分布验证
统计分布验证法,是针对分类数据的一种评估方法,即在掌握了个体数据和分类汇总数据之后,基于已知的分布特性,验证理论性分布情况与实际统计数据分布情况是否相悖,进而得出评估结果。
这种评估方法的检验过程首先是通过理论分析和调查研究确定统计分布的特性,找到个体数据与汇总数据的分布形态,然后对比理论数据与待评估数据的分布是否一致,若是发现异常点则需要进一步验证分析其具体误差值情况,从而判断统计数据质量。这种评估方法的缺陷在于确定统计数据的分布特性,这是评估的前提,但也是在实际操作中最难攻克的关键。
3.5调查偏差评估
调查偏差评估法,是一种事后调查分析的方法,即通过对统计数据中调查偏差的评估,约束调查条件进行重复调查,以期获得最真实的统计数据。这种方法的开展是在预设存在可得的真实统计数据前提下,那么这个关键点就成为了该评估方法最大的痛点和争议点,因为是否存在理想调查条件下可得的真实统计数据是未知的,换言之就是假想的,没有科学依据的。加之在实际操作中,要进行有效的调查条件控制涉及误差参数的确定,计量模型的构建,同时在区域范围内实现多次重复调查的难度也很大,因此,调查偏差评估的实际应用有限,当下仅适用于像人口普查这类的地区性普查统计数据的分析。
3.6多维评估延伸
由于大数据时代统计数据内容的多样性,多维化,评估方法的多维延伸也成为必然。所谓多维评估法目前涉及四种的评估路径,即多级量度、指标检测、用户需求,以及统筹综合。虽然由于长期以来对数值统计分析的侧重,多维评估还在发展阶段,尚不成熟,但是随着统计数据的非结构化特性日益彰显和人们对于统计数据质量要求的日益提升,多维化评估将逐渐受到重视,得到完善应用。
4结论
本文分析了包括逻辑规则检验、核算数据重估、计量模型分析、统计分布验证、调查偏差评估、多维评估延伸在内的六种评估方法的概念特征,以及适用性。其中前三种都是针对统计总量的评估方式,而后几种则是针对分类数据的评估方法,涉及充分的信息采集,分布特性的确定,初始调查条件的确定,以及多维度的延伸。这些假定的前提与实际数据始终存在偏差,因此在获得真实数据上还是属于理想化推测,始终存在争议点,而且在实际操作中具有执行困难。
通过分析,我们不难发现目前各个对于统计数据质量的评估方法仍存在较大的缺陷,这直接影响到我国统计事业的发展和与之密切相关的经济社会的总体发展。因此,我们需要加强对统计数据质量评估方法的研究力度,进一步完善评估体系,适应大数据时代的发展需求,用多维度复合型的研究成果保证统计结果的客观性和真实性,还要通过增加反馈信息的呈现路径,激发目标群体的新型互动模式,实现中国统计研究的新变革。
参考文献:
[1]王华,金勇进统计数据准确性评估:方法分类及适用性分析[J].统计研究,2009(1)
[2]许涤龙,叶少波统计数据质量评估方法研究述评[J].统计与信息论坛,2011(7)
[3]程开明,庄燕杰大数据背景下的统计[J].统计研究,2014(11)
[4]崔路云基于大数据时代背景对统计学教育的几点思考[D].北京:首都经济贸易大学,2013.
[5]刘春燕论大数据时代的统计制度与方法改革[J].芜湖职业技术学院学报,2013(11)
[6]邓丽华浅析统计数据质量评估方法[J].中国市场,2013(10)
[7]于云飞我国统计数据质量问题研究[J].中国市场,2012(10)