大数据背景下统计数据质量影响因素分析
2022-02-07廖云辉
廖云辉,陈 华
(中国石油大学(华东),山东 青岛 266580)
大数据技术应用正在渗透到不同的领域,未来的数据将像石油一样成为帮助和发展社会的重要基础。统计数据的最基本特性是可靠、准确和及时,这样的数据统计才可以帮助决策者找出依据。这就是为什么在当前的大数据时代,要特别注重保证统计数据的质量,这是极其关键也是极其重要的。大数据渐渐拥有着很多特点:海量、非结构化、及时、电子处理、多变量,这使得数据处理变得更加困难。一些微妙的数据质量问题将被大量数据样本所强化,这种情况是大数据背景下,目前最需要解决的问题。
1 大数据时代统计数据质量内涵分析
大数据的数据处理、传输等,只有在一定时间内完成具体程序,才能收集统计数据,整理、分析相关部门的经济社会发展状况,支持决策和经济发展的重要信息。大数据背景下,大数据技术不断升级,国家统计四大工程深入并且推进,企业网络直报等应用不断深入,统计质量也被推动着不断提高。
在大数据背景下,对政府统计工作提出了新的要求。第一,传统的统计概念远远不足以实现现代化发展,来自统计的大数据时代变得更加方便,政府也需要根据时代的改变,在数据整理工作方面进行细化和调整统计策略,而后调整指标,并且对事物的分析要改进,改善不同事物之间的关系,提炼出相关信息,并将工作有序开展。第二,传统统计主要采用结构化统计和分析,但大数据背景下统计信息和呈现方式不断变化,政府需要不断调整和改革,此外,对所有类型的结构化和非结构化数据进行更多的标准化,可以处理所有类型的转换数据。还应更加重视不同类型的企业,特别是新兴部门的企业,并应建立良好的监测机制,以提高统计覆盖率。因此,需要进一步完善统计系统,以便不断改进数据的使用、分析和管理。大规模数据技术的出现,进一步刺激了数据的不断发展,有效地推动了数据的加速利用,对社会各阶层的发展都具有重要意义。在统计质量内涵上,既要保证统计数据的完整性、准确性,又要保证统计数据的系统性、科学性和连续性,使各行业目前率先拥有准确可靠的数据,率先掌握信息的人就能掌握主动优势。统计只有通过使用大数据技术和方法来提高处理效率和质量,才可以减少错误。
大数据时代对统计质量也提出了新的要求。第一,统计的核心不断向“以客户为导向”转变,以便更好地满足客户的需求并显示使用价值。第二,统计数据质量的重要性不断扩大。统计数据的质量必须在多元化的层面上加以解释,以应对挑战。目前普遍的情况是,数据质量需要在技术、过程和管理三个方面加以改进。鉴于当前大数据的发展,统计工作面临的最大挑战是大数据采集和处理的巨大数量和多样性,大数据的质量这样被决定了。如何解决这一问题,专家们建议从技术、过程和管理三个方面考虑问题,并从多层面调查的角度评估统计数据的质量。在这方面,国家和国际科学家对统计数据的质量达成一致。人为因素和环境因素是影响非技术因素的两大主要因素,非技术因素更值得重视统计质量。在数据量大的情况下,统计数据的特点使得统计数据的质量问题极其复杂。为了确保统计数据的质量,应及时识别各种因素,并通过科学方法将影响降至最低。
2 大数据背景下统计数据质量影响因素分析
随着云计算技术概念的提出和逐步发展,社会经济进入大数据应用时代。在大数据的情况下,统计工作应着重于用户的需求,提高统计质量,更好地利用其价值。大数据背景下影响统计的因素可归纳为三个层面:技术、流程和管理。
在技术方面,随着统计数据的增多,传统方法数据已不能满足新时期的统计要求,企业必须配置更高的数据库技术,加强技术更新,提高统计水平,同时确保统计数据质量。随着数据分析难度的增加,改进数据可持续分析和挖掘算法研究也成为一个重要的焦点。对于过程方面,它主要基于统计数据的形成和使用来体现。在数据收集阶段,影响统计数据质量的因素包括收集数据的方式、统计执行中使用的具体标准等。统计数据不断变化,需要改变收集统计数据的传统方式,并统一标准,以便快速整合数据,确保完成既定的统计任务。在统计存储的发展阶段,需要新的统计数据存储软件来更好地存储数据,否则统计数据将无法有效转换,或影响数据的准确性和完整性。特别是,统计数据越来越多地以不同的方式呈现,不仅是文字,还包括照片、视频、声音等。同时,不安全的存储将影响数据的质量。在数据使用阶段,无法及时共享数据,也无法展示统计数据的价值。在管理层,主要有以下因素:管理层没有充分意识到统计工作的重要性,统计专家和技术人员的素质和能力不能适应新时期统计工作的新要求,工作人员对数据的重视程度不够。再就是,该制度本身受到以下事实的约束:没有统一的标准化制度和良好统计标准,而且很难改进该制度,无法提高总体统计质量。
2.1 过程维度的影响
从这个维度分析数据,主要从数据收集、数据存储和数据使用三个阶段执行,这是数据整个生命周期的处理功能。
2.1.1 收集层面
在数据收集方式和统计标准方面,通过智能设备、传感器和社会合作技术的应用和传播以及提供发生了巨大变化。网站、搜索引擎、社交网络以及主动和被动传感器系统代表了这些主要数据源,这就是被人们叫作海量数据的现象,以统计的宽度无限接近“总体”,统计数据的扩大性增加了统计的准确性,这是许多问题的根源。再就是说,数据的及时性比以前短得多,有效收集数据以保证统计质量,这也是一项新的挑战。
2.1.2 存储层面
传统的数据存储已经不能满足大数据的需求。高容量和可扩展性、高可用性、高质量和访问接口可以改变人均数据存储结构。当前数据由大量未安装的数据组成,如视频、图像等。访问前一个存储系统需要一个复杂的传输过程来将其转换为结构化数据,此过程不可避免地导致错误生成的跟踪,从而直接改变数据的完整性和准确性。为了最大限度地发挥大数据的优势,这些非结构化数据被合并到结构化数据中,以创建一个新的数据库。
2.1.3 使用层面
大数据时代提倡共享资源,数据的收集和更新越来越频繁,任何错误都会导致数据质量的恶化。信息社会的发展加速了数据的生成和传播。所以需要及时分析数据,以确保这些数据的价值不低于预期,并确保决策者做出正确的决策。
2.2 技术层面的影响
大数据技术包括数据库技术、数据质量检测识别和数据分析。它是准确预测未来的保证,数据分析的真正价值在这三者身上体现。
2.2.1 数据库技术
大数据时代,企业数据最显著的特点是数据量以曾经无法想象的速度呈指数级增长。增长意味着越来越多的信息和数据结构,使得统计数据变得越来越复杂。传统的数据识别技术有助于检测数据的结构,但非结构化数据的出现使得传统技术难以处理。如果出现不正确或延迟的数据,检查的费用会更高。同样重要的是,相关公司应使用更大的检测设备,并为大数据处理和数据质量引进或开发新技术。
2.2.2 数据质量的检测和识别技术
基于人类判断的数据质量、适用性和及时性测试的准确性会变得越来越困难。引入有效的数据测试应该表明数据能够及时发现缺陷,但同时在实践中改进质量控制技术,以满足大数据时代的要求。
2.2.3 大数据分析技术
收集数据后,应进行分析以确定数据值。可视化技术正在成为现代大数据技术的主流,这些技术可以有效地处理其他类型和格式的数据,从而改进传统的数据分析。
2.3 管理方面的影响
数据管理作为数据质量保证的重要环节,对人们起着至关重要的作用。在这方面,专业数据库的知识和管理人员可用性、政府统计系统和统计标准是影响数据质量的重要因素。
2.3.1 管理者的意识
首先,必须认识到数据管理的重要性。业务经理意识到大数据对于业务开发的重要性,支持并重视大数据的建设,以便大数据的应用能够在公司的工作中得到有效实施。
2.3.2 数据库工作人员可用性
管理大数据的困难在于其复杂性。数据管理是业务发展的一个重要领域,不应忽视,并且有专门的人员负责管理和维护数据库,才能够保证大数据的质量。而这类人才的选拔,要解决技术问题,又要熟悉公司业务。
2.3.3 建立统计制度和标准
政府部门必须继续通过积极开发相关统计系统、开发和进一步保护统计系统和标准,充分解决推动社会经济增长的大数据产业的发展问题,毕竟大数据对应着国际发展。
3 提高统计数据质量的具体对策
3.1 优化流程,改进数据库
首先,政府部门必须更加重视统计工作,建立健全和改进监测和管理统计质量的制度,加快建立统计信息系统平台,为数据收集和收集方法、要求、指标和分工建立一个相对一致的平台,采用现代信息技术改善基本服务的适当平台,可以更好地建立统计工作基础。其次,有必要根据用户的需要不断创新,进行深入研究,并找到更有效的统计技术和方法来改进数据收集。政府部门应进一步提高大数据管理意识,发展自己的监测和评估数据质量机制,发展有效和改进的统计产品管理系统,并发展更可持续的机制,以确保统计数据的质量。再就是,鉴于数据质量和统计收集过程所遇到的干扰,新的综合统计平台必须致力于使这一过程更加规范和透明,提高及时性,减少统计干扰。创建允许存储不同类型数据的集成数据存储库,提高数据集成和进一步数据分析的效率。
3.2 加强技术,提升数据挖掘分析共享水平
首先,深入挖掘数据和统计之间密切的联系,关于计算机技术的互联网技术,如技术,加速集成,统计优化,这是数据统计技术和分析的新途径。其次,经验评估,加快提高统计数据的技术安全,不断提高质量,保持较好的权威体系。在技术引进方面,云存储专注于为用户提供基于互联网的在线存储服务,高效、经济的数据存储。当用户要求存储数据时,更容易实现。为了确保统计数据的质量,数据质量验证技术必须贯穿整个数据周期。
3.3 扩大管理,提高统计人员综合素质。
要实现这一目标,可在统计局内部开展更快、更有效的培训,提高培训工作的质量和效率,并加强对能够操作统计专家的统计专业人员的培训,不断提高法律道德问题和服务意识,并确定更多更好的实用方法来提高统计数据的质量。如果存在高度不稳定的数据,以快速生成统计数据、进行预测、发现问题,不断优化数据安全性,改进监控方式,增加与其他部门的相关性,实现联合监控的效果,这将大大提高统计数据的控制水平。
3.4 数据库安装
大数据的特点决定了它的复杂性,使管理变得更加困难。在这种情况下,需要处理技术问题以及整合公司数据的员工来管理大数据的质量。数据管理的延迟是提高数据质量和使用大数据的重要障碍。在大数据时代,需要受过良好教育的高层管理人员来设计数据库和维护,以更好地保证大数据的质量,并更深入地挖掘这些数据的潜在价值。
3.5 增强团队的凝聚力
通过培训试验,改进该领域的质量和技术。让他们采取积极主动的心态去工作,引导他们分析数据的相关性,探索创新的统计特定方法,探索更先进的思维方式,坚持使用现代科学技术,提高工作质量,以便不断分析并使市场研究具有相关性。加强统计人员的职业道德,确保数据的可靠性,并确保统计工作能够独立开展。在技术培训、基层队伍建设方面应着重加强,统计质量才会不断提高。
4 结语
总的来说,当前和今后深入统计工作的主要目标是有效利用大数据技术,不断扩大平台的使用范围,提高程序效率。并通过提高数据质量,采取多项措施提高数据质量。实际上,只有改进制度和加强监督制度,统计的价值和质量才能真正提高。