数据挖掘技术在经济统计中的应用
2023-09-04新泰市统计局
刘 艳 新泰市统计局
引言
随着改革开放的不断深入,我们国家的社会和经济都有了前所未有的发展。因为各种经济资料的复杂特性,常规的统计资料只能对其作简单的数学上的解析,很难将其深度的价值发掘出来。目前,人们对其进行的开发和使用的方式比较简单,已经无法适应现代社会对其使用的需求。数据挖掘技术是一种由科学技术发展所产生的一种新的统计手段,它的优势是可以将数据的水平和垂直两方面进行利用,大大地扩展对经济数据进行利用的领域,因此可以获得更多的、有深度的、有意义的信息,为社会经济发展和政策的制订提供更加真实、更加有效的基础。
一、数据挖掘技术的含义
一般而言,数据挖掘技术指的是对大量的数据信息展开细致的建模,进而发掘出具有实用意义的信息的一个过程。所以数据挖掘技术归根结底就是一个由神经网络、机器学习机数据统计等组成的,可以随社会的发展而持续改变的学科。面对海量的数据,用常规的统计学方法进行处理不仅不能有效地处理这些海量的信息,而且还可能导致一些统计学上的错误。而数据挖掘技术就是将所获得的信息,从其中发掘出一些具有实际应用前景的信息。而对于数据的高度解析性,更能体现出它的实用价值。
数据发掘技术是一个将数据进行高效转化的方法,它的具体步骤可以归纳为:从数据的收集到数据的发掘到数据的分析。其中,数据挖掘技术发挥着重要的作用,其具有多种的功能,包括对模型的预测、数据的类聚或者分类等,以及聚焦检测、衔接分析、关联规则等技术手段。所以它具有许多特性和功能,首先,它可以对海量的数据进行高效的分析;二是它可以从大量的数据中找到有用的信息;三是能够对资料中的有用资讯加以剖析与判断;四是能够即时、迅速地反映某些功效及功能的资讯。
资料开采的一般程序为:资料准备、资料挖掘、资料分析。在这种全流程中,对资料的发掘是最重要的。其主要的作用是聚类、预测、分析等。从其功能和特征上分析,该方法的优势在于:可以实现对重要数据的自动化发现;具有对海量数据的能力;其反应速度快,效率高;可以高效地对资料资料进行解析判断,勾画出过往与将来。
二、数据挖掘技术在经济统计工作中的应用优势
(一)综合应用能力强
资料探勘不是一种具体执行程序,而是一种整体作业体系,以满足使用者的资讯需要为特点。在我国,经济持续快速发展的今天,各行业的发展离不开经济的发展,因此,在我国的发展中起到至关重要的作用。然而,在现实生活中,各种管理部门所拥有的权限、管理的方式和领域都存在着很大的差异,所以他们对经济统计数据的需求也存在着很大的差异,所以这就对经济统计系统的要求更高。不仅必须满足管理层对资料的需求,而且必须有能力把统计资料转换成各种表达方式。由于其具有的广泛性,使得数据挖掘技术在广泛、广度上得到进一步的提升。
(二)实用性很强
数据采掘技术是一项深度处理技术,它在一定程度上具有目标清晰的特点。在经济统计与运用的进程中,数据挖掘技术能够根据用户的需要,对长期积累起来的大量数据展开深度的加工,它的加工方式有两种:一种是对大量的数据进行高效的管理,从经济数据的管理视角出发,在具体的应用中,利用对数据进行的统计与归类,对大量混乱的数据库中的信息进行科学性、系统性的处理,从而达到提高数据的效率的目的。另一种是对已有数据的针对性进行研究,在数据统计分析的目的指导下,对原来的信息进行内容、关系和形式上的加工,以确保所得的经济统计信息可以更好地满足相关部门的需要。
(三)技术适用性强
在我国,各经济管理机构的职能比较分散,各经济管理机构之间的要求也不尽相同。在我国许多地区和许多经济管理部门,其经济管理工作仍然采用的是一种比较常规的统计方式,存在着一定的缺陷,不能有效地为经济管理工作的全局服务。在现实工作中,往往会出现数据统计工作的重复和丢失的情况,从而对经济数据统计工作的效率和品质产生一定的影响。建立一个集中性、综合性的统计体系,是国家经济行政机关迫切需要解决的问题。如果要确保经济统计信息的准确性,再利用数据挖掘技术加以集成处理,就可以得到更精准、更丰富的数据来源。
三、数据挖掘技术在经济统计中的可行性研究
(一)能为经济统计提供有效的服务
根据相关数据报告调查结果显示,尽管数据开采技术发展的历史并不久远,但其在国内外的研究和运用已经处于一个比较成熟的阶段。在当今世界,尤其是在经济统计学中,人们对数据的利用也越来越重视。而数据挖掘技术之所以如此快速地发展,就是因为其为经济统计提供高效的服务。而在数据挖掘中,数据预处理的作用也不可忽视。数据预处理是指在经济统计工作中,需要将一些不太重要的数据去掉,对其中有用的部分进行标准化清理和筛选,以便为数据挖掘的工作做准备。
(二)能够为经济统计的不同需要提供不同的服务
当前,最常用的数据采集工具有合成型、通用型特点,以及特殊用途的数据采集工具。通过这种整合的手段,既可以为企业中的经济体提供高效的管理报表,也可以对一般经济组织中的数据信息进行深度挖掘。
(三)建立宏观经济数据库
从当前形势来看,我国绝大多数的经济统计工作仍以应用性为主。大多数的经济统计资料都是以一种不集中和不分散的方式存在,没有一个很好的管理体系。在经济统计工作中,如果在处理问题时产生错误,将会直接影响到资料的正确性和精确性。但是只有在构建一个国家的宏观经济学数据库之后,才能找到这些问题的有效途径。只有将数据挖掘技术与宏观经济学数据库相结合,才能确保所发掘的信息的正确性和可靠性。在此背景下,将数据挖掘技术应用于经济统计,既符合实际的需求,又为经济政策的制订提供准确而重要的依据。
四、数据挖掘技术在经济统计中的应用
(一)预处理方法
在经济资料的统计工作中,对资料进行前处理是最基本的手段之一。由于数据挖掘是一种在提供基本信息的基础上进行的智慧分析技术,它自身受到基本的经济信息的制约,不能在一定程度上来取代经济数据收集系统的作用,因此,作为数据挖掘系统数据基础的经济统计数据信息都应当经过预处理。目前,常用的数据清除技术有:平均法、平滑法,以及预报法。在这些方法当中,平均法属于一种运用到现代分析技术中的模糊概念,在基础数据中的一个数据点是空值,或是噪音数据的情况下,可以使用平均方法来进行处理,也就是,使用数据库中的所有这个性质的已经知道的属性的平均来弥补这个空白,从而确保数据挖掘系统可以在正常的情况下进行对基本数据的分析和整理,从而得到一个相对来说精度比较高的统计分析数据。
(二)决策树方法
从当前的实际状况来看,由于能够快速直观地反映出当前的状况,所以在实际运用中,采用的最多的就是决策树。采用这种方式,最重要的是要将决策树构造好,一般情况下,它可以被分成两部分:首先,使用培训集,对一棵决策树进行并缩减,并在此基础上,建立一个可以进行输出分析的模型。其次,对生成的决策树进行有效地使用,并进行有效的分类,该方法是从树根到树干,再到枝干,直至达到一定的要求为止。在特定的情况下,终止分裂需要两种情况:一种情况是某一结点上的全部资料都归入相同的类型;另外一种情况是不存在用于重新划分输入资料的类别属性。在建立一棵决策树之后,需要按照用户的需求来“剪枝”,以减少由于使用大量的训练样本而导致的结果波动。
(三)遗传算法
这是一种以生物的遗传学机制和自然选择为基础的一种随机的搜寻方法,其基本思想是以具体的社会性问题为基础,再从具体的目标中收集有关的资料,最终将这些资料中所包含的资料进行整理、分析,从而得出结论。经济问题并不是一成不变的,而是一个发展和变化的问题,有着密切的关系,任何一种情况发生变化,其他的情况也就随之发生变化。遵循基因算法的程序,从根源出发,我们就一步一步地往下进行探究,从中抽取出一些有用的信息,从而对整个过程展开深入的分析。这种方式就可以将经济问题具体化、直接化,让我们在进行问题的时候,能够更加直接,能够将隐藏的东西展现在我们的面前,让我们的经济统计工作变得更加直白、简单。
(四)神经网络法
人工神经网络方法是一种高度仿真人类大脑对信号进行处理的智能化先进技术。就像人类的大脑活动,先将信息录入,再进行精确的解析,再将结果呈现出来。并将其运用于经济统计学中。神经元法为我们提供一种准确的、完整的处理经济统计的方法,它让我们的经济运作模式和人在处理信息的过程很相似,都是实用化、形象化、具体化。这样就可以在不同的工作流程中建立起不同的工作流程,以达到解决经济数据问题的目的。
(五)数据的预处理
没有高质量数据,就必定没有高质量数据挖掘的结果。而在现实数据的挖掘过程中,因为所采集到的数据不可避免地会有缺漏、重要数据不全、不一致及包含噪音等问题,所以对数据的预处理是最重要也是最重要的一步。关于资料的预处理,具体如下所示:
1.数据清除
所谓的数据净化,就是用合适的方式,去除其中的缺陷、不一致和噪音,提高整个数据的品质。常用的几种分析法有平均法、平滑法、预测法和频度统计法。每一种方法所相应的现实状况都有差异,如果数据属于噪音数据或者是一个空值,那么所要采取的方式就是均值法或者是光滑法。与均值法相比,光滑法强调的是将 k 个不为空的数据取权重平均值来代替(均值法以 k 个不为空的数据的平均值来代替)。利用预报方法对有噪音的资料或空值进行最大概率的估计;预报方法是对资料缺陷进行分析的方法。
2.资料整合
一般来说,这些资料都来自于来自于各种资料来源,而在实际处理、分析及应用的时候,就需要将这些资料整合成一个完整的资料,这就是资料整合的过程。在现实生活中,统计部门首先要通过各个地方统计局,对经济数据进行大量的采集,接下来要进行的就是数据整合,这就必然会产生一些问题,比如,如何确定来自不同数据源的数据可以相互匹配。如果一个资料的特性可以从其他资料库中的资料的特性推断出来,那么就会产生一个资料的特性;此外,也就是资料的碰撞乃至排除,这个问题是由于资料来源的资料会因为彼此间的差异而产生互相排斥。
3.数据转换
用某种方法把资料转换为等价的、适用于资讯发掘的资料,这就是资料转换,它的内容主要包含资料的正常化与一般化两个方面。对资料进行归一化处理,主要有零均值归一化、极大极小归一化等;而资料概括,就是以较高层面的观念代替较低层面的资料。
4.资料与观念的分散与分类
实际中的资料是连续的,目前所知的方法中,能够对连续资料进行有效分析的并不多。资料的离散性就是用一个有标记的资料取代一个真实资料,实现资料的解连续性。在概念层面上,提出一种基于信息层级的概念来降低信息采集规模的方法。
五、在数据挖掘中发挥互联网大数据的作用
随着互联网的普及,人类活动的范围得到了前所未有的拓展,海量信息充斥在我们生活之中,如何挖掘其中的潜在价值,已成为每个人都面临的难题。在大数据时代下,数据量爆炸式增长,海量数据中蕴藏着巨大价值。通过对大数据进行分析和挖掘,能够让企业对市场和用户有更好的理解和把握。在互联网大数据环境下,每个人都是大数据的一部分,无论是企业、用户、政府甚至是普通大众,都能在海量信息中发现一些自己不知道的东西。面对大数据时代带来的巨大机遇和挑战,如何有效地利用大数据来解决企业发展中存在的问题成为了众多企业需要面对的现实问题。
数据挖掘技术是从大量数据中发现新知识、新规律并将其转化为有用信息或决策经验的一种技术。通过挖掘互联网大数据,不仅能够让人们获取到更多有价值的数据信息,还能为企业提供更多决策辅助。对此就可以从网站访问痕迹入手,网站访问是互联网数据采集过程中最为常见的数据采集方式,通过对网站访问记录进行分析,就可以从中发现用户可能存在的规律。例如,用户通过搜索引擎在互联网上搜索过产品、服务、品牌等信息。从访问痕迹中可以分析出用户访问网站时可能出现过哪些关键词或使用哪些关键词进行搜索等行为,从而可以判断出用户是否对产品感兴趣、对服务是否满意等信息。这些数据会被应用于营销分析中,通过对用户行为进行分析,就可以找到企业产品服务的优势及不足之处,从而不断完善自身产品以及服务质量。
六、结语
虽然数据挖掘技术从诞生到今天,发展的历史并不悠久,但其在社会的经济统计中起到重要的影响,为我们的统计工作提供方便。因此,对我国的国民经济和社会发展具有重要意义的宏观和微观两个方面的影响。所以在当前的经济统计工作中,将数据挖掘技术进行高效的运用,可以适应数据分析的需求,从而推动社会和经济的发展。