试析数据挖掘技术在经济统计中的应用
2015-07-05董静
董静
摘 要:随着我国经济的发展,经济统计过程中会出现大量的、杂乱的、来源广泛的数据。作为下一经济活动的基础,数据的利用非常重要,因此为经济发展制定针对性的决策是社会各界关注的重点,统计部门也越来越重视经济统计信息的真实性与可靠性。面对这样复杂的经济关系整体,传统的数据统计与处理方法显得异常薄弱,难以对深层次的数据进行智能分析,导致存在于数据中的联系和价值被忽视,且对于虚假数据不具有较好的鉴别能力。因此,借助现代化的技术实施经济分析成为社会发展的必然趋势,数据挖掘显示出其巨大的优势,本文从实际应用的角度出发,分析数据挖掘技术的特点及其在实际经济统计中的应用。
关键词:经济统计;海量数据;数据挖掘;应用
跟随着改革开放的步伐,我国社会经济得到空前的发展,在几十年的建设活动中也积累了海量的统计数据。由于这些经济数据具有复杂性的特征,传统的统计数据分析只能够对其进行单纯的数理知识分析,难以深入挖掘到数据的深层价值。开发利用的形式非常单一,远远不能够满足当今社会对于数据分析利用的要求。数据挖掘技术作为科技发展衍生的新型统计方法,其优越性在于能够实现对数据的横向与纵向开发,极大的延伸拓展经济数据开发的范围,从而获取更多的具有深层价值的信息,为社会经济发展与制定决策提供真实有效的依据。
1.数据挖掘技術的概述
数据挖掘技术一般指通过深层次开发,从海量数据中挖掘出有价值信息并加以分析与整理,实现对凌乱复杂的信息数据的整合。这里的海量数据具有不完全性、模糊性、随机性以及噪音性的特征,通过数据挖掘可以变成潜在有价值的、新颖的信息。数据挖掘不仅是经济信息的转换过程,更是一门具有学科交叉特征的技术,涉及到机器学习、数据统计、神经网络以及数据库等,在统计行业中得到非常广泛的应用。应用数据挖掘技术所形成的数据形态,能够为数据使用者对数据信息的提取和应用提供很大的便利,基于技术层面可以说数据挖掘技术实现了对原始数据的深加工与精加工,具有高度的数据分析自主性。
2.数据挖掘技术在经济统计工作中的应用优势
2.1综合应用能力强
数据挖掘是一个完整的工作系统而非实现某一过程的工具,具有实现主体信息需求的特征。随着经济的稳步增长,各个部门的发展都与经济统计信息息息相关,应用经济统计信息成为管理与决策的基础。但是实际上不同的管理部门拥有的权限、管理的方式以及领域千差万别,对经济统计数据形式的需求也不同,因此对于经济统计系统提出的要求更高。不但需要符合管理部门的数据要求,还应能够将统计数据转化为不同表现形式。得到的数据格式能够在管理部门中录入、统计和应用。数据挖掘技术的综合性特征不断促进系统应用深度和范围的扩展。
2.2实际有效性强
数据挖掘技术是一种具有明确目的性的深加工技术。在经济统计与应用过程中,可以基于使用者的需求实现对长时间累积的海量数据进行深加工,主要有两种加工形式:其一是对海量数据管理实施高效化处理,基于经济数据管理角度,在实际应用中通过信息的统计和分类,将杂乱无章的数据库信息进行科学系统化的处理,以实现数据管理的高效性和有效性;其二是分析现有数据的目的性,以数据统计分析的目标作为指引,对原有的信息进行内容、关系以及形式上的加工处理,从而保证得到的经济统计数据能够更好的与管理者需求进行匹配。
2.3技术适用性强
我国的经济管理部门职权相对来说较为分散,不同经济管理部门中对于统计数据的需求也是不一样的。在很多地区、很多经济管理部门中的统计活动沿用传统的方法,具有较大的局限性,难以为经济管理活动的整体提供服务。在实际工作中经常存在数据统计工作重复或者缺失的现象,进而影响到经济数据统计工作的效率和质量。尽快建设具有整合功能的统计系统,实现数据信息融合是我国经济管理部门的内在需求。而宏观经济统计数据库的建设为数据挖掘技术的发展提供温床,只要保证经济统计信息的准确性,然后通过数据挖掘技术予以整合处理就能够得到更精准、更丰富的数据资源。
3.数据挖掘技术在经济统计中的应用
3.1集成化处理方法应用
数据集成所指的是对不同的数据进行整合,由杂乱变为整体。随着经济的发展,收集到的数据信息量越来越庞大,信息的来源越来越广,对信息集成造成一定的困难。由于社会经济活动中数据的来源并不仅仅是官方统计局,多来源的数据呈现为不同的模式,进而导致经济数据信息实体的识别问题。例如,实施数据挖掘过程中确定数据库中的“std-id”和另一数据库中“std-no”是否表示相同的实体,通过两个数据库之间含元数据的分析对比能够保证实体数据识别的质量。对原始数据中呈现正相关关系的数据予以精简处理,从而保证数据库中的量维持在相对较低的水平上,才能够为相关单位的管理和应用提供方便。在实际进行数据挖掘过程中无疑应当将数据精简,减少数据量。
3.2预处理方法应用
原始数据大都是残缺的、某些数据不一致,进行数据预处理是必要的环节。数据预处理是最基础的处理方式,由于数据挖掘只有在提供基础信息之上进行智能分析,其本身具有基础信息限制的特点,无法代替数据收集的功能,只有通过预处理对不正确、不真实的数据进行清理,才能够减少统计数据信息之间的差距。数据清理所指的是将原始数据信息中残缺、空值以及存在噪声的数据去除,一般采取均值法、预测法、平滑法或是频率统计予以处理,针对具体数据信息进行选择。如噪声和存在空值的数据选择均值法或平滑法进行清理,两种方法之间的差异在于均值法中使用平均数、而平滑法中使用加权平均数,平滑法更加注重每一个数据对于整体结果产生的权重影响,因此得到的统计分析数据结果更加精确。
3.3转换方法应用
数据转换所指的是应用某种方式将数据变换成满足数据挖掘要求的形式,转换的方法主要有数据规范化与数据泛化。前者又包含着最大规范化、最小规范化以及零均值规范化;而数据的泛化指的是使用高层次的数据信息对低层次的数据予以替代,其中包含对数据采取连续性处理,但是由于当前的手段要实现数据的连续性非常困难,因此通常选择离散化,也就是对数据实施区间划分,将某些数据直接使用标号表示,尽可能减少数据的收集量,也被称为概念分层。
3.4决策树方法应用
决策树是一个预测模型,是对象属性与对象值之间的一种映射关系。每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,也可以作预测。经过这一环节就能够实现数据的输出,数据的输出形式会影响经济管理部分决策人员对数据的使用。这一方法的关键在于构建决策树:首先,通过训练集建立决策树并用测试集进行模型测试,进而实施精简处理,随后输出模型;第二是通过构建完善的决策树进行数据分类,这一过程又被称为“递归”,从决策树的根部开始输入,到每个分支和叶节点,直到数据映射到限定属性。停止分割的条件一般有两种,一种是某一节点上的数据完全属于相同类别,而另一种则是当前节点中的记录数低于一个最小的阀值。在完成整个决策树的构建之后,之所以对决策树进行修剪,主要目的在于减少由于训练集的使用对测试数据输出的过度影响,就是所谓的过拟合问题。例如训练样本中的错误数据会被决策树学习,成为决策树的一部分,但是对于测试数据的表现就没有想象的那么好,或者极差,这就是所谓的过拟合问题。在数据集中,过拟合的决策树的错误率比经过简化的决策树的错误率要高。以某地区中历年上报的企业数据为例,应用决策树结合其他序列模式能够得到差别率,然后通过决策树可以实现对企业的分类:差别率超过20%的企业为I类、差别率在10%-20%之间的为II类、而差别率在10%以下的为III类。根据规模变化率及重大经营事件设定决策树的规则,具体如下。
根据分析结果可以知道:A类企业省报的经营数据和预测值之间的差异非常大,与数据规律明显不符,所以推测可能为虚假数据,要提高数据真实性则需要对A类企业进行重点调查。当企业变化率小的情况下,需要了解重大经营事件,如果发生则应当重点调查,反之则不用。
图1 企业分类决策树示意图
3.5回归分析方法应用
回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。应用回归分析能够建立变量之间的回归方程,通过因素分析判别主要变量和次要变量及其之间的关系,并且只有通过各种检验,且预测误差较小、才能将回归方程作为预测模型进行预测。在数据挖掘过程中,回归分析通常被应用于对市场占有率、品牌偏好以及销售额等进行解释,将其中两个或以上的数量关系通过函数表达,从而便于进一步解决问题。数据挖掘过程中可以很好的解释因变量之间的变化关系、强度,对自变量值进行预测。(1)简单线性回归分析,如自变量X和因变量Y之间具有正相关关系,可以得到直线方程,让所有的数据点与该条直线接近,可以使用Y=a+bX表示,其中a为截距、b则是相关系数;
(2)Logistic回归分析,该回归分析法的应用条件是:(1)要求各个观测对象间是相互独立的;(2)Logit P與自变量之间呈现线性关系;(3)当研究设计为队列研究,横断面对照研究,在应用logistic回归分析时,应具有相同的观察时间;(4)随着统计学技术以及相关软件的发展,样本量较小的情况下也可以采用精确logistic回归分析,但是要求分析变量控制在一定的数值范围内,且变量的分类不能多。判别分析群体中不符合正态分布的情况下,应用Logistic分析能够得到更好的结果。通过预测事件发生的几率,将自变量X与因变量Y之间的关系假定成为S状,在自变量很小的情况下几率值也接近于0;随着自变量的增加、几率值也会沿着曲线增加,达到一定程度之后,斜率逐渐减小,介于0-1之间。
结束语
总而言之,经济统计活动是当代经济管理中非常关键的环节,也是经济决策与管理的基础,其对于市场经济的建设和发展产生深远的影响。社会主义市场经济体制下需要根据经济动态实时对决策进行调整,提高经济统计活动的运行质量和效率非常重要。数据挖掘能够对管理活动中海量数据、数据缺失、杂乱等现象进行整合和深度加工,使数据信息在经济统计活动中得到更加广泛的应用,满足相关部门的统计需要,为政府的管理提供高质量的基础数据,产生巨大的社会和经济效益。
参考文献:
[1] 肖超峰.基于海量金融交易数据的客户交易行为挖掘与应用[D].中国科学技术大学,2013.
[2] 黄兵,曹建国.基于数据仓库和挖掘技术的政府决策设计与应用[J].淮海工学院学报(自然科学版),2014,(2):48-51.
[3] 习勤,米帅军.指标筛选技术在神经网络数据挖掘模型中的应用[J].统计与决策,2011,(10):163-165.
[4] 董春,胡晶,刘纪平等.基于空间统计学的空间关联挖掘研究——在中国广电产业分析中的应用[C].2005:453-466.
[5] 张倩.数据挖掘中的聚类算法在工业园区经济发展中的比较应用——基于统计视角[D].云南财经大学,2013.