数据挖掘技术在经济统计中的应用探索
2015-05-30杨楠
杨楠
摘要:虽然社会经济和技术在不断发展,但在经济统计方面仍然存在数据库复杂且繁冗,数据质量不高等问题。这主要是由于缺乏对数据处理方法等缺乏深层次的分析和探索,导致数据价值的缺失。本文主要从数据的预处理步骤、数据挖掘在经济统计中的体现、数据挖掘技术在经济系统中的可行性分析,以及数据挖掘领域中的关联规则和决策树四个方面进行简要的分析。
关键词:数据挖掘技术;经济统计;应用探索
传统的数据处理主要是通过数理统计学的相关知识或者软件,对经济数据进行开发、分析等。但这种方式的开发形式具有较为单一、缺少时代性、缺乏深度等缺点。数据挖掘技术与传统的数据处理具有筛除虚假数据、提高数据的质量和利用率等优势,对于提高经济统计水平具有重要影响,因此做好相关内容的研究是非常有必要的。
一、数据的预处理步骤
1.数据清理。数据清理主要是工作人员通过采用适当的方法与手段,对数据中缺失、破损以及噪音等进行清除,进而保证数据质量的一种数据处理方式。工作人员在不同情况下,需要采用不同的数据清理方式,主要的方法有预测法、平滑法、频率统计法和均值法[1]。例如,如果数据为空值或者为噪音数据时,通常采用平滑法或均值法。而如果是对于数据的缺失或者破损,则通常采用的是预测法。
2.数据集成。数据来源于不同的数据源,要想将其变为一个整体,则需要对其进行分析、处理,而这个过程就是数据集成。在具体实际操作中,首先需要各地区的统计局对数据进行收集,完成收集工作以后,需要对数据进行集成。需要注意的是,技术在进行数据的集成时,应尽量避免数据的冗余、数据的模式集成等问题的出现。
3.数据变换。数据变换主要是通过方式或手段,将数据转变为所需要形式的过程,它主要包括泛化和规范化两种。数据的泛化主要是指将低层次的数据用高层次的数据进行取代,而数据的规范化主要包括最大最小值的规划、零均值的规范化等。
3.数据的离散化及概念分层。在实际的操作中,数据具有连续性的特点,但在当前的数据算法中,能够对数据的连续性进行有效处理的方法还非常有限。数据的离散化是通过将数据进行区间划分,然后将实际数据用标号进行取代,进而保持数据连续性的过程。而概念分层是通过对数据层次概念进行提升,进而减少数据收集量的过程[2]。例如,数据的离散及分层概念在银行的应用,可以为银行带来可观的效益。汇丰银行通过对客户群进行分类,从中找到最有价值的用户,使其当年的营销费用降低了30%左右。
二、数据挖掘在经济统计中的体现
数据挖掘在经济统计中的体现主要表现在:第一数据的准备、选择、处理方面。该方面的内容在经济统计中主要表现为对所需要探究的问题的相关数据进行收集,然后对其进行适当的处理,使数据能够更好的为后续工作的开展进行服务;第二,数据的挖掘。工作人员需要对数据的类型以及特点进行划分,然后通过选取恰当的运算方法对其进行统计、计算,进而发掘数据的利用价值;第三,分析数据结果。在完成数据的挖掘工作以后,需要对数据的结果进行评估、分析,对结果进行适当的调整,使其更加科学、客观;第四,数据的运用。简单的说就是将数据应用到具体的实践当中,发挥其价值,进而更好的服务于经济活动。
三、数据挖掘技术在经济系统中的可行性分析
1、 较高的有效性。数据挖掘技术是一种数据深加工技术,其实际应用中具有较高的有效性,具体表现为:第一,高效化处理累积的经济统计数据。对经济统计数据进行较高的处理,对于加强管理者的管理,为其决策提供、客观、真实的数据资料,推动其决策的科学性,进而促使其管理水平的提升,详见表1;第二,有目的性的分析。在数据进行再加工的过程中,可以更加有目的性的进行数据的处理,从而使其最大限度的服务于管理者[3]。
2、 较强的应用性。随着社会经济的快速发展,经济管理部门的分类越来越多,并且需要的信息数据也有所区别。传统的数据统计手段,不能有效的满足社会发展的需求。而作为系统工具的数据挖掘系统,可以通过对数据的分类、深加工等方式,满足不同部门对数据的需求,促进经济管理部门管理水平提升的同时,实现数据资源价值的发挥。数据挖掘技术在商店的零售方面发挥的价值体现,以GUS(HOME SHOPPING GROUP)为例,他们通过利用数据挖掘技术,对商品的销售量进行了预测,不仅使其库存成本降低了3.8%,还促进其销售量的增加,为其获得了更高的经济效益。
四、数据挖掘领域中的关联规则及决策树
1.关联规则。关联规则在数据挖掘领域发挥着重要的作用,对于提升其灵活性等具有重要影响。关联规则主要反映的是数据集合中与属性相关的联系,进而通过对其频繁的模式、关联的模式等进行搜索查询,进而寻找被人忽视或遗忘的事件。挖掘数据的关联规则,能够对大范围内的与之密切联系的行业及数据内容进行查询,可以凭借不同属性的数据进行查找[4]。在具体的实际应用当中,被人们熟知的、存在密切联系的关系的属性,被称为平凡规则。平凡规则的应用可以对数据的质量进行辨别,是消除虚假数据的重要方式与手段,图1采用了source insight软件,对汇丰银行的可视化数据挖掘进行了分析(如图1所示)。
图1汇丰银行可视化的数据挖掘结果
2.决策树。决策树算法是经济统计中数据挖掘的一种常见方法,这种方法直观性较强,能够较为清晰的对数据进行展示,如图2所示。但发挥其效用的关键在于工作人员对建树和剪枝阶段的构建。通常情况下,决策树分为两个方面的内容:第一,构建决策树模型。在对模型的构建过程中,需要通过训练集使决策树的轮廓进行构建,然后对其内容进行精细化处理;第二,分类处理数据。工作人员在完成决策树整体的构建以后,需要将数据输入,填充其内容。需要注意的是,工作人员在输入数据时,需要从根节点处进行录入,然后对其进行测试、记录。在进行到叶子节点时,需要对数据进行类化处理[5]。
图2天气对于人出行的影响
结语
综上所述,在未来的经济统计发展中,数据挖掘的发展前景是非常光明的。其对数据的深层次处理,可以有效减少虚假数据的存在,提高数据的质量,为企事业单位计划的制定提供重要的数据支持,进而促进其工作效率的提升,经济效益的发展,促使其创造更多的社会价值,最大限度的发挥数据的作用和价值。(作者单位:长春工业大学)
参考文献:
[1]宋淑彩,祁爱华,王剑雄等.面向Web的数据挖掘技术在网站优化中的个性化推荐方法的研究与应用[J].科技通报,2012,28(2):117-119.
[2]李勋,龚庆武,杨群瑛等.基于数据挖掘技术的保护设备故障信息管理与分析系统[J].电力自动化设备,2011,31(9):88-91.
[3]罗美淑,刘世勇,夏春艳等.数据挖掘技术在教学评价中的应用研究[J].教育探索,2013,(2):81-82.
[4]王祥斌.数据挖掘技术在入侵检测系统中的应用研究[J].计算机测量与控制,2012,20(2):321-323,348.