APP下载

大数据中的数据预处理技术分析

2019-03-25王梓吉

中国科技纵横 2019年2期
关键词:预处理大数据

王梓吉

摘 要:信息技术的快速发展,为数据的采集和分析提供了有力的技术基础,作为数学与计算机学科的交叉方向,大数据技术的发展和应用价值已经得到人们的认可。本文结合大数据技术的数据预处理需求,从数学角度阐述了数据预处理的方法,从分析结果可知,选取科学合理的数学处理算法可以为数据价值挖掘提供高质量的数据源,这也是今后数据学科所要解决的关键科学问题。

关键词:大数据;预处理;抽象数据;归一化处理

中图分类号:TP311.13 文献标识码:A 文章编号:1671-2064(2019)02-0028-02

随着大数据技术的发展与应用,对数据处理的需求越来越多,其应用价值也十分明显,大数据处理技术是应用数学与计算机技术的一个交叉领域,其主要目的是将大量数据进行深度分析,进而实现对其潜在的价值挖掘[1]。但是在数据采集过程中,由于设备精度、环境影响以及人为失误等造成一些数据属性缺失、记录错误、噪音污染等,所得到的质量不高的数据,被行业称为“脏数据”。如果不对这些数据进行提前处理,会导致后续的数据挖掘与分析不够精确,以至于影响数据分析结果的应用[1-2]。

因此,對数据预处理是大数据技术应用的关键环节。本文正是基于实际存在的“脏数据”问题,从数学应用的严谨性出发,深入地阐述数据预处理方法,为得到科学合理的数据分析结果奠定技术基础。

1 大数据技术

1.1 概念

在《大数据时代》中所提到的大数据技术,是指不用传统的随机理论进行数据分析,而采用对所有数据进行统一的分析处理的方法,这给数据处理带来了挑战,主要集中在数据量很大,要求采用处理速度快的一些数学处理方法[1]。

信息技术是大数据时代的基础,该技术的发展与应用已经使得众多领域发生一些技术革命。由于实际生产生活中,产生并积累了大量的数据,而数据又潜在地表征了过程的特性,可见,一旦通过科学合理的数据处理方法,其内在价值将会得到挖掘,进而用于优化、控制与决策,深层次地发挥数据的价值。大数据由于其样本量大、精准度高、科学性优异,同时,大数据处理技术具有高速度、多样化、高价值和真实性等特点,已经为人们所接受,并逐步得到应用。

1.2 大数据技术的处理流程

按照现有通常的大数据处理技术,一般的数据处理流程如图1所示[1-3]。

从图1中可知,第一步是数据的采集与收集,这是数据大数据的源端,主要依赖于信息技术,如传感器网络实现对数据的采集。第二步是数据的预处理,由于现实采集的数据存在诸如缺陷、不规则、抽象性等问题,必须经过预处理后才能进行计算分析,这也是本文的重点研究内容。第三步是对得到的规则的数据矩阵进行存储。第四步是数据的分析,借助特定模型进行数据价值分析。第五步是对结果进行展示,也是数据价值表现的关键步骤。

从整个大数据的处理流程来看,数据预处理技术的水平决定了数据的真实性、完整性,对后续的数据分析起到十分关键的作用,在预处理环节用到很多的数学方法,本文接着重点阐述大数据预处理环节的相关数学变换与数学分析方法。

2 数据预处理技术分析[3]

2.1 需求分析

在大数据背景下,数据的收集过程中会产生诸多问题,例如测量收集设备精度不足、数据传输过程受到环境干扰、数据内有环境噪音、手工输入的误操作等多种情况。将会形成引言中所提到的“脏数据”。这些原始数据,将存在如下系列问题。

(1)杂乱。数据仅存放于数据集中,缺乏统一性的量化标准与转化标准,不利于数据的量化可视化分析。例如学校内有关学生对老师喜爱程度的调查中,“喜爱”、“一般”等名词便无法用于数据分析与处理。这类数据通常将通过归一化处理进行量化与分类整理。(2)重复。数据间拥有多个相同的物理描述与性质,特别的,对于要分析的数据方向存在重叠,将构成数据的重复与冗余数据的堆积。这将不利于样本的分析。例如在数据输入时,对同一实体输入了多次便会导致数据重复。(3)模糊。在实验模型或实际系统的设计中不可避免的存在一些漏洞与缺陷,导致实体属性不清晰或错乱。(4)缺失。数据传输或记录过程中出现错误,导致数据缺失。

由于数据集的复杂性,数据的正确性及有效性将极大地影响挖掘学习的准确性和有效性。所以对数据进行预处理就成为了分析前的重要工作。数据的预处理方法多种多样,例如数据清洗、数据选样、数据变换等。

2.2 数据清洗

现实中采集到的数据由于存在各种问题,一般都是不能直接用于价值分析的,这些不确定数据将严重影响大数据数据分析的准确性,严重时更会使分析结果失去实际意义,因此需要按照特定目的进行预处理。而数据清洗主要是针对那些不符合规则数据进行处理,如重复数据项、噪声数据项和缺失数据项等,对应的处理方法如图2所示。

重复数据会导致数据挖掘模式变化,因此必须给予剔除,但是如何有效检测重复数据需要良好的数据分析算法,如采用基于排序-合并原理的基本紧邻排序算法SNM是经常使用的一种高效检测算法。噪声数据是指那些异常数据不在合理范围的数据,常借助周围数据进行平滑处理,如进行平均值处理等类似分箱方法进行有效预处理。

在实际的生产生活中,不可避免的会在数据中产生大量的空缺值,这是现实世界所产生的数据集的特点,因此只能通过特定算法来尽量弥补误差。常见的缺失值预处理方法有:

(1)直接删除空白的数据项。这种方法的优势显而易见,效率高技术含量低。但是对于样本容量并不足够大的数据集,就会造成极大的偏差。样本标准差σ=其中。显然对于N不够大的样本,删除空白数据项会使μ和σ产生较大的误差。(2)利用填充技术填充缺失值。由于直接删除空缺值将有较大可能对数据造成不可逆的损伤,所以将运用填充算法补全数据,这样不易产生偏差。

1)统计方法:根据标准的正态分布我们可以知道,可以采用数据的算术平均值代替空缺值,这是最简单也是最常用的方法。2)分类方法:面对庞大的数据集,可以先将其分类再对较小的进行分析研究。具体方法有“贝叶斯网络法”、“神经网络法”、“K-NN法”和“粗集理论法”等。分类方法对样本训练都有较好的包容性,但是容易产生过度学习的现象,需要多设置测试样本运用更多的算法检测挖掘,在此不作过多介绍。3)关联方法:先使用迭代的方法找出所有满足频繁的、精确的可能规则的集合。之后利用启发式构造分类。4)聚类方法:聚类方法已经成为数据挖掘的重要技术之一,成为了知识挖掘的核心方法。聚类的思想是将相同的实例聚到一个集合里,将不相似的聚到另外的集合中。

对于所有聚类对象,有E=,d(a,b)=。其中E表示所有对象的平方误差的和,mi是Ci的平均值,d是两个属性间的距离。当然也可以通过这些公式和另外一些复杂的算法得出聚类间的相似度,在此不作过多论述。

2.3 数据选样

数据选样分为简单随机选样和分层选样两种,是数学中典型的概率统计问题。其中简单随机选样包括无放回选样与有放回选样,简单随机选样的算法容易实现,利用中学中的排列组合与概率知识配合编程知识就可以进行操作,门槛较低,应用广泛。分层选样得到的数据子集对于数据挖掘更优。

2.4 数据变换

数据变换的目的是将数据转换成特定挖掘需要的格式,通常需要结合实际的数据挖掘算法进行特定的数据变换,一般可以分为简单的函数变换和统一的规范化两种变换方式。

数据变换侧重于在变换过程中,将数据由原本的不规范难以表达难以计算的,化为规范化可分析化的,尽量消除數据收集储存过程中造成的本身缺陷。数据变换中较为基础的是简单的函数变换,将数据通过一定的数学排列,从而采用曲线拟合的方法,利用y=xk,y=lognx,y=ex,y=,y=,y=sinx等函数拟合,利用函数来预测数据的变化趋势与变化范围。较为复杂的也可以采用不同的复杂算法,如z-score规范化算法,使得数据变换更加准确科学。

除此之外有时还需要对数据进行集成处理,将不同的数据源所构成的数据集合相互整合去除冗余数据,将上述两个或多个数据集整合成同一个数据集后,再运用数据清洗技术,对其中的空缺值不准确值进行处理,从而获得的数据集更具有科学性,精准性。

3 结语

数据预处理是大数据处理的关键环节,通过文章对大数据处理技术及其预处理阶段的一些典型常见技术进行分析与总结,可以知道,目前大部分都是基于几类典型问题进行特定的数学处理。但实际上由于实际收集数据受外部环境影响大,造成数据随机性变化、数据质量很难保证,同时又由于各个行业对数据的要求不同,需要结合特定应用需要采取科学合理的数据预处理方法,才能为数据处理提供高质量的数据源,因此在应用过程中需要结合实际领域进行选取数学方法进行灵活应用。

参考文献

[1] 林子雨.大数据技术基础[M].清华大学出版社,2013.

[2] 刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报:工学版,2014,48(6):957-972.

[3] 孔钦,叶长青,孙赟.大数据下数据预处理方法研究[J].计算机技术与发展,2018(5):1-4.

猜你喜欢

预处理大数据
基于预处理MUSIC算法的分布式阵列DOA估计
大数据环境下基于移动客户端的传统媒体转型思路
浅谈PLC在预处理生产线自动化改造中的应用
络合萃取法预处理H酸废水
PMU数据预处理及压缩算法
基于自适应预处理的改进CPF-GMRES算法
以转炉为预处理炉冶炼不锈钢的特点