APP下载

大数据背景下数据预处理方法研究运用

2021-04-04唐成龙唐海春吴泽锋

信息记录材料 2021年9期
关键词:规约实例数据挖掘

唐成龙,谌 颃,唐海春,吴泽锋

(1广州理工学院 广东 广州 510540)

(2广州科技贸易职业学院 广东 广州 511442)

1 引言

在经济快速发展的背景下,各类新进技术相继兴起应用,以云计算、大数据为代表应用频次最高,其内部蕴含的价值不可估测。现下海量数据高效处理,对目前技术应用提出新的要求,为进一步高效、及时获取数据信息中有效信息,需选取高速分析处理技术,对数据进行系统性分析优化升级。数据预处理工作是数据分析、挖掘前重要准备工作,选取科学处理方式,是保证最终数据质量及有效性举措。有必要分析加大数据预处理方式研究,提高数据预处理水平。

2 大数据背景下数据预处理价值分析

现下数据信息爆发式增长,为快速从海量数据中提取有价值信息,应选取有效技术措施,做好数据预处理工作,增强数据有效性。数据预处理作为数据挖掘与知识发现过程核心环节之一,加强数据预处理价值体现在以下几方面:(1)海量原始数据中通常包含以下特征:①不完整。属性值或仅包含聚离数据;②含噪音。数据内部含有错误或存在偏离预期分散数值;③不一致。数据记录规范性和逻辑性与其他数据未实现统一化,缺乏一定科学性。由于上述问题存在,人们使用数据过程中对其具有完整性、时效性及可靠性要求,所以需加强数据预处理,保证达成上述目标,为人们提供良好的服务。(2)由于数据采集规模较大,数据预处理通常需耗损大量时间,高质量决策依附于可靠度较高的数据,从实际中获取数据大多结构不一致、完整性不足等,无法实现直接利用目标。因此,需加强数据预处理,提高数据自身质量,为后续决策的正确性奠定良好基础。

3 大数据背景下数据预处理方法

由于数据种类及组织模式呈现为多元化,内部关联性较为复杂,且数据质量不尽相同,造成数据解读、分析多个环节中存在部分不足。因此,数据预处理作为数据分析、挖掘的重要准备工作,通过应用数据预处理措施,初期将海量数据中与最终挖掘、决策相关性较低的数据去除,为挖掘算法提供可靠性较高的数据信息。数据挖掘前提条件是应保证数据可靠性,去除其中“脏数据”,主要包含缺失数据、不确定数据等,对其进行预处理的方法,主要包含以下几方面。

3.1 数据清洗

采取高效的技术措施检测原始数据质量,判定其是否存在错误、不一致等,选取各类清洗处理技术,将数据进行清洗,提高数据可靠性。数据清洗技术内容较多,若想获取良好的数据清洗成效,应首先明确“脏数据”种类及形成因素,将其进行处理,转变为所需数据。随着信息业和商业高速发展,进一步促进数据清洗技术的良好发展。

3.1.1 重复数据的清洗

为从本质层面保证数据分析、挖掘速度和精准度,需将原始数据中叠加重复数据进行去除,以免对数据分析最终结果造成干扰。初期数据中存在两个或超过两个实例,则将其视为重复数据。为高效、及时确定数据重复,一般选取的措施为逐一将每一个实例进行比较,确定与其相吻合的实例。为掌握实例中数据自身属性,可通过统计学进行检测,按照不同数值型属性均值和标准方差值,布设相应的属性区间,并与上述数据一一对应,辨识数据集合中重复记录,及时将重复数据去除。针对上述叠加数据通常选用相似度计算,以其作为去除准则,判定数据相似度是否满足要求。将两条记录相似度进行比较,其数值超出一定限值,则判定两条记录吻合,反之两者属于不同实体[1]。

3.1.2 缺失数据清洗

完善缺失数据作为数据清洗过程中面临的又一瓶颈,实际数据采集过程中,因人为操作不当致使信息可靠性丧失等,造成数据内容缺乏一定的完整性,会对抽取模式精准性和导出标准造成一定干扰。错误数据挖掘模型应用于决策端口时,会造成结果与决策偏离正确轨道,造成严重损失。针对缺失数据清洗,其选取方式包含两方面:一方面,忽略缺失数据。原始数据收集、整理过程中,受多方面因素影响,造成部分数据属性不完善,为避免其对整个数据群造成影响,需选取忽略删除方式去除。数据整体规模较小,且完整性数据较少条件下,一般选用该方式进行数据清洗,此种方式应用效率较高。若数据集合规模较大,一经删除部分记录之后,造成后续数据规模缩小,构建模型典型性和适用性无法凸显,可靠性降低。此外,删除缺失数据过程中,可能将原有有价值数据去除,进而对后续数据挖掘、模型构建造成干扰,最终挖掘成果可靠性不佳,易对最终决策有所干扰。另一方面,基于填充技术缺失值插补算法。上述删除法应用过程中存在一定局限性,所以被应用选择频次较低。为填充原始数据缺失内容,可选取最接近缺失值替代,保证数据挖掘质量及可靠性。填充方法存留原有潜在价值数据,构建最终模拟更具可靠性,为决策提供高质量信息数据。

3.1.3 噪声数据处理

数据正式挖掘之前,通常将数据设定为理想状态,但现实生活中收集、整理数据过程中,受多重因素干扰,会产生一定的噪音数据,即“离群点”。由于噪声数据偏离正确数据范围内,难以保证最终数据分析、挖掘成果,影响其后续挖掘结果准确性。一般常用消除噪声数据方式包含两种:(1)分箱法。将预处理数据分散至不同箱子中,以周围实际平滑噪声数据为基准,将其划分为两种类型。依照平均数值进行平滑,提取平均数值,并将其作为整个箱子中数据代表值;按照中位数平滑,与上述方式相同;根据箱边界平滑,定义箱边界是箱中最大和最小数值。(2)噪声过滤。选用聚类方法对离群点进行分析、过滤。噪声过滤中,常用算法主要包含EF算法、IPF算法[2]。

3.2 数据集成与变换

数据集成过程作为一项复杂性工作,主要将多文件或数据库中数据进行整合汇总处理,从本质层面消除语义的模糊性。数据变换主要是对原有数据进行分析,掌握其特点规律,选取维变换或转化方式,减少数据中有效量数目。数据变换将数据转化为吻合数据挖掘需求各种形式,依照实际应用数据挖掘算法,确定使用数据转换具体方式。通常数据转换方式较多,应依照数据属性实际状况,选取科学、合理数据处理措施,如函数变换、数据规范化等,规范化有助于数据实现合理划分类别,以及避免对度量单位依赖性。

3.3 数据归纳

数据归纳主要是对发现任务和数据自身解读层面,探寻数据中表达特征,以此实现缩减数据模型,进而保证数据原有形貌同时最大限度简化数据量,保证大数据挖掘更具高效性。数据规约包含两种方式,即维规约、数量规约。数据规约过程中包含关键技术如下:(1)高维数据降维处理。数据规约过程中重点内容是高效减少数据数量,提取其特性核心目的在于其是否可准确展示相关问题属性,且将多余属性去除,保证其学习高效性增强。(2)实例归纳。现阶段使用频次较高的减少数据方式为实例规约方式,实现数据减少目标同时,保证数据处理质量。应用自动生成实例方法,进而降低数据宏观整体规模,其包含技术较多,如实例选择、实例生成等。实例选择主要是生成一个最小数据集,将噪声数据等多余数据去除,独立之后进行数据挖掘算法;实例生成主要是构建多种实际案例,涉及相关算法包含LVQ。(3)离散化技术。数据离散化之前,需估测离散型数据整体规模,随后将其数据按照一定顺序排列,明确多个分裂点将数据划分为多个区间。将处于同一区域内全部连续性数据,选取统一性方式匹配值相同离散型数据上。按照分裂点认定方式不同,离散化主要划分为两种方式,即自顶向下、自底向上。(4)不平衡学习。利用机器进行学习形成数据模型过程中,针对不同种类数据集成上形成良好的差异。其中,多数标准分类学习算法会倾向于实例,对少数实例予以忽视。数据预处理相关技术可有效避免类型分布不均衡状况,核心方式包含两种,即欠采样方法、过度采样方法,前者是抽样创建初期数据子集作为数据挖掘,建议将大多实例去除;后者实际抽样过程中复制大量相同实例[3]。

4 反思与建议

多数方法可在数据清理和规约中应用,且两者在整合数据预处理过程中更为重要,特别是整个数据规约流程。原有应用统计学对数据进行处理时,基于概率论下,以设计试验方法最终获取相关数据,从而保证数据吻合相关形成模型。数据挖掘面临的是大规模数据,数量、变量数较大,数据间关系较为复杂,两者存在目标相同,选取推导掌握整体数据规律,是统计学实施核心方式,数据挖掘更强调对整体规律分析。由上述分析获知,掌握两者间存在差异性,具体应用过程中,掌握数据挖掘中数据特征,综合应用多学科知识,高效融合统计学方法。

针对未来数据预处理方式改善建议如下:首先,注重数据预处理应与专业知识与知识应用融合,且应始终贯穿于数据预处理各环节中。其次,原始数据源获取是数据预处理重要节点,需严控其预处理各环节质量,保证数据处理高效性及可靠性。最后,应积极推行倡导对数据预处理实现循环模式[4]。

5 结语

大数据时代背景下,各类先进技术应用于多个领域行业中,有助于推动数据预处理方法提升和扩展。数据预处理是数据挖掘基础保证,通过高质量数据预处理工作,将其中多余数据、错误数据等去除,及时填充缺失数据,实现必需数据集成汇总,保证数据质量可靠性,为决策提供完整、高效数据。

猜你喜欢

规约实例数据挖掘
探讨人工智能与数据挖掘发展趋势
电力系统通信规约库抽象设计与实现
一种在复杂环境中支持容错的高性能规约框架
一种改进的LLL模糊度规约算法
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
修辞的敞开与遮蔽*——对公共话语规约意义的批判性解读
完形填空Ⅱ
完形填空Ⅰ
基于GPGPU的离散数据挖掘研究