基于机器学习的数据预处理框架研究
2023-08-14李小聪
李小聪
一、引言
随着信息技术的快速发展,社会各个领域出现了海量的应用级数据,如何从这些数据中提炼出有用的知识和信息,并将其运用到现实生活中,就成了整个数据挖掘领域的一个热门话题。本文以一卡通消费流水数据为例,将K-Means聚类算法与数据预处理技术相结合,建立了一个基于K-Means聚类的数据预处理方法,对数据进行了进一步的整合和优化,得到可用于下游任务使用的数据,并通过实验证明了本文所提出的一卡通数据预处理模型的实用意义和应用价值。
在数据挖掘中,数据的预处理是一个非常重要的环节,它能把直接收集到的非标准数据变成高质量的可以直接进行分析和处理的数据。然而数据预处理所需的步骤较多,处理流程非常复杂,需占用较大的计算机计算资源。聚类分析是数据挖掘的一种常用技术,它是根据数据本身固有的属性,对数据进行分组,使数据有一定的可分性和独立性,从而提高数据挖掘分析的效率和准确性。聚类算法中最常用的是K-Means算法,该算法采用迭代方式对聚类中心进行搜索,得到簇中心。而初始聚类中心选择直接影响到聚类结果的好坏。因此本文以一卡通消费流水数据为例,基于K-Means算法对其进行数据预处理,并使用机器学习相关算法对其进行分析,实现对数据的进一步整合和优化。
二、校园一卡通数据预处理功能分析
随着校园消费场景和数量的日益增多,目前迫切需要建立一套统一的、灵活的预处理方法,以应对海量、高维的数据特点。本文针对一卡通消费流水数据特点,提出了一个基于K-Means聚类算法与数据预处理技术相结合的数据预处理系统。本文的数据预处理系统由数据脱敏、数据清洗、数据规约和数据集合四大模块组成。
三、数据预处理框架的数据脱敏功能
因為使用者想要达成的分析目标不同,所采取的脱敏方式也不同,常见的脱敏方式有以下几种。首先是替换方式,即将需要保密的数据替换为一个随机数据。比如,把一个或一串字母改成另一个字母或者一串数字,或者把数字改成另一个数字或者字母。在本文中使用了一种利用散列映射代替敏感数据的方法。这种方式的优点是保持了原来的数据格式,这样替代后的数据在保密的前提下非常接近原来的数据。其次是置乱方法,即用一种随机的方式,把每一栏中的真值都给打乱,从而使原来的数据与不同的属性间的关系变得不确定。此外还有平均数方法,对于数值类型的数据,可以首先求出数据的平均数,再利用随机分布使得去敏化后的数值接近于平均数,从而实现数据之和的一致性。本文提出的数据脱敏技术的实现包括脱敏数据发现、脱敏策略制定、脱敏任务执行三个步骤,图1为本文对数据进行脱敏处理的方法。
四、数据预处理框架的数据清洗功能
本文提出了一种可用于一卡通消费流水数据的预处理方法。数据清洗模块是其中的核心组件,也是其中工作量最大的一环。本文提出数据清洗模块主要包含三个方面的工作:去除重复值,填补缺失值,发现异常值。
在使用一卡通的时候,因为某些特殊的原因,如网络原因,有可能会产生重复的数据,但是这一情况是小概率事件,所以,就整体而言,直接删除重复值,并不会对整个数据分布和数据挖掘过程造成任何影响。所以在本文中把具有相同数值的两个数据流看成是一份数据,并把它们合并成一个数据,这就是所谓的去重。
在数据分析过程中,数据缺失经常发生,重要数据或是没有价值的数据,都会使数据的分析处理结果发生偏差。针对缺失数据,本文提出了以下预处理方法。需要对数据的缺失值做出一个简单的判断和分析,最好的办法,就是用其他的数值来填补缺失,尽可能地恢复原始数据的实际内容。替换数值可以通过插值来获得,插值方法分为两类,其中一类为传统方法,如平均值,中间值等。另一类是基于算法,如回归插值、抽样插值等,运用常见的技术手段,比如聚类技术,分类技术。在本文使用的是后者。
离群值也被称为异常值,在对离群值进行预处理时,可以根据机器学习中的聚类方法,选择一个规模较小的簇作为异常数据,将其剔除。由于杂乱的数据会影响总体的协调性和数据分布,所以数据中的离群值指的就是那些跟大部分数据相距甚远的资料。其中,最常见的一种异常现象是基于统计学的异常现象发现方法,它把异常现象所对应的概率密度小于某一阈值的样本看作异常现象,并根据样本的均值和标准差估计出其参数。此外,箱形图是另外一种以统计方法为基础的离群值检测技术,它能直观的反映出数据的原始分布情况,能更好的对异常值进行分析。基于箱形图的异常值区分的办法是以箱形图中的四个点和四个点之间的间隔作为判据,在不打破判据的情况下,具有较好的稳健性。
本文选择K-means算法作为本文所设计的框架中的机器学习算法,本文提出的基于机器学习的数据预处理框架如图2所示。
五、结论
本文提出了一种新的数据预处理方法,并将该方法应用到校园一卡通数据的预处理中。本文以K-Means为基础,建立一个新的数据预处理模型,对抽取出的数据和特征进行聚类。对于缺失的数据,本文采用KNN算法对其进行补全;对于异常值,本文采用了一种基于聚类的异常值检测方法,该方法把较小规模的簇看作是异常的,然后将其清除,从而得到干净的数据集。
作者单位:中国电信股份有限公司北京分公司