基于三支决策的缺失数据处理综述

2020-11-25竺凡超李红宇

电子技术与软件工程 2020年3期

竺凡超李红宇

（哈尔滨师范大学黑龙江省哈尔滨市 150025）

1 引言

在进入大数据应用时代的背景下，随着当前我国计算科学与信息技术的快速发展，数据存储及获取能力有了很大的提高，数据整体规模呈现急速增长姿态。然而由于诸多人为因素，数据分析获取时间限制等诸多技术方面上的原因，出现了大量具有缺失性的数据在企业数据的采集分析和数据研究结果推论上都将会带来比较大的困难，往往容易直接造成数据分析推论结果出现偏差，影响数据决策者的正确性。缺失大量数据的采集处理已经成为一个非常具有巨大挑战且几乎不可避免的技术难题。目前已经提出了很多正确处理缺失数据的有效方法，如何更有效的正确处理这些具有缺失性的数据，随着三支决策思想的引入后也得到了很大程度的改善。

2 三支决策理论概念

三支决策理论是由著名的加拿大华人中国学者姚一豫等人于上世纪九十年代研究并提出的，在二支决策基础上的一种新的决策理论与方法。三支决策与传统的二支决策相比，大大减少了失败决策带来的风险。二支决策强制的对数据划分为正域、负域,而三支决策在此基础上增加了第三种域，即不确定域。它作为当信息来源不足以做出接受或者拒绝时的一种过渡的决策行为。其目的是快速、低成本、高收益的决策,并具有一定的容错能力。这种方法将一个整体分成三个部分,然后对这三个部分中的一部分或全部采取行动。在许多实际情况下,能够将复杂的问题处理简单化，是最符合现在人类社会普遍认知的一种决策处理模式。

3 数据缺失概念及原因

数据缺失是指因为各种原因导致的数据不完整。在现实情况中，存储及管理数据中经常存在这类问题，几乎在各种领域科学研究中也是普遍存在，也是各种实用数据库在大多数情况下存在的不可避免地问题。主要原因如下：

（1）人为原因造成。数据的使用和转录很大程度上受人为因素影响。人为的错误的操作、人为的判定数据重要性、对数据的错误理解，往往会导致无法挽回的影响。

（2）存储设备的限制导致。数据采集到使用，都是依靠设备转移和存储。考虑技术原因和设备的自有限制，容易导致数据丢失。

（3）数据属性导致的必然缺失。数据的信息在不同维度不可能做到完全独立不相关，所以在相关维度的某些数据不存在。例如，在未婚女性的丈夫信息必然是空缺的。

（4）历史的原因导致。随着我国科技的进步，每一个领域都有不停更新的信息维度，导致以往获取的数据无法满足最新的信息维度。在新的维度下，数据就是缺失的。

（5）索取这些信息的代价太大。

（6）系统实时性能要求较高。即在求得到这些信息前迅速做出判断或决策。

4 数据缺失机制

在对缺失数据进行处理前，我们先来了解数据缺失的机制以及形式。

（1）完全变量—不含缺失值的变量（属性）的数据集。

（2）不完全变量—含有缺失值的变量的数据集。

缺失机制描述的是缺失数据与未缺失数据之间的关系,有助于帮助完整数据来解决缺失数据问题。在专家、学者系统探讨和深入研究了目标变量与缺失数据的基本相关性之后,分别重新地定义出了完全随机数据缺失、随机数据缺失和非随机数据缺失(不可忽略缺失)这三种不同的数据缺失的情况。

（1）完全随机缺失—某个变量是否缺失与它自身的值无关，也与其他任何一个变量的值无关。例如，由于测量设备故障导致某些值的缺失。

（2）随机缺失—在控制了其他变量已观测到的值后，某个变量是否确实与它自身的值无关。例如，人们是否投入收入可能与性别、教育程度、职业等有关系。

（3）非随机缺失—即使控制了其他变量已观测到的值，某个变量是否缺失仍然与它自身的值有关。例如，在控制了性别、教育程度、职业等已观测因素之后，如果收入本身的值是否存在缺失还需要依赖于收入本身的值，那么收入就是非随机缺失的。

5 缺失数据的处理

5.1 删除法

删除法是最简单的方法，常用的删除法有列表删除、个案删除和配对删除。如果数据集对象符合以下两个特征，一是该数据集对象出现多个缺失的变量，二是被删除的该含缺失值的数据量对象在整个样本数据集中所占有的数据比例很小的情况下，删除法将会是缺失数据处理众多方法中更加简单和有效的方法。可是这种方法有很大的局限性，它减少了原始数据的样本个数，造成样本资源的浪费，且被删除的对象在样本集中的缺失和隐藏数据将没有再获取的可能。在面对样本数据集中样本不多的情况，用删除法将对数据信息的客观性和结果的正确性造成严重的影响；而且很可能得到错误的结果，尤其当每个变量缺失的比例很大的情况下。

5.2 数据填补法

5.2.1 平均值填补

平均值填充属于单一填补法的一种,其主要针对两种不同属性类型的样本缺失数据，分别是离散型数据和连续型数据。把所有不缺失该属性的样本的均值对缺失值进行填充的方法常常出现在数据属性连续的情况下；把所有不缺失该属性数据中取值频率最多的值进行缺失值填充则常常用来处理属性离散的数据。这种方法的主要思想是根据数据集的完整属性推测缺失属性,将出现次数最多或者所有取值中心点作为填充值,优点很明显就是速度快效率高,但也导致了所有的填充值集中样本之间的差异减小,样本缺失数据的属性分布在一定程度上受到了改变。一般情况下对于比较简单的完全随机缺失的数据集则很适合用平均值填补进行处理,但对于处理复杂情况，平均值填补效果并不好。

5.2.2 期望最大化法

期望最大化法即所谓的EM算法，是常常用来处理大量的不完整数据的一种迭代求精算法。期望步和最大化步是期望最大化法每一次迭代都包含的步骤。期望最大化法有一个基本的思想就是先预估缺失数据初值,然后计算出模型参数的值,接着再对期望步和最大化步的数据进行迭代,不断更新缺失数据的值,直到整个算法完全收敛。这种数据填充方法在稳定的计算步骤下就已经能找到一个全局最优的解,不仅简单快速而且有很高的精度。但这种方法没有充分考虑数据局部的相似性,在数据填充上用的是整个的数据集样本,当原始样本数据量很大的时候往往直接影响整个算法执行的速度,且算法的稳定性及收敛速度与初值的选择有很大的关系。

5.2.2 聚类填补

聚类指的是通过一系列方法，例如常见的k-means聚类算法，最大最小距离聚类算法等等。把具有类似的元素的样本分类成一个集合，在数据分类中有着多方面的应用。另外这些数据组本身没有类别，它作为对象的集合叫做簇。聚类即是对每一个这样的簇都进行描述的过程

目前主流的聚类填补方法主要是两种。第一种方法是,只对缺失数据中完整的数据来进行聚类,然后把缺失的数据对象和聚类中心分别进行相似度对比,然后将缺失数据对象划分到这几个聚类的簇中,再根据簇中的整体信息进行填补。这种处理方法的最大缺点主要是没有很好的考虑到缺失数据的信息和缺失数据的整体分布情况,对聚类的准确性有影响。第二种方法是,对缺失数据进行简单的填补或不处理,直接进行聚类,根据缺失的数据对象所属的簇进行填补。这种处理方法则没有很好的考虑到缺失数据带来的信息干扰,影响聚类的准确度,同时增加了聚类的难度。

在大多数聚类模型中算法没有充分考虑各属性在数据聚类中可能发挥作用不同的实际情况。苏婷等人首先提出了一个针对缺失数据的考虑属性权重信息的三支决策聚类模型。这个模型根据当前数据对象属性的缺失率和当前数据对象属性的重要性不同,并按照信息量下降的顺序划分成了四类:充分数据、有价值数据、不充分数据和无效数据。然后引入三支决策思想对这四个分类进行相应的处理,模型将当前信息不足,不能分类的数据对象做不承诺处理,也就相当于划分到类簇的边界域。接着提出了一个基于邻域对象的缺失数据区间描述方法,使用领域内数据对象属性值的区间形式,从而来估计缺失的数据,这种区间形式表示的缺失数据比数据近邻的平均值表示更具有鲁棒性。在针对不同的分类进行不完备数据的填充，符合三支决策的思想，也带来了比以往二支决策处理下更理想的结果。

聚类在缺失数据填充中发挥着不可忽视的作用，类似的将三支决策思想引入聚类,在对缺失数据进行填充,对聚类填补的准确性有很大好处，但聚类填补也有在面对缺失的特征不做处理，过分依赖不缺失的数据。

5.2.3 多重填补法

多重插补法也是处理缺失数据的一种有效的策略。它分为三个步骤：先为每个缺失值产生一个可能的填充值，然后用针对完整数据集的统计方法对填补数据集合都准确的进行分析，最后综合所有数据集的结果，分析推断出最终的值。比较常用的多重填补法有PMM法、趋势得分法和马尔科夫链蒙特卡罗法等等。

多重填补法的优势体现在以下三个方面：

（1）多重填补法将辅助信息合理的利用起来，提供m个值来代替的方法，保持了原数据集的不确定性。

（2）多重填补法可以做到尽可能真实的情况下去模拟缺失数据的分布，这样就能够尽可能地保持变量之间的原始关系。

（3）多重填补法能够相对准确地给出信息，用于衡量实际估计结果的各种不确定性,弥补了单一插补法估计结果过于简单的这个缺陷。

当然多重填补法也同样存在一些不足，多重填补法需要比单一填补法做更多的工作，大量因数据填补而产生的数据集需要有更大的存储空间,且需要更多的精力去落实到工作上。

5.3 不处理法

不处理法主要指的是贝叶斯网络和人工神经网络等。贝叶斯网络仅在对领域知识具有一定了解且对变量间的依赖关系较清楚的情况下可以使用。人工神经网络可以有效的对付缺失值，但人工神经网络在这方面的具体研究还有待进一步深入展开。

6 总结

上述简单介绍了在数据缺失时的3大类缺失数据处理方式，根据鲍晓蕾[3]等人对缺失数据填补方法的研究，在缺失率分别为10%、20%、30%、40%和50%做出对比。当缺失率（10%）时，缺失数据所有方法的处理结果均较好，当随着原始数据缺失率增大，只有多重填补法能取得较为理想的效果。考虑到多重填补法的复杂性等缺点及时间成本，我们可以引入三支决策思想来对缺失的数据进行更合理的填补处理。面对实际数据的缺失率（10%）时，我们可以采用删除法达到更加简单有效的处理。当数据缺失率（10%）时且（M%）时，采用合适的填充法。当数据缺失率（M%）时，选用多重填补法来填充数据，达到更理想的处理。M值的选定根据对数据处理结果的具体要求和客观条件来酌情选择，将大大减少处理复杂度。最终根据数据缺失的不同类型，选择不同的方法才是关键，三支决策思想无疑会对未来确属数据处理这一方面提供巨大帮助。