粗糙集聚类技术及其在企业中的应用综述

2017-10-26何宗顺

电脑知识与技术 2017年22期

何宗顺

摘要：智能信息处理技术作为一项可以处理大量数据的技术得到了广泛的应用，其中，粗糙集技术作为其中一项具有广阔的发展前景的技术引起了人们的注意。它可以帮助企业解决多方面问题，对企业的发展起到了非常良好的作用。本文介绍了粗糙集技术在企业中包括内部运营和外部评估等各方面的应用。

关键词：智能信息处理；粗糙集；聚类；应用企业

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2017）22-0001-03

1概述

随着当前互联网技术的发展，企业各部门、各流程中产生的各种数据越来越多，迫切需要一种技术来对这些数据进行处理。智能信息处理技术作为一种涵盖多个学科的技术，对各领域企业的数据处理过程产生了巨大的推动作用。例如在金融和市场分析中，人们可以利用数据挖掘技术，分析股票、市场的走向，而在企业中，智能信息处理技术可以帮助企业进行决策，提高企业决策科学、合理性，为企业发展做出贡献；在某些处理数据量较大的环境中，传统数据处理技术并不能很好的利用大规模数据，但智能信息处理技术不仅能够对股市情况作出准确判断并预测金融趋势；在企业生产和运营过程中，利用智能信息处理技术能够对企业生产进行科学规划和管理，提高效率与产值，提高运营管理效率。粗糙集是一种处理缺失和非精确的数据有效工具，基于粗糙集及其扩展模型的聚类算法研究是智能信息处理领域的核心问题之一。将该技术引入信息量爆炸的现代企业，不仅可以为企业的经营提供有效支持，而且能够发现某些为人忽略的问题。因此本文对粗糙集方法以及粗糙集方法在企业中的应用前景做了概述。本文首先介绍了多种粗糙集理论，然后对基于粗糙集理论所衍生的聚类方法进行了概述，最后则是对粗糙集聚类方法在企业中的应用进行了综述。

2粗糙集理论基础

2.1经典粗糙集

粗糙集（Rough Set）理论是由波兰教授Pawlak于1982年提出的一种能够定量分析处理不精确、不一致、不完整信息与知识的数学工具。粗糙集理论的主要思想是利用已有的知识分类来近似的逼近不精确的或是不完整的知识。它是一种建立在分类机制上的一种工具，通过等价关系来对空间进行划分，使用上下近似集来逼近空间中的任意一个集合。粗糙集理论最大的特点就是它无需提供问题所需处理的数据集合之外的任何先验信息，所以对问题的不确定性的描述或处理可以说是比较客观的。

粗糙集理论中的“知识”实际上是人们通过自己的认知来对所有事物分类后得到的事物的状态。知识必须与人类创造的各种分类模式联系在一起，这些分类模式是人们在探索世界和对世界进行抽象的过程中得到的。所有我们可以分类的对象就是粗糙集理论所要研究的对象，称为全域或者论域。

定义2.1设S=（U，A，V，f）为一个信息系统，也称为知识表示系统。其中U={U₁，U₂，…，U_|U|}是所有要讨论的个体的集合，它是有限非空集合，称为全域或论域（umverse）；u的任何子集U_i称为u的一个分类；A={A₁，A₂，…，A_|A|}为属性的有限非空集合；V=∪V_a，其中a∈A，V_a是属性a的值域，集合V是属性

由以上粗糙集的基本概念可知，集合的不确定性存在于边界上，集合的边界越大，就越可能存在不确定性，同时粗糙集理论认为边界的不确定性主要是由于基础属性的分类不精确所以导致无法精确的表示某一个集合。因此粗糙集不需要精确的数值来表述不精确的知识，而是采用分类（包括上近似集和下近似集）来逼近模糊的边界。这也是粗糙集最大的特点之一。

2.2粗糙集扩展模型

2.2.1邻域粗糙集模型

由于经典粗糙集理论是基于不可分辨关系实现的，所以只能处理名词型数据，但现实中更多的存在的是名词和数值属性都包含的混合型数据。为了解决这一问题，Lint31等利用邻域关系替代等价关系，提出了邻域粗糙集模型，该模型利用邻域关系来对知识进行划分，从而直接处理混合型数据。

2.2.2多粒度粗糙集模型

经典粗糙集模型和邻域粗糙集模型，都是基于单个不可关系或单个邻域关系来对论域进行分类，进而逼近未知概念，都是从唯一的角度对问题进行分析。但实际生活中，我们经常需要多角度对问题分析和处理。因此钱宇华和梁吉业等提出，采用多个属性来对论域进行分类，构造多粒度的论域空间，进而在多粒度论域空间上进行目标概念的近似逼近。他们分别定义了两种具体的多粒度模型：乐观多粒度粗糖集模型和悲观多粒度粗糖集模型。

2.2.3变精度模型

现实生活中一直存在着一对多或是一对多的关系，因此经典粗糙集中的一对一的关系就不能完全适用了。因此采取可变精度粗糙集模型，允许某一对象可以错误分配到其他类中，以此来加强粗糙集的抗干扰能力。可变精度粗糙集模型通过定义一个精度，来调节误分类的概率，从而增大粗糙集模型的容错性。

3基于粗糙集的聚类方法

Lingras和West于2004年首次将粗糙集理论引入到了k-means聚类算法中，用于处理边界问题。提出了基于粗糙集的聚类算法有三条必须符合的条件：

（1）如果一个对象属于一个类簇的下近似集那么它就不可能再属于其他类簇了。

（2）一个类簇的下近似集一定是该类簇上近似集的子集。

（3）如果一个对象不属于任何一个下近似集，那么它至少属于两个上近似集。

Petersm在Lingras和West的基础上对粗糙k-means算法进行了进一步的改进，步骤如下：

（1）首先确定将要输出的类簇数目K。

（3）确定大于0的阈值∈，以此来判断某对象是属于下近似集还是邊界集。首先将某个对象离各个中心点之间的距离t_i（1≤i≤K）按从小到大排列，若存在t_i-t₁≤E，则将该对象分配到t_i所代表的中心点的上近似集中，若不存在，则将该对象分配至最近的中心点（即t₁所代表的中心点）的下近似集中。endprint

Viswanath和Suresh在2009年提出了一种可以应用于混合大数据集的基于粗糙集的DBSCAN算法（Rough DBSCAN）。

原始DBSCAN算法由以下三步构成：

（1）初始状态，给出一个数据集D，并设置半径和MinDs，将D中的所有对象标记为“unvisited”（未被访问）。

（2）随机从D中选取一个未被访问的对象p，并标记为“vis-ited”（已被访问），检查p的一邻域内是否至少包含MinPts个对象（即p是否是核心对象），若不是，则将p标记为噪声点，否则，为p创建一个新的簇C，把p的一邻域中所有标记为“unvisited”的对象放入候选集合N中，并迭代的将N中的"unvisited"的对象q标记为“visited”，若q的—邻域至少包含MinPts个对象，则将q的一邻域中所有的对象加入到C中，直到C不再扩大，N为空的时候，此时簇C完成聚类，并输出。

（3）继续从D中随机选取未被访问的对象s，同样使用（2）中的聚类方法，直到对象集D中所有对象都被访问。

由于原始DBSCAN算法需要计算每个点的邻域内对象的个数，这就造成在该算法应用于大数据集消耗时间过多，不适用于大数据集。但是Rough DBSCAN算法改进了这一点，能够适用于超大规模数据集，该算法使用了领导点的概念，即从第一个点开始，找到所有在该点的T（T《∈）邻域内的点并标记，然后在剩下的未标记过的点中继续这一流程，结果如图1所示，我们将所有的点都分为了多个小块。接下来我们使用这些对象块来代替原始DBSCAN算法中每个对象点，如图2所示。若I_i在，的邻域内，则，的∈邻域内的个数card（1）设定为∑count（I_i）。然后再按照DBSCAN算法的流程进行聚类。

Parmar和Wu与2007年提出了一种使用粗糙集的对名词型属性数据进行聚类的方法，首先对每个属性进行分类，计算平均粗糙度，通过最小平均粗糙度得到最小粗糙度MR，通过最小MR得到MMR，以MMR最小的属性为起始，迭代的对每个属性进行二分，最后就可以得到基于粗糙集的分类了，该种分类方法的粗糙度也是较低的。

4聚类方法在企业中的应用

涂袁志等于2012年提出了一种基于粗糙聚类的针对航空制造企业零件生产周期分析的方法，通过对工序加工周期进行粗糙聚类，分析后得到合理的工序周期范围，然后通过工序的离散度计算零件周期粗糙聚类的阈值，然后对零件加工周期进行粗糙聚类，这样就可以得到合适的零件周期范围，这样我们通过周期类上、下近似方法刻画企业实际生产周期样本的归属，并将不同类别的周期表达为一种覆盖关系。

鲍新中等于2013年提出一种基于聚类-粗糙集-神经网络的企业财务危机预警方法，首先利用粗糙集方法对财务预警的对象进行约简，然后再使用层次聚类方法对约简后的数据集进行聚类并分析。

2008年吴晓彬提出了一种基于金融时间序列的粗糙聚类分析方法。首先通过小波多尺度变换，改善时间相似性度量。通过隔点采样将原序列分解成低频系数列跟高频系数列，由于低频系数列保留了原序列的大致形状信息，且长度较短。因此我们继续对上一次得到的低频系数列进行分解，得到下一层低频系数列与下一层高频系数列。在研究了时序相似性度量的基础上，选取几十只股票将粗糙集聚类方法应用于金融分析中，根据聚类结果进行分析，得出股票变化的信息。

徐炜等于2013年提出一种基于二阶聚类与粗糙集的模型，该模型二阶聚类模型对历史水文数据进行聚类，然后分析各种因素对洪水分类的影响程度。再使用遗传算法来确定相应的模型参数，同时通过粗糙集挖掘影响因素与洪水类型间的隐含关系，验证后发现可以在实际应用中，根据当前获得的洪水的参数来辨别出所发生洪水的类型同时对有关部门进行洪水预警。并将相应的模型应用于实例当中。

彭杨可将基于因子分析和粗糙集的聚类分析模型应用于城市发展状况评估中。首先对样本数据做出因子分析，得到降维后的数据结果，然后对得到的结果进行基于粗糙集思想的K均值聚类分析，得到包括上下近似集的聚类分析结果，然后对聚类结果进行分析。同样的，该方法也可以用于居民生活水平评估，企业也可以通过这一手段来判别哪一城市更具有投资价值。

徐节龙也提出了一种基于收益风险优化属性约简的聚类分析方法，首先利用面粗糙聚类算法进行聚类得到一个小粒度的聚类结果；然后使用基于收益风险优化属性约简的聚类算法，用收益风险优化的函数来指导合并过程，减少不必要的粒，然后采用层次聚类的形式得到一个合适的聚类结果，并对聚类过程进行评估，直到满足聚类算法的终止条件。

5总结

综合上文所述，我们虽然粗糙集理论从提出至今只有二十几年的发展历史，但在粗糙集研究上取得的成果还是引人瞩目的。尤其基于粗糙集所提出的各种聚类和约簡算法，如粗糙k-means，粗糙DBSCAN算法，以及各种约简算法，这些方法在企业的应用中极为广泛。对于企业来说，基于粗糙集的各种方法的应用无疑是一座巨大的金矿，可以使用这些方法进行多方面的分析。同时由于粗糙集可以与模糊集等数学工具结合。这就更扩大了企业应用粗糙集的范围。endprint