聚类分析方法在实验仪器设备预约问题中的应用研究
2008-03-11罗贤坤吴磊
罗贤坤 吴 磊
摘 要:介绍了建立案例索引的两种不同方法,通过分析将多级索引应用于聚类分析方法,将聚类分析方法应用于实验仪器设备预约问题中,具有重要的理论意义和实用价值。
关键词:案例索引;聚类分析;预约
1 案例索引的建立
1.1 单级索引
单级索引比较简单,适用于案例库中案例不太多的情况。可按某个属性的取值进行索引,如在仪器设备推荐预约服务系统中我们可以按照仪器设备的仪器类别这一属性进行索引。
1.2 多级索引
多级索引技术对于案例库较庞大的情况很有效,可以提高案例检索的效率。下面介绍采用采用聚类分析方法来为案例库建立二级索引时的案例组织方法,设整个案例库有N个案例,Casebase=<casel,case2,…,caseN>,首先对所有的案例进行聚类分析(即把相似的案例按某种方法先进行归类),得到M类抽象案例:
AbstractCasebase=<Acasel,Acase2,…,AcaseM>,其中M≤N
这M类抽象案例作为第一级索引,每类抽象案例中又含有数个具体案例,Acasei=<caseil,casei2,…,caseiS>, S为第i类抽象案例中所含具体案例数量。这些具体案例再按照案例的某项属性的取值进行索引形成第二级索引,如图1所示。
2 多级索引中聚类方法的应用
聚类将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同的簇中的对象差别较大。聚类分析的方法可以对相似案例进行归类,形成抽象案例以进行二级或多级索引。我们知道很多多聚类方法,如划分方法(Partioningmethod)、层次方法(hierarchical method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method),它们各有优点。聚类中常用的两类数据结构是数据矩阵和相异度矩阵。
数据矩阵(data matrix):它用p个属性来表现n个对象(案例),例如用年龄、身高、体重、性别等属性来表现对象“人”。这种数据结构是关系标的形式,或者表示为n×p的矩阵:
相异度矩阵(dissimilarity matrix):存储n个对象两两之间的近似性,表现形式是一个n×n的矩阵。
在这里玠(i,j)是对象i和j之间相异性的量化表示,通常是一个非负的数值,当对象i和j越相似,其值越接近0;两个对象越不同,其值越大。
下面用划分方法进行案例聚类。
给定一个含N个案例的案例库,划分方法构建案例库的K个划分,每个划分表示一个抽象案例,并且K≤N。划分方法要求用户输入抽象案例的数目K,然后把案例库中案例划分为K类抽象案例。K值的确定可以采用统计的方法获得。
在实际应用中,绝大多数聚类过程采用了以下两个比较流行的启发式方法:
(1)K-平均法,该算法中,每个抽象案例用其所对应的具体案例的平均值来表示。
(2)K-中心点法,该算法中,每个抽象案例用接近聚类中心的一个具体案例来表示。
在CBR系统中使用聚类方法只需在系统初次运行时进行一次案例聚类,以后就可以快速地进行案例的检索,极大减少了案例检索的空间,有效地提高了案例检索效率。当有新的案例加入案例库后只需把它加入最相似的一类抽象案例即可。对于用户对检索到的具体案例不满意的情况,可以综合同一抽象案例类中的所有具体案例的解决方案,向用户提供一个综合的决策支持。
参考文献
[1]Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].机械工业出版社,2005:223~254.
[2]Watson I.Applying Case-Based Reasoning:Tedmiques for Enterprise Systems[M].San Francisco,California:Morgan Kaufmann Publishers,1997.