基于信息论方法的分类数据相似性度量

2018-06-04郑碧如吴广潮

计算机与现代化 2018年5期

郑碧如，吴广潮

(华南理工大学数学学院，广东广州 510641)

0 引言

在机器学习算法中，两实例间距离或者相似性度量扮演着重要的角色，广泛地应用于分类、聚类和奇异值检测和特征学习[1-2]等算法中。常用的距离度量方法，如闵可夫斯基距离、马氏距离等，通常只适用于数值型数据。而对于分类数据，其属性为分类属性(如颜色、形状等)，其值具有离散、无序和取值有限的特点，因此，不能直接对2个不同属性值进行比较，通常是利用数据驱动的方法，通过数据的分布情况等信息来对其进行度量。

对已提出的分类数据的度量方法，可分为不相似性和相似性这2大类。不相似性的方法包括Xie等人[3]提出的方法将分类数据映射到实数域，并以此度量不相似性，通过基于最近邻分类错误率最小化来更新值；Cheng等人[4]使用自适应相异矩阵评估分类属性值之间的差异，用梯度下降法优化误差；Le等人[5]则考虑给定2个值与其他属性的条件概率分布差异的组合进行度量，但随数据维度的增大，其复杂度也大大增加。Alamuri等人在文献[6]中介绍了对分类数据的距离或相似性度量的方法，而Boriah等人在文献[2]则侧重介绍了数据驱动的分类数据相似性度量方法，并根据方法所基于的理论对其做如下分类：基于频数的方法有OF(Occurrence Frequency)，IOF(Inverse Occurrence Frequency)，其中IOF与信息检索的逆文档频率的概念相关[7]，Wang等人[8]将其应用到中文文本分析。基于概率的方法有Goodall，Smirnov和Anderberg，其中Goodall提出的度量使得不频繁属性值对整体相似性的贡献大于频繁属性值；而Smirnov不仅考虑给定属性值的概率，还考虑同属性其他取值的概率分布。基于信息论的方法有Burnaby[9]、Lin[10]、Lin1[2]，其中Burnaby提出的方法使得在值不匹配时，对不频繁的属性值赋予较低的相似性；Lin定义2条数据的相似性是其共同的信息与总信息的比率，对频繁值在匹配时赋予更高的权重，对不频繁的值在不匹配时赋予更低的权重；Lin1是Lin相似性的修正方法，其不仅考虑给定属性值的概率，还考虑同属性的概率处于两者间的值的概率。除上面介绍的方法外，还有简单易懂的度量方法：Overlap[11]，其定义2属性值相同时的相似性为1，否则为0；Eskin等人[12]提出的度量是关于属性取值个数的递增函数，取值越多的属性，被赋予更高的权重，但会出现同属性不同值具有同样的相似性。

上述相似性度量方法可应用于分类、聚类算法中，但是在有监督学习任务中，其未利用到数据集的类信息。考虑到类信息对分类有至关重要的作用，本文提出Lin方法改进版本MLin(Modified Lin)，该方法把给定属性值的类概率与信息论方法结合，构造新相似性度量函数，对分类数据进行相似性度量。最后，在UCI机器学习数据库中的多个有类标签的分类数据集上，利用k-NN[13]算法与多个相似性度量方法结合进行实验比较，验证MLin的合理性和效用性。

1 Lin相似性度量

Lin[10]提出的分类数据度量方法是基于信息论的，包括了对有序和无序数据进行相似性度量。本文主要介绍对无序属性的度量方法，Lin认为x和y这2个实例的相似性与它们的共同信息和总描述信息有关。显然，若2实例的共同性越大，相似性越大；差异性越大，相似性越小。

对于2个实例x=(X1,X2,…,Xd)和y=(Y1,Y2,…,Yd)，Lin对其相似性的定义为：

(1)

(2)

(3)

(4)

2 Lin相似性度量的改进

2.1 MLin相似性度量

从上一章可知Lin相似性只利用属性值的概率，结合信息论方法构造相似性度量，且2实例的相似性范围为[0,1]。在处理分类问题时，Lin度量没有利用到类标签信息，而类信息对分类起着至关重要的作用。考虑到对带标签数据的相似性度量除利用属性值出现的概率外，还可以利用属性值在各个类上的分布信息，为此，本文将在Lin的理论框架上进行延伸——利用属性值的类条件概率结合信息论方法构造相似性度量，并对该修正方法命名为MLin。

假设分类数据包含C个类别，将Lin相似性中的概率改为类条件概率，即对式(2)～式(4)作如下修正得到式(5)～式(7)：

(5)

(6)

(7)

2.2 MLin相似性算法描述与分析

对于MLin相似性，最核心的部分是求出各属性值的类条件概率，再进一步求出属性值间的相似性。在算法1中，先假设属性Ak有nk个取值，再以维度为d，包含C个类别的数据集D作为输入，求出所有属性值的类条件概率列表M,相似度列表S。M的第k个元素Mk是关于Ak的条件概率矩阵，其规模为nk×C；S的第k个元素Sk是关于属性Ak的相似性矩阵，其规模为nk×nk，并且是对称矩阵。

为了方便算法描述，先对数据集进行数据化预处理，把属性Ak的nk个取值按0到nk-1进行标记。例如对颜色(红，黄，蓝)进行如{红：0，黄：1，蓝：2}的形式数字化处理。在此，假设数据集D已经过数值化预处理。

算法1预处理信息提取算法

输入：数据集D={(xi,ci),i=1,2,…,N}，维度d，类别数C

输出：所有属性的类条件概率列表M,属性相似性列表S

过程：

1:初始化类条件概率列表M,属性相似性列表S

2:for k=1,2,…，d do

3:初始化类条件概率矩阵Mk,属性相似性矩阵Sk

4:for i=0,…,nk-1 do

5:for c=1,…,C do

7:end for

8:for j=i,…,nk-1 do

9:Sk[i,j]=Sk(i,j)

10:Sk[j,i]=Sk[i,j]

11:end for

12:end for

13:将Mk,Sk分别加入M,S

14:end for

将算法1的输出类条件概率列表M,属性相似性列表S作为算法2的输入，即可求出2目标实例x,y的相似性。

算法2MLin相似性度量算法

输入：x=(X1,X2,…,Xd)和y=(Y1,Y2,…,Yd)，类条件概率列表M,属性相似性列表S

输出：x和y的相似性S(x,y)

过程：

1:初始化相似度S(x,y)=0,总信息Info=0

2:for k=1,2,…，d do

3:S(x,y)=S(x,y)+Sk[Xk,Yk]

4:for c=1,…,C do

5:Info=Info+log (Mk[Xk,c-1]×Mk[Yk,c-1])

6:end for

7:end for

8:S(x,y)=S(x,y)/Info

3 实验与分析

3.1 数据集描述

在UCI数据库中选取6个纯分类属性的数据集进行分类，在表1中，给出了各个数据集的名称、数据集包含的实例数N、维度d、类别数C以及各分类属性取值的个数nk范围。

在图1中，图例对图中的折线进行了说明，例如c=1的折线上的各个点为其属性在c=1下的条件概率，各个点的横坐标是其属性值，纵坐标是其所对应的条件概率值。从图1可看出各个数据集在各个类别上属性值的概率分布情况，在Hayes-roth子图中出现3条折线多处重合；在Balance-scale中c=2的折线波动并不大，即c=2的数据对属性值并无明显的偏好；Tic-Tac-Toe和Mushroom都是二分类数据集，其对应子图的折线波动都比较明显；在Car Evaluation上，其在c=1、2时这2条折线在前半部分几乎重合了，c=3、4时也在前半部分出现重合；在Nursery的c=1、3、4上，3条折线的区分度都不大，而c=2的折线波动大，具有较高的区分度。由此可见，对于二分类数据，一般不会出现折线平行或多处点重合的情况。

表1 数据集情况

数据集NdCnk范围Hayes-roth132433～4Balance-scale625435Tic-Tac-Toe958923Car Evaluation1728643～4Mushroom81242022～12Nursery12960842～5

图1 各属性值的类条件概率分布图

3.2 实验结果与分析

把表1中的数据集划分为训练集和测试集，将MLin、Lin、Lin1、Burnaby、IOF、OF、Overlap和Eskin相似性度量方法分别与k-NN[13]结合，通过在训练集中寻找k个与测试集中的目标实例相似度最大的k个实例，并由其类标签进行投票，来预测目标实例所属的类别。由于ID3决策树算法[14]是对离散数据进行分类的经典方法，因此实验中应用ID3对数据集进行分类并与相似度结合k-NN的分类结果作比较。在表2中，给出了各种方法结合k-NN(k=3)在各数据集上进行十折交叉验证的平均错误率。

表2 十折交叉验证的平均错误率(k=3) 单位：%

在表2中，加粗的数值为所在行的最小值，即在某一数据集上的最小分类错误率。从中可看出，ID3在这几个数据集中的判错率都比较低，分类效率高，尤其在数据点较小的Hayes-roth上的平均分类错误率达到最低，体现了其对小数据集具有较好的鲁棒性，在该数据集上，MLin的表现比ID3略差。观察其余多个数据集的分类情况，除了Tic-Tac-Toe在基于IOF的k-NN上的分类效果最好外，其余的4个数据集均在基于MLin的k-NN上的分类错误率最低。尤其在Mushroom上，MLin方法的错误率仅有0.002；并且在Balance-scale上，MLin的准确率比Lin和Lin1的均高出近20%，比ID3高出了近10%的准确率。

图2 k-NN(k=3)十折交叉验证错误率折线图

为了对ID3、MLin、Lin和Lin1的分类结果进行更深入的比较，在k=3时，对其十折交叉验证的错误率画折线图进行可视化，见图2。图中包含6个子图，分别是6个数据集的十折交叉验证错误率折线图，其中横坐标为“avg.”的点的纵坐标值为十折交叉验证的平均错误率。显然可看出Lin1所对应的折线基本处于图的上方，错误率居高，而MLin所在折线几乎都在图的下方，错误率较低。在Hayes-roth的子图中，ID3所在折线明显地处在MLin的下方，这与表2的结论相对应。而在Balance-scale、Car Evaluation和Mushroom这3个子图中，MLin的表现明显优于其他方法。可见，MLin在各数据集的分类具有较高的准确率，ID3的表现处于MLin和Lin之间。综合表2和图2来看，Lin1的综合表现比较差，而MLin的表现都优于Lin，这也验证了MLin在有监督学习分类问题上的度量具有合理性和效用性。

为了比较在不同k值，k-NN方法在各数据集上的分类效果，将数据集分割出30%的数据作为测试集进行测试。在图3中给出了MLin、Lin、Lin1方法在不同k值下k-NN在各数据的测试集上的分类错误率折线图。纵观图3中的6个子图，MLin的错误率的折线几乎都处在图的最下方，而Lin1的分类效果则比较一般。同时可发现，在小数据集上(Hayes-roth，Balance-scale)，MLin的表现比较一般，随着数据集规模的增大，MLin方法下的错误率均较低，如在Nursery数据集上，MLin方法的错误率低于0.05，且明显低于其他方法的错误率。

作为数据驱动的相似性度量方法，并不适合处理小规模数据，若数据集太小，会导致估计的条件概率与实际分布的条件概率有较大的误差。再从时间代价上看，MLin在计算实例的相似度的复杂度比Lin和Lin1相似度方法的复杂度大，再结合k-NN进行分类验证，自然会比ID3花费更多的时间。

4 结束语

本文提出了Lin相似性的改进方法MLin，应用于分类数据的分类问题。MLin是基于信息论和属性值的类条件概率的，将数据的类信息、数据分布考虑入内，属于数据驱动的相似性度量方法。本文中，利用k-NN结合相似性度量方法，对UCI的6个数据集进行实验，结果显示MLin的分类错误率均较低，但在小规模的数据集上的效果比较差，并且也证实了数据驱动方法在小数据集上的表现都会比较差，由此可见MLin更适合应用于数据规模较大的数据中。未来可对其做进一步的扩展和应用，对混合数据进行相似度的度量[15-16]和对文本进行分析[17-18]。

参考文献：

[1] Lin Liang, Wang Guangrun, Zuo Wangmeng, et al. Cross-domain visual matching via generalized similarity measure and feature learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017,39(6):1089-1102.

[2] Boriah S, Chandola V, Kumar V. Similarity measures for categorical data: A comparative evaluation[C]// Proceedings of 2008 SIAM International Conference on Data Mining. 2008:243-254.

[3] Xie Jierui, Szymanski B, Zaki M. Learning dissimilarities for categorical symbols[C]// The 4th Workshop on Feature Selection in Data Mining. 2010:97-106.

[4] Cheng Victor, Li Chun-hung, Kwok J T, et al. Dissimilarity learning for nominal data[J]. Pattern Recognition, 2004,37(7):1471-1477.

[5] Le Siquang, Ho Tubao. An association-based dissimilarity measure for categorical data[J]. Pattern Recognition Letters, 2005,26(16):2549-2557.

[6] Alamuri M, Surampudi B R, Negi A. A survey of distance/similarity measures for categorical data[C]// 2014 IEEE International Joint Conference on Neural Networks. 2014:1907-1914.

[7] Sparck J K. A statistical interpretation of term specificity and its application in retrieval[J]. Journal of Document, 1972,28(1):11-21.

[8] Wang Yue, Ge Jidong, Zhou Yemao, et al. Topic model based text similarity measure for Chinese judgement document[C]// International Conference of Pioneering Computer Scientists, Engineers and Educators. 2017:42-54.

[9] Burnaby T P. On a method for character weighting a similarity coefficient, employing the concept of information[J]. Mathematical Geology, 1970,2(1):25-38.

[10] Lin Dekang. An information-theoretic definition of similarity[C]// Proceedings of the 15th International Conference on Machine Learning. 1998:296-304.

[11] Stanfill C, Waltz D. Toward memory-based reasoning[J]. Communications of the ACM, 1986,29(12):1213-1228.

[12] Eskin E, Arnold A, Prerau M, et al. A geometric framework for unsupervised anomaly detection: Detecting intrusions in unlabeled data[M]// Applications of Data Mining in Computer Security. Springer, Boston, MA, 2002:77-102.

[13] Cover T, Hart P. Nearest neighbor pattern classification[J]. IEEE Transactions on Information Theory, 1967,13(1):21-27.

[14] Quinlan J R. Induction of decision trees[J]. Machine Learning, 1986,1(1):81-106.

[15] 鞠可一,周德群,吴君民. 混合概念格在案例相似性度量中的应用[J]. 控制与决策, 2010,25(7):987-992.

[16] 赵亮,刘建辉,王星. 基于Hellinger距离的混合数据集中分类变量相似度分析[J]. 计算机科学, 2016,43(6):280-282.

[17] 孙怡帆,李赛. 基于相似度的微博社交网络的社区发现方法[J]. 计算机研究与发展, 2014,51(12):2797-2807.

[18] 陈彦萍,杨威,唐成务,等. 基于语义相似度的数据服务分类方法[J]. 信息技术, 2017(12):93-96.