APP下载

几种数据处理方法及其在综合评价中的应用

2015-02-18李晓康

统计与决策 2015年13期
关键词:百分比数据处理排序

李晓康

(陕西理工学院 数学与计算机科学学院,陕西 汉中 723000)

0 引言

在科学研究和生产活动中,经常需要收集各种数据进行分析,以找出数据变化规律及相互关系。由于不同数据反映的是不同对象(指标),具有不同量纲及大小,不能直接比较,需要进行一定的预处理。而不同的预处理方法反映的是不同的思想。为保证建立模型的质量和系统分析的正确性,对采集来的原始数据一般需进行预处理,使其消除量纲和具有可比性。常用的有初值化变换、均值化变换、百分比变换、倍数变换、标准化变换等。

综合评价问题通常会涉及多个指标,各个指标含义不同、量纲不同、数量值不同,很难直接比较和运算,必须对其进行一定的处理之后,对处理后的指标可以进行比较和构建综合指标,从而计算各评价对象的综合指标值,通过综合指标值对评价对象进行评价(排序)。当然,使用的数据处理方法不同,会直接影响最后的综合指标值及评价对象的排序。

本文旨在对几种常用的数据处理方法进行比较,并将其应用于综合评价问题中,对最后得到的评价结果进行分析、比较,最后通过等级相关系数及和谐系数两个定量指标对各种数据处理方法下的综合评价结果进行评价,给出较为合理的评价结果。

1 几种数据处理(变换)方法

1.1 均值化变换

称此变换为均值化变换。其目的是平均值为基准,其它时刻的数据和平均值相比,大于1说明比平均值增加,小于1说明比平均值减小。

1.2 百分比变换

称此变换为百分比变换。其目的是将所有数据化为百分比(占最大值的百分比),其它时刻的数据和最大值相比,越接近于1说明数值越大,越接近于0说明数值越小。

1.3 倍数变换

称此变换为倍数变换。其目的是将所有数据化为最小值的倍数,其它时刻的数据和最小值相比,越接近于1说明数值越小,越大于1说明数值越小大。

1.4 标准化变换

经过此种变换,将所有数据变为0~1,其中最大值变为1,最小值变为0。

对负向指标,上式变为:

经过此种变换,将所有数据变为0~1,其中最小值变为1,最大值变为0。

以上几种变换方法各有用处。在实际应用中,应根据指标的实际意义选择不同的数据变换方法。

2 几种数据变换方法在综合评价中的应用

综合评价问题通常涉及多个指标,多个指标涵义不同、取值不同,很难直接比较,故需要对每一指标进行一定的预处理(变换)之后,构建综合指标,通过综合指标的大小对评价对象进行评分、排序。下面通过一实例具体分析。

某集团公司下属有15个分公司,有4项评价指标:x1表示人均实现利税额(万元),x2表示单位产值(万元/能耗),x3表示产品合格率(%),x4表示厂区绿化率(%),4个指标均为正向指标,即越大越好。数据如表1所示:

表1 各公司4项指标原始数据

对如上数据,采用以上介绍的数据变换方法(1)~(4),对初始数据进行变换,变换后数据的标准差如表2所示:

表2 原数据及几种变换后数据标准差

由表2可以看出,经过几种变换后,各指标标准差都明显减小,说明几种变换均能够有效减少原始数据的分散程度,其中均值变换和百分比变换效果较好。

对变换后的4项指标进行加权求和(这里,认为4项指标同等重要,权值相同),得到15个公司的最终排名,排名结果如表3所示:

由表3可以看出,4种数据变换方法下的综合排名结果基本一致,但还存在微小差异。下面从数量指标上定量分析各种排序结果的优劣。

表3 4种数据变换方法的排名结果

3 等级相关系数及和谐系数

这里,本文采用文献[7~8]中的等级相关系数及和谐系数来定量分析评价各种数据变换方法下的排序结果。

3.1 等级相关系数

设对某一对象综合评价的两种排序(由好到差)结果为 X={X1,X2,…,Xn} 和 Y={Y1,Y2,…,Yn},其中 n 为评价对象总数,则两种评价结果的等级相关系数定义如下:

其中:di=Xi-Yi为两种方法对第i个对象排序结果的差值。

由等级相关系数的定义知:若两种排序结果的差别越大,则di越大,rs越小,认为两种排序结果负相关;反之,若两种排序结果越一致(差别越小),则di越小(最小为0),rs越大(最大为1),认为两种排序结果正相关。一般情况下,rs介于-1到1之间,rs越大,正相关程度越强,排序结果一致性越好。当rs超过临界值时,认为两种排序结果是一致的。

由以上定义计算4种排序结果与合理排序结果的等级相关系数如下:

方 法等级相关系数均值变换0.993百分比变换0.989倍数变换0.954标准化变换0.904

由上表可以看出,4种数据变化方法下的排名结果与合理排名的等级相关系数均大于90%,均值变换和百分比变换与合理排名的等级相关系数较高,是较好的两种数据处理方法。

3.2 和谐系数

通常,评价结果会受到指标数据变化的影响。对评价结果稳定性的评价指标为和谐系数,其定义如下:

其中:m为评价方法的总数;n为评价对象数;Ri为m种评价方法对第i个评价对象评价等级总和。

对以上4种方法的评价结果计算其和谐系数为0.932,说明4种数据变换方法对排名的总体稳定性较好。

4 结论

不同的数据处理方法对综合评价问题的排名影响较大,需根据指标的不同性质选用相应的变换方法。本文利用4种数据变换方法对原始数据进行处理,获得每种变换方法下的排名结果,进而获得综合排名(合理排名)。最后利用等级相关系数及和谐系数两个定量指标对4种数据处理方法进行比较,比较结果说明,对本文问题,采用均值变换数据处理方法较好。所使用思想及方法可为同类综合评价问题提供参考。

[1]郝海,踪家峰.系统分析与评价方法[M].北京:经济科学出版社,2007.

[2]焦立新.评价指标准化处理方法探讨[J].安徽农业技术师范学院学报,1999,(13).

[3]Soibelmman L M,Hyun K.Data Preparation Process for Construction Knowledge Generation Through Knowledge Discovery in Databases[J].Journal of Computing in Civil Engineering,2002,(1).

[4]Carriere K C.Methods for Repeated Measures Data Analysis With Missing Values[J].Journal of Statistical Planning and Inference,1997,(7).

[5]韩轶,唐小我.满足一定发布规律的多指标综合评价方法的优化选择[J].管理工程学报,1999,(3).

[6]郭亚军.综合评价结果的敏感性问题及其实证分析[J].管理工程学报,1998,(9).

[7]叶宗裕.关于多指标综合评价中指标正向化和无量纲化方法的选择[J].浙江统计,2003,(4).

[8]丁昌慧,蔡辉,祁新辉.综合效益评价中数据的直线无量纲化方法[J].中国医院统计,2001(3).

猜你喜欢

百分比数据处理排序
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
基于低频功率数据处理的负荷分解方法
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
作者简介
恐怖排序
节日排序
普通照明用自镇流LED灯闪烁百分比测量不确定度分析
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
趋势攻略之趋势线:百分比线
环保车型最多的美国城市