APP下载

基于S型曲线的指标非线性标准化研究

2018-03-06刘学之杨泽宇沈凤武尚玥佟北京化工大学经济管理学院北京0009北京城市矿产资源开发有限公司北京000

统计与信息论坛 2018年2期
关键词:极差线性区间

刘学之,杨泽宇,沈凤武,尚玥佟,刘 嘉(.北京化工大学 经济管理学院,北京 0009;.北京城市矿产资源开发有限公司,北京 000)

一、引 言

在综合评价研究中,因通常包括多个量纲不同的指标,故需将各个指标进行无量纲化,即数据的标准化处理。目前,标准化处理方法一般分为线性标准化方法和非线性标准化方法两大类,通过线性或非线性变换,将数据映射到一个较小的区间,比如(-1,1)或(0,1)[1-3]。

然而,在实际生产生活中,数据大多是非均匀分布的,若待研究的指定区间内数据点过多且相对距离过小,在线性变换后数据点间的间距将会变得更小。梁路等认为在大数据挖掘的过程中,尤其是对于神经网络、支持向量机等模型,因数据集中的属性存在不同的取值范围而往往会导致模型的不稳定[4]。如果需要对这些数据进一步挖掘和分析造成微小差距的因素时,无法将这些数据进一步细分,特别是对距离度量敏感的模型无疑是不利的。在现有的研究中,詹敏等认为指标属性与无量纲化处理方法之间的关系密不可分,并分别根据原始数据的相关特性设计了指标无量纲化方法,取得了较好的计算、评价效果[5];还有学者认为线性无量纲化方法有其局限性,因该方法是基于综合评价结果与原指标之间存在线性关系,所以线性无量纲化方法有一定的适用范围。

对于某些指标,当其T时刻达到极值时,该指标对评价体系的边际效用大幅下降,并在整个评价体系中的权重发生改变,则需要重新设计。如采用线性标准化方法,该指标权重设置需根据其对评价体系的影响分段设置。郭亚军等认为综合评价结果不仅受到指标权重的影响,很大程度上也取决于指标标准化的方法,并基于尽可能反映多个被评价对象之间局部和整体差异的原则,提出了拉开档次法[6]。

本文针对线性标准化方法存在的局限性,结合Logistic曲线函数特性设计S形曲线模型对指标数据进行非线性变换,构建非线性的标准化处理方法,实现对特定区间内指标数据的有效区分,为成功实现综合评价奠定基础。在不改变指标数据排布的情况下,将数据稠密的区间放缩,并对指定区间的数据划分层级。

Logistic函数最早用于人口增长问题的研究,长久以来它几乎是唯一描述S型增长的曲线模型,即描述了一个群体的某属性由低水平向高水平发展的过程,且不同阶段的变化速度各不相同。在以往的研究中,学者大多将Logistic函数曲线应用于经济预测研究中,通常首先对现有已知样本数据拟合,然后预测今后可能出现的结果。Martin最早通过构建Logistic回归对公司的破产及违约率做出预测[7];Ohlson将Logistic模型应用于商业银行信用风险评价,通过设置风险警界线判断企业的信用类别[8]。在国内,蔡济波、黄豪等利用Logistic模型对经济发展数据进行拟合,并对未来趋势做出预测[9-10];杜强等利用Logistic曲线对各省碳排放进行了预测[11]。

二、基于S形曲线设计指标非线性变换

Ⅰ.连续的单调递增函数。

Ⅱ.0

Ⅲ.渐近线为y=K和y=0。

从方程式可看出,Sigmoid函数是令Logistic函数中系数K=B=a=1时的特殊形式,即Sigmoid函数是Logistic函数的变式。

设评价对象集为R,R={R1,R2,…,Rn}时,受评对象的评价指标集为X,X={X1,X2,…,Xn},则Xij表示第n个评价对象在评价指标集X中的第j个指标的评分:X1j,X2j,…Xnj通过S形曲线法,按照式(1)将上述n个指标值进行转化:

(1)

其中Xij表示第i个受评对象的第j个指标,Yij表示受评价对象的原始指标数据Xij经过Sigmoid函数转化后得到的分数,α和β为待定系数,其值由样本中实际数据确定。由Sigmoid函数表达式可得式(1)是由Sigmoid函数向右平移变换β单位、再伸缩变换α倍得来,因此式(1)中β决定了图像位置,α决定了图像的走向或者幅度。由于Sigmoid函数的图像总体是呈S形,且该函数首字母也为S,因此把式(1)中函数表达式表示的曲线称为S形曲线。S形曲线中参数α和β的确定方法:

1.通过Sigmoid函数标准化近似转化样本数据的中位数为指标得分,取值0.5,于是根据性质(Ⅳ)可得β=media(Xij)。

三、算例分析

线性标准化的特点是无量纲化变换均为线性和差异不变性。线性变换函数的计算都运用了某些统计指标,如最大值、最小值、均值、方差等;差异不变性表现为任意正向化指标数据变换后满足等比关系,即数据处理后仍保持相对一致的间距。在线性处理方法中,指标数据标准化后的分布图均为直线型,且极差化法最为典型和常用,因此本文的研究中以极差化法和S形曲线法进行比较分析。

为了便于论证,本文以单因素指标为例,同时将分析样本中的指标数据通过式(1)式(2)转化为相对数。本文特别选择国内生产总值(GDP)和经济增长率这两个指标进行算例分析,即分析在处理非均匀分布的指标数据集合和包含正负值的指标数据集合时S型曲线法的优势。

(一)以GDP为评价指标

选取2012年全球190个国家的国内生产总值为样本*数据来源于世界银行官方网站:http://www.worldbank.org.cn/。,因各国GDP数值差异较大、分布范围随机,为不失一般性,以10为底对上述GDP数据对数处理,然后按上述方法计算得分,并通过SPSS软件对其进行对数处理排序。

分别应用式(1)Sigmoid函数和式(2)极差化法,将各国GDP数值映射到(0,1)区间内,根据式(1)式(2)可得:

极差化法:

(2)

S型曲线变换:

极差化变换:

上述两种不同方法变换后结果对比见图1。由于美国GDP绝对值最大,通过线性极差化计算后定义其相对值为1,而德国映射到(0,1) 区间内计算出的数值只有0.879 5,相应地其他国家依次降低。

如果运用S形曲线二次转化,结果有19个国家超过了0.9,这其中就包括了德国等类似发达国家,数量为样本数据的10%;同样, 0.1以下的国家有19个,也占样本数据的10%,成功地将经济发达国家、一般发展中国家和欠发达国家明显地划分开来。从图1看,S型曲线法只增减了不同区间内数据的数量,未改变数据排序情况。

图1 极差法与S型曲线法处理方法对比图

S形曲线法在GDP指标数据达到饱和值后将国家个体的分布区间压缩了,标准化后数值为美国0.988 4、德国0.966 5(如图1所示),即经济发达和欠发达国家的数据间距适度减缓。若以线性标准化处理,德国和美国数据间距差距很大,2012年美国GDP总值为16.24万亿美元,同年德国国内生产总值约为3.43万亿美元,位居全球第四,美国的GDP绝对值几乎是当时排名第三德国的五倍之多,更是世界范围内大部分国家的十几倍甚至上百倍,对设计国家的GDP指标的权重较为不利。S形曲线法在处理各国GDP数据时,有效划分出层级,高水平国家同属发达经济体,比较直观。根据原始数据与图1,整理得出国家数量分布区间,见表1。

表1 指标处理信息汇总表

从图1和表1还可以看出,非线性变换后对于非均匀分布的数据呈现拉伸效果,数据稠密的区间被细化了,数值相近的国家也得以区分开来,有利于该集中分布区间的进一步研究,见图2-a所示。

图2-a S型曲线法处理国家数量直方图

图2-b 极差化法处理国家数量直方图

相比极差化法处理(图2-b), 0.4~0.7区间内集中了超过50%的国家,进行局部数据研究时该区间内国家间缺乏鉴别性;相比之下,S形曲线法转化后的不同区间内国家分布数量相对均匀,GDP排序前50的国家分布于0.9~1区间内;GDP排名中段的国家在0.4~0.8区间内均有分布(见图2-a,表1),因此可有效针对该部分国家进一步分析,比较国家之间造成GDP水平差别的因素,以便进一步研究。

(二)以经济增长率为评价指标

以2012年190个国家的经济增长率数据对比两种标准化方法。如图3-a所示,采取线性极差化法经济增长率对应的标准化数值集中分布于0.3~0.7区间内,且呈现不均匀状态。相比之下,经过S形曲线法处理后的评分以均匀状态分布在0~1区间内,而且在2012年全球经济下行的先决条件下,在190个国家的数据中经济增长率达到7%的国家属于高速增长国家集团,通过线性法转化后的相对值为0.7,仅达到70%的水平,低于这些国家在实际情况中所处的全球经济地位,而通过S形曲线转化后为0.88;若某一国家的增长率为-1%,线性转化和S形曲线转化后的结果分别为0.35和0.08,显然在该国经济发展停滞的状况下,0.35过高,而0.08的评分则与实际情形更为吻合。因此,在处理指标数据有正有负的情况下,笔者认为S形曲线标准化方法更符合客观实际情况,这是线性标准化法所不具备的。

在上述190个数据中,有4/5的国家其经济增长率在0%~7%范围内,经过S形曲线法处理后,指标评分多集中在0.14~0.88区间内,相比线性方法得到的评分集中在0.4~0.68区间的结果而言,S形曲线法有效拉伸了图3-c中0.4~0.7区间内数据间距,且当经济增长率超过7%时,则该国被划入当年经济高速增长的国家范畴,以0.88~1的得分在190个国家中领跑;相反,若一国经济增长率为负,则被认为是经济停滞发展经济体, 处于0.14以下区间内。

四、研究结论

从样本数据来看,经过GDP和经济增长率两个指标的检验,S型曲线可以有效解决稠密区间数据相近且不利于进一步细分的问题,也可以对指标数据达到饱和后仍然间距过大情况加以优化。

本文根据指标标准化的原理,结合Logistic曲线的特性,使用Sigmoid函数处理样本中指标数据,有效地拉伸了数据集中的分布区间并压缩了数据稀松的分布区间,有效地将非均匀分布的指标数据局部性突显出来。在某些实际问题中,当需要对结果相似的多个对象进一步挖掘其影响因子时,S型曲线法是对数据标准化处理方法的补充,也为相关研究提供了一种思路。

图3-a 经济增长率极差法和S型曲线处理后对比图

图3-b 极差化法处理国家数量直方图

图3-c S形曲线法处理国家数量直方图

[1] 陈勇,童作锋,蒲勇健.钢铁企业循环经济发展水平评价指标体系的构建及应用[J].中国软科学,2009(12).

[2] 郭欢欢,张孝成,李仕川.土地集约利用评价中适度指标标准化方法改进研究——以人口密度指标为例[J].地理科学,2016(3).

[3] 乔晗.基于证据理论的综合评价定性指标测度优化研究[J].统计与信息论坛,2017(6).

[4] 梁路,黎剑,霍颖翔,滕少华.一种非均匀分布数据的非线性标准化方法[J].计算机科学,2016(4).

[5] 詹敏,廖志高,徐玖平.线性无量纲化方法比较研究[J].统计与信息论坛,2016(12).

[6] 郭亚军,马凤妹,董庆兴.无量纲化方法对拉开档次法的影响分析[J].管理科学学报,2011(5).

[7] Martin D.Early Warning of Bank Failure:A Logistic Regression Approach[J].Journal of Banking and Finance,1977(1).

[8] Ohlson J.Financial Rations and the Probabilistic Predict Ion of Bankruptcy[J].J Accounting Research,1980(1).

[9] 蔡济波,陈海波.基于Logistic曲线模型的江苏高新技术产品出口趋势预测研究[J].科技管理研究,2011(1).

[10] 黄豪,马斐,马玉华.Logistic曲线模型在区域经济长期预测中的应用[J].武汉理工大学学报:信息与管理工程版,2011(1).

[11] 杜强,陈乔,杨锐.基于Logistic模型的中国各省碳排放预测[J].长江流域资源与环境,2013(2).

猜你喜欢

极差线性区间
你学会“区间测速”了吗
厘清概念 领悟意义
线性回归方程的求解与应用
全球经济将继续处于低速增长区间
二次函数极差的规律与应用
二阶线性微分方程的解法
非齐次线性微分方程的常数变易法
ℝN上带Hardy项的拟线性椭圆方程两个解的存在性
作弊
区间对象族的可镇定性分析