APP下载

基于主要信息含量的指标筛选方法

2016-09-26陈洪海迟国泰大连理工大学管理与经济学部辽宁大连6024黑龙江科技大学理学院黑龙江哈尔滨50022

系统工程学报 2016年2期
关键词:比率贡献率方差

陈洪海,迟国泰(.大连理工大学管理与经济学部,辽宁大连6024;2.黑龙江科技大学理学院,黑龙江哈尔滨50022)

基于主要信息含量的指标筛选方法

陈洪海1,2,迟国泰1
(1.大连理工大学管理与经济学部,辽宁大连116024;
2.黑龙江科技大学理学院,黑龙江哈尔滨150022)

针对指标筛选问题,提出了一种基于指标主要信息含量的指标筛选方法.以方差贡献率为权重对因子载荷的绝对值进行加权,取加权结果的最大值作为指标的信息含量;依据最大加权因子载荷标准确定累积信息含量比率,进而通过累积信息含量比率的大小进行指标的筛选.最后,通过一个实例将提出的指标筛选方法与现有因子分析指标筛选方法进行了对比分析,以此说明所提出的指标筛选方法的可行性及有效性.

指标体系;指标筛选;加权因子载荷;信息含量;因子分析

1 引 言

大量的评价指标令决策者在科学评价及决策中常常无所适从,抓不到重点.因此对原始指标体系降维,提炼出少量评价指标具有十分重要的现实意义.目前指标降维方法虽然得到了较大的发展,但是因子分析依然是最常为使用的一种降维方法[1].通过因子分析实现指标体系降维的方法主要有两种:1)用少量公因子代替原始指标的因子分析法.传统的因子分析是通过把大量原始指标综合为少数几个公因子来代表原始指标信息,以实现指标降维的目标.Anthony等[2]通过比较保留因子下因子载荷绝对值的大小,将儿童发展的诸多影响要素降维为3个因子.李培[3]通过因子分析将影响城市经济增长的10个指标降维为地理位置等3个因子.Helitze等[4]通过对保留因子下指标因子载荷大小的比较,将大量节欲教育指标降维为态度禁欲等4个因子.Becker等[5]利用因子分析对9种精神疾病因素进行了降维.张兵等[6]利用因子分析研究了通货膨胀周期对各国的影响.Jung[7]通过因子分析将反映感官属性的全部指标约减至4个公因子.这类方法存在的问题主要包括两个方面.首先,传统的因子分析法没有删除任何一个对评价结果影响较弱的原始指标.其次,公因子含义的确定主观性太强,而且公因子的数据亦不能直接获取.2)剔除部分原始指标而实现降维的因子分析法.为了克服传统因子分析理论的上述弊端,部分学者进行了有益的探索.通过因子载荷相对大小的对比,剔除因子载荷小、解释原始指标集信息能力差的指标,将原始指标体系中其余指标作为评价指标.陆宁等[8]通过删除各因子下因子载荷的绝对值最小的指标,提出了西安市房地产市场危机预警指标体系.廖海江[9]主要通过保留因子载荷绝对值相对较大的指标,提出了职业危害评价指标体系的构建方法.刘宏等[10]主要通过删除因子载荷相对较小的指标,提出了水环境安全评价的指标体系.顾雪松等[11]在对原始指标进行了聚类分析的基础上通过仅保留每个子类中因子载荷绝对值最大的指标,构建了评价指标体系筛选模型.迟国泰等[12]通过剔除因子载荷小的指标,实现对评价结果影响小的指标的删除.应桂英等[13]通过保留因子载荷绝对值较大的指标保证保留下来的指标可以较全面地反映原始指标集的信息含量.薄湘平等[14]通过剔除不同因子下同一指标的因子载荷都大于或等于0.5的指标进行指标筛选.这类方法存在的主要问题是将因子载荷绝对值的最大值作为指标的信息含量.但事实上因子载荷仅仅反映了指标对公因子信息的解释能力,并不反映指标对原始指标集信息的解释能力.

针对上述问题,本文提出了基于主要信息含量的指标筛选方法.

2 基于主要信息含量的指标筛选方法

2.1基于主要信息含量的指标筛选原理

因子分析理论中因子载荷aij是指标Xi与因子Fj间的相关系数,原始指标集绝大多数信息可由少数几个信息量最大的因子解释.因子Fj的方差贡献率ωj是因子Fj的信息占原始指标集信息的比例.因子载荷aij仅能反映指标Xi解释因子Fj信息的多少,并不能反映指标Xi解释原始指标集信息的多少.由于最大方差正交旋转后每个指标仅与一个因子相关程度高,从而每个指标仅通过一个因子载荷就可反映指标解释因子信息的多少.因此以因子Fj的方差贡献率ωj对因子载荷aij的绝对值加权,并利用加权结果的最大值表示指标Xi解释原始指标集信息的多少.这就是基于主要信息含量的指标筛选方法原理.

2.2基于主要信息含量的指标筛选

下面阐述基于主要信息含量的指标筛选核心过程.

1)计算最大方差正交旋转后加权因子载荷的绝对值

其中ωj及aij分别是最大方差正交旋转后因子Fj的方差贡献率和因子Fj下指标Xi的因子载荷.进行最大方差正交旋转的目的在于增加指标通过绝对值最大的因子载荷解释因子信息的能力.限于篇幅,最大方差正交旋转后因子的方差贡献率及载荷等的确定可参见文献[15]给出的方法,这里不再赘述.

加权因子载荷μij反映指标Xi解释原始指标集信息比例当中,仅仅由因子Fj反映的那一部分.其中i=1,2,...,m,m为筛选前的原始指标的个数;j=1,2,...,k,k为保留因子的个数;

2)确定指标Xi的信息含量SIi

SIi反映了指标Xi解释原始指标集信息比率的主要部分,称其为指标Xi的主要信息含量(简称信息含量).以表1为例,若第2行中第一列的加权因子载荷绝对值|ω1a21|最大,则指标X2的信息含量SI2=|ω1a21|.依此类推可得全部指标的信息含量SIi(i=1,2,...,m).信息含量SIi越大,指标Xi解释原始指标集信息的比率越大,相应地该指标对评价结果影响越显著,越应予以保留;反之,则越应剔除.这就是最大加权因子载荷标准;

表1 指标的真实信息含量Tab 1 Real information contentof index

3)信息含量SIi递减排序序列的构造.假设SIm1≥SIm2≥···≥SImm.这个序列实际上是步骤2)计算结果SIi由大至小的排序;

4)利用累积信息含量比率IRu筛选指标.信息含量SIi最大的前u个指标的信息含量占整个原始指标集信息含量的比例为

若满足IRu-1<IR0≤IRu,保留信息含量最大的u个指标.其中IR0为决策者满意的遴选后的指标占全部指标信息含量的比率.这个比率越大,遴选后的指标占全部指标信息含量的比率越大,但相应地保留的指标也会越多.下文的这个比率取80%,即在IRu-1<80%≤IRu的情况下求得所遴选指标的个数.

目前在筛选出信息量较大的指标的情况下有时还利用相关分析等方法[16]做指标的进一步筛选,以获得数目更少的评价指标.若决策者觉得遴选出的指标数量还需更少,除可结合文献[16]中的相关分析法做指标的进一步筛选外,亦可将累积信息含量比率的阈值IR0设定得更小一些.

3 应用实例

3.1数据来源

以10个大连市绿色发展指标的筛选为例说明本文方法的运用.10个指标分别是X1规模以上工业综合能源消费量(104tce),X2能源消费弹性系数,X3人均公共绿地面积(m2),X4单位工业增加值用水量(m3/万元),X5规模以上工业原细消费量(104t),X6规模以上工业万元GDP综合能耗(tce/万元),X7城市生活垃圾无害化处理率,X8市区空气质量优良天数,X9工业固体废弃物综合利用(104t),X10化学需氧量排放量(104t).这10个指标的原始数据均来源于《大连统计年鉴》(2001—2014)[17],列于表2第3~12列.据文献[15]的Z标准化公式得到标准化后的指标数据,列于表3第3~12列.

表2 原始数据Table2 Raw data

3.2基于主要信息含量的绿色发展指标筛选

1)方法适用性的检验.求出表3中全部指标数据的相关系数矩阵R=(rij)10×10.由于绝大多数指标间的相关系数rij较0.3大,因此适于进行因子分析[18];

2)累积方差贡献率ωk的计算.求出矩阵R的特征值λj,列于表4第2列.将特征值λj依次累加后除以指标数目10得因子旋转前因子的累积方差贡献率,列于表4第3列.进而可知前2个因子的累积方差贡献率为84.899%,已经超过80%,所以保留信息量最大的前两个因子F1与F2;

表3 标准化的数据Tab 3 Standardized data

3)载荷矩阵(aij)10×2的计算.求出相关系数矩阵R=(rij)10×10与特征值λ1及λ2对应的标准正交化的特征向量

再将λ1与λ2这两个特征值的算术平方根,分别乘上特征向量ξ1及ξ2,得到未经正交旋转的因子载荷矩阵(bij)10×2.进而据文献[15]最大方差正交旋转公式得到最大方差正交旋转后的因子载荷矩阵(aij)10×2,取绝对值后列于表5第3~4列.

表4 方差贡献率Tab 4 Proportion of variance

表5 指标筛选Tab 5 Indicators screening

4)最大方差正交旋转后因子方差贡献率及累积方差贡献率的计算.将表5第3、4列的数据的平方和分别除以指标数目10,得前2个因子的方差贡献率ωj,列于表4第4列.将方差贡献率ωj依次累加,可得最大方差正交旋转后因子的累积方差贡献率,列于表4第5列;

5)指标信息含量SIi的计算.将表4第4列的ωj及表5第3、4列的aij的绝对值代入式(2),得到了指标信息含量SIi(i=1,2,...,10),列于表5第6列;

6)累积信息含量比率IRi的计算.将表5第6列的指标信息含量SIi按照由大至小的顺序排列,列于表5第7列.将与表5第7列各信息含量一一对应的指标列于表5第8列.将表5第7列由大至小排列的指标信息含量SIi代入式(3),得到信息含量最大的指标的累积信息含量比率,列于表5第9列;

7)根据累积信息含量比率筛选指标.设决策者满意的IR0=80%.据表5第9列累积信息含量比率可知IR6=72.88%<80%≤IR7=82.76%.因此保留信息含量SIi最大的前7个指标:X6,X3,X1,X5,X4,X10,X9,剔除信息含量小的指标X2,X8,X7.筛选结果列于表5第10列.若决策者觉得保留的指标较多,可以通过适当减小IR0值来实现指标的进一步筛选.

3.3基于现有因子分析法的绿色发展指标筛选

设评价决策者满意的指标筛选阈值为0.9.若指标的各因子载荷的绝对值中有一个不小于0.9,则保留该指标;反之,则删除该指标.在表5的第3、4列中,只有X1,X3,X5,X6,X7,X8等6行有|aij|≥0.9.因此,现有因子分析法最终保留X1,X3,X5,X6,X7,X8等6个指标,具体筛选结果列于表5第5列.

3.4两种方法实例结果优劣的对比分析

1)现有研究保留了信息含量最小的指标.据表5第8列可知X8和X7是信息含量最小的两个指标.而且据表5第7列可知这两个指标的信息含量均显著小于其它指标.但是现有方法却保留了这两个指标;

2)现有研究删除了信息含量较大的指标.现有研究共计保留了6个指标.据表5第8列可知X4和X10是信息含量第5及第6大的两个指标,理应予以保留.但是现有研究却删除了这两个信息含量较大的指标;

3)本文遴选出的评价指标的累积信息含量比率更大.据式(3)可得现有研究保留的6个指标X1,X3,X5, X6,X7,X8的累积信息含量比率为为便于对比,取本研究保留下来的指标中信息含量最大的6个指标X1,X3,X4,X5,X6,X10与现有研究对比.据表5第9列可知本研究前6个被保留的指标的累积信息含量比率为IR6=72.88%.因此,同样是保留的6个最重要的指标,本文保留的评价指标的信息含量比现有方法多出(72.88%-59.94%)/(59.94%)=21.59%的信息含量.

本文根据信息含量从大到小的排序保留指标,避免了保留信息含量较小的指标或删除信息含量较大的指标.

4 结束语

指标的信息含量反映了指标的重要程度.其大小不仅取决于指标因子载荷绝对值的最大值,还取决于因子的方差贡献率.因子载荷绝对值的最大值大,指标解释原始指标集信息的比率却并不一定大.因此,现有研究依据因子载荷绝对值的最大值遴选指标并不能反映指标的信息含量.而且实例结果表明现有研究往往会保留信息含量较小的指标,误删信息含量较大的指标.最大方差正交旋转后,以因子方差贡献率对指标的各因子载荷绝对值加权,取其最大值作为指标的信息含量.由此克服了现有研究仅仅考虑因子载荷对指标遴选的影响,忽略方差贡献率体现因子解释原始指标集信息比例的不足.最终以各指标信息含量为基础确定累积信息含量比率进行指标的遴选,避免了现有研究误删信息含量大或保留信息含量小的指标的弊端.

[1]张煜东,霍元铠,吴乐南,等.降维技术与方法综述.四川兵工学报,2010,31(10):1–7. Zhang Y D,Huo Y K,Wu L N,etal.A review of dimension reductionmethods.Journal of Sichuan Ordnance,2010,31(10):1–7. (in Chinese)

[2]Anthony JL,AsselPA,Williams JP.Exploratory and confirmatory factoranalysesof theDIAL–3:Whatdoes this“developmental screener”reallymeasure.Journalof SchoolPsychology,2007,45(4):423–438.

[3]李培.中国城市经济增长的效率与差异.数量经济技术经济研究,2007(7):97–106.LiP.Theefficiency and disparity ofurban economic grow th in China.The JournalofQuantitative&TechnicalEconom ics,2007(7): 97–106.(in Chinese)

[4]HelitzerD,HollisC,DeHernandez BU,etal.Evaluation forcommunity-based programs:The integration of logicmodelsand factor analysis.Evaluation and Program Planning,2010,33(3):223–233.

[5]Becker D F,M iguel L A,Paris M,et al.Exploratory factor analysis of borderline personality disorder criteria in monolingual Hispanic outpatientswith substanceuse disorders.Psychiatry Research,2010,178(2):305–308.

[6]张兵,李翠莲.“金砖国家”通货膨胀周期的协动性.经济研究,2011(9):29–40. Zhang B,LiC L.The inflation cycle co-movementsof BRICS:Based on SPSS factor analysis and cluster analysismethods.Econom ic Research Journal,2011(9):29–40.(in Chinese)

[7]Jung SH.Exploratory factor analysiswith smallsample sizes:A comparison of three approaches.Behavioural Processes,2013(97): 90–95.

[8]陆宁,姜丽宁,俞允凯,等.西安市房地产市场景气指标筛选研究.长安大学学报:社会科学版,2007,9(3):57–60. Lu N,Jiang LN,Yu Y K,etal.On the prosperity index selection in realestate Market in Xi’an.Journalof Chang’an University: SocialScience Edition,2007,9(3):57–60.(in Chinese)

[9]廖海江.作业场所职业危害统计指标筛选研究.中国安全生产科学技术,2009,5(6):138–141. Liao H J.Screening research on statistical indicatorsofoccupationalhazard inworkplace.Journalof Safety Scienceand Technology, 2009,5(6):138–141.(in Chinese)

[10]刘宏,李琳.镇江市水环境安全评价指标体系的建立与筛选.安徽农业科学,2010,38(11):5813–5816. Liu H,Li L.Establishmentand screening of evaluation index system forwater environment safety in Zhenjiang.Journalof Anhui Agricultural Sciences,2010,38(11):5813–5816.(in Chinese)

[11]顾雪松,迟国泰,程鹤.基于聚类-因子分析的科技评价指标体系构建.科学学研究,2010,28(4):508–514. Gu X S,Chi G T,Cheng H.The establishment of science and technology evaluation indicators system based on cluster–factor analysis.Studies in Science of Science,2010,28(4):508–514.(in Chinese)

[12]迟国泰,曹婷婷,张昆.基于相关-主成分分析的人的全面发展评价指标体系构建.系统工程理论与实践,2012,32(1): 111–119. ChiG T,Cao T T,Zhang K.The establishmentof human all-around developmentevaluation indicator system based on correlationprinciple componentanalysis.Systems Engineering:Theory&Practice,2012,32(1):111–119.(in Chinese)

[13]应桂英,李恒,段占祺,等.卫生统计指标筛选方法评价.中国卫生事业管理,2012(6):465–467. YingGY,LiH,Duan ZQ,etal.Evaluating themethodsto screen health statistical indexes.TheChineseHealth ServiceManagepent, 2012(6):465–467.(in Chinese)

[14]薄湘平,马炼,付净.酒店内部服务质量评价指标体系研究.湖南大学学报:社会科学版,2012,26(3):38–41. Bo X P,Pa L,Fu J.Study on the evaluation index system for the internal service quality of hotels.Journal of Hunan University: SocialSciences Edition,2012,26(3):38–41.(in Chinese)

[15]王斌会.多元统计分析及R语言建模.广州:暨南大学出版社,2010:157–180. Wang BH.Multivariate Statistical AnalysisandMathematicalModelingwith R.Guangzhou:Jinan University Press,2010:157–180. (in Chinese)

[16]张昆,迟国泰.基于相关分析–粗糙集理论的生态评价指标体系构建.系统工程学报,2012,27(1):119–127. Zhang K,ChiG T.Establishmentof ecological evaluation indicators system based on correlation analysis-rough theory.Journal of Systems Engineering,2012,27(1):119–127.(in Chinese)

[17]大连市统计局,国家统计局大连调查队.大连统计年鉴.北京:中国统计出版社,2001–2014. Dalian Municipal Bureau of Statistics,The National Bureau of Statistics Dalian Team.Dalian Statistics Yearbook.Beijing:China Statistics Press,2001–2014.(in Chinese)

[18]何晓群.多元统计分析.第3版.北京:中国人民大学出版社,2011:154–155. He X Q.Multivariate Statistical Analysis.3rd Edition.Beijing:China Renm in University Press,2011:154–155.(in Chinese)

Indices screeningmethod based onmain information content

Chen Honghai1,2,ChiGuotai1
(1.Faculty ofManagementand Econom ics,Dalian University of Technology,Dalian 116024,China;
2.College of Science,Heilongjiang University of Science and Technology,Harbin 150022,China)

Thispaperproposesan indices’screeningmethod based on each index’smain information contentto solve their reduction problem.First,ituses the proportion of variance to weight the absolute value of loading, and defines itsmaximum as the information contentofan index.Second,bymeansof themaximum weighted loading standard,it calculates the proportions of the indices’accumulated information contents,whose size is used as the criteria to screen the indices.Finally,using a numerical illustration,the proposed method and the existing factor analysismethod are contrastively analyzed,and the feasibility and validity of the proposed method are illustrated.

index system;indicesscreening;weighted factor loading;information content;factoranalysis

N945.16/N94-0

A

1000-5781(2016)02-0268-06

10.13383/j.cnki.jse.2016.02.012

2014-05-30;

2015-01-29.

国家自然科学基金资助项目(71171031;71471027);辽宁经济社会发展重点课题资助项目(2015lslktzdian-05).

陈洪海(1978—),男,辽宁辽中人,博士生,研究方向:复杂系统评价,Email:adams2009@163.com;

迟国泰(1955—),男,黑龙江海伦人,博士,教授,博士生导师,研究方向:复杂系统评价,Email:chigt@dlut.edu.cn.

猜你喜欢

比率贡献率方差
一类具有时滞及反馈控制的非自治非线性比率依赖食物链模型
概率与统计(2)——离散型随机变量的期望与方差
一种通用的装备体系贡献率评估框架
方差越小越好?
计算方差用哪个公式
比率分析公司财务状况——以步步高及永辉超市为例
关于装备体系贡献率研究的几点思考
方差生活秀
В первой половине 2016 года вклад потребления в рост китайской экономики достиг 73,4 процента
一种适用于微弱信号的新颖双峰值比率捕获策略