R语言在综合评价方法中的应用
2019-06-17张倩
张倩
摘要:在大数据时代,传统的统计专业课程也需要顺应时代发展的要求。本文论证了使用R语言解决统计综合评价问题的可行性。首先,概述了统计综合评价的现状及发展趋势,接着从R语言自身的优势、统计综合评价课程及相关课程发展的要求三个方面对R语言在统计综合评价教学中的应用进行了论证,最后提出了统计综合评价课程改革的建议。
关键词:R语言;统计综合评价方法;可行性
中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2019)22-0247-02
一、综合评价方法的现状及发展趋势
统计综合评价也可被称为“多指标综合评价”,就是针对一个复杂的评价主题和一个由多单位组成的评价对象,从不同角度设定指标对各个单位进行测量,然后将测量结果按照某种方法综合起来得到一个可以用来比较各单位高低优劣的综合数值[1]。综合评价是一个评价的流程及体系,一般包括了对象的选择、指标的选取、权重系数的设置、模型的拟合、计算得分后排序等环节,它被广泛应用于社会科学和自然科学等各个领域,一直是进行比较排序的有效方法,理论与应用都有广泛的发展前景。
统计综合评价理论的发展可以追溯到20世纪50年代统计决策理论的发展,与多属性决策有着千丝万缕的联系,虽然两者在研究对象、目标实现、方案集的筛选上有差别,比如评价面对过去发生的对象,决策面向未来尚未发生的对象;评价以排序为目的,决策以择优为目的;评价对被评价对象不做删减,决策对备选方案集进行删减[2]。但是两者在方法上几乎没有差别,甚至可以说综合评价的方法就是多属性决策的方法[3]。迄今,多属性决策领域以取得了丰收的成果,也为综合评价的发展增添了更多的决策方法[4]。
1998—2017年这19年间,国家社科基金立项的项目中有关于综合评价的立项项目有49项,其中综合评价应用项目42项,关于理论研究项目共7项。从社科基金的立项结果来看,综合评价理论发展的方向是不完全信息、动态评价、面板数据评价、综合评价方法优良的判断标准和对综合评价质量的评价。姚爽从证据理论和有序加权算子的角度,针对不完全信息集的综合评价情况提出了可行的方法,样本量从以传统的参数统计中的大样本为基础,逐步转向非参数统计的小样本、属性数据及高维数据的评价[3]。孙利荣从权重系数的函数性质出发,研究了综合评价中权数的设置问题[5]。张明倩从评价质量角度解决了多种评价方法得出不同的评价结论,而评价结论无法比较优劣的问题,从综合评价构建框架质量的定性评估、综合评价方价基础指标及其构成结构的质量评估、综合评价构建技术的质量评估、综合评价结果有效性的质量评估四个方面对评价结论的稳定性进行了说明。徐明明、张立军等从鉴别能力、相关性、有效性与可靠性等方面构建了相应的测度指标,通过实例测度和比较了各种评价指标体系的优良性。曾守桢、张崇辉认为综合评价的发展方向主要集中在两个方面:一是寻找合理的方法提高主观评价的准确性,二是将综合评价理论与数据挖掘理论相结合。
在教学方面,《统计综合评价》课程在许多高校中作为一门统计专业的专业选修课,要求学生掌握评价的各个基本环节、基本的评价方法以及能够采用恰当方法对复杂对象进行评价。统计综合评价方法在教学方面有两种情况:一种偏于理论,从数理的角度对方法实现的各个环节进行定义、证明,理论性、系统性更强,但是在教学时会比较晦涩难懂,相应分配在应用上的课时较少,如郭亚军的《综合评价理论、方法及应用》[2],张发明的《综合评价基础方法与应用》;另一种偏向于应用,在介绍了Matlab软件的基础上系统介绍了多种综合评价方法的建模程序,又用案例进行了演练,具有良好的实用性。
二、R語言适合统计综合评价方法的论证
(一)R的优势
1.统计软件的比较。从《统计综合评价》课程使用统计专业常用的软件,SPSS可以处理多元统计分析方法的评价结果,但是在多属性决策、运筹方法、模糊数学和智能评价方面无法达到;SAS可以自己写代码,但是更新升级慢、编写自定义函数和详细的宏代码需要深厚的编程知识来确保正确性;Matlab是一种通用的科学计算软件,并不限于某一特定的专业领域,它的源代码开放可以自由扩充,非常适合于评价方法的编程,但当遇到基于矩阵的运算,当有奇异阵时,程序无法继续运行。R语言易于上手,使用者一旦掌握,不但能实现常见的数据分析目标,而且能自行对现有的模型、算法分析扩充,从而充分满足不同个性化分析的需要。
2.R语言的效率极高。大数据时代的数据具有价值密度低、处理速度快的特点,综合评价对数据处理的要求是降维和特征提取,在数据降维方面,R语言中的数据框和列表可以存储多种数据类型,并有相应的算法和处理方式,而且直接使用R的丰富的扩展包以节省精力。在特征提取方面,越来越多的数据挖掘程序直接执行的是R语言,R中的HELP函数直接介绍R中各种函数和包的使用方法,并且综合评价时使用R会提高获取数据的速度,因为R有多种面向关系型数据库管理系统(DBMS)的接口,使用R来访问存储在外部数据库中的数据是一种分析大数据集的有效手段,能发挥SQL和R各自的优势,提高数据获取的效率。
(二)综合评价课程内容上的论证
综合评价包括了几个基本评价环节:数据的预处理、评价对象的选取、评价指标体系的设立、权重系数的确定、模型拟合、得分排序,还有学者从质量的角度对各环节进行控制。不论从哪个环节来说,应用R语言实现都是非常合适的。
评价者可以将自己的评价思路和所要达到的客观结果通过编程语言实现。数据在预处理时,R语言具有高效的数据处理和保存机制、完整的数组和矩阵操作运算符,能够综合评价各环节的参与程度;在指标体系构建时,R语言数据框里包含了众多的数据结构,有向量、矩阵、数组、数据框、列表,可以存储属性数据和数量指标,可以使用因子、数据框或者列表的形式保留被评价对象的所有数据,信息量损失少;权重系数的设置,可以使用R中的函数或编写代码计算权重系数;评价方法的选择环节,R包含的包很多,只要简单的加载在现有的程序上即可使用。评价者能够使用多种方法对被评价对象进行评价,设置优良标准,比较各种方法的优劣,不仅大大扩宽了评价思路,还节约了大量因为编写程序所用的时间,提高了评价效率和准确性。
(三)相关课程的论证
在专业课程设置上,基本上开设统计学专业的高校都开设了R语言课程作为专业必修课或选修课,编程的掌握已成为统计专业学生的基本能力。同时,并行课程《统计模型与统计实验》、《数据挖掘》等都可以使用到R语言作为实现或对接的实现手段,专业间的关联性也迫使相关专业进行课程改革,将数据挖掘理论与综合评价理论相结合,R可以作为一个非常好的桥梁,是既兼顾了教学又兼顾了应用的好途径。而其中模糊综合评价方法、灰色关联分析法和层次分析方法早已在用R语言实现。鉴于有开设《R语言》的基础课程,使用R语言对大部分学生来说驾轻就熟,在《统计综合评价》学习的过程中如果鼓励学生使用R语言解决各种评价问题,既是R语言编程技能的进一步提升,也是综合评价方法的良好实践,激发学生的学习动力,未来也许会有更多实用的程序包出现,为评价的发展提供了更多的支持。
三、结论
随着大数据时代的来临,数据海量、多样性的特点不但给传统的与数据打交道的统计学专业增加了新的专业发展方向,也向传统专业课程吹响了革新的号角。综合评价理论的发展方向是不完全信息、函数型权重、质量评价、标准的设置,在教学过程中可以将综合评价中的传统方法用R语言实现,使其使用更加便捷,应用范围更加广泛。
参考文献:
[1]高雪敏.风行的综合评价[J].中国统计,2008,(5).
[2]郭亚军.综合评价理论、方法及应用[M].北京:科学出版社,2007.
[3]姚爽.不完全信息综合评价方法与应用——基于证据理论和有序加权算子的研究[M].北京:经济科学出版社,2015.
[4]孙利荣.综合评价中权数的函数性质及其生成研究[J].数学的实践与认识,2014,44(8):54-62.
[5]张明倩.多指标综合评价质量的评估方法与实践[M].上海人民出版社,2017.