R语言的特性及其在数学建模中的应用探究
2020-04-10张晓琴李顺勇
张晓琴 李顺勇
[摘要]时代的进步、大数据的爆发,R被赋予了新的生命力,其卓越的性能为业界所称道。R的特性主要集中在以下几方面:R的语法、R的知识结构及R的理念。课题组对常用的四款软件进行了对比分析,从其在数学建模中的应用,我们不难发现R的卓越性能。数学建模中,如果恰当地引入了R,将会有事半功倍的效果。
[关键词]R语言;模型构建;统计分析;数据处理
[中图分类号]G642
[文献标识码]A
[文章编号]2095-3437(2020)04-0094-03
社会高速发展,人们会在诸多领域遇见纷繁芜杂的非机构性数据,如在互联网、超市、银行等企业以及国内外高校的科研与教学中都会出现不同类型的数据或数据集。
“工欲善其事,必先利其器”,那么,用什么工具来处理这些数据并构建合理的模型使之吻合实际,成为首要的任务呢?是利用C/C++、Java、PERL、Python、Ruby、Php、JavasCript、Erlang、MATLAB、SPSS、SAS还是R呢?不论使用何种工具,对使用者而言只有应景的才是合适的。本文仅研究R在数学建模中的应用,其他见相应的资料和文献,不再一一赘述。
R不只精于统计计算及作图,在数据分析方面更是长袖善舞,其惊艳之处在于人们利用其大量的、完备的工程计算包几乎可以处理统计机器学习和数据挖掘中所有想解决的问题。
就目前R的使用率而言,国外相较国内要高很多,包括许多大公司如Google、Oracle以及Amazon的许多工程也在使用R进行数据分析,这与MATLAB、SPSs和SAS被破解直接决定了R在中国的普及率有关系。
一、R语言的特色
最初,为提高S语言的性能,新西兰奥克兰大学的Ross Ihaka和Robert Gentleman共同开发了R语言。起初R一直在小众领域徘徊,也只有部分统计学家知晓。经过研究人员多年对其开源源程序持之以恒地不懈推送以及大数据时代的到来,终于让R获得了新生,成就了R语言的今天,这也是时代赋予R的任务。
R是一个集数据分析、统计计算、制图以及可视化的优秀程序设计环境,其卓越的性能为业界所称道。其特色主要集中在以下几方面:
(一)R的语法
R语言是语法自由、简洁易学、完全面向对象且命名自由的函数式语言,其语法来自于Scheme,并受S语言的影响。R的免费、开源使得其有别于SAS,盛行于高等院校和研究机构。但并不代表掌握了这些语法就意味着领会了R的精髓。R涉及的领域极其广泛,可以说从互联网到统计分析,从金融风险到数据挖掘,从生物信息到地球物理,从生物制药到数据可视化等包罗万象。近年来,R快速地向工业界渗透并有望成为工业界不可或缺的语言。
(二)R的知识结构
想要对R运用自如,应对其前期需具备的基础知识结构了然于心。R作为一门统计语言与生俱来就有别于其他编程语言。只有把基础知识(高等数学、线性代数、离散数学、概率论与数理统计等)与业务知识(本专业知识、相应的算法、数据库、R包等)有效地融合才可以在实际应用中做到收放自如,R强大的生命力才会得以绽放。
(三)R的理念
R的设计理念就是“静心做事”。
针对一个复杂的统计模型而言,研究人员只需斟酌构建合理的模型,传什么参数即可,而不必考虑如何进行程序设计,其代码也不会冗长也不用设计模式,只需调用函数和传相应的参数即可,全然不必去考虑其时间和空间复杂度的问题。
(四)R的其他特色
R不仅仅有以上一些特色,还有其他特色,如,它与其他编程语言和数据库之间有相当好的接口、有效的保存机制、有着丰富的网上资源等,不胜枚举。
二、R语言和其他语言的对比分析
统计学家们最初使用R也是为了用其代替SAS做统计分析,主要是看中了其开源、简洁、高效、易学、便于操作等性能。时代的进步、大数据的爆发,R被赋予了新的生命力。然而,R的各个商业竞争对手如MATLAB、SPSS以及SAS也在蓬勃发展,它们都是非常优秀的软件且都在特定领域中一展身手,只是使用人群在不断地调整着自己的使用工具而已。表1为四款软件的对比。
通过比较分析和对未来发展的预测,我们认为R是最值得学习掌握的软件之一。由于R被时代赋予了特殊的使命,这就决定了R在目前以至于未来较长一段时间会占据一定的主角地位。
三、R在数学建模中的应用
隨着R的不断发展,其已经不仅仅局限于统计学这一小众领域,互联网、教育、电商、银行等诸多行业都在使用R,这使得R一跃成为一门炙手可热的数据分析利器。
基于R的语法、知识结构、理念以及其他特性,我们不难发现其在高校的数学建模中可以发挥其卓越的性能。对本科生而言,数学建模竞赛是一门综合性非常强的赛事,在培养学生的创新意识、应用能力和实践能力方面尤为重要。由于R本身具备的特性,如果在数学建模中恰当地引入了R,势必会起到事半功倍的效果。本文举两个例子说明R在数学建模中的效能。
问题1:部分大学生毕业后,面临的一个主要问题之一就是就业。就业不仅关乎从业学生的未来发展,还对我国的高等教育直接产生深远的影响。
社会统计表明,大学生毕业后选择职业主要集中考虑:工资待遇、地区和专业等因素,这些都会直接影响到未来学生的就业渠道。图1是2002~2010年全国大学毕业生的平均月薪(单位:元;数据来源于《2012中国统计年鉴》)。
根据《2012年中国统计年鉴》提供的数据,专科、本科、硕士2011年毕业后平均月薪见表1。
而我们结合影响大学毕业生月薪的有关因素,进一步收集相关数据,通过构建合理的数学模型预测2011年大学生平均月薪,同时利用MATLAB、SPSS、SAS和R进行了拟合,结果均显示与《2012中国统计年鉴》给定的数据在伯仲之间,说明MATLAB、SPSS、SAS和R对这一问题拟合效果均有效,但用R语言所做的拟合优度(Good-ness of Fit)最接近于1,说明R的拟合效果相较其他三种语言效果显著。
问题2:钢铁产能一直以来是衡量一个国家经济实力的标志之一。近年来,我国的经济态势呈稳步攀升趋势,对钢铁的需求常常供不应求,其在国民经济建设中地位彰显。正因为如此,我们需要通过计量分析来构建模型,从而确定哪些因素对钢铁供应量会产生不同的影响。现有2006年各解释变量数据(单位:万吨):18382.93、40413、23.53、28344、109998.1624、219439、207694,试预测2006年钢材供应量。
为了全面反映影响我国钢铁供应量的主要因素,选取了我国1986~2005年我国钢材供应量的具体数据,选择“钢材供应量(万吨)Y”作为被解释变量,“原油产量(万吨)X1”“生铁产量(万吨)X1”“原煤产量(万吨)X3”“电力产量(亿千瓦小时)X4”“固定资产投资(亿元)X5”“国内生产总值(亿元)X6”和“铁路运输量(万吨)X7”作为解释变量。
利用逐步回归法,构建相应的数学模型,去检验并解决此问题中存在的多重复共线性问题,分别作Y对X1、X2、X3、X4、X5、X6、X7的一元回歸,利用四款软件对2006年的钢铁供应量的预测结果见表3。
《2007中国统计年鉴》显示:2006年我国实际的钢铁应量为42266万吨。表3显示,就预测结果而言,R误差最小,说明R回归的结果相较其他三款软件最为准确,与实际最为接近。因此我们可以看出,在对大量数据进行分析、做回归时,R语言表现出较好的性能。
四、结束语
R的优点不言而喻,但R也有一些不尽如人意的地方,主要表现在以下几点:
(1)就健壮性而言,R语言毕竟出自统计学家,其逊于软件工程师编写的软件是不争的事实;
(2)初学R有一定门槛,主要是其需要具备一定的数学、概率统计等相关的基础知识;
(3)R处理文本文件略显被动。
当R逐渐为我国高校及研究机构人员使用时,普及率具有一定的局限性。然而,随着R在业界作为众多领域用户的平台后,R声名鹊起。
R处在了一个对大数据进行深度挖掘的时代,其势必会被赋予洞察数据内在价值和规律的任务。因此,用好R就会为人类创造更大的价值空间。
[责任编辑:钟岚]