基于R语言的轿车销量分析基于R语言的轿车销量分析
2017-04-10赵玉新
赵玉新
摘要:该文主要对轿车销量的进行初步分析,数据来自数据堂网站,主要使用R语言为工具,进行数据分析,通过导入sqldf数据包,对原始数据进行筛选,排序;以及使用高级绘图函数对轿车销量进行图表分析。
关键词:R语言;数据分析;轿车销量
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)04-0070-02
R语言是一个有着统计分析功能以及强大作图功能的语言环境,主要是统计学家为解决数据分析领域问题而开发的语言。
R语言具有功能强大的程序包,在数据计算,统计分析以及数据挖掘等方面都所向披靡,本文基于R对轿车销量数据进行分析。
1 数据情况
数据是一件麻烦事,在工作中,有多达60%的数据分析时间都花在了实际分析前数据的准备上。
现有2011年4月至2013年10月全国轿车车型销量排名数据:
数据共有6000多条,按照年份,月份,各厂商品牌统计轿车的销量,数据比较杂乱;所以首先要制定分析目标与方案。
2数据处理
首先我们将excel数据导入到R中,将excel文件以剪贴板的格式进行保存。然后使用read.delim函数进行导入:
我们首先制定数据分析的目标:
数据的特点是分月份,年份,品牌的,我们首先分析2013年度畅销车型。
那么我们需要对2013年各品牌进行汇总然后排序,对于求和以及排序,使用SQL语句来进行比较方便,那么在R中如何使用SQL语句呢?
R语言具有sqldf包,要求R是3.3.2版本,所以在R中安装和加载sqldf包。需要按照年度累计进行降序排序,只保留车型和本年累计两列。
结果如下:
从排序结果可以看出,2013年,年度畅销车型为大众朗逸,别克凯越和大众速腾。
3 图表分析
上面,我们结合数据分析的目标,对原始数据进行了整理,在R中应用sqldf对数据进行了筛选和排序,得到畅销车型的分析结果。
字不如表,表不如图。由于R具有强大的绘图功能,提供了多种绘图函数,有高水平绘图函数,低水平绘图函数以及交互式绘图函数。
直方图又称为柱状图,用来估计数据的概率分布;下面我们应用高水平函数中的直方图函数来看一下汽车年度销量的分布情况。使用hist函数。
从图中可以看出,年度销量在300000~350000辆之间的车型频数为1,只有大众朗逸是这个区间的。而轿车销量在0~50000辆之间的车型频数超过了150;大多数车型销售量都位于此区间。
下面使用箱线图来作分析,箱线图主要从四分位的角度来描述数据的分布,使用函数boxplot来完成。语句如下:
从绘制的箱线图可以看出,轿车销量的中位数是20000左右,箱体集中在50000以下,超过300000只有一个数据。
4 结束语
以上是笔者对轿车销量的初步分析研究,主要使用R语言的数据分析方法,通过导入sqldf数据包,对原始数据进行筛选,排序;以及使用高级绘图函数对轿车销量进行图表分析。
R语言功能很强大,除了数据分析,还有一些预测功能等。比如可以提取某一车型的月度销售数据,形成时间序列,然后对未来的月度销量进行预测等。由于篇幅所限,本文只作轿车销量的简单分析。
參考文献:
[1] 薛毅 陈立萍 .R语言实用教程[M].北京:清华大学出版社,2014.
[2] 数据堂网站[EB/OL]. http://www.datatang.com/.