基于大数据背景的相关系数
2018-02-25苏杭
苏杭
摘要 在大数据时代下,海量数据处理对数据相关性分析有较高要求,需要应用统计学的相关系数进行量化描述。本文首先对相关系数的定义和性质进行介绍,在此基础上,探讨相关系数在大数据背景下的应用,给出两个常用公式,结合具体案例研究相关系数计算方法。
【关键词】大数据背景 相关系数 常用公式计算方法
相关关系是指客观事物之间存在的数量关系,在自然界中,各种事物和现象之间总是存在一定的联系性,大数据时代的一个显著特征是采用相關关系描述代替了以往数据关系分析中的因果关系描述。统计学中的相关系数就是对两变量关联性的量化描述,使其精炼为一个描述性数据。在大数据时代下,相关系数在数据分析过程中有重要应用,应积极研究其定义和计算方法,为实际应用提供参考。
1 概率相关系数的定义和性质
2.2 相关系数统计计算
在传统统计计算方法中,搜集全部数据可行性较低,一般采取抽样分析方法,按照一定策略在总体中进行抽样,计算其相关系数,反映总体特征。比如以某城市的青少年身体成长为研究对象,探讨其体重与身高的相互关系,可以直接采用
(1)确定样本规模,获取样本中每一位青少年的体重测量值和身高测量值;
(2)分别计算体重和身高的平均值、标准差:
(3)将样本体重和身高测量值转化为标准值;
(4)将体重标准值与身高标准值相乘,将每个样本数据的乘积相加,最后除以样本总人数,得到相关系数。
2.3 相关系数大数据计算
在大数据技术的支持下,我们可以较为轻松的获取研究对象的全部数据,且实现对动态数据的采集和分析,根据两个变量之间的相互关系,分析事物在未来一段时间内的变化趋势。因此,传统相关性计算只是对以往数据的相互关系进行检验,而大数据技术下的相关性计算则能够反映出数据的未来变化趋势。比如以企业单位成本和产量为研究对象,利用大数据技术搜集企业的全部单位成本和产量数据,相关系数计算步骤为:
(1)分别计算单位成本与产量的平方,并计算单位成本与产量的乘积;
(2)分别求出单位成本之和、产量之和、两者各自平方的和以及单位成本与产量乘积之和:
3 结束语
综上所述,在大数据时代下,捕获研究对象的全部数据成为一种可能,在此情况下利用统计学中的相关系数计算公式计算数据变量之间的相关系数,可以科学评判数据变量之间的相关性,全面反映数据隐藏特征,并预测数据的未来发展趋势,为管理决策提供科学依据。
参考文献
[1]姜咏梅,倪中华,基于大数据背景的相关系数研究[J].商丘职业技术学院学报,2017,16 (05):68-71.
[2]魏新来.大数据背景下居住用地价格驱动力分析
以苏州工业园区为例[A].中国科学技术协会、广东省人民政府,2015:7.