APP下载

面向车联网数据的相关性分析方法

2020-10-20董俊龙关利海郝成龙

关键词:车联网相关性分析大数据

董俊龙 关利海 郝成龙

摘 要:车联网数据包括车辆数据、驾驶员数据、出行数据以及环境数据。分析、挖掘车联网数据之间的相关性,发现数据潜在规律,可以更好的指导业务策划以及产品决策。本文归纳总结了相关性分析常用方法,并阐述每种方法的适用范围、优缺点以及如何应用于车联网数据。

关键词:车联网;大数据;相关性分析

1 前言

相关分析(Analysis of Correlation)是数据分析常用的分析方法之一。通过对不同特征或数据间的关系进行分析,发现数据之间的关联性,并通过这种强关联关系,可以对未来趋势进行预测。相关分析的方法很多,图表描绘可以直观发现数据之间的关系,如正相关,负相关或不相关。数值计算的方法可以对数据间关系的强弱进行度量,如完全相关,不完全相关等。模型拟合的方法可以将数据间的关系转化为数学模型,并通过模型对未来的趋势进行预测。关联规则挖掘的方法可以挖掘数据之间的关联关系。本文结合车联网数据,着重介绍几种数据相关性分析的基本方法。

2 车联网数据类型

车联网数据举例说明,如表1所示:

3 相关性分析方法

3.1 数据可视化

通过数据可视化的方法分析数据之间的相关性,如散点图、折线图等,适合定性分析,可直观的表达数据之间联系、模式或趋势。优点是对相关关系的展现清晰,缺点是无法对相关关系进行准确的度量,缺乏说服力。比如,展现车速与转速之间的关系,可以通过散点图直接表现。

3.2 协方差

协方差用来衡量两个变量的总体误差,如果两个变量的变化趋势一致,协方差为正,说明两个变量正相关。如果两个变量的变化趋势相反,协方差为负,说明两个变量负相关。如果两个变量相互独立,那么协方差就是0,说明两个变量不相关。协方差用于定性分析,描述两组数据之间关系的方向性。优点在于可用数值表示相关性,缺点是无法对相关程度进行度量。

3.3 相关系数

相关系数(Correlation coefficient)是反应变量之间关系密切程度的统计指标,相關系数的取值区间在1到-1之间。1表示两个变量完全线性相关,-1表示两个变量完全负相关,0表示两个变量不相关。相关系数包括pearson、spearman、kendall三种计算方法,优点在于可以定量分析,描述数据之间的单调关系,可通过数值对变量的相关性及强弱进行度量,缺点是无法利用这种关系对数据未来趋势进行预测。如分析驾驶员体征数据与驾驶数据之间的关系。

3.4 卡方独立性检验

独立性检验,又称卡方检验是统计学的一种检验方式,与适合性检验同属于X2检验,它是根据次数资料判断两类因子彼此相关或相互独立的假设检验。卡方独立性检验,两个类别变量的独立性检验回归分析,优点可通过数值对变量的相关性进行度量,缺点是无法利用这种关系对数据进行预测。卡方检验仅适用于分类型数据,如性别、天气、开关状态等。

3.5 回归分析

回归分析(regression analysis)是确定两组或两组以上变量间关系的统计方法。回归分析按照变量的数量分为一元回归和多元回归,它可以用于研究数据之间具体模型关系。回归分析优点是对变量间的关系用数学表达式确定,可进行数据预测。适用范围:需要确定自变量和因变量。可应用于如车辆故障诊断预测、驾驶行为风险预测等。

3.6 关联规则

关联规则(Association Rules)是数据挖掘中较为常用的方法,它是从大量数据中挖掘频繁项集之间的有趣联系或相关关系。关联规则的任务就是为了发现数据集中不同数据项之间的关系,如数据项对另一数据项的影响。如分析驾驶员情绪对驾驶行为的影响。

4 总结

本文总结了数据之间相关性计算方法,并以车联网数据为例,说明每种方法的优缺点以及适用范围。相关性分析是进行机器学习、数据挖掘工作之前,前期数据探索的有效方法之一,在实际数据分析时,需要根据数据类型进行合理选择。

参考文献:

[1]贾俊平.统计学[M].中国人民大学出版社:北京,2018.

猜你喜欢

车联网相关性分析大数据
整合广播资源,凝聚声音优势
上市公司财务指标与股票价格的相关性实证分析
淘宝星店成长中的粉丝力量
中国城市化与经济发展水平关系研究
汽车生产企业发展车联网的优势与劣势
基于大数据背景下的智慧城市建设研究
中国车联网产业链与商业模式研究