APP下载

车联网数据清洗及其面临的挑战

2017-12-06

汽车文摘 2017年9期
关键词:踏板均值聚类

车联网数据清洗及其面临的挑战

车联网和大数据是最近汽车行业研究的热点。车联网涉及到的技术包括数据采集技术、网络技术、软件技术和控制技术,其能够感知道路交通,并实现交通信息系统间数据的共享和交换,从而提高交通运行效率,为汽车行驶安全提供信息支撑。随着车联网应用的普及,造成汽车数据信息(发动机转速、汽车行驶速度、发动机扭矩、制动踏板位置、离合器踏板位置、加速踏板位置和变速器挡位等)急剧增多。这些数据信息的采集主要依靠安装的传感器,在数据信息的导入过程中,若传感器出现故障,则可能导致数据异常、数据不一致、数据重复和数据缺失等现象。为了获得通过分析采集的数据而得出准确的结果,需要对采集的数据进行预处理,而数据清洗是其中最为重要的环节之一。

数据清洗过程一般包含缺失值处理和异常值检测两个部分。①对缺失值进行处理时,若数据序列中只含有少量的缺失值,则采用填补的方法对缺失值进行补充。具体的填补方法包括数据序列均值法、临近点中位数法、插值法等。若数据序列中含有大量的缺失值,则采用忽略的方法对缺失值进行处理,即删除数据序列存储表格中的空白。②对异常值进行检测时,则通过聚类的方法实现。聚类能够将具有相似特征的数据聚集在某一集合之内,异常值则落在集合之外,表现为孤立点。常用的聚类方法如K-均值聚类方法。

目前,对于数据清洗过程仍然面临着时间消耗长、实时性低等问题,因而还不能应用车联网数据对汽车进行实时控制。

Venkatesh Raman et al. SAE 2017-01-0069.

编译:王祥

猜你喜欢

踏板均值聚类
一种傅里叶域海量数据高速谱聚类方法
一种改进K-means聚类的近邻传播最大最小距离算法
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
浅谈汽车制动踏板的型面设计
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
浅谈制动踏板机构设计
浅谈均值不等式的应用
均值不等式的小应用
论钢琴踏板的正确使用