APP下载

分层理论在车联网数据仓库的应用

2023-08-27唐文笙张亮韦通明廖甜汇温丽梅

汽车电器 2023年8期
关键词:数据仓库汽车行业大数据

唐文笙 张亮 韦通明 廖甜汇 温丽梅

【摘  要】随着智能网联汽车的快速发展,各大汽车企业积累了庞大的业务数据,如何有效组织并使用这些数据,成为了各个企业所必须面对的问题。本文基于维度建模分层理论,结合实际车辆网联数据,设计了车联网数据仓库,为各大汽车企业管理者提供一个组织并使用数据的解决方案,也为汽车数据行业工作者提供一些简单的参考。

【关键词】大数据;汽车行业;数据仓库

中图分类号:U463.6    文献标志码:A    文章编号:1003-8639( 2023 )08-0056-03

Application of Hierarchical Theory in Internet of Vehicles Data Warehouse

TANG Wen-sheng,ZHANG Liang,WEI Tong-ming,LIAO Tian-hui,WEN Li-mei

(SAIC GM Wuling Automobile Co.,Ltd.,Guangxi Laboratory of New Energy Automobile,

Guangxi Key Laboratory of Automobile Four New Features,Liuzhou 545007,China)

【Abstract】With the rapid development of intelligent connected vehicles,the major automobile enterprises have accumulated huge business data. How to effectively organize and use these data has become a problem that all enterprises must face.Based on the theory of dimension modeling and layering,combined with the actual vehicle network data,this paper designs the vehicle network data warehouse,which provides a solution for the managers of major automobile enterprises to organize and use the data,and also provides some simple references for the workers in the automobile data industry.

【Key words】big data;automobile industry;data warehouse

1  引言

近年來,随着汽车行业各种业务系统的不断发展,产生了越来越多的历史数据,这是汽车行业非常重要的战略资源。将这些重要业务数据存储在数据仓库中进行统一管理、数据分析和挖掘潜在的重要业务信息,可以很好地帮助汽车企业领导层的管理和决策,最大限度地提高汽车企业的经济效益,使汽车企业更好更快地发展。在大数据时代,基于数据仓库的数据挖掘已经成为汽车企业竞争的重要工具。

2  数据仓库介绍

数据仓库创始人W.H.Inmon定义了数据仓库,“数据仓库是面向主题的、集成的、不可更新的,并随时间不断变化的数据集合,用以支持管理部门的决策分析过程”。其中定义了数据仓库的几个特点:面向主题的、集成的、不可更新的。如图1所示。

1)面向主题的:数据仓库中的数据是面向主题的,对应于传统数据库面向应用的数据组织特点。主题是一个抽象的概念,也可以说主题是业务相关的数据的类别,每个主题对应一个宏观的分析领域。

2)集成的:集成的概念与面向主题的概念密切相关。一个公司有多条产品线与产品渠道,每个产品线都有自己独立的数据库。此时需要从公司层面整体分析所有数据,就必须要集成每个产品线的数据,将多个分散的数据源统一成一致的、无歧义的数据格式,再放置到数据仓库中进行分析,这就是所说的集成的概念。

3)不可更新的:数据仓库中的数据主要用于企业决策分析。涉及的数据操作主要是数据查询,一般不进行修改[1]。数据仓库数据反映了很长一段时间内历史数据的内容,是不同时间点数据库快照的集合,并基于这些快照对导出数据进行统计、合成和重组,而不是对数据进行在线处理[2]。

3  分层理论介绍

数据仓库从数据源到采集与多层清洗加工,形成以数据资产为核心的数据仓库,在这一过程中,形成了一套规范的数据逻辑分层。数据逻辑分层包括ods层、dwd层、dws层、dim层以及app层[3]。数据分层及其对应描述见表1,分层理论数据流向示意如图2所示。

4  分层理论在车联网数据仓库的应用

伴随着智能网联汽车的发展,车联网数据日益庞大,传统数据库已经不再使用对海量车联网数据的存储、搜索和分析,效率低、业务需求实现周期长。此时采用数据仓库对原始车联网数据进行重构便可以很好地解决传统数据库所面临的问题,将分层理论应用至车联网数据仓库,各个层级对应操作如下。

一是车联网ods层,建立统一数据表,接入多个软件的数据源,具体数据表见表2。

二是车联网dwd层,在实际车联网数据中,受到各种实际工况的影响,车联网数据字段值会存在空值、异常值等错乱数据的现象,在dwd层可对每个字段的错乱数据进行清洗,字符串类型的空值数据清洗为unknown,数值类型的空值数据清洗为0,时间类型的空值数据清洗为‘2001-01-01 00:00:00,日期类型的空值数据清洗为‘2001-01-01。另外,针对于业务需求,对埋点名称中的错乱数据也定义了清洗规则,将埋点名称中的前后空格均去除,例如:埋点名称=‘ b_m_01 清洗为埋点名称=‘b_m_01。经过上述清洗过程,可以有一个系统的、完整的、干净的、具有一致性的dwd层数据。表2经过清洗后得到表3。

三是车联网dws层,在本层对dwd层的数据进行轻度汇总加工,将发生时间拆分成发生日期、发生小时,同时保留其他全部的数据字段,增加计算指标:使用次数,用于统计某台车在某个日期、某个小时、某个地点的某个功能的使用次数。表3经过汇总加工后得到表4。

四是车联网dim层,dim层汇总一些常用维度,例如日期维度、地区维度、车型维度。其中,日期维度表包含了2001~2030年每个日期对应的年份、季度、月份、季节、每周几等信息,地区维度表包含了中国境内各省市区县对应的中文全称、中文拼音、所属大区、省份简称等信息,车型维度表则包含了车辆的车辆识别码、生产日期、销售日期、车辆型号、车辆配置等信息。另外还有一个埋点维度表,埋点维度表针对dwd中的每个埋点名称进行标签分类,包含了埋点名称的1级、2级、3级、4级标签以及相关的触发方式。

五是车联网app层,app层结合应用场景梳理了4个颗粒度的数据应用表,分别为小时、天、周、月。下面一一介绍各个颗粒度数据表内容。

1)小时颗粒度:按小时统计各个车型1级、2级、3级、4级标签的使用次数。

2)天颗粒度:按天统计各个车型1级、2级、3级、4级标签的使用次数。

3)周颗粒度:结合dim层中日期维度表,按周统计各个车型1级、2级、3级、4级标签的使用次数。

4)月颗粒度:结合dim层中日期维度表,按月统计各个车型1级、2级、3级、4级标签的使用次数。

表4针对应用场景可汇总形成表5。

可以看到,ods数据经過数据仓库各个层级的处理之后,可以得到一个标签化的统计指标,数据更加规整,提高了数据的可用性。

5  总结

数据仓库内部分层并非为了分层而分层,分层是为了解决ETL任务以及工作流的组织、数据的流向、读写权限的控制、不同需求的满足等各类问题。一个良好的分层应当有清晰的数据结构体系,可以做到精准血缘追踪,同时减少重复开发以及资源浪费。

本文基于维度建模分层理论实现了车联网数据仓库,可以很好地整合处理车联网数据,并针对不同应用场景定制化数据服务。此数据仓库层次清晰,各层的作用域明确,实现复杂度不高,可为多种车辆数据的收集、统计和分析提供参考。不足之处是对数据的分析和处理过于单一,在以后的工作中,可以尝试使用一些人工智能的方法对数据进行处理和分析,挖掘出更多的数据价值。

参考文献:

[1] 孟祥怡,梁士福,张天强,等. 新能源汽车充电用户行为大数据分析及应用[J]. 汽车文摘,2021(3):34-39.

[2] 周飞,刘梦娜,张晖,等. 商业银行数据仓库系统中ETL的设计与实现[J]. 软件工程,2018,21(11):42-45.

[3] 王雪柠,翟媛,陈颢. “十四五”时期我国汽车产业发展趋势简析[J]. 汽车工业研究,2021(4):2-7.

[4] 葛鹏,刘森. 大数据时代对汽车行业的影响分析[J]. 产业与科技论坛,2013,12(24):23-24.

[5] 奉国和,利伟业. 数据仓库在航空客户关系管理中的应用设计[J]. 情报杂志,2006(7):32-35.

(编辑  凌  波)

作者简介

唐文笙(1997—),男,助理工程师,研究方向为数据仓库建设。

猜你喜欢

数据仓库汽车行业大数据
时代不等人,汽车行业在完成“双碳”这件事上,责无旁贷
基于数据仓库的住房城乡建设信息系统整合研究
汽车行业最热最IN资讯,这里看个够!
汽车行业 最热最IN资讯,这里看个够!
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
基于大数据背景下的智慧城市建设研究
基于数据仓库的数据分析探索与实践
2015中国汽车行业发展趋势