基于大数据分析的新能源汽车画像研究进展
2023-10-19王泽兴韩博洋蔺会光吕冯婧
王泽兴,韩博洋,蔺会光,吕冯婧,张 炀
基于大数据分析的新能源汽车画像研究进展
王泽兴,韩博洋*,蔺会光,吕冯婧,张 炀
(国家新能源汽车技术创新中心,北京 100176)
大数据技术与新能源汽车的融合是未来发展的必然趋势,在软件和场景定义汽车的大背景下,明确用户群体,构建清晰的产品画像,已成为汽车企业在数字化转型期的发展趋势之一。文章首先分析了常用大数据处理框架的技术特征,对大数据基本处理流程及其对应原理进行了梳理,同时阐述了大数据统计分析的方法及过程。其次结合大数据分析技术分别梳理了用户特征分析、用户及产品画像挖掘的相关新能源汽车画像研究及应用,并对基于K-means聚类的汽车用户及产品画像实例进行了分析。最后,对大数据分析技术在新能源汽车画像研究的应用前景进行了总结,并提出了部分思考及未来展望。
新能源汽车;用户画像挖掘;大数据分析;K-means聚类
在“四个革命、一个合作”的能源安全新战略指导下,国家制定了“双碳”目标,并积极推动新能源汽车产业链发展。在汽车企业数字化转型背景下,借助车辆数据和用户数据的整合分析,持续推动新能源汽车研究与发展[1]。同时最大化利用大数据分析技术挖掘数据背后的价值,为新能源汽车产品的制造、服务、创新等提供数据支持[2]。
目前,以人为本的新型服务模式探索进度正在加快,同时传统车企在产品更新、商业模式探索和数字化服务等方面加快应用大数据技术[3]。研究表明,更多的个性化选择会增强消费者的购买欲,更有利于商家销售产品[4]。因此,许多汽车生产企业开始趋向于为消费者提供定制且个性化的汽车产品。在大数据背景下,通过调研市场及用户需求,并结合数据挖掘、数据分析的方式,采取数据驱动营销策略进行新能源汽车用户研究。构建用户画像、更好地把握用户诉求,为汽车企业提供满足消费者需求的产品或服务,有利于提升产品的质量,优化用户体验。根据新能源汽车消费群体的相关数据进行产品画像研究,精准定位产品,让不同车型迅速匹配到目标消费者群体,实现企业与用户双赢[5]。
1 新能源汽车大数据分析技术
1.1 大数据处理框架
大数据分析技术是当下热门的研究领域之一,依靠大数据分析技术可以并行高效地处理对文本、图片和视频等非结构化数据进行价值挖掘以及统计分析[2]。
现代大数据处理框架主要包括Hadoop、Storm、Samza、Spark、Flink等,其中Hadoop框架仅适用于批处理,即需要操作大容量静态数据集;Storm和Samza属于流处理框架,会对随时进入系统的数据进行计算,更适用于近实时处理需求的任务;Spark和Flink属于混合处理框架,可以同时进行批处理和流处理的工作负载。Spark可提供高速批处理和微批处理模式的流处理,而Flink 提供了低延迟的流处理并具备批处理能力,通过深度优化也可运行其他平台编写的任务。
1.2 大数据预处理
大数据预处理技术主要包括数据清洗、数据降维、数据变换等[6]。由于搜集的车辆数据涉及不同的使用场景,导致原始数据种类混杂,同时各参数的格式、标量都不尽相同,需要对原始数据进行预处理,并使用相应算法对数据进行筛选及降维,再进行计算和分析。
1.2.1数据清洗
数据清洗是对原始数据中涉及正负、精度的异常数据进行清洗过滤的预处理操作,通过填补缺失值、光滑噪声数据,平滑或删除离群点,以解决数据的不一致性问题。处理缺失值时,根据缺失比例,选择删除变量或者进行变量填充,一般选择采用均值法或中位数进行填充。离散值处理是根据离群点数量和影响,对该条记录删除或使用均值、中位数等方式替换离群数据。噪声处理是对数据进行分组操作,然后使用每组的平均数、中位数或者边界值进行替代,起到平滑噪声数据的作用。
1.2.2数据降维及变换
数据降维的目的是在保证数据信息完整性的前提下,降低数据维度,减少后续数据处理复杂度,提升数据挖掘建模效率。数据降维的主要使用方法为主成分分析(Principal ComponentPCA)、因子分析(Factor Analysis, FA)及奇异值分解(Singular Value Decomposition, SVD)等。
数据变换主要对数据进行规范化处理,由于数据中各特征的量纲不同,因此,需要将数据规范缩放到一定的数值区间内(例如0~1),便于进行综合分析。一般进行规范化处理的方式有归一化(Min-Max标准化)、Z-Score标准化等。
1.3 大数据统计分析方法
大数据的统计分析是判断最终信息是否有价值的决定性因素,通过提炼数据中的特征信息,找出数据间的内在关系和变化规律[7],包括相关性分析、分类分析、聚类分析、回归分析和可视化分析[8]。
1.3.1相关性分析
相关性分析是针对不同特征或数据间的关系,总结数据变化规律,以及对不确定数据结果进行预测[9]。衡量数据间相关性可以使用相关系数反映变量之间关系的密切程度,一般是通过计算协方差及协方差矩阵,协方差为正、负时分别对应变量变化趋势的正、负相关。相关系数从-1到1分别代表变量完全负相关到完全正相关,两个变量相互独立时相关系数为0。比较常用的是皮尔森(Pearson)相关系数和斯皮尔曼(Spearman)相关系数,其计算公式分别为
式中,为两个成对且分别按照顺序编秩的变量;R为x的秩次;Q为y的秩次。
1.3.2分类分析
分类分析是基于包含对某一类别成员标签已知的训练数据集来识别新数据所属类别的分析方法。以分类算法支持向量机(Support Vector Mach- ines, SVM)为例,其是一种二分类模型,可以将问题化为一个求解凸二次规划的问题,如图1所示。通过将输入的特征数据映射到特征空间,并构建一个分类超平面方式,利用超平面在映射空间对原来难以使用线性直接划分的数据进行划分。对于能够进行线性划分的数据集来讲,有且仅有一个具有最大几何间隔的分离超平面。
图1 SVM分类超平面
1.3.3聚类分析
聚类(Clustering)分析是按照某个或某几个特定特征标准,将数据集进行分类或簇,使得类或簇间的距离尽可能大,同时类或簇内样本与中心的距离尽可能小,聚类后同一类或簇的数据尽可能聚集在一起,不同类或簇数据尽量远离。
K-means聚类,也被称为K均值算法,是最常用的一种基于划分的聚类方法,通过计算样本点与质心的距离,与质心距离近即相似度高的样本点被划分为同一类簇。K均值通过样本间的距离(一般使用欧几里的距离计算)来衡量样本间的相似度,两个样本距离越近,代表相似度越高。K-means算法流程如图2所示。
图2 K-means算法流程
1.3.4回归分析
回归分析是一种为了研究因变量和自变量之间关系的统计分析方法,通常用于预测以及发现变量之间的因果关系。在进行回归分析时(见图3),如果仅使用一次线性回归容易出现欠拟合的情况,导致模型建立后回归效果差。针对欠拟合一般考虑使用更多项或增加参数和特征进行拟合,但是多项式回归也存在因加入过多,而出现过拟合的情况,从而导致模型训练后的泛用性不够,无法应用至更大场景。针对过拟合的情况可以考虑使用带有正则化算法的回归模型(例如Ridge岭回归)对数据进行拟合。
1.3.5可视化分析
可视化分析通过结合计算机高效的数据处理分析能力以及人对抽象化信息的认知优势,辅助洞悉数据背后的规律[10]。数据可视化可以方便用户直观地理解数据,常用的可视化分析图表有折线图、柱状图、饼图以及雷达图等。通过可视化的图表可以将抽象的数据内容整合、转变为具象直观的结果,更有利于了解数据价值。
2 新能源汽车大数据分析画像
高度信息化的新能源汽车包含大量具有丰富科研价值的数据,分析研究这些数据可以为车企提供明确的用户画像、车辆运行性能信息、行驶过程中的特点及缺点,帮助车企在后续产品的个性化或定制化功能配置时进行优化决策[11]。基于用户推广、定制化服务最早兴起于互联网公司,通过分析用户特征向用户推送符合自身喜好的内容、提供定制化的服务,并对用户关系网络进行管理。综上所述,在新用户首次登录时,快速、准确的用户定位十分重要[12]。
2.1 用户特征分析
新能源汽车是未来智能化交通中的重要组成部分[13],通过结合车辆行驶数据对用户行为及需求进行分析,既可以满足用户的个性化定制需求,也可以构建用户画像为精准营销、场景定义等提供支持。研究表明,影响消费者选择电动汽车的主要因素包括出行距离、身份特性、家庭收入[14]等。KIECKHAFER等[15]主要基于德国电动汽车市场数据进行分析研究,结果表明,在电动汽车市场份额估计中消费者的特性因素扮演着极其重要的角色,其中消费者选择行为尤其与兴趣偏好、性能、服务质量等因素高度相关。
2.2 用户画像挖掘
从多源数据中获取的对汽车产品用户消费行为有所影响的群体属性被称为汽车用户产品群体特征。在复杂的汽车产业中,采用各种方法收集用户数据,并通过对其进行大数据分析。因涉及大量的结构化/非结构化数据,以及多样复杂的场景和系统,数据的清洗、转化、融合是一项重要挑战[16]。
用户画像是通过搜集与用户相关的多维度数据,对用户特征属性进行描绘,并进一步分析挖掘特征信息的潜在价值。用户的基本属性标签包含年龄、性别、职业、收入等;兴趣偏好标签包含喜欢游戏,美食、社交等。这些标签集合可以抽象出用户的大致轮廓,对于进行产品精准营销和用户分析有重要作用。在互联网行业,通过建模分析用户安装、卸载、经常使用或很久未使用的 App 类型,能够挖掘用户的兴趣爱好,利于广告投放或应用推荐等业务更好的开展[17]。根据汽车产品特性,汽车产品的用户群体特征可大致分为用户基本属性、驾驶习惯属性、充电习惯属性、社交偏好属性、用户关注点属性、消费习惯属性等。
薛海涛等[16]通过对某品牌新能源汽车的购买行为进行分析,对已购车和未购车人群分别进行聚类分析,区分出了5类特征差异明显的人群,其中包括已购车的用户两类(高学历高收人群和经济适用年轻人),以及未购车用户三类(高需求中等收入家庭、低需求中等收入家庭及低需求年轻人),如图4所示。
图4 聚类结果
通过对不同分类的用户购买行为进行分析,为精准营销提供出几点建议:首先,筛选体验用户学历、收入、年龄、婚姻状况、出行需求等方面的特征分析数据,结果表明,拥有本科以上学历,且家庭燃油车车价15万以上,拥有便利充电条件的用户更容易转化为潜在用户、更有可能发生新能源汽车购买行为。其次,针对家庭拥有5~15 万左右燃油车及30~40岁的已婚人群,可以考虑制定有效转化方案,增加其购买新能源车的可能,例如推出一定优惠策略或者增加购买配置方案等。最后,优先考虑为学历水平达到本科的20~30岁人群发放体验,针对这一部分人群,当其预期单次出行距离在16 km以上时,且家庭燃油车车价在 15 万以下,甚至无车的用户更容易被转化为购买对象。
2.3 产品画像挖掘
产品画像是一种基于用户画像而引申出来的大数据画像技术[18]。杨美婷等[19]在2017年提出由用户画像的研究对象延伸至产品,就可以构建出“产品画像”。王颖[20]对产品画像的概念进行了细化,通过合理的组织、关联产品相关信息,挖掘产品信息和用户评论形成的标签化信息模型可以得出产品画像。
与用户画像类似,产品画像具有多维度的特征,产品画像要综合产品静态参数信息和用户动态评价信息,多维度地展示产品专业知识、产品参数、产品相关网站信息和用户评价相关联的信息。同时,产品画像也具有抽象化的特征,在建立产品画像标签化模型时,由于涉及众多包含产品和用户的信息,因此,要提炼有价值的信息作为产品画像标签,并表示为抽象化的标签模型。产品画像还具有结构化特征,即从产品多维度的数据中抽取出信息模型,需要转化大量的文本、图像等信息为结构化数据,形成标准的数据结构形式。
多维汽车产品画像构建流程如图5所示。在数据获取与预处理阶段,根据汽车各项参数与汽车性能间的关系使用网络爬虫技术爬取车型参数信息、用户评分和用户口碑评价,并对最终获取的汽车相关数据进行处理。在产品画像标签体系设计阶段,使用TF-IDF(Term Frequency–Inverse Document Frequency)技术从用户兴趣角度提取各车型评论的兴趣方面特征词,计算评论文本中提及较多的方面词和权重,并通过对比汽车专业领域评价指标选定方面词设计产品画像标签体系。在多维度汽车产品画像的构建阶段,依据上一阶段选定的特征标签建立多维度的车型特征向量模型,形成汽车产品画像框架,并使用可视化工具绘制各级别车型的多维汽车产品画像。
图5 多维汽车产品画像构建流程图
在数据驱动场景下,黄嘉祥[21]基于充电站点数据、能耗数据和出行数据,研究以新能源车辆为主体的主题画像建模。在不断复杂丰富的数据和场景中,得出了与新能源汽车的画像建模与充电、出行、能耗使用、驾驶行为和出行风险相关的结论,构建了以新能源汽车为主体的画像。基于该种画像研究[22]方法,能够有效地刻画对于未来充电站点的选址规划、车辆出行习惯以及驾驶的安全性等的新能源汽车产品画像。
2.4 基于K-means算法的用户及产品画像
祝偲博[22]通过实验的对比研究对K均值聚类算法进行了设计改进,并通过SPSS(Statistical Product and Service Solutions)软件对P2SOM-K均值算法、DM-K均值算法这两种改进的K均值聚类算法聚类效果进行了验证及对比分析。根据驾驶姿态特征参数归纳总结出了五类汽车用户的驾驶姿态画像:第一类汽车用户为了在驾驶过程中使驾驶视野更加开阔、仪表盘信息更清晰,因此,方向盘相对垂直高度需调整至最低;第二类用户为方便在驾驶过程中获得灵活的方向盘操控体验,方向盘相对水平距离需调整最近;第三类用户由于在驾驶时坐姿比较松弛,不容易发生疲劳驾驶;第四类用户需要更多的腿部空间,对于方向盘相对垂直高度的调整是五类用户中最高的;最后一类用户驾驶时的手臂状态紧绷,导致方向盘操控空间偏小,同时在驾驶过程中坐姿挺拔,疲劳驾驶的风险较高。根据聚类特征进行合理推测,这一类用户的驾驶态度在五类用户中最为认真谨慎。通过应用汽车用户驾驶姿态画像,可以对五类汽车用户的驾驶姿态调整提出了相关建议,并结合科学且安全的驾驶原则,为用户表明安全注意事项。
肖扬[18]对汽车产品和购车用户进行了分析和研究,提出了基于产品画像的汽车推荐算法,实现了针对不同用户群体的汽车推荐。通过爬取、处理分析汽车之家的汽车产品参数和用户口碑数据,构建多维度的汽车产品画像模型,提高对用户进行汽车产品推荐的精度,并以此构建了基于产品画像的混合推荐算法CPP-HR,寻找满足用户群体特征需求的最近邻车型,生成车型推荐列表,实现基于产品画像的汽车推荐。通过引入产品画像技术到传统推荐算法中,CPP-HR流程图(见图6)可以根据丰富的物品参数信息和用户语义信息,精准地计算用户-物品之间以及物品-物品之间的相关性,从而实现对用户、汽车企业的推荐和指导。
图6 基于产品画像的混合推荐算法CPP-HR流程图
3 结论
本文阐述了大数据分析的相关原理及方法,并展示了在用户特征分析、用户画像挖掘、产品画像挖掘方向上涉及大数据技术的新能源汽车画像研究,同时基于K-means改进算法的画像研究应用。综上所述,大数据分析技术在新能源汽车行业未来有广泛的应用前景,尤其在软件定义汽车、场景定义汽车的大发展环境下,对于汽车的使用场景挖掘、用户需求提取及营销精准化都有着很大的发展空间。但考虑到新能源汽车近年来的高速发展,涉及的数据规模庞大且结构格式多样,传统的数据处理方法需要在此基础上进行优化和改进。特别是在越来越多的新兴技术逐渐搭载、应用到新能源汽车的过程中,包括虚拟现实(Virtual Reality, VR)、增强现实(Augmented Reality, AR)等新技术的应用都会改变传统的汽车购买及营销模式。
针对新能源汽车画像研究,目前收集统计的数据大部分来自问卷、访谈等主观影响较大的方式,需要考量更多的特征情况才能构建更加完善的用户及产品画像,同时,在构建过程中结合不同方式收集类型多样的数据,更有利于提升画像的精确度以及泛用性。未来,应更多考虑将用户主观给出的内容数据转化成客观的解决方案,并以此直接指导系统的优化升级以及产品的迭代更新。通过引入脑电检测、眼动仪等心理测量设备,并结合大数据分析技术对测量数据进行整合统计,可以在一定程度上为新能源汽车相关的画像研究提供直观的用户体验数据,更客观地反映用户感受。
[1] 新能源汽车国家大数据联盟,中国汽车技术研究中心有限公司,重庆长安新能源汽车科技有限公司.中国新能源汽车大数据研究报告(2019)[M].北京:社会科学出版社,2019.
[2] 佘承其,张照生,刘鹏,等.大数据分析技术在新能源汽车行业的应用综述:基于新能源汽车运行大数据[J].机械工程学报,2019,55(20):3-16.
[3] DREMEL C,HERTERICH M,WULF J,et al.How AUDI AG Established Big Data Analytics in its Digital Transformation[J].Mis Quarterly Executive,2017,16(2): 81-100.
[4] DAWKINS S,TIAN A W,NEWMAN A,et al.Psychol- ogical Ownership:A Review and Research Agenda[J]. Journal of Organizational Behavior,2017,38(2):163- 183.
[5] 田朝辉.基于大数据的汽车精准营销研究分析:以构建奥迪汽车用户画像为例[J].福建工程学院学报, 2019,17(4):391-397.
[6] GARCíA S,LUENGO J,HERRERA F.Data Preproces- sing in Data Mining[M].Berlin:Springer International Publishing,2016.
[7] 张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50(S2):216-233.
[8] 黄亚娟.大数据分析技术在新能源汽车行业的运用[J].时代汽车,2020(7):69-70.
[9] 姚柳成,邹智宏.基于数据降维与聚类的车联网数据分析应用[J].汽车实用技术,2022,47(4):24-28.
[10] 任磊,杜一,马帅,等.大数据可视分析综述[J].软件学报,2014,25(9):1909-1936.
[11] 张帅领,张宇,王婷,等.新能源汽车大数据技术分析与应用场景研究[J].汽车博览, 2020(7):126-127.
[12] ELKAHKY A M,SONG Y,HE X.A Multi-view Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems[C]//The 24th Internati- onal Conference International World Wide Web Conf- erences.Washington:USA,2015:152-159.
[13] YANG L.Security and Privacy in the Internet of Things [D].Lawrence:University of Kansas,2017.
[14] HIGGINS A,PAEVERE P,GARDNER J,et al.Combi- ning Choice Modelling and Multi-criteria Analysis for Technology Diffusion:An Application to the Uptake of Electric Vehicles[J].Technological Forecasting and Social Change,2012,79(8):1399-1412.
[15] KIECKHAEFER K,VOLLING T,SPENGLER T S.A Hybrid Simulation Approach for Estimating the Market Share Evolution of Electric Vehicles[J].Tran- sportation Science, 2014,48(4):651-670.
[16] 薛海涛,何浩宇,陈延展,等.五菱新能源汽车精准营销策略研究[J].时代汽车,2023(1):184-187.
[17] ZHANG J,BAI B,LIN Y,et al.General-purpose User Embeddings Based on Mobile App Usage[J].Journal of the ACM,2020:3403334.
[18] 肖扬.基于产品画像的汽车推荐研究[D].大连:大连外国语大学,2022.
[19] 杨美婷,刘蓓琳,王韵博.基于“产品画像”的乳制品安全预警系统研究[J].黑龙江畜牧兽医,2017(12):27-29.
[20] 王颖.基于知识图谱的产品画像构建研究[D].南京:南京理工大学,2018.
[21] 黄嘉祥.数据驱动的新能源车辆主体画像建模与分析[D].上海:华东师范大学,2022.
[22] 祝偲博.基于改进的K均值聚类算法的汽车用户画像研究与应用[D].长春:吉林大学,2022.
Progress of Research on New Energy Vehicle Portraits Based on Big Data Analysis
WANG Zexing, HAN Boyang*, LIN Huiguang, LV Fengjing, ZHANG Yang
( National New Energy Vehicle Technology Innovation Center, Beijing 100176, China )
The integration of big data technology and new energy vehicles is the inevitable trend of the future.In the context of software and scenario-defined vehicles, clarifying user profiles and establishing clear product portraits have become one of the development trends for automotive companies in the phase of digital transformation.Firstly, an analyse of the technical features of commonly used big data processing frameworks, the basic processing flow of big data and its corresponding principles are sorted out, and the methods and processes of statistical analysis of big data are described.Secondly, combined with big data analysis technology, the paper respectively sorts out the research and application of new energy vehicle portrait of user characteristics analysis and user and product portrait mining, and analyzes the examples of vehicle users and product portrait based on K-means clustering.Finally, the application prospect of big data analysis technology in new energy vehicle profiling research is summarized and some reflections and future prospects are put forward.
New energy vehicle;User persona mining;Big data analysis; K-means clustering
U469.7
A
1671-7988(2023)19-194-07
10.16638/j.cnki.1671-7988.2023.019.038
王泽兴(1983-),男,博士,高级工程师,研究方向为新能源汽车、汽车数字化,E-mail:wangzexing@nevc. com.cn。
韩博洋(1998-),男,硕士,研究方向为计算科学、虚拟现实,E-mail:hanboyang@nevc.com.cn。