基于情感分析的新能源汽车用户评论语义网络分析与主题建模
2023-01-14张梦婷范黄健
张梦婷, 叶 楠, 范黄健
(江苏师范大学 商学院, 江苏 徐州221116)
作为中国战略新兴产业和“中国制造 2025”的重点领域,近年来中国新能源汽车市场快速扩张,在新能源汽车规划(2012—2020)圆满收官后,进入了市场和政策双驱动的创新发展新阶段。目前中国市场上已累积了一定规模的新能源汽车用户,产生了大量的用户体验及显示性偏好数据。对这类数据的分析可以缓解消费者、营销人员和汽车制造商之间由于信息的滞后性带来的矛盾[1],对改善或提升新能源汽车产品性能具有积极作用。然而,目前仅有极少量文献对此进行了研究[2]。
随着新能源汽车用户的增多,有关用户体验的网络评论也在激增。近年来已有学者将基于在线评论的文本挖掘方法引入新能源汽车领域[1,3-12],主要集中在分析用户对于新能源汽车的关注点及满意或不满情况。然而,以往研究所分析的规范化文本数据大都来源于单一的汽车垂直网站,缺少多个网站口碑的聚合分析。此外,文本情感分析虽然是以往研究中普遍采用的方法,但大多局限于对用户评论进行情感极性分类,而基于不同情感倾向文本的进一步挖掘极少。文献研究显示,已有的研究中,学者仅对基于微博评论[6-7]及知乎回答[10]等非规范化文本进行了基于积极和消极情感文本的语义网络分析,对于汽车网站口碑这类规范化文本并未进行过基于情感倾向的深度挖掘。鉴于此,本研究将多个汽车网站关于新能源汽车的在线评论数据进行聚合,并聚焦文本的不同情感倾向进行深度挖掘,以期发现更多有价值的信息。
1 数据来源与预处理
本研究的数据主要来源于汽车之家、易车网和爱卡汽车网的规范化评论数据。这三大网站在汽车垂直类网站中名列前茅,用户评论认真详细,数据质量较高;且有关新能源汽车的评论数据不仅有满意与不满意评论,还有具体清晰的分类。其中,易车网的点评界面分为空间、外观、内饰、动力、操控、续航和舒适性7个维度,汽车之家的口碑界面分为空间、动力、操控、电耗、舒适性、外观、内饰和性价比8个维度,爱卡汽车网的口碑界面分为空间、外观、内饰、动力、操控、舒适性、充电和性价比8个维度。
本研究采用 Web Scraper 的扩展程序和Python的 Requests 库,通过架设网页 URL,训练数据爬取规则,先后在汽车之家的口碑界面获取24 141条评论数据,在易车网的口碑界面获取12 755条,在爱卡汽车的口碑界面获取54 580条,3个网站总共爬取91 476条评论。爬取时间截止到2020年12月31日。由于爬取后的文本数据数量多且复杂,存在很多没有参考价值或无实际意义的字符数据,因此需要进行文本的预处理,主要包括数据清洗、数据拆分、文本分词、去停用词。
2 新能源汽车用户评论情感分析
文本情感分析也称为情感倾向性分析,是针对带有情感倾向的主观文本进行分析、处理、归纳和推理的过程[13]。一般而言情感倾向分析分为两级,即正面的赞赏和肯定、负面的批评与否定,也有一些学者会加入中性分类[14]。
2.1 情感倾向总体分析
利用百度智能云提供的 API 情感倾向分析功能,对新能源汽车用户评论数据进行情感倾向性判断。结果显示:在所获取的三大网站用户评论中, 87.24%(72 276条)属于正面情感,负面情感占 11.27%(9 336条),还有少数的中性情感约 1.49%(1 232条)。这说明用户对新能源汽车整体上持看好的态度。积极情感的点评体现了用户对新能源汽车的认可之处,是汽车厂商及政府相关部门需要进一步强化的地方,而那些对新能源汽车呈负面情感或者中立态度的点评,则是应着重关注并加以改善的地方。
2.2 基于情感极性分类的用户评论词云图分析
在情感极性分类的基础上,进一步对新能源汽车用户的积极和消极评论词汇进行中文分词,并提取两种不同情绪的高频词汇,分别制作用户积极评论和消极评论的词云图(图1、图2),从而直观地展示出用户积极与消极评论的焦点。从图1可知,用户积极评论新能源汽车的核心特征词为空间、操控、驾驶、方向盘、外观及续航等,可以看出用户在新能源汽车的空间、外观和驾驶感受等方面积极体验较高;从图2可知,用户消极评论新能源汽车的核心特征词为续航、空间、座椅、内饰、方向盘以及电耗等,可以看出用户在新能源汽车的电池续航能力、空间舒适性、内饰做工和硬件设施等方面存在不满。
值得关注的是,特征词“空间”“动力”“续航”“内饰”在图1和图2中都占了一定的频次,说明用户对新能源汽车的续航能力、空间舒适性、动力性能、内饰做工等方面褒贬不一,下文将对此进行语义网络分析及主题建模来具体分析。
2.3 基于情感极性分类的用户评论语义网络分析
语义网络是以句中词的概念作为网络的节点,以沟通结点之间的有向弧来表示概念与概念之间的语义关系,构成一个彼此相连的网络,以理解自然语言句子的语义[15]。采用 ROST CM6 社会网络与语义网络中的 NetDraw 工具,分别绘制积极和消极评论的语义网络图(图3、图4),以进一步展示不同情绪高频词之间的语义关联,实现用户对新能源汽车情感的可视化分析。
图1 用户积极评论词云图
图2 用户消极评论词云图
图3 用户积极评论语义网络图
从图3可以发现,特征词“日常”和“车身”是用户积极评论语义网络图的核心层,连接着“优势”“辨识”“漂亮”“风格”“小巧”等词,体现出新能源汽车能满足用户日常出行需求,外观上更具辨识度。在第2层中,“汽车”“车头”连接了“后备箱”“电动车”“舒适度”“行李箱”“回头率”等特征词,它们又连接着“内饰”“时尚”“颜值”,表明新能源汽车在空间、内饰及外观等方面优势突出。用户积极评论语义网络图的次核心层以“尺寸”为中心,连接着“实用”“足够”“到位”“代步”“节能”等特征词,体现出新能源汽车满足日常出行的同时又节能环保。
图4 用户消极评论语义网络图
从图4可见,特征词“方向盘”是用户消极评论语义网络分析图的核心层,它连接着“角度”“屏幕”“系统”“动力”“模式”“科技”等词,说明方向盘的操控感及科技感仍有进步的空间。在第2层中“汽车”“没法”连接着“舒适性”“舒适度”“大块头”等词,体现了新能源汽车在驾乘舒适性、尺寸较大等方面存在不足;连接“收音机”“后备箱”“仪表盘”等词,说明了新能源汽车在硬件设施方面仍存在劣势。在次核心层中,以特征词“用电”和“织物”为中心,连接着“费电”“代步”“消耗”以及“用料”“廉价”“做工”“颠簸”“难受”等词,说明新能源汽车在电力消耗、内饰做工、驾乘感受等方面存在诸多不足。
2.4 基于情感极性分类的用户评论主题建模分析
为了更好地挖掘新能源汽车产品的优劣特性,在情感极性分类的基础上,采用LDA主题建模分别研究用户正负面评论。LDA是一种文档主题生成的模型,是一个三层贝叶斯概率模型,包含词、主题和文档三层结构,每个文档由数个“主题”组成,每个主题都可以使用数个重要的“用词”来描述,且相同的用词可以同时出现在不同的主题之间[16]。这里,主题个数的确定采用自定义的方法,主要依据三大汽车网站设置的新能源汽车点评维度,将正负面评论数据分别生成7个主题,每个主题抽取5个关键词,详见表1、表2。
根据新能源汽车用户正面的评论数据可以发现:主题1中,“充电”“配置”“电池”反映了用户对新能源汽车电力驱动系统的认可;关键词“高速”“动力”反映了新能源汽车的动力系统。主题2中,“外观”“颜值”主要反映了新能源汽车的外观受到用户喜爱;“空间”“科技”“性能”等则反映了新能源汽车产品所拥有的先天特性令其具备更多设计、创造的发挥空间。主题3中,“续航”“新能源”“出行”反映了新能源汽车的续航能力能够满足用户日常出行的需求,性价比高。“品牌”“企业”则体现出新能源汽车具备了一定的品牌口碑。主题4中,关键词“功能”“模式”“科技”反映了新能源汽车的功能设计及配置科技感较强,比如现在大多数新能源汽车中控屏越来越智能与科技化,利用人工智能加强人车互动,使用户操作更加便捷。主题5中,关键词“驾驶”“车辆”“刹车”反映了新能源汽车的操控性能较好。“体验”和“售后”则体现出新能源汽车提供的驾乘体验及售后服务得到了用户的肯定。主题6中,“空间”“座椅”反映新能源汽车的内部空间受到积极评价,“操控”“配置”“驾驶”体现了新能源汽车的配置较高。主题7中,“终身”“成本”“省钱”反映了新能源汽车用车成本优势突出,“国产”“品牌”则体现了用户对国产品牌新能源汽车呈积极态度,比如“一如既往地支持,使用国产自主品牌汽车”。
根据新能源汽车用户负面评论数据可以发现:主题1中,关键词“高速”“规划”“能耗”反映了新能源汽车在高速出行时的能耗不足问题。“内饰”“车身”反映了新能源汽车在内饰做工、车身装配等方面存在不足。主题2中,关键词“信号”“断网”“连接”反映了新能源汽车在智能网联及配置等方面存在一定不足,连接速度慢或者不灵敏会影响用户的体验。“听歌”“播放”反映出新能源汽车在娱乐功能设计方面还有进步空间。主题3中,“电站”“停车”“时间”“布局”及“位置”反映了新能源汽车存在充电困难的问题,比如充电桩少且难找。在充电桩数量偏少的同时,“有桩没电”“偏僻难找”“多重收费”等问题,加剧了“充电难”。主题4中,关键词“续航”“电池”“电耗”“长途”反映了新能源汽车的续航能力仍有一定质疑。另外,电池的续航能力受外界气温严重制约,尤其是在北方更容易因温度过低而电池迅速衰减。比如“冬季用车确实电量消耗比较大,折扣严重”。主题5中,关键词“网络”“断网”“系统”反映了新能源汽车的网络系统连接及提示问题。“驾驶”“操控”等词体现了新能源汽车的操控性能有待进一步提升。主题6中,关键词“记录仪”“摄像头”“识别”“像素”反映了新能源汽车在硬件设施及功能设计方面仍存在不足。主题7中,关键词“充电”“无线”“速度”反映了新能源汽车在操控性能方面仍有一定缺陷。“价格”“提升”反映出新能源汽车在性价比方面还有进步空间,比如“在同样的价格下我还想要更有质感的车”。
表1 用户正面评论主题分析
表2 用户负面评论主题分析
3 总结与建议
本研究爬取了易车网、汽车之家和爱卡汽车网这三大汽车垂直网站上用户对新能源汽车的评论数据,聚焦情感倾向进行深度挖掘。在情感极性分类的基础上,通过分别制作用户积极评论和消极评论的词云图和语义网络图,直观地描述不同情绪的新能源汽车用户评论关注点及之间的语义联系,并进一步利用LDA主题建模挖掘新能源汽车的属性特征及优劣特性。通过归纳总结上述研究发现,可以为新能源汽车厂商提供针对性的生产及营销策略优化建议,由此提升用户体验、助益新能源汽车产业发展。
3.1 强化优势、改进不足,持续提升用户满意度
一方面,用户对新能源汽车的节能环保、加速动力、外观设计、驾乘感受、空间舒适性等方面的评价较为正面、积极。因此,应充分发挥新能源汽车对环境友好的优势,持续突出新能源汽车的亲环境形象特征,契合民众的环境责任心理;还要进一步强化新能源汽车在上述产品特征方面的优势诉求,凸显新能源汽车的鲜明产品形象。另一方面,用户对新能源汽车的智能网联、内饰做工、充电基础设施等方面抱怨较多。因此,要深入了解用户反馈的痛点问题,积极响应,作出明显改进。在《新能源汽车产业发展规划(2021—2035年)》和《节能与新能源汽车技术路线图2.0》等政策引导下,加大技术创新力度,补足短板,努力打造技术先进、满足用户需求的新一代中国方案智能网联电动汽车。
值得注意的是,用户对新能源汽车的续航能力正负面评价皆有。目前纯电动汽车的续航里程有所增加,能满足日常代步需求,因此可以进一步强化该诉求、促进其推广;但若长途使用,会引发用户的“里程焦虑”,这也是汽车厂商要进一步研发解决的问题,当然,也可以引导消费者合理规划出行,从而减轻不必要的焦虑感。
3.2 有效细分市场,需求牵引、精准定位
消费者对新能源汽车的产品偏好及需求多样,新能源汽车企业应在有效市场细分的基础上,选定目标市场,以其需求牵引,对标用户满意度排名较高的各类车型,扬长避短,研发设计迎合细分市场偏好的产品组合,并针对不同细分市场进行产品和品牌的精准定位,打造市场精品。此外,当前90后、95后逐渐成为购车主力军,新能源汽车企业应抓住这部分群体的购车心理及个性化需求,在新能源汽车功能、外观、内饰、品牌商标设计等方面积极改进与创新,进而更好地契合消费者的需求。
3.3 加强品牌建设,着重提升自主品牌的市场竞争力
当前新能源汽车市场上,特斯拉这一先锋品牌遥遥领跑,大众、宝马等主流传统车企品牌紧随其后,中国市场自主品牌也在崛起,比亚迪王朝系列、长城欧拉猫系列、宏光Mini等销量亮眼,蔚来、理想、小鹏汽车等造车新势力品牌逐渐站稳脚跟。然而,与主流外资品牌、合资品牌相比,中国汽车企业品牌建设相对滞后,自主品牌竞争力还存在较大差距,尤其在中高端新能源汽车市场。可喜的是,从口碑及评分数据可以看到,用户对一些国产新能源汽车品牌比如比亚迪、小鹏、蔚来、理想的认可度较高,不仅综合评分普遍高出特斯拉,而且积极情感占比也较高。可见,自主品牌以优质的产品竞争力获得了一定的市场成功,但是在品牌形象塑造、品牌定位等方面仍存在较多不足。因此,新能源汽车企业应花大力气加强品牌自身建设,制定明确的品牌定位战略,锻造深入人心的自主品牌形象。