基于文本挖掘的SUV汽车客户情感分析
2023-05-10原显冬
摘 要:文章首先采用网络爬虫技术爬取客户对SUV汽车的在线评论数据并完成数据清洗工作;其次构建通用情感词典与汽车领域专用情感词与短语;再次分别对SUV汽车各指标的评论数据进行情感分析;最后按照小型、紧凑型、中型、中大型与大型的分类分别对SUV各指标情感分析结果进行统计分析,得出客户对不同类别的SUV汽车各指标情感倾向分布以及情感倾向度均值情况,以期为企业在设计与优化SUV汽车产品时有所帮助。
关键词:情感词典;情感倾向;SUV汽车
中图分类号:F274 文献标识码:A 文章编号:1005-6432(2023)10-0128-05
DOI:10.13939/j.cnki.zgsc.2023.10.128
1 引言
汽车产业作为我国经济发展的重要支柱产业,是“制造强国”与“网络强国”建设的重要支持和融合载体。据2022年3月汽车工业经济运行情况数据显示:1—3月,汽车产销分别完成648.4万辆和650.9万辆,同比分别增长2%和0.2%[1]。而面对激烈的市场竞争,如何动态把握客户情感倾向以提高客户需求满意度,是汽车企业打造自身核心竞争力的重要方式之一。在传统意义上,往往通过电话回访、问卷调研、销售客服反馈等途径获取客户需求,所得信息往往难以具有高效价值。如今,微博、论坛、公众号等社交媒介不断升级,使得互联网成为人们获取信息、分享经验的重要平台[2]。在网络评论爆炸式增长的过程中,网络爬虫技术实现了快速有效挖掘大量网络评论信息的功能,而情感分析技术在汽车领域的应用可快速分析客户对SUV汽车产品的主要情感倾向及其强度,为企业精准把握客户情感、及时调整产品方案提供了支持。
2 数据爬取与预处理
2.1 数据爬取
网络爬虫技术是按照一定规则自动地抓取万维网中有关信息的一种程序或者脚本[3]。它是通過模拟浏览器,并向服务器发出获取页面数据请求,收回服务器所返回的数据,经解析后获取网页中所需的信息。
2.2 数据预处理
采用网络爬虫技术爬取SUV汽车在线评论原始数据时,由于数量庞大且质量参差不齐,使得所爬数据会出现特征项缺失、错位、重复等异常情况。文章针对特征项数据缺失情况采用Excel表格直接删除;针对特征项错位情况采用Excel表格“条件格式”中“突出显示单元格规则”的“文本包含”命令标注后依次手动删除;针对内容重复情况采用Excel表格的“删除重复项”命令自动删除和“设置高度重复项”命令标记后手动删除。
通过对原始数据预处理后,最终保留23987条客户对SUV汽车的在线评论数据,其中包括5634条小型SUV评论、12544条紧凑型SUV评论、5363条中型SUV评论、334条中大型SUV评论和112条大型SUV评论数据。预处理后的数据示例如表1所示。
3 文本情感分析
文本情感分析又称文本意见挖掘,是从客户意见中提取情感倾向信息的技术[4]。基于情感词典的方法指利用情感词典获取文本中情感词的情感值[5],再通过加权计算确定文本的整体情感倾向[6]。在汽车领域,有学者通过建立线性回归方程计算汽车内饰、质量等对汽车销量的影响[7];也有学者运用回归模型对汽车口碑评论和销量数据研究用以推断在线口碑的重要性[8];还有学者运用概率统计、数据挖掘关键词方法探寻不同关键词的关系[9]。文章采用基于情感词典的方法对SUV汽车在线评论数据进行情感分析,并对分析结果进行统计分析。情感分析的主要步骤有:①对句子进行中文分词;②构建通用情感词典,包括通用情感词、程度副词、否定词的构建;③构建汽车领域专用情感词与短语;④评论数据进行情感倾向与情感倾向度分析;⑤对情感分析结果进行汇总。
3.1 数据中文分词
中文分词作为基于情感词典进行情感分析的基础环节,分词的效率和准确性会对分析结果产生较大影响。文章采用目前较为流行且效果较好的隐马尔可夫模型实现分词工作,简称HMM模型。HMM模型主要通过对文本中字在字串中的序列进行标注来实现句子分词,即字在构词中均占据特定位置,用BMES四种标签表示,其中B代表词首,M代表词中,E代表词尾,S代表单字成词。采用HMM模型中文分词效果示例见表2。
3.2 通用情感词典构建
情感词典是包含数字、文本和符号的集合,是情感分析系统的基础知识库。文章在整理前人研究的基础上,通过合并、去重、修正后,形成文章所需的通用情感词典。
3.2.1 通用情感词构建
在构建通用情感词时,考虑到受主观因素的影响,同一情感词可能在不同情感词典中具有不同情感极性。文章采用Polarity投票方式确定通用情感词最终情感极性。当出现极性次数相同时,根据权威性,设定知网(HowNet)情感词典>台湾大学(NTUSD)简体中文情感极性词典>清华大学中文褒贬义词典>大连理工大学情感词典>数据管家自带词典的方式确定最终情感词极性。当出现情感词仅存于一部词典且同时具有负向与正向极性时,需结合汽车领域知识,采用人工筛选确定最终情感词极性。所构建的通用情感词典示例如表3所示。
3.2.2 程度副词构建
程度副词作为体现汉语程度量的主要语法手段,其在文本中出现和使用的频率较高。王力先生在《中国现代语法》中指出可根据“有无比较对象”原则将程度副词分为相对程度副词和绝对程度副词两类。相对程度副词是需要通过比较才体现出程度差别的词,可分为四小类:“最”类,表示程度非常高;“更”类,表示程度有所增加或变化;“比较”类,表示程度相比较深;“稍”类,表示程度轻微或比较低。绝对程度副词是能够独立表示程度的词,也可分为四小类:“极”类,表示程度非常高;“太”类,表示程度较高;“很”类,表示程度高于常规水平;“有点”类,表示程度上较低或轻微。文章在总结前人研究成果的基础上,根据量级差异将程度副词整理为四个类别,即“最”和“极”类、“更”和“太”类、“比较”和“很”类、“稍”和“有点”类,示例如表4所示。
3.2.3 否定词构建
在目前的语言系统中否定词数量并不多,但却构成了与所有肯定成分相对立的另一面。学者杨伯峻等在《古代汉语语法及其发展》中列出二十几个单语素否定词[9];学者张谊生在《现代汉语副词研究》中列出了28个否定副词[10];学者李泉在《汉语语法考察与分析》中列出16个否定副词[11];学者张斌在《现代汉语虚词词典》中收录17个否定词[12]。文章在整理前人研究的基础上,得出用于文章的否定字词(包含单语素和多语素否定词),否定词词典示例如表5所示。
3.3 汽车领域专用情感词与情感短语构建
在汽车领域中,有些正向情感词可能会导致负向情感倾向,比如评论语句“这车的方向盘很輕,油耗偏高,噪声较大”中词语“很轻、偏高、较大”在通用情感词典中均表示正向情感,但分别与“方向盘、油耗、噪声”中性词语结合后均带有负向情感。因此,在使用情感词典对SUV汽车在线评论进行情感分析前,需建立汽车领域专用情感词与短语。文章通过收集多位研究者的研究以及查阅部分评论内容,整理出文章使用的汽车领域专用情感词与短语,示例如表6所示。
3.4 情感倾向的分析
情感倾向是主体对客体的一种客观喜恶评价,其主要由情感倾向方向和情感倾向度来衡量。采用基于情感词典方法对SUV汽车产品在线评论数据情感倾向分析时,首先需对情感词典中的情感词赋予一定数值,其中正向为1,负向为-1,否定为-1,程度副词根据不同量级分别赋值(其中“最”和“极”类为3,“更”和“太”类为2.5,“比较”和“很”类为2,“稍”和“有点”类为1.5);然后对每个指标的评论进行情感分析,得出所有评论情感值。
3.5 情感分析结果汇总
对每个指标所求情感值进行汇总,得到每条评论以及所对应指标的情感值得分汇总表,汇总示例如表7所示。
4 情感倾向结果分析
4.1 小型SUV情感倾向分布与倾向度均值分析
小型SUV总评论数5634条,对情感值得分结果统计后得到各指标情感倾向分布与情感倾向度均值柱状图,如图1和图2所示。
由图1可知,客户对小型SUV的正向评价中外观占比最高,超过90%;油耗占比最低,未能超过70%。负向评价中外观占比最低,未超过5%;动力与舒适性占比较高,均超过20%。由图2可知,客户对小型SUV的外观情感均值最大,接近5;对油耗的情感均值较小,不到2;对内饰、配置、操控情感均值相差不大,均在3左右。
4.2 紧凑型SUV情感倾向分布与倾向度均值分析
紧凑型SUV总评论数12544条,对情感值得分结果统计后得到各指标情感倾向分布与情感倾向度均值柱状图,如图3和图4所示。
由图3可知,客户对紧凑型SUV的正向评价中外观占比最高,超过90%;空间占比第二,超过85%;油耗占比最低,未能超过70%。负向评价中外观占比最低,未超过5%;内饰、动力、油耗与舒适性占比均在15%左右。由图4可知,客户对小型SUV的外观情感均值最大,接近5;空间情感均值排第二,略超4;油耗情感均值最小,未达到2;内饰、配置、动力、操控、舒适性情感均值相差不大,均在3左右。
4.3 中型SUV情感倾向分布与倾向度均值分析
中型SUV总评论数5363条,对情感值得分结果统计后得到各指标情感倾向分布与情感倾向度均值柱状图,如图5和图6所示。
由图5可知,客户对中型SUV的正向评价中外观占比最高,略超90%;内饰、空间、操控、舒适性占比相差不大,均在85%左右;配置、动力、油耗均未超过80%,且油耗占比最低。由图6可知,客户对中型SUV的外观情感均值最大,在5.5左右;对内饰、空间、舒适性的情感均值均超过了4;油耗的情感均值最低,未达到2。
4.4 中大型SUV情感倾向分布与倾向度均值分析
中大型SUV总评论数334条,对情感值得分结果统计后得到各指标情感倾向分布与情感倾向度均值柱状图,如图7和图8所示。
由图7可知,客户对中大型SUV的正向评价中外观、内饰、空间、操控占比相差不大,均超过85%;配置、动力、舒适性的占比均超过80%;油耗占比最低,接近75%。由图8可知,客户对中大型SUV的外观情感均值最大,超过5;对内饰、空间、操控、舒适性的情感均值相差不大,均在4左右;对油耗的情感均值最低,未达到2。
4.5 大型SUV情感倾向分布与倾向度均值分析
大型SUV总评论数112条,对情感值得分结果统计后得到各指标情感倾向分布与情感倾向度均值柱状图,如图9和图10所示。
由图9可知,客户对大型SUV的正向评价中外观、空间、操控、舒适性占比相差不大,均超过90%;内饰和动力的占比均在85%左右;油耗与配置占比相当,均在75%~80%。由图10可知,客户对大型SUV的外观情感均值最大,略超5;对内饰、空间、操控、舒适性的情感均值相差不大,均在4左右;对配置的情感均值略低于3;对油耗的情感均值最低,未超过2。
5 结论
文章首先采用网络爬虫技术爬取客户对SUV汽车在线评论数据,其次通过情感分析得出SUV汽车外观、内饰、空间、配置、动力、操控、油耗、舒适性指标客户在线评论所具有的情感值得分,再次按照小型、紧凑型、中型、中大型与大型的分类分别对SUV各指标情感值得分结果进行统计分析,最后得出客户对SUV各指标情感倾向分布以及情感倾向度均值情况。统计结果显示,无论是何种车型的SUV,客户对SUV的正向评论占比远远高于负向以及中性评论占比,且正向评论中外观占比均占据首位,油耗占比均位于末尾;情感均值得分中外观均值得分占据首位,油耗均值得分位于末尾。由此可知,客户对SUV外观最为满意,而对油耗最为不满意,汽车企业在SUV汽车产品设计与改进时可加大对降低油耗的投资力度,提高客户情感的满意度。
参考文献:
[1]2022年3月汽车工业经济运行情况[J].现代制造技术与装备,2022,58(4):2.
[2]新一代人工智能发展规划[J].科技导报,2018,36(17):113.
[3]罗春.基于网络爬虫技术的大数据采集系统设计[J].现代电子技术,2021,44(16):115-119.
[4]陈龙,管子玉,何金红,等.情感分类研究进展[J].计算机研究与发展,2017,54(6):1150-1170.
[5]CHEN L C,LEE C M,CHEN M Y.Exploration of social media for sentiment analysis using deep learning[J].Soft computing,2020,24(11): 8187-8197.
[6]PAN D H,YUAN J L,LI L,et al.Deep neural network-based classification model for sentiment analysis[C].In: 6th International Conference on Behavioral,Economic and Socio-Cultural Computing,Beijing,China.New York,USA: IEEE,2019.
[7]程小叶.汽车在线口碑对消费者购买行为影响的实证研究[D].哈尔滨:哈尔滨工业大学,2012.
[8]张鲁,赵帅.汽车在线口碑对消费者购买行为的影响研究[J].汽车工业研究,2016(12):28-35.
[9]賀畅,赵威,陈陌.基于网络舆情分析的汽车市场及消费研究[J].汽车工业研究,2016(4):4-9.
[10]杨伯峻,何乐士.古汉语语法及其发展[M].北京:语文出版社,1989.
[11]张谊生.现代汉语副词研究[M].上海:学林出版社,2000.
[12]李泉.现代汉语副词研究[M].北京:北京语言大学出版社,2001.
[13]张斌.现代汉语虚词词典[M].北京:商务印书馆,2003.
[作者简介]原显冬(1990—),汉族,内蒙古呼伦贝尔人,研究方向:企业管理理论和方法。