APP下载

基于文本挖掘的汽车市场质量评价模型

2023-09-25王敏烨梁宏毅刘万里中国科学技术大学管理学院广汽本田汽车有限公司

安徽科技 2023年8期
关键词:倾向性消极舆情

文/王敏烨 梁宏毅 夏 里 刘万里(.中国科学技术大学管理学院;.广汽本田汽车有限公司)

在当前激烈的汽车市场竞争中,产品质量的稳定性和卓越表现是企业获得市场竞争优势的重要因素之一。汽车产品质量问题不仅会对司乘人员造成人身安全风险,也会对汽车制造企业和整个汽车产业链造成重要影响。产品召回是涉事汽车制造企业消除或者化解质量问题的通用应对策略,但在目前的召回管理过程中,汽车缺陷问题的判别还存在检验过程时间长等问题,这也造成了汽车产品召回过程中企业响应时间长、召回措施不够彻底等现象。

随着社会信息化水平的不断提高,社交媒体平台如微博、短视频平台等快速发展,消费者可以通过多渠道在线发表信息,投诉产品缺陷和企业态度,或表达潜在购买意愿,并进行二次或多次扩散,从而形成召回舆情数据。产品价值最终是由市场来检验的,海量的网络舆情数据作为信息来源之一,可以及时反映市场对汽车召回事件的态度,在一定程度上反映了汽车产品在市场上的生存能力,对企业的市场战略、产品设计和品牌形象等方面具有非常重要的作用。通过分析社交媒体平台、新闻报道等多种数据来源,企业可以了解到消费者对于品牌和产品的关注度、满意度、投诉反馈等信息,及时发现潜在问题和产品质量风险,调整市场策略和产品设计。

为此,本文以互联网数据及科技资源数据挖掘为基础,运用情感倾向性分析技术和狄利克雷分配(LDA)主题模型算法,建立市场质量表现综合评价模型,为汽车行业相关企业提供针对性的产品和市场建议,发挥大数据对企业业务的赋能作用。该方法是基于数据驱动的产品综合评价模型,能够解决产品评价要素单一且难以量化的问题。

一、当前研究进展

1.社交媒体数据

社交媒体的兴起彻底改变了消费者分享观点的方式,每一位消费者都可以通过社交媒体自由便捷地表达自己的感受和体验。因此,消费者发布的社交媒体数据成为全面了解产品的关键信息来源之一。在竞争分析中,社交媒体数据提供了丰富的产品及竞争对手的信息,能够帮助企业做出正确的管理决策。当前,学术界已针对消费者对于各种产品功能的情感倾向性,包括竞争对手生产的类似产品等做了较为深入的研究,特别是利用在线评论,基于情感分析和模糊集理论的方法对各类产品进行排名。除竞争分析外,挖掘客户需求并据此改进产品设计也引起了相关学者的关注。目前已能够通过文本分析等技术,估计某些句子属于特定特征的概率,以挖掘需要改进的工程特征。另外,社交媒体数据在服务质量分析、票房预测、缺陷或事故预测等领域也显现出重大价值。

2.文本挖掘技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,其可以将文本或语音形式的自然人类语言转换为结构化格式,以帮助计算机理解人类语言。

情感倾向性分析是指从文本数据中挖掘用户态度相关信息。国内外学者常用的情感倾向性分析方法有两种,一是机器学习方法,二是基于情感词典的方法。与机器学习方法相比,基于情感词典的方法在处理在线社交媒体数据时更简单快捷。

主题建模技术是指通过无监督学习对语料库的潜在语义结构进行聚类的统计模型,常用的是LDA 方法。LDA 是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构,当涉及语言歧义和噪声数据时,适应能力更强。

二、模型及方法

1.方法框架

为了更好地评估汽车市场质量表现,本文提出了一个由情感倾向性分析和主题建模组成的研究框架。其中,情感倾向性分析是指基于情感值的计算来判断文本数据的情感倾向的过程,本文采用基于词典的情感倾向性分析方法,该方法资源消耗少且时间效率高。在主题建模的过程中,考虑到舆情数据主要源自社交媒体平台,往往具有体量大、内容杂的特点,本文使用LDA 模型挖掘舆情数据中潜在的主题和关键信息。

评价模型主要包括四个步骤:

(1)从抖音、微博、各大新闻网站等来源收集2001年6 月7 日至2022 年12 月26 日期间与某品牌汽车召回相关的文本信息。

(2)对收集的原始信息进行人工去噪、数据清洗、分词。

(3)基于词典的情感计算方法得到文本的情感值。

(4)根据情感值计算结果,将文本数据分为消极数据(情感值小于0)和非消极数据(情感值大于或等于0),通过基于LDA 模型的主题建模,提取舆情数据的主要主题。

2.数据收集及预处理

本文共获得2706 条原始文本数据。按照人工数据清洗标准对数据进行进一步筛选:第一,删除不相关的数据,包括广告、娱乐新闻等一些包含关键词但实际上无关的数据,主要涉及来源于抖音和微博的数据;第二,从数据中删除图像、表情符号和视频链接等非结构化的文本信息;第三,删除数据结尾可能出现的不完整句子,以免后续分析出现歧义和非必要误差;第四,删除无法由代码实现清洗的无意义句子、短语的数据,如社交平台数据常涉及的较明显的乱码和外文等。经过筛选,共获得2035 条去噪声文本数据,其中各个来源的具体数据体量如表1 所示。

表1 原始数据及去噪声数据的数量统计表

最后,需要对去噪声文本数据做进一步处理,包括数据清洗和分词。通过Python 3.9.13 中的Re 模块进行数据清理,从预处理后数据中继续删除无用的信息,包括标点符号、用户名等。获得较为干净的数据之后,由于计算机不能直接识别非结构化数据,因此要对文本数据进行情感倾向性分类只能通过先识别数据中的一个个词语,故需要对文本数据进行分词。

3.情感倾向性分析

基于词典(语义倾向)的情感倾向性分析方法是遍历分词文本,根据构建的情感词典分别与分词文本进行匹配,判断文本数据的情感倾向性。若通过分别统计和比较正面情感词和负面情感词的个数,以判断文本数据的情感极性,则称为情感词典二分类。为了更好地量化情感倾向,本文使用更细化的情感词典法,情感倾向由三类词共同决定,即情感词(表示积极或消极情绪的词,如羡慕、偏爱、不安、差)、程度词(表示加强或削弱态度词强度的词,如轻微、非常、大多数)和否定词(表示扭转态度词情感极性的词,如不、没有、无)。本文采用知网Hownet 情感词典等现有词典,并根据收集的舆情数据添加了汽车召回领域的特有情感词汇,最后获得了包含8087 个积极词汇和12131 个消极词汇的情感词词典,包含211 个词汇的程度词词典和包含69 个词汇的否定词词典。

为了计算每条文本数据的情感值,需要对三类词进行赋值,分别将积极情感词、消极情感词和否定性词汇赋值为1、-1 和-1,如表2 所示。按照知网情感词典,程度词词典将含有的程度词分为insufficiently(欠、不)、ish(稍、一点点)、more(更多、更)、very(很、非常)、over(过多、多分、多)和most(最高)六个情感程度词典,并相应地赋值为0.25、0.5、1.25、1.5、1.75 和2.0。

表2 情感值的计算规则和示例

4.主题建模

LDA 模型的基本思路是:在一篇文档中可能包含多个主题,意味着一个主题会在多个文档中出现,但出现在每篇文档的概率有所差别。而对每个主题来说,会包含多个关键词,同一个关键词也会在多个主题中出现,但出现在每个主题的概率有所差别。因此主题模型认为,主题是以一定的概率选择了文档,二者之间应当对应一个概率分布;同理,关键词也是以一定的概率选择了某个主题,此二者之间也应当对应一个概率分布。

本文LDA 主题建模是通过调用Python 的自然语言处理库Genism 实现的。首先,根据百度停用词表、哈尔滨工业大学停用词表、四川大学机器智能实验室停用词表三种常用的停用词表,对预处理后的舆情数据进行去无意义词的再处理。其中,为了避免有价值的情感信息被删除,根据研究对象对三个停用词表进行结合并修改。其次,根据分词结果构建语料库,形成稀疏向量,其中本文使用了Jieba 分词精确模式,即试图将句子最精确地切开,该方法最适合文本分析。然后,对模型进行训练,在适当的迭代次数下,保证LDA模型收敛而又不过于拟合,最后根据主题一致性的计算确定最优主题数。

三、结果与分析

1.情感倾向结果分析

根据上文构造的情感词典和情感值计算规则,对抖音、微博、新闻的数据分别进行情感倾向性分析,结果统计如表3 所示。

表3 情感倾向性分析结果统计

由表3 可知,有效分析数据中约60%来自微博,新浪微博作为我国的主流社交媒体平台之一,2022 年9 月其月活跃用户达到5.84 亿,平均日活跃用户为2.53 亿。而据抖音发布的数据,截至2022 年9 月其月活跃用户高达7.06 亿(不包含抖音极速版)。仅从月活跃用户数量来看,抖音的热度高于微博,但从研究舆情的角度来说,抖音作为一个以短视频为主的平台,用户群体年龄相对年轻,视频内容多为娱乐趣味性质的,而微博则是以文本内容为主的社交媒体平台,除图片、视频外,还可以发布纯文本内容,更加多样化,用户群体年龄跨度也相对更广。因此,在收集到的舆情数据数量上,两者呈现出较大差异。此外,新闻平台的数据往往具有措辞客观、篇幅较长、风格严肃的特点,根据观察,本文收集到的新闻类正文数据主要集中在媒体对于企业发布召回公告的解说与剖析上,而非客户群体自发性地对汽车质量表现的评价,因此在数据的数量上并不突出。

另外,从舆情数据的情感倾向性来看,抖音、微博、新闻数据皆呈现出消极情感数据多于非消极情感数据的特点。其中,抖音的两类情感倾向数据数量相当,而微博和新闻则是消极情感数据占比较大,远超非消极情感数据。考虑到舆情分析往往是为了更好地改善产品性能,从而提高企业利润,应重点关注消极情感数据,挖掘潜在原因。

此外,本文将各平台的数据按年为单位统计发文量,并计算平均情感值,如图1 所示。抖音和微博的2001 年至2017 年期间的数据缺失,而新闻平台的发文量也较少,年发文量不超过20 条。2018 年至2022年期间,新闻平台在2018 年达到发文量峰值,而抖音和微博的发文量分别呈现出稳定增长和先增后减的趋势。就平均情感值而言,所有舆情数据的平均值皆小于0,即为消极情绪,其中新闻数据的平均情感值波动较大,其绝对值远大于其他两个平台,这是因为新闻数据篇幅长、内容详尽,对于汽车故障的表述更细致,从而涉及了更多的消极情感词。2018 年至2022年期间,三个平台的平均情感值变化趋势大致相似,在2020 年达到局部谷值。

图1 2001—2022 年各平台发文量和平均情感值趋势图

根据图1 中折线变化趋势,本文对几个特别的点进行了数据溯源。在2006 年,新闻平台报告内容主要集中在某企业根据《缺陷汽车产品召回管理规定》分别于2006 年6 月和2006 年10 月向国家质检总局递交召回报告,短短四个月内就对旗下主力车型实施了两次召回,涉及车辆数量较大,引发了各方新闻媒体的广泛关注。2014 年下半年,某车企因供应商导致的辅助安全系统故障召回部分车型,同时因相关缺陷事故陷入舆论风波。

2019 年,部分车型再次因辅助安全系统故障被召回,前半年,该事件在微博引起了热烈讨论,而后半年微博的讨论转为驱动系统两大故障事件。与此同时,新闻平台全年都集中于多起驱动系统故障召回事件,抖音的讨论更集中,主要是围绕某一具体车型的某一驱动系统故障。

2020 年,新闻报道大部分是关于某汽车企业宣布召回发动机燃油供给系统故障车辆,召回数量多,车型涵盖范围广。此次召回事件过程中,除发动机燃油供给系统故障外,抖音部分用户还集中讨论了某车型因汽车行驶系统故障而被内部召回,以及软件问题引发的召回。而微博则对于前述辅助安全系统故障全年讨论热度不减,持续发酵。

2.LDA 主题建模结果分析

本文分别以抖音、微博、新闻的消极情感数据及非消极情感数据为输入,运用LDA 主题模型进行潜在主题的挖掘。以抖音的消极数据为例,其主题数与一致性得分之间的关系如图2 所示。由图2 可见,当主题数为5 时,模型一致性得分最高,主题内各词语的相似性最高。

图2 主题数目与一致性得分之间的关系

从LDA 主题建模的结果词表中可以看出,就消极情感数据而言,微博消极情感数据涉及的主题内容最集中,新闻次之,抖音的消极情感数据主题内容较丰富。微博近年来关于召回事件的讨论主要是围绕辅助安全系统故障展开的,涉及日本、美国、中国等多个国家。而新闻消极情感数据除了辅助安全系统故障之外,还涉及了部分关于驱动系统故障的讨论。抖音平台关于辅助安全系统故障的讨论热度较低,并未在LDA 主题建模结果中体现,用户对于热门车型的各类驱动系统故障包括发动机燃油供给系统故障等进行了热烈讨论。此外,从抖音词表中可以看出,相关车型的销量因“回炉”受到影响。

就非消极情感数据而言,抖音、微博和新闻的关注点也各有侧重。其中,从词表中可以明显观察到抖音的舆情数据提及了较多具体的车型名称,主要是将多个品牌旗下SUV 车型进行对比,或将同一汽车企业旗下的各个车型进行比较。用户往往特别关注其质量、驾驶舒适度、油耗等区别,多以汽车知识分享、选购信息求助为目的。与抖音不同,微博的非消极情感数据多次出现某具体车型,主要为对于企业对该车型召回计划的讨论,表达公众对企业就汽车质量问题提供的解决方案的认可。类似地,新闻非消极情感数据的讨论内容较为集中,多次提到另一具体车型,媒体报道了在召回事件的影响下中国市场销量的变化、企业的应对方案及消费者对此的态度。2018 年,某企业因驱动系统故障问题,一系列热销车型接连被召回,搭载同一驱动系统零部件的新款车型难免让人望而却步,但紧要关头,相关企业推出了另一全新混动车型,搭载全新升级的驱动系统零部件,让消费者减少了对于该品牌汽车驱动系统问题的担忧,因此反响较好。

四、总结与建议

大数据时代,网络舆情信息作为重要的数据来源,其数据量及价值已经在各行各业有所体现,基于互联网大数据的社会新生态系统正在逐步形成。作为研究汽车召回缺陷的辅助信息来源,舆情数据可以客观地反映出汽车市场质量表现及消费者对品牌的态度。本文旨在通过自然语言处理方法,基于用户评价的语料库建立汽车产品综合评价模型。首先,运用情感倾向性分析技术快速准确地识别舆情文本数据中蕴含的用户情绪,按照情感倾向对本文数据进行分类,并从时间维度对发文量、平均情感值进行分析,挖掘用户情绪波动背后的原因。其次,进一步挖掘不同平台来源的舆情数据潜在的主题信息,重点比较各平台用户关注点之间的差异,为企业的产品升级、品牌公关等提供建议。研究的具体总结和建议如下:

(1)本文构建的模型有效识别出了汽车缺陷相关事件中热度较高、波及范围较广的若干事件,情感倾向性分析结果和LDA 主题建模挖掘的信息具有一定程度上的统一性、对应性,无不相关的噪声信息输出,验证了本文数据收集及预处理的有效性,说明了所构建模型的可靠性。

(2)为了针对性地制定应对策略,企业自身首先需要客观评估召回事件对品牌形象、销售业绩等方面的影响;其次要及时关注舆情动态,建立公开透明机制,快速回应用户关切,对虚假、恶意信息进行澄清,并对确实存在的问题给出实际的解决方案,以避免舆情进一步升级。如果召回事件引起了大范围的不良舆情,需要做好危机公关,对不同程度的危机事件做出分级别的危机管理计划,在保证客观真实的前提下,积极回应媒体和用户的质疑,尽可能地减轻事件对品牌的负面影响。最后,作为企业,提高产品质量是防范类似召回事件的最佳方式,汽车企业应该加强对产品质量的管控,建立完善的品质管理体系,加强与供应商的合作与沟通,持续提升产品质量。尤其是要确保在汽车产品升级后不再出现类似问题,同一原因的零部件故障导致多年来多次同样的汽车故障及召回会引发消费者强烈不满情绪,从而导致社交媒体对相关事件的讨论热度不减,消费者对品牌的信任度大打折扣,同时也导致了潜在消费者的流失。

(3)舆情数据具有多源性的特点。通过本文的研究发现,各平台的用户群体、运作机制的不同会导致其舆情动态的差异性。针对不同的平台,企业应采取不同的应对措施。针对新闻媒体平台,可以采用传统的公关和媒体关系管理方式,及时向公众传递企业的动态和信息;针对社交媒体平台,可以加强社交媒体管理,建立专门的社交媒体管理团队,官方账号应快速回应用户的投诉和反馈,及时处理问题,同时结合热点话题推出相关的互动营销活动。进一步细分以短视频为主和以图文为主的两大类国内主流社交媒体平台,以短视频为主要形式的社交媒体平台注重用户对视频内容的短时间浏览和快速判断,其内容通常会受到算法的推荐和分发。因此,汽车企业可以在此类平台上制作一些有趣、生动、易于理解的短视频,直观地展示召回事件的处理进展和解决方案,并通过互动形式吸引用户的关注和参与,增加用户的信任和满意度。此外,企业还可以在此类平台上开展互动营销活动,例如开展汽车知识分享、车型对比等,如本文LDA 主题建模结果所示,现下已有部分账号自发地将多个品牌的相似车型进行比较,企业可以考虑适当的自媒体关系管理方式,增加品牌宣传。相对于以短视频为主要形式的社交媒体平台,以图文为主的社交媒体平台更注重用户的互动和分享,用户更注重内容的深度和质量、品牌的公信力和透明度。因此,企业可以在此类社交媒体平台上发布一些详细的召回事件说明和处理进展,及时回应用户的质疑和问题,加强品牌的公信力和透明度,避免舆情进一步升级。

猜你喜欢

倾向性消极舆情
基于模糊数学法的阿舍勒铜矿深部岩体岩爆倾向性预测
舆情
舆情
舆情
关于医患冲突报道的倾向性分析——以“湘潭产妇死亡案”为例
让自己发光
“没准儿”“不一定”“不见得”和“说不定”的语义倾向性和主观性差异
家庭教育:你种的是积极树还是消极树?
“消极保护”不如“积极改变”
一种面向博客群的主题倾向性分析模型