基于LSTM-LDA算法和IPA分析的在线品牌社群用户关注热点研究*
2021-10-08孙玲玲胡彦蓉刘洪久
孙玲玲 胡彦蓉 刘洪久
(1.浙江农林大学 信息工程学院 杭州 311300;2.浙江省林业智能监测与信息技术研究重点实验室 杭州 311300)
0 引 言
《2017年中国新媒体行业全景报告》统计显示,中国在线社群数量超过300万个,在线社群用户超过2.7亿人,在线社群市场经济规模超过3 000亿元[1]。在线社群数量、用户及市场经济规模持续增长下,社群经济与之兴起,在线社群成为用户社交活动发展新趋势。据《2020社交零售白皮书》统计,随着“全民社交”,中国社交零售渗透率达到71%,用户参与相关社群的比例高达77%,传播态势由集中化向去中心化转变。如何在传播过程中,着重于创造用户关注热点内容,实时检测用户关注主题发展趋势,在开拓下沉市场同时开发以用户为中心的私域流量,提高品牌竞争力,增强用户黏性是企业亟待解决问题。
作为用户分享产品信息、购买体验、表达产品满意度的重要场所。在线品牌社群中包含了大量对企业的市场营销[2]、推广新产品[3]、培养用户忠诚度[4]、售后服务[5]、提升品牌知名度[6]、产品优化等有价值的信息。企业不仅可以通过在线品牌社群实时获取用户需求信息,并进行产品开发[7];获取用户消费体验评价,提供优质产品服务[8];与用户沟通交流,建立企业与用户长期共生关系[9]。潜在用户也可从相关信息中了解产品使用者的总体评价状况,为其购买决策提供有利支持。在线社群成为企业建立“用户—品牌”联系的重要支点[10]。因此,挖掘在线社群中的隐含信息,及时了解用户关注热点的发展态势具有重要现实意义。
针对在线社群用户互动行为的相关研究。景奉杰等[11]通过问卷调查法将用户情绪作为中介效应,研究结果表明用户之间的互动对品牌满意度有正向影响。Bruhn等[12]得出的结论是,在线社群用户的互动交流有利品牌忠诚度的提高,互动质量对品牌在线社群的符号性、体验性、功能性效益有积极影响。Wang等[13]对企业在Facebook上的信息进行了分析,发现使用社交媒体有助于企业实现客户管理,增强市场能力。申光龙等[14]通过结构方程模型,证实了社群用户的体验价值对用户参与价值的正面影响。荆磊等[15]通过调查问卷分析了在线品牌社群优化,认为文化认同、社群维护、体验交流等行为对购买意愿有显著的正向影响。黄郑超等[16]通过对移动社群信息的分析,传播中的负面口碑对品牌用户忠诚度产生差异化影响。刘宇涵等[17]分析了消费者体验、优化共创价值与网络舆情的关系,提出根据社群用户间的不同需求点,开展在线社群活动以满足用户多需求。Ghose等[18]指出,网络负面信息的集合降低了用户购买欲望,影响用户对品牌的情感信任度。雷宇[19]提出将具有相同消费偏好、消费观点的用户聚集在一起,企业可以提取这一群体的消费潜力。高海霞等[20]通过运用SOR模型对社交购物的用户信息进行特征提取,发现购物分析信息显著影响用户的隐性需求。
从国内外学者的研究现状可以看出,网络社群信息挖掘研究已成为学术界关注热点,但是目前研究还存在以下问题:a.现有在线社群研究主要以传统统计学分析方法为主。在数据来源上,以抽样调查方式获取数据, 数据是实际调查或观察中的一些个体, 这使得样本分析的效果存在明显局限性;在分析方法上,以“假设—验证”为分析思路,利用数据信息建立的理论模型和主观判断来验证这一假设,人的主观判断会对调查过程和结果产生影响,结论是单一性、片面性的[21]。b.现有研究分析主要集中在模式分析和创新上[22],基于用户角度的网络在线社群文献相对较少,其中对汽车用户需求研究更少。c.现有研究在主题挖掘上较少考虑时序参数信息,缺乏时间维度上的演化性。需要特别指明的是,社群化为企业带来了许多裨益,但是少有研究着眼于在线社群用户评论的文本挖掘的研究,缺乏对个案的分析和建议。
为此,本文提出一种基于LSTM-LDA算法和IPA分析的在线品牌社群关注热点研究方法。采用LSTM-LDA算法,获取在线社群用户关注热点和满意度随时间的变化趋势,并运用IPA方法,构建了在线品牌社群用户的产品使用体验要素结构,分析用户关注热点主题的发展趋势。该方法的主要特点在于:a.以大数据技术对在线品牌社群进行研究。以“发现—总结”为分析思路,利用大数据驱动,通过对海量的数据进行快速的分析和价值挖掘,整合分析多维度、多角度的数据,突破原有的数据分析范式,从数据中发现规律,实现对数据内在联系和价值的最大可能挖掘和分析。b.首先基于时序窗口利用LDA进行主题建模,结合时间离散分析方法,对用户评论文本主题进行动态追踪,并通过计算困惑度来确定最佳主题数,保证文档聚类效果,有效识别在线社群隐含主题,划分用户主题偏好,识别主题特征。困惑度是衡量LDA模型准确性的有效方法[23]。同时,娄岩等[24]证明了通过LDA抽取文本主题以获取用户的关注热点和态度的可行性。c.引入边缘评论概念,剔除边缘评论,避免边缘评论对用户关注热点主题识别造成的干扰。d.利用LSTM网络提取用户评论文本情感,完整获取评论文本的非结构化上下文信息,避免过多依赖情感词典的构建,准确挖掘用户的情感态度。e.将文本挖掘法与IPA模型结合,从用户需求供给侧出发,构建品牌关注要素结构,并对其特征进行深入分析,以新的研究视角丰富在线品牌社群用户需求挖掘的研究内容。
1 基于LSTM-LDA和IPA的在线品牌社群用户关注热点模型构建
1.1问题描述及解决框架随着Web2.0的发展,用户日常使用的社群、微信小程序/公众号、平台/社交电商、微博等,越来越成为用户喜爱的“种草”工具。品牌营销已从单向、单一的传播模式转向强社交、多触点的传播模式。对于企业而言,如何有效利用社群渠道强化品牌营销影响力,深入多场景和用户建立触点,及时识别销售机遇,激发用户兴趣、带动用户决策、持续受到用户喜爱,是企业亟待解决的问题。本文从用户需求视角,设计出基于LSTM-LDA算法和IPA分析的在线品牌社群用户关注热点分析方法,有效挖掘用户评论中的有效信息,加强与用户的信息交流,梳理内部机制快速迭代新品,形成基于用户评论数据的建议、推断和决策。本文构建的在线品牌社群用户关注热点分析框架如图1所示。
图1 用户关注热点分析框架
1.2 LDA主题模型
1.2.1 LDA主题提取 使用LDA模型从评论文本中提取主题。是由Blei等[25]在2003年提出的概率主题模型。作为三层贝叶斯概率模型,具有 “词、主题、文档”三层结构。LDA主题模型认为,一个文档有几个主题,一个主题由几个词来体现。利用LDA获取文本主题信息的分布,文档是具有一定概率的潜在主题的随机组合;每个主题是词汇一定概率的组合,如图2所示。
图2 LDA模型的矩阵表示
其中,D表示“文档-词汇”矩阵;φ表示“主题-单词”矩阵;θ表示为“文档-主题”矩阵。使用LDA从频率文本中提取主题的基本计算过程:使用公式(1),从矩阵D中,通过无监督学习得到矩阵φ和θ。
(1)
其中,α为文档参数;β为词汇参数;θ为从β中采样的“文档-主题”矩阵;φ为从β中采样的“主题-词汇”矩阵;t为θ中采样的主题;N为文档集合中的单词总数。
对于主题模型,本文利用困惑度来确定最优主题数K,以保证主题提取效能。困惑度是评价语言模型性能的常用指标。一般来说,困惑度越低,说明聚类效果越好,主题拟合性越高。困惑度计算公式如式(2)所示。
(2)
其中,D为所需测试文档集的数量,wd为d的词汇序列,Nd为d的词量。
1.2.2 热点主题特征词提取 根据式(1),得到“文档-主题”矩阵φ。如式(3)所示,矩阵中共有m个主题和n个词汇,每一列为各词汇在m各主题中的分布概率,每一行为各主题在n个词汇的分布概率。
(3)
根据公式(1),得到“主题-词汇”矩阵θ。如公式(4)所示,矩阵中共有s个文档和m个主题,每一列为各主题在s个文档中的分布概率,每一行为各文档在m个主题中的分布概率。
(4)
(5)
为更好地揭示主题间的结构信息,本文引入边缘评论概念。边缘评论指的是,如果某一评论与所有文档-主题概率都很低,则认为该评论主题不明确,对其进行剔除处理,避免边缘评论对主题变化趋势产生不利影响。因此,本文认为,当文档-主题概率值小于α时,该评论属于边缘评论。
1.2.3 热点主题关注度计算 根据式(1),可以计算得出文档集合中每个文档对应各个主题的分布概率,通常以最大分布概率对应的主题作为该文档所属的主题。但是,对于这些主题,哪些是常见主题,哪些是热门主题,需要区分开来。由此,依据文档主题支持度的思想,认为在某段时间内该主题是热点主题,则在线品牌社群评论文本集合中属于该主题的评论文档占据一定比例。根据蒋翠清等[26](主题演化)提出的平均热度方法,将每个主题演化应用到结果分析中,该方法利用LDA模型提取文档集的潜在主题,并以评论时间信息检查不同离散时间段的主体分布情况,从而对主题进行归一化平滑处理,统计不同时间段用户讨论主题的关注度趋势,最终形成评论数据集合的整体主题演变趋势。各时间段内主题关注度按式(6)计算。
(6)
1.3 LSTM模型
1.3.1 LSTM网络结构 长短期记忆网络(Long Short Term Memory Neural Network, LSTM)是一种用于处理时间序列数据的专用网络[27],传统RNN神经网络的神经元通过输入函数计算输出单元,而LSTM神经网络是将神经元转为记忆单元,每个记忆单元由输入门、遗忘门和输出门三部分组成,单元图如图3所示。
图3 LSTM网络结构
其中,c为长期状态,用来储存长期记忆信息,保存序列的长期状态,并传送到下一层。从左往右第一个框为遗忘门,用于c的更新,丢弃过时信息,它接收上一时刻ht-1和当前输入的xt经过wf得到另一个向量,由此才经过σ。遗忘门的增加解决了RNN梯度消失和爆炸的问题。
xt数据到达网络后,同上时刻的输出ht-1作为输入,更新Ct-1,到新Ct,计算公式如公式(7)所示。
(7)
在进行sigmod计算后,和更新后的Ct进行计算,得到该时刻下的ht,ht计算公式如下式(8)所示。
(8)
1.3.2 热点主题满意度计算 根据所提取主题的基础上进行文本分类构建。由于论坛帖子回复大多是短文本,每个用户语言习惯不同,在进行分类前需如1.1步骤进行文本预处理、词向量训练。LSTM后,使用Dropout来防止模型过拟合并增强模型的适用性。由此对论坛帖子文本进行情感分析。将论坛帖子文本分为正、负两种情感集合。根据9:1比例,将数据集分为训练集、测试集。大量实验证明,构建LSTM网络分类器进行文本分类所得到的结果远远高于朴素贝叶斯、逻辑回归、SVM等机器学习算法[28-30]。最后根据分类结果计算主题满意度,计算公式如式(9)所示。
(9)
其中,νk,t为t时间下主题k的满意度,ht为t时间下k主题的好评文档数量,Mk,t为时间t下的k主题评论个数。
1.4 IPA分析IPA(Importance Performance Analysis; IPA)分析法。最早由Martilla和James[31]于1997提出。其基本思想是对影响用户满意度的各种因素的重要性和用户实际使用感知进行评估和分析,找出企业优、劣势。常采样“重要性”:I、“绩效/满意度”:P建立二维坐标系。通过I、P各自均值分为四象限,分别为第一象限:优势区;第二象限:维持区;第三象限:改进区;第四象限:弱势区,如图4 所示。
图4 IPA四象限图
(10)
(11)
2 实证研究
2.1数据源说明本文以爱卡汽车论坛帖子作为数据来源。爱卡汽车社区是全球最大的汽车主题社区,也是国内第一家社会化的汽车网络互动媒体。它拥有着广泛的客户和更全面的数据。其次,本文将大众作为研究品牌,选取大众旗下高尔夫、途安、迈腾、途观L、帕萨特、速腾,6个车型作为研究对象,主要原因为:该品牌为我国认知度较高汽车品牌,且在选取研究车型时包含轿车、SUV,符合我国汽车购买习惯,更具代表性。
通过使用“爬虫”软件在爱卡汽车论坛上抓取信息抓取。收集的内容包括标题、发帖人、发帖时间、回复次数、浏览次数、最新回复者、最新回复时间、帖子类型和回复文本,共形成168 810个初始实验数据集。对初始数据集进行合并、无关数据和重复数据删除处理,形成研究语料库,最终有效评论数据共计134 110条。丢弃重复、异常条目数据。将数据格式转变为计算机程序可识别形式。依据关键词频率,对同时出现多个汽车品牌的关键词帖子,将其规划到某一汽车品牌。为保证研究成果的正确性和科学性,将收集到的数据整理如下:
①初步处理数据。首先,整理分析帖子信息,找出与该汽车车型不相关的帖子,删除无关数据, 减少无关这些评论数据对最后结果的影响。②文本去重。同一个人可能会出现重复评论,有价值的即为第一条评论,将评论中重复部分除去。③机械压缩去词。收集的汽车评论信息中夹杂着大量无意义的内容,文本去重之后,仍有许多信息需要处理。如:“哈哈哈”以及“非常好非常好”。④建立归并词表。即统一汽车的外观、配置、性能等定义:如将“前脸”“正脸”等统一替换为“车头”,将“后尾”“尾部”转换为“车尾”等。⑤建立自定义词表。建立与汽车相关联的词汇,精确分词,使本文研究更加具有真实性。⑥去停用词。⑦分词。
2.2基于LDA的用户关注热点关注度分析
2.2.1 主题抽取和特征词选取 按照主题关注度算法步骤对汽车评论文档数据进行预处理,对评论文本使用LDA主题模型建模,挖掘主题词及词频。根据经验值,模型的超参数取α=50/K,β=0.01,各主题关键词数为20。根据式(3)计算不同主题数目下困惑度,结果如图5所示,可以看出,K取8时,LDA主题模型困惑度产生局部最小值,之后Perplexity逐渐增加。同时,调用PyLDAvis包对各主题间距离进行可视化呈现,由图6所示,当K=8时,主题区分度明显。因此,确定LDA最佳主题数K为8。
图5 主题困惑度变化趋势
图6 主题距离图
本文设置阈值α=0.2,去除3 697条边缘评论,剩余130 413条评论。在此基础上,针对在线品牌社群用户关注热点信息进行深层次挖掘与分析。
利用训练好的LDA主题模型,对在线品牌社群评论文本进行主题抽取,得到矩阵:“文档-主题”“主题-词汇”,根据式(1)对“主题-词汇”计算出每个主题的特征词,分别如表1和表2所示。
表1 文档主题矩阵的部分示例
表2 主题词汇矩阵的部分示例
从实验结果看,用户对汽车品牌的关注主题呈现出范围广、多样性的特点。不仅涵盖了汽车价格、汽车制动、汽车保养等领域,还包括对汽车行业前景、用户对汽车产品接受程度等话题的讨论。以topic0为例,相关评论主要与汽车外形、颜色、车型设计、空间大小、配置问题密切相关,因此将主题描述为汽车总体结构问题。基于此方法分别对topic1- topic7的主题进行描述为:汽车制动、汽车配置定制、汽车保养、汽车轮胎、汽车相关配件及其价格、汽车车友交流、汽车行车。
2.2.2 热点主题关注度计算 对于主题抽取,根据式(5)进行主题关注度计算,分析各主题关注度随时间的变化,得到汽车各主题关注度随时间演变情况如图7所示。在2017年12月至2018年4月期间,用户对各主题的关注度有如下趋势:相关讨论以topic0为主,在此期间topic0主题关注度一直高于其余7个主题。相关讨论以topic0、topic1为主,这些为用户的主要关注热点;topic2占比处于第3,属于用户主要关注点,但其波动呈现先增加后下降趋势,说明用户对该主题有所关注,但关注度呈现下降趋势;topic3-topic7的关注相对稳定,波动幅度不大。用户在不同时间对不同主题的关注热度不同,可能与相关政策或汽车推出有关。如在2017年,大众集团在“2025年变革”会议中大众产品攻势正式启动,将陆续推出多款车型,大众在华发起最大规模的产品攻势,旨在成为中国市场领先SUV品牌。此后,用户对与汽车车型相关主题的关注以及讨论迅速增加,且明显高于其余主题,并在2018年1月达到最高值,且该主题在用户讨论中占据较大比重,表明汽车总体架构为用户的主要关注热点。企业可围绕用户核心需求,实时获取用户对产品的需求和偏好,快速迭代,不断更新提升产品,同用户建立长远信赖关系,驱动社交裂变,增强品牌在线社群的影响力。
图7 汽车评论主题关注度时间演化
2.3基于LSTM的用户关注热点满意度分析在模型数据训练方面,根据9:1尺度将评论文本集分为训练集、测试集。为了达到理想的情感分类效果,进行了LSTM模型参数的调整实验。Droput设置为0.2,共执行5个训练周期。模型的准确率在训练集上达93.4%,在测试集上超过90%。 最后由评论文本得到的分类结果为:正面评论:91 588条;负面评论:38 825条,见表3。
表3 热点主题的情感分布情况
依据式(8)进行主题满意度计算,具体结果如图8所示。可以发现用户对汽车评论满意度普遍以积极情感为主,对各主题的满意度存在差异性。例如,用户对topic0、topic1的积极情感在2017年1月趋向于消极情感,在2017年12月达到最大值,并逐渐趋向于平稳趋势。可以看出用户对汽车车型和汽车制动的态度随产品的持续出新,用户消极情感有所上升,可能是发现某些汽车设计对用户存在不便之处。用户对topic6和topic7的积极情绪逐渐增加,并在2018年1月达到最大值,然后逐渐趋于稳定,负面情绪增加,但主要以积极情绪为主。说明随着一系列政策的出台,更多用户对汽车制动表现看好,少部分用户持消极观点。用户对余下主题的积极情感出现持续上升再有所下降趋势,用户对主题情感趋向于积极态度,消极情感均低于积极情感。
图8 汽车评论主题满意度时间演化
2.4用户关注热点IPA分析在品牌形象感知各要素的关注度与满意度的基础上,用IPA方法计算该汽车产品感知的表现性数值和重要性数值,结果如图9所示。进入第一象限的关注要素有:汽车制动、汽车配置要素,即用户对这些主题要素关注度、满意度高,说明大众汽车的汽车制动、汽车配置性能良好,用户享受了优质产品服务及其情感体验。
图9 用户关注热点IPA分析结果
落在第二象限的关注要素为:汽车轮胎、汽车行车要素,虽然用户对这些要素关注度较低,但用户对其评价价值较高,说明虽然用户对大众汽车的汽车轮胎、汽车行车的感知相对较低但较为满意,在产品使用过程中获得良好使用体验。
进入第三象限的要素有3个,分别为:汽车保养、汽车配件及其价格、汽车车友交流,用户对这些要素不仅感知重要性低,而且对其满意度也较为低下,是大众汽车未来产品研发方向和线上线下交流活动有待优化的方面。汽车保养要素不足主要表现在汽车保养费用较高;保养地点较少,不方便;此外,在市场上有着 “开不坏的丰田,修不好的大众”的俗语。后期问题出现时,进行保养修护比较困难。汽车车友交流的不足在于车友交流互动不够实时,有滞后性;活动较少。
在第四象限的要素为:汽车总体架构,说明用户要素是影响其使用感价值的重要因素,大众企业需采取相应处理措施进行有效优化提升以提高优化满意度水平。从总体来看,大众汽车优化使用体验满意度平均值为0.29,满意度为负值时,情感趋向于消极情绪,高于0时为积极情绪,除topic0以外其余情感均趋向于正向情感,说明大众作为日系车的一大巨头,用户整体使用体验感质量相对较高。
3 结 论
本研究基于“爱卡汽车论坛”相关数据,提出了基于LSTM-LDA算法和IPA分析方法,探索在线品牌社群用户在不同时间片内的参与交流评论的情况,勾勒热点主题的关注度、满意度的时序发展趋势,并通过构建IPA分析模型,明确当前热点主题发展态势。经过实证研究得出如下结论:
a.从主题讨论信息来看,在线品牌社群用户通过论坛关注汽车信息以及交流使用心得,用户关注主题具有范围广、类型多的特点。不仅涵盖了汽车总体结构、汽车制动、汽车配置定制、汽车保养、汽车轮胎等多种企业品牌产品特性,还包括了售后服务等问题的探讨。
b.从主题时序发展态势来看,主题关注度的演变趋势反应了用户对汽车品牌的关注情况,品牌用户对各主题关注度变化趋势呈现较为平稳状态,用户在不同阶段所关注的主题侧重点具有一定差异性。主题满意度的演变趋势反应了用户对汽车品牌的情感态度,用户对品牌总体满意度趋向于正向,用户主体满意度较高。以topic0为例,其情感趋向于负向,这表明汽车产品周边服务未能达到用户期望值。
c.根据IPA四象限分析,挖掘品牌形象感知各要素。定位出处于改进区的要素为:汽车保养、汽车配件及其价格、汽车车友交流;处于弱势区的要素为:汽车总体架构。用户作为产品的最终使用者,其使用反馈有利于汽车制造商、经营商了解用户需求及其发展趋势,帮助相关企业制定产品开发战略和产品优化策略,以此满足不同用户的不同需求,提升用户满意度。
本文证明了利用在线品牌社群挖掘用户关注热点及其发展态势的可行性,具有一定理论意义,在以往研究中,多集中于直接使用LDA模型训练结果进行主题分析。相对于传统的聚类主题挖掘,本文结合LDA与多时间窗口,从时间维度上梳理用户关注主题演变趋势,与此同时,通过过滤边缘评论,充分考虑相似度低的评论对动态主题挖掘的影响,丰富了在线品牌社群用户需求挖掘的结果研究。
研究结果还能为相关企业在进行产品创新、前景路线规划、市场营销等工作提供参考。一方面,当品牌进入市场疲软期时,用户关注度明显下降,企业可提供感知结果,以便市场营销部门根据用户关注主题类型及其关注度的变化趋势,及时了解并预测用户的兴趣主题及时调整营销方向。为用户提供个性化资源推荐和话语内容反馈。例如,具有相似关注主题的讨论贴、兴趣小组等。另一方面,在主题演变周期的基础上,实现对市场流程预警、引导、控制的管理。在满意度低下阶段,注重产品评价,探索产品出现的问题,形成预案,避免造成客户群体流失,增强用户市场黏合力。
本研究仅局限于爱卡汽车论坛,数据覆盖面和研究对象范围有限。在后续研究中,拓宽数据获取渠道,对不同网络、不同搜索引擎及不同车系信息进行收集,以便对该类问题做更深入细致的研究。