APP 用户差评行为影响因素研究

2022-02-25丁文强

软件导刊 2022年1期

丁文强，苗虹

（江苏科技大学经济管理学院，江苏镇江 212003）

0 引言

随着信息技术的不断发展，应用程序（APP）如雨后春笋般出现在各大应用市场中，APP 开发者之间的竞争异常激烈。应用市场允许开发者发布以及用户购买、下载、评论APP，用户可以根据使用体验给APP 打出最低1 星、最高5 星的评分。Palomba 等［1］研究表明，星级评分和用户评论对开发团队的盈利有重大影响，低星级的APP 往往很难在应用市场中生存下来，大量优质评论能使APP 获得更高曝光度，负面评论则会使开发者面临损失。研究表明，当评论数量达到一定规模时，低认知需求用户受评论数量的影响较大，高认知需求用户受评论质量的影响较大［2］；而对于体验型产品而言，评论数量对用户的影响更为明显［3］。因此，开发者通常会通过推出试用版本的方式积累原始用户，通过扩充功能、进阶增值服务等方式获得盈利。

在互联网时代，越来越多的用户愿意通过在线评论的方式分享自身使用体验，这些评论包含大量有价值的信息。潜在用户除了通过开发者介绍的信息了解APP 外，还会借助用户评分进行决策，在线评论成为其获取信息的重要来源［4-5］。然而，不少消费者都有过给出好评等级却写出负面评论的经历，消费者担心给出差评会受到卖家的报复，从而违心给出正面评价［6］。评论星级与文本之间的不一致性使得高星级评论中也有着差评的存在，用户的识别难度大大增加［7］。鉴于此，本文拟探究用户是否会对开发者在试用版本后推出增值收费服务等营利行为作出负面评价，以及新版本软件的功能、质量与开发团队推送频率等对用户差评意愿的影响。

1 相关研究

文本挖掘是从文本中提取出高质量信息的过程，其应用多集中在商品以及企业产品评价方面。目前，有许多学者面向APP 评论进行文本挖掘研究，例如胡甜媛等［8］将评论体现的反馈定义为软件满足的需求、存在的问题以及未达到的期望，通过构建评价对象与评价观点抽取规则，有效挖掘体现使用反馈的APP 用户评论；吕宏玉等［9］针对APP 用户特性，提出基于挖掘范围识别和关联规则的APP评论特征方法；张莉曼等［10］从APP 用户需求表达状态和表达过程出发，剖析用户需求的3 种表达形式，从用户生成数据中聚合需求信息，生成高价需求情报，然后再推送给需求者；Zhou 等［11］以亚马逊生态系统为例，利用LDA 模型提取与客户需求相关的主题，并使用KANO 模型对客户需求进行定量分类；Kim 等［12］利用LDA 模型对Twitter 用户发布的信息进行挖掘，从而更加高效地对用户进行好友推荐和内容推送；王欣研等［13］提出学术APP 在线评论主题语义关联研究方法，基于词向量相关性获得主题语义关联，构建语义关联图谱，为APP 平台运营者完善功能提供了参考依据。以上研究多从用户需求和软件特征的角度进行文本挖掘。本文尝试从开发者的角度分析评论文本，通过开发者将应用免费上架后再向用户推送付费版本这一行为，研究用户作出负面评价的影响因素。

2 研究框架与方法

2.1 研究框架

本文研究框架如图1 所示。首先采集APP 的用户评论，对数据进行预处理；然后从用户评论集中人工筛选出500 条好评和500 条差评，分为训练集和测试集，采用逻辑回归模型进行评论分类，筛选出差评文本。利用LDA 模型对差评集合进行主题提取，生成文档—主题矩阵词汇—主题矩阵，并展示可视化结果。通过上述实验结果，验证开发者在试用版本后推出增值收费服务等营利行为是否会得到用户差评，以及是否存在某些因素对此起到调节作用。

Fig.1 Research framework图1 研究框架

2.2 LDA 模型

LDA 主题模型是包含文档、主题、词项3 种结构的3 层贝叶斯概率模型［14］，其利用概率统计思想对文档进行建模，能将文档集中每篇文档的主题以概率分布的形式给出，通过判断文本的相似性进行更深层次的语义挖掘，将文本中隐藏的主题挖掘出来。

LDA 模型的原理如图2 所示。首先定义一个包含m 个文档的文档集合D（d1，d2…dm）、主题集合T，字典中有V个词汇。已知每个文档包含n 个词汇，则Nm表示第m 篇文章中的词汇量，Wm，n表示第m 个文档中的第n 个词。文本集中隐藏了k 个主题（T1，T2…Tk），Zm，n表示第m 个文档中第n 个词的主题。每个文档都有各自的主题，服从Dirichlet分布，参数为α，则对于第m 个文档，其主题分布θm 为Dirichle（tα）。主题中的词汇服从Dirichlet 分布，参数为β，则对于任意一个主题K，其词分布φk 为Dirichle（tβ）。α、β为模型中的超参数，影响着模型主题分布与词汇分布的平滑度。两个隐含变量θ 和φ 分别表示文档集D 中d 文档对应到不同主题的概率和主题集T 中k 主题生成不同单词的概率，其中θ 为K 维向量，φ 为v 维向量。

Fig.2 LDA model图2 LDA 模型

LDA 的联合概率计算方法如式（1）所示，式中w 为已知变量，先验参数可参考前人经验确定；z 为某篇文章的所有主题，可由θ 确定。LDA 的训练过程主要为确定θ 和φ 值的过程，这些参数一旦确定，对于新加入的文档，可以认为主题词—词分布的φ 是稳定的，参照Gibbs Sampling 公式确定θ 和φ。

LDA 生成文本的步骤见表1。

Table 1 LDA model test generation steps表1 LDA 模型生成文本步骤

2.3 逻辑回归模型

逻辑回归模型［15］是一种经典的分类算法，适用于对用户评论数据进行分类。其训练速度较快，且具有较好的分类效果，是使用最为广泛的分类方法之一。该模型可根据一组自变量输入计算出归属每种类别的概率，常使用二项逻辑回归方法，即类别只有0 和1 两种，其条件概率分布表示为：

式中，x∈Rn 为输入，称为实例特征；Y∈（0，1）为输出，两个分类可以对评论是好评还是差评进行判断；w∈Rn 和b∈R为参数；w 为权值向量，对应每个输入特征的权重；b为偏置。

3 数据采集与预处理

3.1 数据来源

APPexchange（https：//APPexchange.salesforce.com/）是saleforce推出的应用平台，现今已上架3 000多种APP，拥有上万在线用户，旨在为用户提供大量优质APP。利用Python+Selenium 的方法采集APPexchange平台中免费APP的用户评论数据，共有14 290条，删除非英文评论、无意义评论（“Waste Time”“Highly Recommended”）以及显示异常评论等，得到14 068条有效评论。爬取的部分数据内容如图3所示。

Fig.3 Partial test data display图3 部分试验数据展示

3.2 数据预处理

由于用户在平台中的评论比较随意，不可避免地会出现很多与研究主题无关的无效评论，因此对数据进行预处理有助于提升模型效率，处理方法主要分为以下3 种：①分词。进行数据处理时，计算机理解的最小处理单位为单词，因此需要将语句拆分成有意义的单词；②去除停用词。分词结果中通常会出现很多无意义的符号，使用停用词表删除文本中的连词、量词、介词等无意义词语，剔除无用标点，可以提高检索效率、优化内存，文本处理时若遇到停用表中的词，系统会停止处理，将其扔掉；③次干提取，词形还原。去除相似单词的词缀，得到单词词根，否则主题模型会将这些单词当作不同的实体进行处理，词形还原则是利用上下文语境将单词还原成词根。

3.3 逻辑回归分类

对采集到的评论信息进行人工标注，得到好评和差评各500 条。做好标签，正面评论用1 表示，负面评论用0 表示，采用空间向量表示预处理后的词组，组成语料库。将语料库以7∶3 的比例划分为训练集和测试集，利用逻辑回归算法对训练矩阵进行分类器训练，将训练好的分类器运用到测试矩阵中进行预测，然后对模型效果进行评估，最后调用训练好的逻辑回归模型对采集到的评论进行分类。

经过训练，得到如图4 所示的试验结果，可以看出各项模型评价指标均大于0.9，说明预测效果较为理想。使用训练好的分类器对用户评论进行分类，可形成用户差评集合。

Fig.4 Logical regression model evaluation图4 逻辑回归模型评估

3.4 主题个数确定

LDA算法需要确定超参数α和β，以及主题数量k。实践中常将超参数α和β值设置为0.1和0.01［16］，本文亦是如此。

确定主题数量是构建LDA 模型的难点，主题数量影响着整个模型性能的优劣。当主题数目过多时，会产生很多无明显意义的主题；当主题数目过少时，主题粒度过大，一个主题包含多层语义。目前主题数量常基于困惑度和主题连贯性确定［17］，由于困惑度依赖概率和词频，没有考虑到词汇在用户评论中的上下文联系，因此本文选择后者确定用户评论集的最佳主题数量［18］。通过Python 自带的模型方法确定主题数量，根据LDA 提取的主题相似度计算相应得分，得分越高，模型质量越好。将主题数量分别设置为10、15、20、25、30，通过网格搜索法（Grid Search）进行调参。由图5（彩图扫OSID 码可见）可以看出，当主题数量为10 时效果最好，当主题数量继续缩小时，评分仍会继续上升，但主题数目过少时会造成一个评论包含多个主题的情况，不利于分析提取的主题。经过多次试验，最终设定主题数量为10。

Fig.5 Number of themes图5 主题数量

4 主题分析

通过LDA 模型对用户差评集合进行分析，得到文档—主题矩阵和主题—词汇矩阵。表2 为运行LDA 模型后得到的主题—词汇矩阵，展示了评论集合中出现的与10 个主题相关的特征词。图6 为主题4 包含的前30 个主题词，特征词“APP、free、pay”共现在部分软件版本升级的差评集中，说明确实存在开发者先将APP 免费上架，在限免一段时间后推送增值服务的情况，最终有用户针对该现象给出了负面评价。由此证实，将付费APP 伪装成免费型上架，后期再推送付费版本会对用户差评行为产生影响。

Table 2 Theme-vocabulary matrix表2 主题—词汇矩阵

Fig.6 PyLDAvis visualization图6 PyLDAvis 可视化图

通过pyLDAvis 对主题进行可视化，将图6 中的关键词导入到主题词关联图中（见图7），发现了关键词“email、address、day”，说明开发者可能会通过电子邮件的方式向用户推送营销信息，且较为频繁。关键词“pay、version、feature、upgrade”联系紧密，说明更新版本可能会增加新的功能适配用户需求，如果用户对新版本感到满意可能会接受付费行为，但当升级版本没有达到预期效果时会给出差评。

从提取的主题中可以看出，导致用户差评行为的因素有很多，需要对这些因素的重要程度进行比较。Pyldavis 左侧面板展示了LDA 模型分类出的不同主题，主题气泡大小可显示主题强度，气泡越大说明该主题的重要程度越高，气泡之间的距离表示两个主题之间的相似程度。根据以上信息绘制图8，可以看出，主题4 占比为10.7%，说明付费APP 伪装成免费APP 上架，后期进行收费的主题较为靠前，且与主题1 的12.5%较为接近。前3 个主题反映的是开发团队的支持与服务、APP 的适配程度和程序包解决方案等问题。后几个主题解读效果不是很好，主要为APP 的账户、插件、设置等出现的问题以及对开发团队的反馈。总体来说，开发者将APP 上架于免费专区，后期进行增值服务的行为容易造成用户不满，开发者需提升更新后版本的质量，达到物超所值的效果。

Fig.7 Keywords association chart图7 关键词关联图谱

Fig.8 Proportion of themes图8 各主题占比

5 结语

本文基于逻辑回归算法对APP 的评论集进行分类，筛选出差评数据，然后利用LDA 模型分析评论数据，探究是否存在开发者在试用版本后推出进阶收费服务等营利行为，以及这一现象与用户差评行为的关系。实验结果表明，开发者将应用免费上架后再向用户推送付费版本的行为是用户作出差评的原因之一，尤其是当开发团队频繁地对用户推送付费版本信息时，更有可能导致用户给予差评；付费版本的质量和功能可能会对用户差评行为起到调节作用。

当使用免费版本的用户达到一定规模时，开发团队为获取更高利润，往往会推出付费或高级版本进行营利行为，如果未做好营销推广工作可能会导致用户给予差评，影响APP 下载量。开发者应合理制定价格策略，注重与用户的沟通。如果付费版本的功能与免费版相比得到明显提升，且价格合理，相信用户乐意进行付费版本的尝试。

本文研究方法仍存在一定局限性，根据实际需求调整pyldavis 中参数λ 的值可以得到更有意义的主题词。此外，LDA 模型超参数的设定会影响主题模型的结果，因此在今后研究中将考虑更多参数对试验结果的影响，而不是参照其他文献的推荐值，以便模型更加拟合试验数据。