在线评论的评论有用性判定

2019-11-17陈雪晶程锐

电脑知识与技术 2019年26期

陈雪晶程锐

摘要：为了更好地为消费者提供具有参考价值的在线评价，本论文基于对网上评论内容的分析，借助LDA主题模型挖掘出评论内容中所隐藏的主题信息，并与标准训练语料的主题信息进行对比，计算它们之间的信息熵，使用计算出来的信息熵来表示评论内容偏离标准语料库的程度，从而得到评论内容的有用程度。

关键词：评论有用性;KL距离;LDA主题模型;信息熵

中图分类号： TP31 文献标识码：A

文章编号：1009-3044（2019）26-0266-03

开放科学（资源服务）标识码（OSID）：

Abstract： In order to better provide consumers with online evaluations of reference value， this thesis is based on the analysis of online comments， use the LDA theme model to dig out the hidden subject information in the comments， and compare it to the subject matter of the standard training corpus， calculate the information entropy between them， use the calculated information entropy to indicate the degree to which the content of the comment deviates from the standard Corpus， to obtain the usefulness of the content of the comments.

Key words： Comment Usefulness; KL distance; LDA topic model; Information Entropy

1 引言

随着电子商务的发展，消费者的购物习惯、行为模式等都发生了相应的变化[1]。评论信息是潜在消费者消费意愿的重要依据，而商家可以参考用户评论调整其产品，变革销售模式等来获取更大的利润[2]。现如今，在线点评的低门槛和松于审核导致了在线点评的泛滥，不仅评论质量参差不齐，而且大量垃圾评论充斥其中，垃圾评论是一些没有任何意义或用户带有某些目的性质的在线评论的统称，这些评论是由用户随意或者是故意发布的不真实的甚至是带有欺骗性质的评论信息[3]。现如今，在线评论的评论有用性判定已经逐步成了衡量在线评论质量的最便捷有效的手段之一[4]。有用性可以看作是对评论中所包含的一些潜在价值进行主观测量，评论的有用性可以等同于评论的价值[5]。基于以上分析，研究在线评论的评论有用性是具有实际意义，本论文也将围绕在线评论的有用性判定进行展开。

2 原理分析

本论文实施的主要原理是通过LDA主题模型能够得到评论文本的主题分布概率，也就是这条评论属于各个主题的概率是大，所得到的这些概率分布就可以作为计算KL距离的输入，进而得到评论样本和评论总体之间的差异性，如果差异性很大，则认为该评论样本“不合格”，即判定为该条评论是无用的;如果差异性很小，则认为评论样本“合格”，即判定为是该条评论是有用的。

3 算法描述

3.1 算法流程图

本论文提出的评论有用性判定算法结合了信息熵和LDA主题模型，其判定算法的整体流程如图1所示：

3.2 文档预处理

文档预处理主要是对训练语料以及评论文档进行相应的处理，其处理实现的详细流程如图2所示：

文档预处理的实验结果如图3所示：

3.3 主题特征计算

主题特征计算的流程如图4所示：

以上流程图主要描述了如何对文本主题特征进行计算，主题特征计算其本质主要就是利用Gibbs Sampling采样法结合LDA主题模型对隐变量进行估计，从而得到文本隐含的主题表示。综合各方面进行考虑，本论文中最终选用的参数估计算法所选择的是Gibbs Sampling算法，Gibbs算法的大致实现步骤主要由：1、初始化;2、更新纠正词语分配给每个主题的概率;3、收敛到目标分布之后间隔取样;4、迭代完成之后对取样的样本取均值四个步骤组成。

3.4 主题相关性度量

通过计算主题特征，可以得到语料庫中的评论和用户提交的评论的主题特征，但语料库中的评论的主题特征是一个M*K矩阵，而文档主题特征是一个拥有K个元素的一维矩阵，语料库中的评论和用户提交的评论的主题特征的维度不一致，信息熵只能计算两个维度相同的概率分布的差异性，因此，无法直接求解它们之间的信息熵，要想求解只能将他们转换为同一纬度的矩阵。本论文利用归一化指数函数softmax函数对语料库中的文档主题分布进行归一化处理，处理后语料库中的文档主题特征转换为了一维矩阵，此时，它们的维度就达到了一致，再通过求解信息熵即可评估其差异性。差异性评估的算法流程如图5所示：

4 实验过程

4.1 实验数据获取

本论文通过设计语料扩充模块获得对LDA主题模型进行训练的文档。其实现的算法流程如图6所示。

4.2 参数调节

LDA主题模型中的主题数K，burn in的大小会影响整个算法的效果，本论文通过实验对burn in进行分析得到每个参数的最优值。

⑴burn in参数调节

burn in最小时算法的建模能力最强，根据burn in参数调节图可以看出当burn in取值为17500时算法的性能最佳。

⑵主题数量K参数调节

困惑度越小越算法建模的能力越好，从主题数量K参数调节图中可以看出，当K的取值为20时，实验的算法效果是最好。

5 实验结果分析

实验结果的结果图如图9所示：

我们根据图9，对比曲线A和B可以明显发现两条曲线之间存在某个可以将他们区分开来的数值，我们预测此值即为判断评论是否有用的阈值，为了进一步确定出这个值是多少，我们增加标记为“合格”的评论至5500条，增加标记为“不合格”的评论至2400条，阈值从0.3到0.4进行取值实验，并每次试验的结果进行统计如表1所示：

从表1中可以看出，当阈值取0.34时，算法的分类效果最好，所以判断评论是否有效的主题分布对称性误差为0.34。

6 总结

本论文针对评论有用性判定的问题，提出了结合主题分布和信息熵的方法。LDA主题模型基于优良的数学理论挖掘出训练语料和用户提交的评论中所隐含的主题，得到的主题特征作为信息熵的输入，得到它们之间在主题层面上的差异的非对称性度量，通过主题差异性非对称性度量，可以从侧面对用户提交的评论的有用性进行判定。

参考文献：

[1] 张丽. 在线评论的客户参与动机与评论有效性研究[D]. 南开大学， 2011.

[2] 张恒. 基于深度学习的虚假评论识别方法研究[D]. 哈尔滨工业大学， 2011.

[3] Bing L. Web Data Mining： Exploring Hyperlinks， Contents， and Usage Data（Data-Centric Systems and Applications）[J].Acm Sigkdd Explorations Newsletter，2008，10（2）：23-25.

[4] 刘苗苗，黄沛. 在线评论有用性的实证研究述评与展望[J]. 未来与发展， 2017， 41（12）：64-67.

[5] 方佳明，王钰莹，赵志荣. 不同产品品牌声誉对在线评论有用性影响因素的调节效应[J]. 软科学， 2016， 30（3）.

【通联编辑：梁书】