基于特征观点对语义匹配的产品评论可信度研究
2019-06-03郝玫马建峰
郝玫 马建峰
摘 要:[目的/意义]针对产品评论中的复合句式,实现特征观点对的语义匹配及提取,并明确评论可信度的识别因素及权重,对产品可信评论进行筛选和分析。[方法/过程]基于特征观点对的语义匹配算法实现评论语义指标的量化计算,并采用模糊层次分析法确定可信度指标权重。[结果/结论]实验表明相较于单句提取特征观点对方法,特征观点对的语义匹配算法在召回率、准确率和F-score等性能方面均有较大优势。依据可信度指标对网站产品评论进行筛选,不仅可以评估产品整体的评论可信度,还可以细化到产品特征级别的可信度分析,为用户筛选可信的评论信息并提升购物决策效率。
关键词:产品评论;评论可信度;特征观点对;语义匹配;评论筛选
DOI:10.3969/j.issn.1008-0821.2019.06.011
〔中图分类号〕TP391.1 〔文献标识码〕A 〔文章编号〕1008-0821(2019)06-0102-09
Abstract:[Purpose/Significance]In view of the compound sentence pattern in the product reviews,this paper realized the semantic matching and extraction of the feature opinion pairs,and made clear the indicators and weights of the reviews credibility so as to select and analyze the trusted reviews of the products.[Method/Process]Based on semantic matching algorithm of feature opinion pairs,we extracted the feature opinion pairs and calculated the semantic indicator of reviews,then used Fuzzy Analytic Hierarchy Process to determine the weight of indicators.[Result/Conclusion]The experiment showed that semantic matching algorithm of the feature opinion pairs had a great advantage on the performance of the recall,accuracy and F-score,compared with the method of extracting feature points from the single sentence.It could not only evaluate the credibility of the overall review of the product,but also could be refined to the reliability analysis of the product feature level.Meanwhile,it could screen credible reviews for users and improve the efficiency of shopping decisions.
Key words:product reviews;reviews credibility;feature opinion pair;semantic matching;reviews screening
隨着网络购物的日益普及,在挑选商品前查看在线评论,成为多数用户的消费习惯[1]。这不仅是因为网络购物的虚拟特性,还因为客户评论来源于购买者的真实体验和对产品的全面评价[2-3]。然而,产品评论的数量庞大,评论质量良莠不齐,让用户逐条挑选可信评论很不现实。而且,销售网站目前对产品评论的排序仅按照时间排序或文字数量排序,这些排序方法对于满足用户查看可信评论的需求还远远不够。因此,针对产品评论的可信度研究一直受到很多学者的关注。
产品评论可信度研究主要分为评论可信度指标划分和可信评论排序两项任务[4-5]。从评论质量和评论效用的角度出发,产品评论的可信度指标研究通常分为评论元数据特征分析、评论语义特征分析和评论者分析[6]。其中,评论语义特征分析主要通过计算产品属性情感词在语句中所占比例来实现[7-8],而产品评论中的属性级别情感分析并不是一个简单的词语频次计算,准确地对表达不规范的评论语句中的产品特征及对应观点进行匹配,然后再对特征观点对进行比例计算,才是对语句语义的准确分析。但是,现有的研究几乎很少关注网络评论表达随意,句式构成复杂,特征观点并不仅在单句中出现的情况,而且没有从语句语法规则和句式依赖关系的分析出发,去提取产品特征观点对,从而计算评论的语义可信度[9]。另外,在可信评论排序方面,目前研究方法中多数仅依据单项指标筛选可信评论而且对于评论语义内容较少关注,不能很好满足客户筛选评论的需求。事实上,综合评论元数据特征、评论语义特征和评论者等多项可信度指标,并确定其权重,对产品评论进行可信度筛选,才能帮助用户全面判定产品评论的质量,实现不仅从产品整体的粗粒度评价产品评论质量,而且细化到产品特征级别来识别产品评论质量。
为了解决以上问题,即一方面完善产品评论可信度的语义特征分析方法,另一方面,综合多项可信度指标进行产品评论质量评价,本文将给出基于特征观点对的语义匹配的产品评论可信度识别方法,采用句式划分方法提取特征观点对,实现评论情感可信度指标的量化计算;除评论语义指标外,引入评论者和评论元数据指标,应用模糊层次分析法并结合问卷调查,确定各项可信度指标权重;依据可信度指标对购物网站产品评论进行排序,评估各产品的评论可信度,并细化到产品特征级别的可信度分析,从而帮助用户筛选可信评论。
1 相关研究
1.1 产品评论可信度指标划分
关于产品评论可信度的概念,目前主要有两类界定:一类认为评论可信度和评论内容完整性共同构成评论有用性,而评论可信度又包括专业性和可靠性[10];另一类认为评论可信度包括真实性和准确性[11]。国内外研究者依据评论可信度的这些概念,延伸出了评论可信度指标的划分,并主要从评论本身和评论者两个角度进行分析[12-13]。其中,评论本身的可信度指标包括评论元数据特征和评论文本语义特征[14-15]。评论内容的相关元数据主要是指评论发表时间、评论的字符串长度、得票数等,评论文本语义特征是指语法、语义、文体特征以及评论的情感特征[16],评论情感特征通常表示为评论积极、消极词汇比例,近期有学者提出将特征观点对纳入评论情感特征[9]。评论者的可信度特征则包括评论者信誉、年龄、评论者身份信息公开程度、评论者打分偏差以及评论者异常行为模式等。
除了划分评论可信度的指标,针对各项指标对评论可信度的影响,国内外学者都展开了很多研究,例如,Lee S等[17]利用回归模型验证了评论长度和评论者信誉等级对评论有用性的正向影响。Li F等[18]发现仅通过评论内容情感还无法判断评论的可信度,还需结合评论人特征。Mukherjee A等[14]比较了评论者特征和评论情感特征对于评论可信度的影响,认为基于评论者特征识别评论的可信度更优。Gorla N等[19]认为信息质量涉及完整性、准确性和及时性3个维度,且评论可信度的及时性由评论发布时间决定。Cheung C等[20]提出评论时间即评论时效性是影响评论可信度的信息质量的重要因素。Zhang R等[21]提出评论评分和评论语义内容之间存在的不一致性,例如评分高但评论内容却是负面的,所以,仅从评论元数据无法判定评论可信度,还需结合评论语义分析。Qiu L等[22]也提到了商家汇总后的评分会和具体评论的语义极性不一致的情况,通过实验证明了针对产品特征的评论对评论可信度的正向影响。Mackiewicz J等[11]通过在线问卷的方式收集数据并验证了评论语义极性与评论可信度正相关。吴江等[8]以信息采纳理论和负面偏差理论为基础,从评论者信度、评论信息质量、评论极性3个方面探究评论有用性投票影响因素。研究结果表明评论者有用性、评论信息量和评论文本消极倾向对评论有用性具有积极正向影响。王忠群等[9]认为特征观点对作为一个整体,从语义角度比单独分别抽取商品特征与观点能够获取更为完整的用户对商品的评论信息。
综合以上研究结论,划分评论可信度的指标需综合评论者、评论时间以及评论文本语义3个方面的特征,才能从多方面反映产品评论的可信度,并且将评论文本语义特征细化到产品特征观点是当前的研究趋势。但是,现有研究针对特征观点的提取还仅限于单句,而且考虑的句式关系和特征观点对匹配形式单一,并不适用于网络评论形式多样、句式构成复杂和表达随意的情况[9]。因此,复合句式中的特征观点对的语义匹配将成为本文研究评论可信度语义指标的重点。
1.2 产品评论可信度识别
在划分评论可信度指标的基础上,对产品评论进行可信度识别,目前主要包括评论可信度分类、卖家信誉评价、虚假评论识别以及评论可信度排序几个方面。例如,陈燕方[6]首先确定了10个产品评论的可信度影响因素,采用多分类支持向量机(DDAG-SVM)建立了在线评论可信度分类模型。王宇等[23]基于概念层次网络(HNC)对用户评论文本抽取主题词,将主题词进行聚类,从而构建商家信誉指标体系。陈燕方等[7]在评论文本语义特征中,增加产品属性情感的离群度,并采用基于χ2统计量扩展的多元离群点检测方法来衡量在线商品评论的可信度。吴江等[8]研究发现评论的长度不能代表评论有用信息量,只有評论中所包含的内容能够集中代表其他用户所反映的观点,才认为该条评论所包含的信息是有效的,且该评论对消费者而言也越有用。王忠群等[9]提出主流特征观点对的概念,即包含某个特征观点对的评论数量大于阈值,则设定该特征观点对为主流特征观点对,同时给出在线商品评论可信度模型,提取单句评论的特征观点对,根据评论中所包含的主流特征观点对的数量,对在线评论的可信度进行计算排序。王倩倩[5]依据Hownet情感词表,提取评论文本中的产品属性情感,将文本型评论与数值型评论的一致性进行量化,结合其他可信度影响因素,提出一种在线商品评论信息可信度的排序方法。
依据目前关于评论可信度识别的现状,不难发现,针对评论可信度排序的研究中,虽然已经将评论文本语义特征中的特征观点对纳入了评论可信度指标,但仍然存在两点不足:一是没有研究特征观点对的准确语义匹配方法;二是很少结合其他评论元数据特征综合分析评论可信度,而且对于可信度指标的权重赋值,也未从用户角度进行评价,但事实上,用户才是最有发言权的阅读评论主体。因此,本文将采用模糊层次分析法,通过用户问卷调查,获取评论可信度指标权重,实现综合评论时间、评论者和评论文本语义特征的评论可信度识别。
2 基于特征观点对的语义匹配的产品评论可信度识别
基于特征观点对的语义匹配的产品评论可信度识别主要分为4个部分:数据收集模块、语义指标计算模块、非语义指标计算模块和产品评论可信度识别模块。模型框架如图1所示。
2.1 数据收集及预处理
采用网站数据采集程序GooSeeker,可以实现网站评论的数据抓取。主要步骤包括:1)网站网址加载,创建抓取规则,包括评论者等级、评论发布时间和评论内容;2)批量获取XML数据;3)将XML数据导入Excel文件,并按照产品型号和指标对评论进行分类和整理。
评论文本预处理采用NLPIR汉语分词系统完成,主要包括中文分词、词性标注、词频统计和用户自定义词典。其中,词频统计能对文本中标注词性的词语进行频数统计;用户自定义词典允许用户自行添加词语并标注词性。对客户评论进行文本预处理之后,将分词及词性标注结果生成候选词集合,作为后阶段建立特征集合和观点词集合的基础。
2.2 语义指标计算
特征观点对(Feature Opinion Pair,FOP)是评论中的产品特征及其评价观点,也是评论挖掘的基本单位[24]。本文将特征观点对作为评论可信度语义指标,其中,特征观点对的语义匹配和指标计算是关键。区别于文献[9],本文考虑网络评论表达随意,句式构成复杂,特征观点不只在单句中出现的情况,从语句语法规则和句式依赖关系的分析出发,提取产品特征观点对。
2.2.1 特征观点对的语义匹配
1)构建产品特征集合
构建产品特征集合需要经过3个步骤:
①在候选词集合中基于阈值过滤得到高频名词和动词,去除非领域特征词;
②将同义词划分同义词组;
③将网站产品参数合并入同义词组。
2)构建观点词集合
本文建立的观点词典包括观点词、程度词和反转词,构建过程分为4个步骤:
①建立观点词集。在候选词集合中筛选观点词不仅考虑形容词和副词,同时还将没有纳入产品特征的名词和动词也进行识别;将筛选得到的词汇与Hownet情感词典进行比较,把属于Hownet的词汇加入观点词集,其余不属于Hownet的词汇留待②处理;
②建立观点的程度词集合。将步骤①未识别的词汇与Hownet观点程度词集进行比较,把属于Hownet的词汇加入观点的程度词集合;
③增加反转词集合。将中文否定词“不”、“不是”、“没”和“没有”加入反转词集合。
④完成以上步骤后,还剩余部分不属于Hownet的词汇,它们大多是网络用语,例如“大爱”、“无语”等,对这些词语进行情感分类并加入观点词集。
3)划分特征观点对句式
根据销售网站用户评论的表达形式,我们发现特征观点对不仅出现在单条语句,而且还会分散在相邻的语句序列,除此之外,特征观点对的匹配形式也不限于一个特征对应一个观点。因此,结合对用户评论的大量分析,围绕识别的当前特征的位置不同,而划分出以下特征观点对句式,如表1所示。
2.3 非语义指标计算
2.3.1 评论时间指标计算
在评论可信度的研究领域中,评论时效性是指在线评论的发布时间与用户阅读该评论的时间差值,时间差值越小,说明评论的时效性越高;差值越大,说明评论的时效性越低。随着时间的推移,同种商品的评论会不断增加,但是由于受到外界环境变化或者商品属性的影响,发布时间较早的评论可信度会逐渐发生变化。此外,国内多数网络购物平台如京东、淘宝等按照评论发布时间来对某商品的评论进行排序,将发布时间越近的评论放在消费者更容易看到的位置,以便引起消费者的關注并帮助消费者获得更有参考价值的信息。因此在考虑评论可信度的时候需要将评论时效性作为影响因素考虑,并且评论时效性会对评论可信度产生正向积极影响[19-20]。本文在量化评论时间指标时,计算评论发布时间与用户阅读时间差值并进行分组,时间差值与量化结果之间的对应关系见表4。由于无法预知用户阅读评论的时间,因此将某类商品中所有评论的最晚发布时间作为用户阅读评论的时间。
2.3.2 评论者指标计算
一般来说,评论者等级能够体现消费者在某网络购物平台的购物经验丰富程度,评论者等级越高,说明该消费者拥有越加丰富的网络购物经验,对商品的认知程度也就越高,该消费者所发布的评论就越具有参考价值,从而可以得出评论者等级对评论可信度的影响也是正向积极的[14,17-18]。考虑到同一个网络购物平台上评论者等级有着明显的区分,在量化评论者等级时,将评论者等级从低到高依次赋值。评论者等级与量化结果的对应关系见表5。
2.4 评论可信度识别
模糊层次分析法(FAHP)是对层次分析法(AHP)的改进,其思路是将AHP中的判断矩阵转换成模糊一致判断矩阵[25]。本文采用FAHP计算评论可信度各指标相对权重,其步骤如下:
1)建立模糊互补矩阵
3 实证研究
3.1 实验数据
为了获得模糊互补矩阵,从相对重要性角度出发,本文设计有关评论可信度影响因素的两两评分的调查问卷,并且主要针对大学生这一类相对拥有丰富网络购物经验的群体发放问卷。发放问卷的形式分为网络发放和纸质发放,网络发放144份问卷,收回144份,其中有效144份;纸质发放200份问卷,收回191份,其中有效163份,即总共收回有效问卷307份。
本文抓取京东商城平板电脑的客户评论作为实验数据集,选择17个品牌销量排名1~2的产品评论,总共选取了28款产品,抓取的评论数量为39 721条。采用NLPIR汉语分词系统完成评论文本预处理,包括中文分词、词性标注、词频统计和用户自定义词典。构建产品特征集合和观点词集合的部分步骤,以及特征观点对的语义匹配算法均采用Visual Studio环境下的C#语言实现,数据库采用SQL Server 2008实现。
3.2 实验结果及分析
3.2.1 确定可信度指标权重
调查问卷中每两项影响因素的比较评分采用5级评分:0.9表示前者比后者重要;0.7表示前者比后者较重要;0.5表示两者等同重要;0.3表示前者比后者较不重要;0.1表示前者比后者不重要。根据收回的307份有效问卷,计算得到模糊互补矩阵A和模糊一致矩阵R如下所示:
3.2.2 FOP提取算法性能比较
将参考文献[9]的FOP提取算法作为基准算法,进行实验结果对比。实验随机选取平板电脑评论中的25条评论,评论中FOP出现在单句的统计情况如表7所示。同时还对单句内FOP是否为文献[9]的SBV(主谓)结构进行了统计,可见FOP在复句内的比例为20.83%,而且单句内FOP不是SBV主谓结构的比例为21.05%,这也说明了本文算法的适用性。
3.2.3 评论可信度分析
实验构建的平板电脑产品特征集合总共包括442个特征词,分属于31个同义词组。建立的观点词典包括6 139个观点词、145个程度词和4个反转词。评论可信度分析中,随机选取28款产品中的5款产品,设置可信度综合评分0.5作为筛选条件,对比各产品的评论可信度,具体见图3。
对比5款产品的可信评论占比,可以发现,可信评论占比高的产品未必原始评论数量多,例如华为产品评论可信度大于0.5的评论占总体评论的52.88%,评论总数量为520条;而苹果产品评论可信度大于0.5的评论占总体评论的32.75%,评论总数量为1 539条。当然,也有评论数量相对较多,而且评论可信度大于0.5的评论占比也较大的产品,例如微软。所以这也表明,评论数量并不能反映产品评论可信程度。
同样设置可信度综合评分0.5作为筛选条件,并且在整体评论数据集中选择频率最高的5项特征,分别提取5款产品的FOP,根据提取的FOP数量变化分析产品特征级别的可信度,可以发现,华为产品的特征级别评论可信度最高,因为数据显示5项特征的FOP数量没有任何变化;而微软产品的特征级别评论可信度也较高,5项特征的正面FOP数量减少的平均幅度为0.96%,5项特征的负面FOP数量减少的平均幅度为1.60%;相反,联想产品的特征级别评论可信度最低,5项特征的正面FOP数量减少的平均幅度达到25.53%,负面FOP数量减少的平均幅度达到31.23%。
而且,对比图3与表9,5款产品的整体评论可信度和产品特征级别可信度的排序基本还是一致的,图3按产品整体可信评论占比从高到低排序是华为、微软、三星、联想和苹果,表9按正负FOP在经过可信评论筛选后,其减少比例从低到高排序是华为、微软、三星、苹果和联想。这也验证了本文给出的评论可信度识别方法在整体和特征级别两个层面都是合理和适用的。
4 结 语
本文综合评论者、评论时间以及评论文本语义3个方面的指标识别评论可信度,其中,对于评论文本语义指标,选择特征观点对作为整体表达评论语义的单位。在考虑网络评论表达随意,句式构成复杂,以及特征观点并不仅在单句中出现的情况,划分了6种评论复合句式结构和3种特征观点对匹配类型,在此基础上给出了提取特征观点对的语义匹配算法。实验证明本文给出的算法在召回率、准确率和F值测评方面均优于单句提取特征观点对方法。而对于产品评论可信度识别方法,本文采用模糊层次分析法,通过对用户展开问卷调查,获取评论可信度指标的权重,实现综合评论时间、评论者和评论文本语义特征的评论可信度识别。实验分别对产品整体评论可信度和特征级别可信度进行排序,验证了方法的适用性和一致性。本文的不足之处在于涉及的评论可信度的非语义指标还不全面,而且评论复合句式結构的划分还没有引入比较语句等复杂语义结构,这将是下一步研究的主要方向。
参考文献
[1]中国互联网络信息中心.2015年中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn,2016-06-22.
[2]Lee M,Youn S.Electronic Word of Mouth(eWOM):How eWOM Platforms Influence Consumer Product Judgement[J].International Journal of Advertising,2009,28 (3):473-499.
[3]Bickart B,Schindler R M.Internet Forums as Influential Sources of Consumer Information[J].Journal of Interactive Marketing,2001,15(3):31-40.
[4]张薇薇,柏露.网络评论可信度影响因素研究述评[J].情报理论与实践,2016,39(6):131-138.
[5]王倩倩.一种在线商品评论信息可信度的排序方法[J].情报杂志,2015,34(3):181-185.
[6]陈燕方.基于DDAG- SVM 的在线商品评论可信度分类模型[J].情报理论与实践,2017,40(7):132-137.
[7]陈燕方,李志宇.基于评论产品属性情感倾向评估的虚假评论识别研究[J].现代图书情报技术,2014,(9):81-90.
[8]吴江,刘弯弯.什么样的评论更容易获得有用性投票——以亚马逊网站研究为例[J].数据分析与知识发现,2017,(9):16-27.
[9]王忠群,吴东胜,蒋胜.一种基于主流特征观点对的评论可信性排序研究[J].现代图书情报技术,2017,1(10):32-42.
[10]Weathers D,Swain S D,Grover V.Can Online Product Reviews Be More Helpful?Examining Characteristics of Information Content By Product Type[J].Decision Support Systems,2015,79:12-23.
[11]Mackiewicz J,Yeats D,Thornton T.The Impact of Review Environment on Review Credibility[J].IEEE Transactions on Professional Communication,2016,59 (2):71-88.
[12]Jindal N,Liu B.Review Spam Detection[C].16th International World Wide Web Conference,WWW2007,Banff,Alberta,Canada,2007:1189-1190.
[13]Racherla P,Friske W.Perceived“Usefulness”of Online Consumer Reviews:An Exploratory Investigation Across Three Services Categories[J].Electronic Commerce Research & Applications,2012,11(6):548-559.
[14]Mukherjee A,Venkataraman V,Liu B,et al.What Yelp Fake Review Filter Might Be Doing?[C].In:Proceedings of the 7th International Conference on Weblogs and Social Media.Palo Alto:AAAI Press,2013:409-418.
[15]Peng Q,Zhong M.Detecting Spam Review Through Sentiment Analysis[J].Journal of Software,2014,9(8):2065-2072.
[16]孟美任,丁晟春.在线中文商品评论可信度研究[J].现代图书情报技术,2013,(9):60-66.
[17]Lee S,Choeh J Y.The Determinants of Helpfulness of Online Reviews[J].Behavior & Information Technonogy,2016,35(10):853-863.
[18]Li F,Huang M,Yang Y,et al.Learning to Identify Review Spam[C].In:Proceedings of the 22nd International Joint Conference on Artificial Intelligence.AAAI Press,2011:2488-2493.
[19]Gorla N,Somers T M,Wong B.Organizational Impact of System Quality,Information Quality,and Service Quality[J].Journal of Strategic Information Systems,2010,19(3):207-228.
[20]Cheung C M K,Thadani D R.The Impact of Electronic Word-of-mouth Communication:A Literature Analysis and Integrative Model[J].Decision Support Systems,2012,54:461-470.
[21]Zhang R,Gao M,He X,et al.Learning User Credibility for Product Ranking[J].Knowledge & Information Systems,2016,46 (3):679-705.
[22]Qiu L,Pang J,Kai H L.Effects of Conflicting Aggregated Rating on eWOM Review Credibility and Diagnosticity:The Moderating Role of Review Valence[J].Decision Support Systems,2012,54(1):631-643.
[23]王宇,李秀秀.基于電子商务评论的商家信誉维度构建[J].数据分析与知识发现,2017,(8):59-67.
[24]Yin P,Wang,H W,Guo K Q.Feature-opinion Pair Identification of Product Reviews in Chinese:A Domain Ontology Modeling Method[J].New Review of Hypermedia and Multimedia,2013,19(1):3-24.
[25]姚敏,黄燕君.模糊决策方法研究[J].系统工程理论与实践,1999,(11):61-70.
(责任编辑:孙国雷)