基于主题划分的在线评论影响力度量方法研究
2017-08-12金加卫王占凤李玲玲
金加卫 王占凤 李玲玲
(巢湖学院,安徽 巢湖 238000)
基于主题划分的在线评论影响力度量方法研究
金加卫 王占凤 李玲玲
(巢湖学院,安徽 巢湖 238000)
伴随着网络信息技术的飞速发展,消费者更倾向于在互联网上发表在线评论,这类评论对潜在消费者购买决策和企业市场推广具有重要影响。文章分析互联网在线评论影响力,遴选影响力指标,借鉴主题划分思想,构建了基于主题划分的在线评论影响力度量方法,实现对网络社区在线评论影响力的有效度量,并采用大众点评网实验数据检验其合理性和可行性。
在线评论;主题划分;影响力;大众点评网
1 引言
在线评论(Online Review),又被称作在线客户评论,它作为在线口碑传播最主要的一种形式,以文本形式为主对产品进行评价,是消费者通过互联网提交的对产品或者公司的评论信息[1]。随着电子商务在国民经济中的比重越来越大,消费者采用互联网搜寻产品信息、了解他人对产品的感知、制定购物决策以及发布自己的体验已经成为商务新模式。而当前像豆瓣网、大众点评网等在线评论网站的异军突起,更催生了在线评论的发展。因此,在线评论作为传统口碑信息的新形式,在当前环境下的消费者决策中正在扮演一个重要的角色[2];并已成为消费者获取产品质量信息的重要来源,也是互联网环境下对传统方式的替代和重要补充[3]。
相关研究指出,在网络社区中,消费者更易受到影响力较大的在线评论及其用户的影响,因此如何获取影响力较大的在线评论及其用户一直都是相关学者重点研究的领域。在线评论影响力受很多因素影响,这些因素大致可分为三类[4]:一是在线评论源相关因素,如网站可信度、评论人专业能力、评论人可靠性等;二是在线评论自身因素,如在线评论质量、在线评论数量、在线评论效用等;三是在线评论接收人特征方面因素,如接收人的专业能力、接收人的产品涉入度、接收人的感知风险和信任倾向等。上述研究都只侧重在线评论影响力的定性层面,未采用定量方法对其进行度量。
蔡淑琴等人[5]提出用RFMS模型来测量在线评论发布者的影响力,以程度中心性来评估识别结果的有效性。Cha等人[6]为了度量Twitter中个体影响力,分别计算了关注网络、转发网络、提及网络的点中心度。Pal等人[7]在数据集上考虑了在线用户的发帖数、回复数、被转发数、被提及数和粉丝数目,分别计算在线用户的转发影响力、被提及影响力和扩散影响力等。文献[8-11]主要考虑在线用户的粉丝数、粉丝质量及其转发数与回复数等参数,利用PageRank算法和用户行为权值的方法进行在线用户影响力计算。
但上述研究未进一步考虑在线评论的跨主题性,鉴于此,本文研究基于主题划分的在线评论影响力度量方法。通过引入主题划分KNN模型,并对其进行扩展,结合在线评论自身特点,把网络社区按照主题进行划分;并在前人影响力评价指标研究基础上增加新的指标度量在线评论及其用户影响力。相比于传统方法,本文方法充分考虑了在线评论的跨主题性特点,使得在线评论在各主题的影响力计算具有更强的实用性。最后采用国内专业点评类网站 (大众点评网,www.dianping.com)的数据进行了验证。本文旨在能够丰富在线评论研究理论,同时给国内企业实时监控和管理在线评论传播提供一种方法。
2 在线评论影响力计算指标
现有研究[8-10]主要针对在线用户,且没有对在线评论内容进行主题划分,因此,现有研究对于在线评论影响力计算存在以下问题:
问题1 影响力计算的指标选择问题
现有研究中在线评论用户的影响力主要从以下几个方面进行度量,如表1所示:
表1 现有研究在线评论影响力指标汇总
用户影响力本质上是用户间的相互作用,而用户间的相互作用除了通过在线评论数、被转发数、被回复数考量外,还能够通过发表评论人的总在线时间及注册时间比值、评论文本质量、评论人等级等指标反映。
问题2 在线评论用户跨主题性问题
在网络社区注册的同时,用户可选择自己所感兴趣的主题,其发布的在线评论能够跨越多个主题,而不局限于其从事的行业。但是传统的度量方法将所有在线评论均归类为用户所从事的主题,没有考虑在线评论的跨主题性,因此干扰了在线评论用户在不同主题影响力的计算。
为了解决上述问题,本文做了以下两方面工作:
1)增加在线评论用户总在线时间与注册时间比值、在线评论在所属主题的影响力、用户在各主题的在线评论数量、评论文本质量、评论人等级5个指标。见表2:
表2 在线评论影响力增加指标汇总
2)对在线评论所涉及的主题进行分类,解决在线评论用户跨主题问题。运用基于KNN的主题分类算法对用户的在线评论内容进行分类,将其分配到相似度最大的主题中,从而将所有的在线评论根据主题划分为若干个子集,解决了在线评论跨主题性问题。
3 模型建立
3.1 总体思想
用户在网络社区里发表在线评论,其影响力取决于他所发出的所有在线评论受到其他评论人的关注程度,因此计算用户影响力的前提是分别计算他在所有主题区发表的在线评论的影响力。运用主题分类算法对在线评论用户所涉及的主题进行划分,并对在线评论用户各指标进行量化,代入计算公式得到在线评论用户影响力。
本文将所有在线评论用户指标分为以下两部分:在线评论用户集A和在线评论集C,其中,
A= {A1,A2,…,Ai,…,Am},Ai为第 i个用户,m为所有在线评论用户的数量;
Cij=为Ai在主题Bj发表的在线评论集合。
基于主题划分的在线评论用户影响力计算方法共有4个基本步骤:
步骤1获取在线评论用户信息。通过评论采集软件(网络神采),得到在线评论用户集A及其每个在线评论用户的在线评论集C。
步骤2通过KNN分类算法对用户AR在线评论集合中的每篇在线评论进行主题分类。并确定在线评论的所属主题Bj。
步骤3计算在线评论在所属主题Bj的影响力I()。通过在线评论的被转发数D、被回复数E、在线评论文本质量H、评论人等级A计算得到在线评论在主题Bj的影响力I()。
3.2 具体度量模型
问题描述:在某段时间内,某网络社区中共有m个人发表在线评论,其集合记为
A= {A1,A2,…,Ai,…,Am},Ai为第 i个用户。
按KNN算法将此网络社区划分为
B= {B1,B2,…,Bi,…,Bn}n个主题区域。
设评论人Ai的等级为Ai1,故所有评论人的等级为集合
设评论人Ai的总在线时间集合为
T= {T1,T2,…,Ti,…,Tm};
设评论人Ai的注册时间集合为
t= {t1,t2,…,ti,…,tm};故评论人Ai的总在线时间和注册时间比值为
设评论人Ai在Bj主题里发表的所有评论记为 Cij=
同理,把评论集合Cij的被转发数记为
记评论集合Cij的被回复数为
记评论集合Cij的关键词为
记评论集合Cij的字数为
在线评论集合Cijr的质量记为
为了清晰地描述在线评论影响力与各指标之间的内在关系,这里把评论人Ai在主题Bj中发表的n条在线评论:
Cij= {Cij1,Cij2,…,Cijr,…,Cijn}各属性指标进行归纳总结,以确定在线评论影响力各指标之间的关系,见表3所示。
表3 在线评论影响力指标对应表
上述定义中的在线评论数、被转发数、被回复数能够直接得到,这里需要对评论人等级和在线评论文本质量两个指标做详细说明。
在对几个访问量较大的网络社区的评论人等级分析后发现,评论人的等级大体可以概括为以 下 五 种 形 式 :A(A1,A2, … ,An)、B(B1,B2, … ,An)、C(C1,C2,…,Cn)、D(D1,D2,…,Dn)、E(E1,E2,…,En)。
通常等级高的用户发表的在线评论由于其描述内容详细专业,更具有说服力,更能获得其他评论者的积极响应。为便于计算,对评论人的等级利用专家打分法进行赋值量化,A至E的取值分别为:0.2,0.4,0.6,0.8,1.0。
对于在线评论文本质量,文献[12]指出抽取文本中的关键词个数、文本字数以反映其影响力。通常,高影响力的评论包含丰富的产品使用过程、体验和感受等信息,能体现评论人感知产品真实属性的水平,且文本内容组织合理,逻辑严密、容易得到他人的认同;反之,低影响力的评论由于内容组织零散,逻辑性差,缺乏论证说服力,不易得到其他用户积极响应。那日萨、李媛[13]在分析在线客户评论时,利用客户的情绪、特征、评价、感知等关键词,获得消费者在线评论的态度情感倾向计算模型;主要思想是把评论文本中的关键词(涉及产品的质量优劣、价格高低、性能好坏、消费者情感倾向等)个数、文本字数作为度量文本质量的关键指标。如在大众点评网的酒店评论专区,客户的在线评论如下:“房间比较大!地理位置不错。但是上楼电梯较差。前台接待态度不怎么样。问网上订有没有优惠,告知网上订不了房,只有一个商务间,收了我193,结果上楼后网上发现还有100左右的。不诚信!”可得此在线评论关键词数为6,文本字数为83。
如何依据关键词数量和文本字数来度量评论文本质量,本文采用权重比例系数方法来分配这两类指标的权重,具体计算过程如下:在线评论文本质量可表示为p2为权重。其中p1+p2=1。式中p1、p2表示评论文本关键词数和文本字数所占权重;分别表示关键词个数和字数,由专家打分法对p1、 p2赋权重得到,p1=0.6, p2=0.4。
文献[14]提出微博内容在所属领域的权重主要由该微博内容与所属领域的相关度、被评论数、转发数决定。基于以上算法改进,在线评论在所属主题的影响力计算公式为:
其中 λ1,λ2为调节因子。 (1)
文献[15]提出的话题热度计算公式与本文的用户影响力的计算具有相似之处,该方法的研究对象为多条微博,且均考虑了被评论数,被回复数,时间比值等指标。基于以上算法改进,在线评论用户在网络社区影响力的计算公式为:
其中 λ3为调节因子。 (2)
4 实验
研究以大众点评网为实验平台,大众点评网官网把评论内容分为若干个主题(美食、电影、酒店、休闲娱乐、外卖、火锅、丽人、周边游、KTV和生活服务等),符合主题划分思想。为便于讨论,利用在线评论采集软件 “网络神采”重点将前3个主题(美食、电影和酒店)中的10位常见网络用户的相关评论信息搜集到一起,实验数据采集时间跨度为6个月(2016.7.1—2017.1.1),从中获取各个相关属性指标,并把相关属性指标量化。
1)首先将10个评论人在3个主题的所有评论指标汇总,建立如下表格:
表4 大众点评网某时间段十个评论人的属性指标汇总
2)将评论人的评论信息按照3个主题分别建立表格。限于文章篇幅,这里只列举“lelolu、吉吉狗狗、猫咪家”3个评论人分主题的评论信息,表格如下:
表5 “lelolu、吉吉狗狗、猫咪家”分主题评论信息汇总表
利用公式(1)和(2)对以上两个表格中属性指标进行计算得到这十个评论人的分主题影响力和汇总影响力,计算结果如表6和表7所示:
表6 评论人分主题影响力大小(结果保留整数)
表7 评论人在大众点评网的影响力大小(结果保留整数)
实验结果分析:从表7可知这十个评论人的影响力从大到小依次是“雨巷0322、lelolu、猫咪家、眼泪笑8181、滚筒洗衣机君、春天花花家家、Shenxintong、Hfutjcd、吉吉狗狗、执念 6064。 但从表6也知评论人在分主题中的影响力不是严格按照表7的大小进行排序,例如按照总影响力排序,“雨巷0322”大于“猫咪家”,但是在酒店主题区的影响力,“猫咪家”大于“雨巷0322”。故评论人在不同主题的影响力大小排序并不一定和总影响力排序完全一致。因此,潜在消费者和相关企业在考虑在线评论的影响力时,既要考虑用户总的影响力,也要对不同主题进行区别对待。这样潜在消费者才能有的放矢,得到更加精准的产品评论和购物决策信息;企业也能够针对不同主题对产品的各个性能参数和服务质量做出改进,为企业赢得口碑,提高其经营效益。
5 结语
文章通过分析网络社区里评论人所发在线评论的相关属性指标,得到评论人影响力计算指标:评论人等级、总在线时间和注册时间比值、评论文本数量、关键词个数、文本字数、被转发数、在线评论回复数、被转发数等,并且综合这些指标得到度量在线评论影响力的计算方法,最后通过实例验证了此度量方法的合理性和可行性。进一步的研究工作可以细化这些指标,努力把上述度量方法扩充得更加完美,为实际度量网络社区在线评论影响力打下更坚实的理论基础,更加利于潜在消费者和企业做出科学决策。
参考文献:
[1]HENNIG-THURAU T,GWINNER K P,WALSH G,et a1.Electronic word-of-mouth via consumer-opinion platform:what motivates consumers to articulate themselves on the internet[J].Journal of Interactive Marketing,2004,(1):38-52.
[2]CHEN Y B,XIE J H.Online consumer review:word of mouth as a new element of marketing communication mix[J].Management Science,2008,(3):477-491.
[3]CHEVALIER J A,MAYZLIN D.The effect of word of mouthon sales:Online book reviews[J].Journal of Marketing Research,2006,(3):345-354.
[4]HOVLAND C I,JANIS I L,KELLEY H H.Communication and persuasion[M].New Haven:Yale University Press,1953.
[5]蔡淑琴,马玉涛,王瑞.在线口碑传播的意见领袖识别方法研究[J].中国管理科学,2013,(2):185-192.
[6]CHA M,HADDADI H,BENEVENUTO F,et al.Measuring user influence in twitter:the million follower fallacy[J].Berlin:Springer,2010:11-13.
[7]SWEENEY J C,SOUTRA G N,MAZZAROL T.Word of mouth:measuring the power of individual messages[J].European Journal of Marketing,2012,(1):237-257.
[8]刘耀庭.社交网络结构研究[D].杭州:浙江大学,2008:19.
[9]YAMAGUCHI Y,TAKAHASHI T,AMAGASA T,et al.TURank:twitter user ranking based on user-tweet graph analysis[J].LNCS,2010,6488:240-253.
[10]BAKSHY E,HOFMAN J M,MASON W A,et al.Everyone’s an influencer:quantifying influence on twitter[J].WSDM 2011.New York:ACM,2011:65-74.
[11]肖宇,许炜,商召玺.微博用户区域影响力识别算法及分析[J].计算机科学,2012,(9):38-42.
[12]郭岩,刘春阳,余智华,等.网络舆情信息源影响力的评估研究[J].中文信息学报,2011,(3):64-71.
[13]那日萨,李媛.基于在线评论的消费者模糊情感计算与推理[J].情报学报,2011,(4):417-423.
[14]孙胜平.中文微博客热点话题检测与跟踪技术研究[D].北京:北京交通大学,2011:41.
[15]许志凯.网络舆情分析关键技术的研究与实现[D].哈尔滨:哈尔滨工业大学,2011:32.
THE RESEARCH ON THE MEASUREMENT METHOD OF THE INFLUENCE OF ONLINE REVIEW BASED ON SUBJECT DIVISION
JIN Jia-weiWANG Zhan-feng LI Ling-ling
(Chaohu College, Chaohu Anhui 238000)
With the rapid development of network and communication technology,consumers are more inclined to issue their online review on Internet.The review has an important impact on the purchase decision-making of potential consumers and marketing promotion of enterprises.This paper analyzes the influence of the online review on Internet,selects the influence indexes,and learns from the idea of subject division.Thus,it builds the method of measuring online review influence based on subject division,achieving effective evaluation of online community review influence.And the public comment network data is used to test its rationality and feasibility.
Online review;Subject division;Influence;Public comment network
TP393
A
:1672-2868(2017)03-0035-07
责任编辑:陈 侃
2017-03-04
巢湖学院校级科研项目(项目编号:XLY-201613);巢湖学院校级科研项目(项目编号:XLY-201407)
金加卫(1986-),男,安徽凤阳人。巢湖学院信息工程学院,助教。研究方向:电子商务。