在线评论越长越极端就越有用吗?*
——再论酒店在线评论的有用性
2020-07-30梁增贤刘晨希
梁增贤,刘晨希,王 玥
(中山大学 旅游学院,广东 广州510275)
0 引言
微信平台、贴吧、博客等社交媒体已经成为消费者搜索和分享旅游产品信息的平台[1-5]。在线评论作为电子口碑(eWOM:electronic word of mouth)的重要形式[6],已经被广泛证明会影响消费者决策[5,7]和购买行为[8],进而改变旅游网站和旅游供应商的信息提供方式[9-11]。截至2020年3月,我国网络购物用户规模达7.10亿,较2018年底增长1亿,占网民整体的78.6%。其中,手机网络购物用户规模达7.07亿,较2018年底增长1.16 亿,占手机网民的78.9%。2019年6月,中国在线旅行预订用户规模高达4.18亿,其中60.8%的用户在过去一年中有过旅游经历分享行为①。在线酒店产品变化慢,个体间差异大,市场选择多,其在线评论的参考价值很高,历来受到消费者重视,也成为在线评论研究的主要对象。87%的国际旅游者会通过社交媒体安排行程,其中43%的人会阅读在线评论[9]。旅游网站纷纷推出在线评论功能。然而,各网站的在线评论的格式和内容不同[10],评论的水平不断提升。现有研究表明,那些较长且全面的评论比短评论更能吸引消费者[12]。尽管旅游网站也在调整评论方式,开辟专家评论和有用投票,帮助消费者判断评论的有用性,但消费者仍可能迷失在海量的评论信息中,存在着信息过载的风险[13-14]。由于在线评论对购买意愿的显著影响[15],一些酒店有意识“操作”评论,甚至雇佣“水军”刷好评,假扮消费者去攻击竞争对手等[16],导致评论失真[9]。与此同时,消费者也在成长,不会随便接受评论邀请[17],也不会轻易相信评论。近年来,消费者越来越倾向于相信差评[14],似乎更喜欢阅读字数较多的长评论。那么,酒店在线评论越长越极端就会越有用吗? 本文以2 300条去哪儿网酒店评论为例,研究在线评论有用性的影响因素及其作用效果,以期了解消费者如何识别在线评论,推动旅游网站改进在线评论功能,促进酒店的在线营销。
1 文献综述
1.1 研究进展
旅游在线评论的研究逐渐受到重视,主要分为两类:一类是基于供给视角,研究在线评论对旅游产品销量或绩效的影响[1,18];另一类基于需求视角,研究消费者的在线评论行为规律以及在线评论对消费者购买决策和行为的影响,这又可分为两个方面:一是研究消费者如何生产在线评论[19],二是探讨在线评论如何影响消费者[15,20-21]。酒店在线评论较其他类型旅游产品而言更容易获得,稳定性和持续性较好,对消费者购买决策和行为的影响相对稳定,受到更多重视[1,4,8,15,22-25],而有用性也成为酒店在线评论研究的焦点[14]。
Sussman等提出的信息采纳理论模型为理解多种因素对信息有用性的影响奠定了基础[26]。该模型将影响信息有用性的因素归为两类:信息内容的质量(或评论特征因素)和信息源的可靠性(评论者特征因素),且认为只有有用的信息才会被采纳。卓四清等将该模型用于研究在线评论[7],用评论极端性、长度和有用投票数作为评论特征因素,用评论者认可度和个人信息披露作为评论者特征,而暴露时间作为控制变量。然而,有用投票数应该是有用性的具体表现,而非影响因素。Liu等纳入了更多变量,其中评论特征变量包括评论的星级、评论长度、评论的情感倾向、评论的可读性[9];而评论者特征变量包括身份信息(评论者照片、真实姓名、真实地址)、专业性、声誉(朋友数量、粉丝数量和精华帖数量)。Kwok等也遵循类似的模型,把评论特征因素分为定量和定性两种,而评论者特征分为人口特征和评论者经验两种[14]。此外,一些实证研究也探讨了各种变量对有用性的影响及其对购买决策和行为意向的作用[4,5,7-9,27-29]。除少数使用问卷调查法的研究外[2,15],大多数在线评论研究的变量选择主要受限于旅游网站提供在线评论的信息维度[10,30]。
1.2 评论特征因素
评论特征因素是对评论有用性讨论最多的变量类型,主要涉及长度、全面性、情感倾向、极端性、图片数和阅读量等。
(1)评论的长度指评论的字符数。现有研究认为评论越长,越有用[7]。评论的长度对评论的有用性有显著的正向影响[31,32]。评论的长度暗示消费者会阅读具体内容,而不仅依赖于阅读量和有用投票数据[12]。尽管少数研究认为内容的深浅和多寡对评论的有用性并无显著影响[2],但大多数研究认为评论越长,提供的信息可能越全面[33],越有用[14]。基于现有研究,本文假设:
H1a:评论的长度对评论有用性存在显著正相关。
(2)评论的全面性是指评论所涉内容反映酒店情况的程度。全面性可能与长度有一定关系,但并非绝对。因为许多长评论实际上仅就某个方面的问题进行评论,强调深度;而全面性则关注涉及面,强调广度。一般认为,评论涉及的面越多,越容易得到关注,从而获得更多有用投票[2,14]。因此,本文假设:
H1b:评论的全面性对评论有用性存在显著正相关。
(3)评论情感倾向是指评论内容反映评论者对酒店的正向或负向情感,具体表现为评论内容中褒义词和贬义词的使用情况。现有研究表明,评论的主观情感倾向与评论的有用性显著相关[13]。评论的正向情感倾向对评论的有用性有正向影响[34-35],甚至直接影响购买决策[36-38]。积极的情感倾向、较高的正负情感混杂度、较高的主客观表达混杂度对评论的有用性具有显著的正面影响[32]。负面或者消极的评论会唤起消费者的风险意识,导致潜在消费者对产品购买决策的动摇[16]。消费者更容易被先前消极的评论所影响,尤其是整体评论都比较消极的时候[30]。因此,本文假设:
H1c:评论情感倾向对评论有用性存在显著负相关。
(4)评论的极端性是指评论获得过高或过低的评分。一些研究认为评论的极端性与情感倾向相关[32]。由于旅游网站通常根据评分高低排列酒店,为了获得更靠前的网页位置,酒店往往跟评论者协商评分。评分可能为妥协的结果,而评论的内容才是评论者真实意见的表达,因而极端性与情感倾向并不一定相关。一些研究认为,极端好评会获得更多关注,有用性增强[36-38];另一些研究认为极端差评被认为更真实有用[39]。国内学者的研究进一步认为,中差评对评论有用性具有显著的正向影响作用[16],而极端的评论较中立的评论更为有用[34]。因此,本文假设:
H1d:评论的极端性对评论有用性存在显著正相关。
(5)评论图片数越来越受到重视。由于图片的记忆效果更好[40],图片比文字更容易对消费者产生积极影响[41],“无图无真相”逐渐成为消费者判断有用性的标准。然而也有研究指出,虽然图片和文字都会显著影响消费者的认知,但只有文字会对消费者的购买意愿产生显著影响[42]。一些研究更是认为,高认知需求的消费者更关注文字,高情感需求的消费者更关注图片[43]。远期消费者受文字评论影响更大,而近期消费者受到图片评论的影响更大[11]。因此,本文假设:
H1e:评论图片数对评论有用性存在显著正相关。
(6)评论阅读量是一个累计值,一些旅游网站以阅读量作为评论的热度依据,并置顶热点评论,有可能影响有用投票。阅读量越大,说明评论易受关注,增加了获得有用投票的可能。因此,本文假设:
H1f:评论阅读量对评论有用性存在显著正相关。
1.3 评论者特征因素
随着网络水军的参与以及酒店等旅游供应商的介入,评论者的真实性和可信度受到质疑[44]。许多研究表明,阅读者会关注评论者的相关信息以判断信息的有用性[9,45-46],包括评论者的网络中心度(内部和外部)、等级、经验或专业性。
(1)中心度(centrality)是网络中节点特性分析的关键步骤,是衡量个体在社会网络中影响力的重要指标[47],分为内向中心度和外向中心度两种。现有研究表明,个体节点的网络中心度与其可信任感之间具有相当强的正向相关性[48]。评论者内向、外向中心度会直接影响其发表评论的有用性[48]。基于社会网络理论,本文假设:
H3a:内向中心度对评论有用性存在显著正相关。
H3b:外向中心度对评论有用性存在显著正相关。
(2)评论者等级指评论者获得旅游网站认定的等级,主要参考阅读者的评价。一般来说,评论者发表评论,尤其是专家评论的数量越多,等级越高,越能得到更多消费者的认可[46,49]。相较于男性,女性更看重评论者的等级[50-51]。然而,由于部分高等级的评论者可能是经常活动的网络水军,部分阅读者并不信任等级。一些研究甚至认为,评论等级与评论有用性显著负相关[52]。因此,本文假设:
H3c:评论者等级对评论有用性存在显著正相关。
(3)评论者经验是评论者发表评论的数量、获得有用投票和发表专业评论数量的综合考量。现有研究表明,相较于女性,男性更看重评论者的经验和专业性[50-51]。评论者的专业身份和丰富经验能够有效减少阅读者对评论的消极偏见[53]。评论者经验越高,评论越有效[45]。为此,本文假设:
H3d:评论者经验对评论有用性存在显著负相关。
1.4 评论有用性模型
评论曝光天数反映的是评论发表的时效性[2]。曝光的时间越长,评论可能获得的有用性投票就越多[54]。不同网站评论的置顶方式不同,一些网站将最新评论置顶,而另一些将有用性高的评论置顶,客观上会影响曝光天数与有用性投票的关系。Filieri等基于最新评论置顶的模式证明了曝光的时效性对有用性的影响显著但较为微弱[2]。去哪儿网同时提供了两种置顶方式,且默认最新置顶。汪涛等的研究更为细化,认为体验型产品时间间隔近可以提高评论的有用性感知,而对于物质型产品,时间间隔近却降低评论的有用性感知[55]。由于曝光天数既不属于评论本身特征,也不反映评论者特征,本研究将其作为独立控制变量,假设认为:
H2:评论曝光天数对评论有用性存在显著正相关。
有用性是指评论的效价(valence),以旅游网站的有用投票数为指标[7],或者问卷调查中的有用性感知[33],其中最为普遍的测量方式是计算评论获得的有用投票数[14]。一些研究为了避免个别过高有用投票对总体结果的回归效果,使用了有用性投票数除以网站评论有用性总投票数作为代理指标[32]。基于信息采纳理论模型,结合以往研究提出的影响因素,并考虑了去哪儿网提供的数据维度,本文建立酒店在线评论的有用性模式,见图1。
图1 在线评论有用性模型
2 研究设计
2.1 数据收集
去哪儿网(www.qunar.com)是中国领先的旅游搜索引擎,提供旅游产品和服务搜索、预订和在线评论功能。去哪儿网每月访问人数均超过1亿人次,人均单日访问次数均高于其他旅游网站,每月通过去哪儿网App预订产品和服务的次数超过16 万人次②。去哪儿网用户每次预订酒店都会对比至少5家同类酒店,对每家酒店浏览至少5篇在线评论。本文选择了去哪儿网在北京、广州、成都、西安、杭州和珠海6个城市中评论热度最高的18家酒店(每个酒店评论数量均在1 000条以上),通过八爪鱼软件和人工补录的方式,删除那些没有实质性内容、重复评论或疑似水军评论后,共计得到2 300条包含研究所需维度的在线评论及评论者相关信息。其中,八爪鱼软件可以直接抓取的数据包括评论的内容、评论者身份、头衔等文字信息和评分等级、阅读量、有用性投票数、评论者发表过的评论数、关注去哪儿网的人数量、去哪儿网上粉丝的数量等定量数据。为弥补软件自动抓取信息的不全,课题组人工补录了每条评论的图片数量、评分和评论者的专家点评数。此外,课题组也根据设定的评分标准对部分变量人工赋值,见表1。
表1 变量描述说明
2.2 研究变量
如表1所示,本研究涉及12个变量,包括1个因变量、10 个自变量和1 个控制变量。其中,评论的曝光天数、评论的长度、评论的图片数、评论的阅读量、内向中心度、外向中心度和经验水平为直接获取数据;评论内容的全面性、评论情感倾向、评论的极端性和权威性为根据相应标准和等级人工赋值。目前,大多数旅游网站如携程、去哪儿都设置了评论的评分功能,浏览者可以对评论进行有用性投票。例如,去哪儿网在每条评论之后设置了评论的有用性按钮,浏览者阅读评论后可以做出有用性投票。为避免个别评论投票数过高导致有用性指标量级差太大,考虑到去哪儿网并未提供总投票数,故本文采用该评论有用性投票数除以网站评论最高的有用性投票数作为代理指标。
3 结果分析
3.1 描述性统计与相关性分析
效度分析中,KMO 值为0.741,P值为0.000,表明所有数据具有可靠的内容效度。由于各个变量分别采用实际数值(连续变量)、二元虚拟变量(1或0)和等序变量(1-5或1-7),需要采取不同的量化方式加以无量纲化,降低数据量级对结果的影响。根据李玲玉等提出的无量纲化方法选择三原则,即变异性、差异性和稳定性[56],评论的全面性、评论情感倾向和评论者等级基于原始数据的均值和标准差进行标准化(Z-score法);评论曝光天数、评论的长度、评论图片数、评论阅读量、内向中心度、外向中心度和评论者经验对原始数据进行线性变换,即离差标准化(Min-Max法),部分缺失值采取均值法补充;所有虚拟变量则采用实际数值。变量描述统计和自变量的相关系数矩阵见表2,其中均值和标准差仍用原始数据。
表2 变量描述性统计和自变量的相关系数矩阵
根据表2可知,双尾皮尔森相关性检验结果表明,55个相关系数中,42个低于0.4,只有9个高于0.5,且自变量的单位特征根均不等于0,条件指数数值均低于30,膨胀因子均低于10。根据Leeflang 等的标准[57],表明自变量间不存在多重共线性问题。从均值和标准差结果看,有用性的均值很低,投票数仅为0.079 3次。根据原始数据分析,在2 300条评论中,认为有用的为439条,仅占19.09%;其中大多数评论仅获得5次以下的有用性投票,最高的也就104次。评论的长度和阅读量均值分别为88.29 个字符和46.78次,但各条评论的长度和阅读量差异较大。对比阅读量和投票数的均值可知,大多数阅读者不会对评论投票,只有当评论非常有用时才会给予有用投票。没有获得有用投票的评论并非完全无用,而是它不够有用。
3.2 多元线性回归分析
为了更好地比较每一个评论特征与评论者特征变量和控制变量(评论曝光天数)对因变量有用性解释程度,本文进行了5组线性回归模型操作:(1)模型一仅放入控制变量评论曝光天数;(2)模型二放入了除评论图片数以外的所有评论特征变量和控制变量;(3)模型三放入所有评论特征变量和控制变量;(4)模型四放入所有评论者特征变量和控制变量;(5)模型五放入所有变量,上述5组回归模型结果见表3。
表3 多元线性回归结果
由表3可知,评论曝光天数对评论有用性具有显著的正向作用(B=0.070,t=14.451),评论曝光时间越长,越有用。此结果与Li等的研究一致[54],但与卓四清和冯永洲的研究相反。卓四清等人的研究认为评论暴露的时间越长,其后续获得有用性投票会越少[7];随着时间的推移,评论有用性呈现出衰减的状态[1]。事实上,这与近年来旅游网站置顶热门评论和专家评论有关。这导致部分曝光的热门帖获得有效投票的机会增加,因而有用性增强。少数热门评论长期占据显著位置,获得更高投票。
模型二和模型三表明,评论的图片数对评论的有用性产生显著的正向影响,图片越多、越有效,模型的解释力也上升。与此同时,评论图片数与评论的长度具有一定的替代效应,模型二中未考虑评论图片数时,评论的长度对有效性产生积极正向作用。当模型三纳入评论图片数时,评论的长度对有用性影响系数变小,可以判定评论图片数一定程度上代替了评论的长度对有用性的影响。
仅从模型三可知,在所有评论特征的变量中,除了评论的极端性外,评论的长度、评论的全面性、评论阅读量和评论图片数对有用性具有显著正向作用,评论的情感性倾向呈现显著负向作用。这说明,评论越长、评论的内容越全面,或评论阅读量越高,抑或评论图片数越多,评论有用性越高;而评论的情感倾向越趋于正面,评论的有用性越低。与积极乐观的评论相比,人们更倾向于认为那些表达负面情感的评论是真实有用的,而不是“网络水军”的“灌水”。
模型四和模型一表明,增加所有评论者特征变量后,模型的解释力上升。除评论者经验之外,其余评论者特征变量对有用性存在不同程度的显著影响,其中内向中心度和评论者等级存在显著的正向影响,而评论者经验存在微弱的负向影响。这说明,人们更愿意相信那些等级较高、粉丝数量较多的评论者做出的评论,而认为那些评论太多的评论者所发表的评论更没用。阅读者可能认为那些经常发表评论的人是“网络水军”。
模型五表明,在同时考虑控制变量与评论特征和评论者特征时,除评论的极端性和评论者经验外,其余变量均对有用性产生不同程度的显著影响,其中评论曝光天数、评论的长度、评论的全面性、评论阅读量、评论图片数、内向中心度和评论者等级呈现显著正向影响,而评论情感倾向和外向中心度具有显著的负向影响。评论者经验具有负向影响,但显著性较弱。评论的极端性具有较弱的相关系数和较弱的显著性,且在模型二和模型三中均不显著,故可判定为影响不显著。
从模型三、模型四和模型五的结果看,评论特征变量对有用性的解释力大于评论者特征变量。这说明,相比于评论者,人们在判定评论的有用性时,更关注评论本身。
4 结论与讨论
本文通过多元线性回归进行实证分析,在以往在线评论研究的基础上,重新检验了影响酒店在线评论有用性的因素及其作用机制,具体的理论贡献有3个方面:
第一,建立了比早期研究更为全面科学的评估模型。与卓四清和冯永洲的6个变量模型[7]、Liu等的10个变量模型[9]以及张艳辉等的7变量模型[16]相比,本文建立的有用性评价概念模型(图1)涉及3 个维度的11个变量。同时,采纳Filieri等研究的结论[2],把曝光天数作为控制变量来分析,使得分析结果更符合实际,更为全面地解释了评论有用性的影响机制。
第二,为消费者如何识别评论有用性提供了新的理解和实证论据。评论特征因素对评论有用性的影响总体大于评论者特征因素,消费者更关注评论本身,而非评论者。评论的长度、评论的全面性、评论阅读量、评论图片数、内向中心度和评论者等级对有用性呈现显著正向影响,而评论情感倾向和外向中心度具有显著的负向影响。然而,评论者经验对评论有用性的负向影响微弱,评论的极端性对评论有用性并未产生显著影响,见表4。
表4 假设检验结果
第三,研究结果证明了阅读量与有用性的差异,更高的阅读量并不代表更有用。早期研究使用阅读量表征“有用性”,或者使用阅读量作为重要变量的做法需要持慎重态度[23,25],因为阅读量并不能反映阅读者对它的兴趣或价值判断。本研究表明,有用投票率是很低的(阅读量中只有7.93%的有用投票率),类似的情况在其他网站也一样[10]。阅读者只有在认为非常有用的情况下才会投票,是理性分析后做出的选择。实证结果表明,经验丰富的评论者所做的评论和极端评论都容易博得眼球,增加阅读量[36-38],这些评论往往被阅读者认为“水份”很大,并不表示有用(见表4)。
网站不断改善,酒店也在更新信息的供给方式,网络“水军”可能“魔高一丈”,但消费者也在进步,旅游研究不能忽视消费者的自我成长来单方面讨论评论的供给。旅游在线评论的有用性应该基于一个动态的共变过程来研究。本研究与先前研究所呈现的结果差异可能不是地域间、网络平台间或者群体间的差异,而是时间上的差异。早期的在线评论研究表明,评论者的经验、等级、中心度等特征对阅读者判断有用性影响很大[45,48],然而随着网络“水军”的出现,消费者对评论者特征的信任度下降,转而更关注评论信息特征。在所有评论信息特征中,“有图有真相”[42-43]、“越长越可信”[31]、“极端好评或差评最可信”等信条曾被认可[36-39],然而信息供给方也在这方面“灌水”,长评论的有用性已经被质疑[2],本文也证明了评论的极端性是无用的。
旅游网站和酒店应该更注重评论质量的提升,而非花费太多资金用于邀请专家或职业评论人来做评论。在有限的时间里,阅读者很少阅读一个酒店的全部评论,无论评论长短或极端,他们只会关注自己感兴趣的部分。旅游网站应该建立多元评论平台,提供各种长度、内容和情感倾向的评论,以满足不同阅读者的关切。旅游网站也可以进一步优化评论检索功能,提供内容维度的检索,以便阅读者在海量评论中找到自己感兴趣的内容。操纵评论可能在短期内能够达到营销目的,但却可能是杀鸡取卵,最终损害消费者对酒店评论的信任。在一个信息分享、共同成长的网络社会中,消费者的理性和经验也在提高、增加,那些长期保持信息真实的旅游网站和酒店将最终获得消费者的有用评价。未来的研究可以进一步探讨消费者自我成长与在线评论有用性之间的关系。
注释
①中国互联网络信息中心.中国互联网络发展状况统计报告.北京,2020年4月28日。
②艾瑞咨询研究院.2016年去哪儿用户媒体价值研究报告.2016年10月。