一星即差评？评论效价对酒店评论有用性的影响：一项混合方法研究

2023-05-12鄢慧丽张小浩

旅游科学 2023年2期

鄢慧丽张小浩熊浩

（1.海南大学旅游学院，海南海口 570228；2.海南大学管理学院，海南海口 570228）

0 引言

在线评论作为网络口碑传播的一种特殊形式，对减少信息不对称性，辅助消费者决策起着重要作用（Muritala et al.，2020）。尤其在以体验型商品为主的酒店业，在线评论对消费者的产品评估、信息采纳和购买意愿存在显著影响（Yang et al.，2021；Li et al.，2020；Ismagilova et al.，2019），同时也与酒店的销量和收入息息相关（Ai et al.，2019；Phillips et al.，2017）。然而，由于在线平台缺乏信息审核机制，消费者可以随意地发表评论，从而导致评论质量参差不齐。为帮助消费者从海量评论中筛选出有用信息，各大平台推出有用性投票功能。当评论的有用票数越高，对消费者预订决策的参考价值越大。在此背景下，探究什么样的评论更有用成为营销研究的热点问题（史达等，2020；Chatterjee，2020；Hu et al.，2021）。

在众多影响评论有用性的因素中，评论效价（review valence）一直是研究者们研究的重点（Filieri et al.，2021；Luo et al.，2021）。它被定义为评论的正负情感极性，可分为正面评论和负面评论（Purnawirawan et al.，2015）。以往研究多采用星级评分对评论效价进行测量，但并未得出一致性结论（Liu et al.，2015；Srivastava et al.，2019）。一些研究认为正面评论提供的积极信息符合消费者在决策前对产品的预期和偏好，因此比负面评论更有用（Luo et al.，2021；Liu et al.，2015）；而一些研究认为负面评论包含更多的诊断性信息，可以帮助消费者规避潜在的风险，因此比正面评论更有用（Filieri et al.，2021；Srivastava et al.，2019）。本文认为造成结论不一致的原因可能在于：仅以星级评分来划分正面评论和负面评论，而不考虑评论内容的情感极性，存在一定的局限性。相关研究发现正面评论的内容并不都是积极的（李琪等，2014），当消费者对购物体验不满时，即使给出了正面评分，也有可能发表消极的评论内容（陶晓波，2013）。反之，负面评论的内容也不一定都是消极的，较低的评分可能只是因为产品体验没有达到消费者的心理预期。此时，正面评论和负面评论之间的界限就变得较为模糊，因此仅采用星级评分对评论效价进行划分，可能会导致研究结论不一致的情况发生。鉴于此，本文采用更严谨的测量方法，通过构建酒店领域情感词典，计算每条评论的情感强度值，当评论内容的情感强度值为负，且评分为一星或二星时，才被划分为负面评论；相应地，当情感强度值为正，且评论为四星或五星时，则被划分为正面评论，以期得到更为可靠的结论。

本文还考虑了情感强度的调节作用。现有研究中，除了将评论情感简单划分为正负两种效价外，一些研究者还关注评论的情感强度问题。例如，Li等（2020）认为同样是负面情感，相较于愤怒情绪，焦虑情绪对评论有用性的影响更大。蔡淑琴等（2017）以手机评论为例，证实强负面情感负向影响评论有用性，而中等负面情感显著增强评论有用性。上述研究表明，不同强度的评论情感对评论有用性的影响存在显著差异。同样地，在酒店评论中，“房间异味很重”与“房间有些异味”都是对房间异味这一负面属性的描述，但情感强度明显不同，进而对消费者产生的影响可能存在差异。基于此，本文引入情感强度作为调节变量，在厘清“哪种评论更有用”的基础上，进一步探讨评论效价对评论有用性影响的边界条件。

此外，前景理论认为个体在决策过程中对损失的敏感程度远高于对收益的敏感程度（Tversky et al.，1992），而消费者购买决策本质上是一种对风险的承受行为（Bauer，1960；Wang et al.，2019），因此感知风险成了理解评论效价作用机制的关键，即当消费者进行决策时，如果感知风险存在，则更加注重并倾向于规避感知的风险和损失，进而影响消费者的行为。鉴于此，本文引入感知风险作为中介变量，以揭示评论效价对消费者感知评论有用性的心理传导机制。

综上，本文利用大数据分析和情景实验的混合方法对以下问题进行探讨：（1）研究一：利用网络爬虫挖掘酒店评论数据，并构建酒店领域的情感词典，计算评论的情感强度，对评论效价进行更严谨地划分，初步探讨评论效价对评论有用性的影响，以及情感强度在评论效价对评论有用性影响关系中的调节作用；（2）研究二：通过实验法验证感知风险是否在评论效价与评论有用性的影响关系中起中介作用，以及情感强度对上述中介路径的调节作用。本文不仅有助于厘清关于“正面评论还是负面评论更有用”的分歧，揭示评论效价对评论有用性的作用机制，还为大数据研究提供了一定的方法论启示，也对酒店在线平台评论管理具有重要的实践价值。

1 文献综述与理论基础

1.1 在线评论有用性

1.1.1 评论有用性的定义及测量

Chatterjee（2001）首次定义了在线评论有用性（review usefulness）这一概念，用于衡量消费者对在线评论信息的采纳程度和感知价值。Mudambi等（2010）认为评论有用性是指消费者在阅读评论过程中，对评论的价值衡量和对评论信息采纳的意愿。高静等（2016）将评论有用性定义为，用户浏览在线评论时感知到其在多大程度上为自己提供了帮助。综上，研究者们对评论有用性的界定较为一致，因此本文结合酒店预订情境，将评论有用性定义为：消费者感知酒店评论帮助其了解产品信息，减少购买风险和不确定性，进而作出购买决策的有用性程度。

由于在线平台缺乏信息审核机制，消费者可以随意地发表评论，从而导致评论质量参差不齐。为帮助消费者从海量评论中筛选出有用信息，各大在线平台，如Amazon、淘宝、携程等网站均推出了有用性投票功能，允许消费者在浏览评论时对感知有用的评论进行点赞，因此评论获得的有用票数常被用于衡量评论有用性（Chatterjee，2020；Hu et al.，2021；Srivastava et al.，2019）。此外，一些研究还利用成熟量表在问卷调研或情景实验中对评论有用性进行测量（任小静等，2019；Hong et al.，2020；Ismagilova et al.，2020）。本文研究一的研究对象为去哪儿旅行网的酒店评论，故在后续数据处理时，我们利用评论获得有用票数对评论有用性进行测量；研究二为情景实验研究，我们利用成熟量表对评论有用性进行测量。

1.1.2 评论有用性的影响因素

目前国内外关于评论有用性影响因素的研究大致可以分为评论内容特征和评论者特征两个维度。其中，评论内容特征包括评论效价、评论长度、评论可读性、评论图片等因素，而评论者特征包括评论者专业性、评论者类型等。例如，王亚妮等（2021）基于ELM模型从中心路径和边缘路径探讨了评论深度、评论极性、评论及时性和评论者专业性对评论有用性的影响。史达等（2020）将评论有用性的影响因素分为启发式线索和系统式线索，考察了评论图片、评论时间、评论者特征、评论情感等对评论有用性的影响。Liang等（2019）则证实了评论极端性、评论可读性、评论者信息披露等因素对评论有用性的影响。

综上，现有关于评论有用性影响因素的研究比较丰富，在评论效价对评论有用性的影响上并未得出一致性结论，且相关研究囿于二手数据回归分析的局限性，无法给出评论效价影响评论有用性的作用机制的解释。另外，对评论效价的量化研究大多仅利用星级评分，没有考虑评论内容自身的情感极性，因此在评论效价的测量方式上仍然存在较大的改进空间。

1.2 评论效价

在众多影响评论有用性的因素中，评论效价一直是研究者们研究的重点。Purnawirawan等（2012）将评论效价定义为评论的情感极性，可分为正面评论、负面评论和中性评论。其中，正面评论是对产品或服务的积极评价，反之负面评论是对产品或服务的消极评价，而中性评论是指不带任何感情色彩的评价。由于正负面评论直接反映消费者对产品的态度，相较于中性评论而言，对消费者更有说服力（Forman et al.，2008），因此在以往研究中，研究者们对评论效价的界定较为一致，即评论的正负情感方向，而不考虑中性评论，以此来考察评论效价对消费者行为的影响。例如：杜晓梦等（2015）将评论效价划分为正面评论和负面评论，考察其对新产品在线评论有用性的影响。张军等（2018）通过两个实验证实了评论效价（正面评论/负面评论）对出游意向的影响。Purnawirawan等（2015）则探讨了正面和负面两种效价对评论有用性和产品态度的影响。因此，本文将沿用这一定义，将评论效价划分为负面评论和正面评论，探讨其对酒店评论有用性的影响。

此外，对评论效价的测量方式也是学界关注的重点之一。以往研究主要是利用星级评分来衡量评论效价，即用一星或二星表征负面效价，四星或五星表征正面效价（Hong et al.，2020；De Pelsmacker et al.，2018）。尽管用星级评分量化评论效价的方式直观易行，但精确性不足，因此研究者们开始转向文本分析方法。例如，Srivastava等（2019）采用评论中的正面和负面词汇占比，更准确地衡量评论内容的情感极性。Chatterjee（2020）则利用EmoLex词典匹配评论中的情感词汇，计算评论的情感得分，证实了评论效价对评论有用性的负面影响。基于此，本文将同时考虑评论内容和星级评分的情感极性，通过构建基于酒店领域的专属情感词典，计算评论内容的情感得分，同时结合评论的星级评分，得出最终的评论效价。具体而言，当星级评分为一星或二星，且情感强度小于0时，才被划定为负面评论；而当星级评分为四星或五星，且情感强度大于0时，被划定为正面评论，以此更加准确地衡量评论效价。

1.3 前景理论与感知风险

前景理论（Prospect Theory）最早由Tversky等（1992）提出，并被广泛应用于心理学和行为科学领域，其关注个体在存在风险和不确定性情境下的决策过程。Tversky等（1992）发现，与将人视为完全理性并追求最大利益的期望效用理论不同，前景理论认为非理性因素在个体行为决策过程中起着重要作用，并总结出两条规律：一是个体在进行决策时，习惯性地选择规避风险，希望以较小的风险获得较大收益；二是个体对损失和收益的敏感程度不同，损失的痛苦要远远大于收益的快乐。据此，当消费者进行决策时，如果感知风险存在，则更加注重并倾向于规避感知的风险和损失，进而影响消费者行为。

感知风险（Percieved Risk）的概念最早由哈佛大学教授Bauer（1960）从心理学范畴引申到消费者行为，他认为消费者购买行为产生的后果是难以预测的，一旦没有达到预期，就有可能会造成不愉快的消费经历，因此消费者购买行为实际上是一种对风险的承受行为。一般认为，消费者的感知风险有不确定性和后果严重性两个来源（Bettman，1973）。前者是指消费者购买前主观感知不利后果出现的可能性；后者则是指不利结果导致损失的大小。在消费者行为研究领域，由于网购环境的虚拟性和匿名性，线上销售的方式大大减少了消费者评估、试用产品或服务的机会，进而导致消费者对产品和服务质量的认知缺陷，即不确定性。同时，在弱连接的人际关系和虚拟组织的交易关系中，即使是有经验的消费者，也会遇到欺诈、假货等无法预知的情况，即后果严重性（潘煜等，2010）。因此，本文将感知风险定义为消费者通过浏览酒店评论辅助决策时感知到可能会遭受损失的风险大小。

综上，前景理论和感知风险理论从消费者心理及行为的角度，解释了不确定性情境下消费者的感知风险及相应的规避行为。而在本研究情境中，消费者利用酒店评论辅助决策也是一次不确定情境下的风险承担行为，因此本文基于上述理论，引入感知风险作为中介变量，探讨评论效价影响评论有用性的作用机制。

2 研究假设与概念模型

2.1 评论效价对评论有用性的影响

现有关于评论效价对评论有用性影响的研究结论并不一致。一些研究认为正面评论提供的积极信息符合消费者在决策前对产品的预期和偏好，因此比负面评论更有用（Luo et al.，2021；Liu et al.，2015）。例如，Pan等（2011）发现评论效价对评论有用性存在显著正向影响，且这种“正面效应”在功能型商品中更加明显。Liu等（2015）也发现，评论的星级评分越高，评论有用性越强。而另一些研究认为，负面评论包含更多的诊断性信息，可以帮助消费者规避潜在的风险，因此比正面评论更有用（Filieri et al.，2021；Srivastava et al.，2019）。例如，Filieri等（2021）认为消费者可通过浏览负面评论增强对产品的感知风险，进而减小预期损失，因此，相较于正面评论，负面评论在消费者对商品质量进行评估和购买决策过程中的作用更大。Chen等（2013）基于归因理论，发现正面评论被更多地归因为评论者个人因素，而负面评论则被认为是产品自身因素引起的，因而负面评论有用性更高。任小静等（2019）则以平台认证型评论为研究对象，证实“负面偏见”效应依旧显著，即负面评论比正面评论更有用。

基于以上讨论，本文认为负面评论中提及酒店产品或服务的糟糕体验，降低了消费者的不确定性。同时，根据前景理论，消费者对损失的敏感程度要远远高于对收益的敏感程度（Tversky et al.，1992），而负面评论激发了消费者更强烈的情绪反应和风险意识（Mizerski，1982），因此，为规避潜在损失，消费者在决策时会给予负面评论更高的权重（任小静等，2019；Fiske，1980），进而认为负面评论更有用。另外，从众效应、网络刷单及好评返现等现象的存在（郑春东等，2015；徐兵等，2020），造成在线评论中正面评论的数量远远高于负面评论的数量，数量不多的负面评论反而获得了消费者更多的关注和信赖，进一步增强了负面评论有用性。因此，本文提出以下假设：

H1：评论效价对评论有用性存在显著的负向影响，即相较于正面评论，负面评论有用性更高。

2.2 感知风险的中介作用

酒店是一种典型的体验型商品，消费者在购买前很难准确评估入住后的预期收益（吕兴洋等，2018）。根据前景理论，消费者在不确定情境下对风险的敏感程度远高于对收益的敏感程度（Tversky et al.，1992），因此在决策时偏好于规避风险的保守策略（杜晓梦等，2015）。不确定性降低理论认为，当消费者无法预估潜在的收益时，会积极搜寻其他信息以减轻和消除这种不确定性（Berger et al.，1974）。由于评论效价直接反映消费者对酒店产品体验的主观情感，而对产品的好恶分别对应着消费者在进行购买决策时预估的收益和损失，因此消费者对正面评论和负面评论的感知风险存在差异。

具体而言，负面评论中可能包含消费者对产品功能和质量的负面评价，增强了消费者对于购买决策的感知风险。同时，研究发现负面评论会激发消费者更高的自我相关刺激，即消费者更倾向于在负面评论中寻找与自身负面体验相关的内容（王阳等，2018）。而心理学实验表明，人脑在加工高自我相关刺激时会投入更多的认知和控制加工资源，导致个体的感知风险加深（钟毅平等，2014）。因此，负面评论通过增强消费者的感知风险，帮助消费者规避潜在的损失，即消费者认为负面评论有用性更高。反之，正面评论很少提及酒店产品可能带来的不利后果，导致消费者的感知风险较小，因此认为正面评论有用性较低。也就是说，感知风险是消费者在浏览正负评论时是否采纳信息及评估信息有用性的关键因素，因此本文认为感知风险在评论效价与评论有用性之间起中介作用，并提出以下假设：

H2：感知风险在评论效价与评论有用性影响关系中起中介作用。

2.3 情感强度的调节作用

情感强度是指文本褒贬情感的强弱程度（郑丽娟等，2014），它常见于情感分析中，旨在对用户发表的带有不同情感倾向的评论、观点等文本数据进行强度测量。在情感分析早期，研究者对情感的分类局限于正面和负面的粗粒度二分法（Watson et al.，1985）。随着研究深入，研究者们认为将情感极性划分为正面和负面两个维度的做法过于片面，难以准确刻画评论者的真实情感，所以进一步细化了不同情感之间的关系（刘鲁川等，2020）。而情感强度是评论情感的基本特征，也是影响消费者态度和行为的重要因素。在不确定性较高的情境下，消费者受主观感知的影响，往往会采取诉诸情感的方式来处理信息（李宏等，2011），而评论中的情感表达必然存在强弱之分，因此对评论有用性的影响也存在差异。例如，Li等（2020）发现，同样是负面情绪，相较于焦虑情绪，愤怒情绪对评论有用性的影响更强。史达等（2020）利用机器学习方法进行情感分析，发现评论的负面程度越强，评论有用性越高。因此，本文在划分正面评论和负面评论的基础上，计算出每条评论的情感强度值，着重分析不同评论在情感表达上的强度差异，以及由此引起的对评论有用性影响的差异，从而厘清评论效价对评论有用性影响的边界条件。

在酒店预订情境下，负面评论中往往包含评论者对酒店产品或服务质量的不满，如“体验很糟糕”“与宣传严重不符”等内容。根据前景理论，消费者决策时对损失的敏感程度远远高于对收益的敏感程度（Tversky et al.，1992），因此消费者会格外留意负面评论反馈的问题，并相信这些问题确实存在，从而导致消费者无意识地放大负面评论的风险效应，忽略正面评论的推荐效应，进而做出风险规避行为。例如，宁连举等（2014）发现，在线评论的负面程度对感知风险存在显著的正向影响。王阳等（2018）认为负面评论的不确定性使消费者产生了认知失调感，从而增强了对产品的感知风险。本文认为，负面情感强度越高，消费者的感知风险就越强，为了避免潜在损失，消费者会给予负面评论更高的权重（任小静等，2019），进而认为负面评论更有用。反之，尽管正面评论描述了酒店产品或服务的正面评价，但由于负面评论在消费者预订决策中占有极高权重，因此正面情感强度高低对评论有用性的影响差异并不显著。基于此，本文提出以下假设：

H3：对于负面评论，情感强度越高，评论有用性越强。

H4：对于正面评论，情感强度高低对评论有用性的影响无明显差异。

2.4 有调节的中介作用

由前述可知，感知风险在评论效价与评论有用性之间起着中介作用，且情感强度对评论效价和评论有用性的影响关系具有调节作用。由此进一步推论，情感强度不仅可以调节评论效价对评论有用性的直接影响，还可以调节评论效价与评论有用性影响关系的中介路径，即对于负面评论，情感强度越强，消费者的感知风险越强，进而对评论有用性的感知越强。而对于正面评论，情感强度的高低对消费者的感知风险影响无明显差异，因此对评论有用性的影响也不显著。基于此，本文提出以下假设：

H5：负面评论的情感强度可通过增强消费者的感知风险，进而提高评论有用性。

H6：正面评论情感强度的高低对消费者的感知风险影响并不明显，从而对评论有用性的影响也不显著。

综上，本文的理论模型如图1所示。为验证该模型，本文将采用大数据回归分析（研究一）和情景实验（研究二）的混合研究方法，原因在于：尽管在去哪儿旅行网采集的二手数据具有较好的外部效度，反映了真实客观的消费者行为，但二手数据呈现的结果可能受到多个因素的影响，难以清晰地剥离各个因素的作用，导致研究的内部效度不足（吴继飞等，2019）。此外，二手数据的回归分析难以揭示评论效价对评论有用性的作用机制，而基于情景描述的实验研究优势在于能够对实验过程和诸多因素进行有效地控制，便于明确核心变量之间的因果关系，增强研究结论的内部效度（Podsakoff et al.，2019）。因此，本文将两种方法相结合，提升了研究结论的科学性和稳健性。

图1 有调节的中介模型

3 研究一：基于酒店评论大数据的实证分析

本研究通过采集去哪儿旅行网的酒店评论数据，构建酒店领域的情感词典，计算评论的情感强度，初步探讨评论效价对酒店评论有用性的影响（H1），并验证情感强度的调节效应（H3、H4）。之所以选择酒店作为研究对象，一是因为酒店作为体验型产品，关于酒店的评论是影响消费者感知风险和有用性的重要因素；二是因为酒店产品质量和体验评价有多个维度，情感内容较为丰富，有利于验证情感强度的调节作用。

3.1 数据来源

本研究利用自行开发的Java程序，历时9天，抓取了去哪儿旅行网上三亚市的458家三星级及以上酒店的519750条评论数据，所有评论数据均在2017年7月26日至2020年7月26日之间生成。采集的主要内容包括酒店评论总数、评论评分、评论有用票数、点评时间、评论文本、评论图片等。为减小样本噪声，本文首先剔除缺少正文内容、重复评论及非中文评论的样本，得到512035条评论；其次，为保证数据具备统计学意义，参考丁于思等（2014）的研究，本文剔除评论总数小于200的酒店样本，得到496352条评论；再次，本研究仅考察正面评论和负面评论的有用性，故删除样本中的三星评论，得到482698条评论；另外，考虑到评论中存在星级评分与评论内容情感极性不一致的评论（李琪等，2014），因此本文在进行情感分析后剔除该部分评论，得到478833条评论；最后，为保证回归结果的准确性，删除有用票数为0的评论（Filieri et al.，2021），最终共得到313家酒店的52107条评论作为有效样本。

3.2 研究变量

本研究的因变量为评论有用性，选择评论获得的有用票数进行表征（Chatterjee，2020；Hu et al.，2021；Srivastava et al.，2019）。自变量为评论效价，选择评分为一星或二星，同时情感强度小于0的评论作为负面评论，编码为0；选择评分为四星或五星，同时情感强度大于0的评论作为正面评论，编码为1。调节变量为情感强度，通过构建面向酒店评论领域的情感词典，利用Python计算每一条评论的情感强度值。此外，本研究还选取了评论深度、时间间隔和评论图片等可能影响评论有用性的因素作为控制变量（Hu et al.，2021；Srivastava et al.，2019；史达等，2020）。具体变量及测度指标见表1。

表1 变量测度指标

3.3 情感强度值计算

首先构建本文的情感词典，包含通用情感词典、专有情感词以及程度副词与否定词词典。以大连理工中文情感词汇本体库作为本文的基本情感词典，该词典是基于Ekman的六大类情感体系构建的，共分为7大类21小类情感，包含0（中性），1（正面），2（负面）三种情感倾向和1、3、5、7、9五种情感强度等级，共收录情感词27466个，其中褒义词11229个，贬义词10782个（徐琳宏等，2008）。为了根据词汇的情感强度值计算酒店评论的情感强度，本文将正面极性值记为1，负面极性值记为-1。

在特定的研究领域只通过基础情感词典识别评论中的情感词往往是不够的，因为不同领域中有着不同的情感特征词，比如酒店领域内的“隔音”“整洁”“好吃”等并不会出现在对电脑、衣服等商品的评价中。因此，本文利用Python中的Jieba分词工具对酒店评论文本进行分词和词性标注。Jieba支持中文分词、词性标注、关键词提取、加载自定义词典等多个功能，并被多次应用于中文文本挖掘与情感分析研究中，具有良好的可行性和通用性（张彬等，2020）。在经过筛选、整理后，得到酒店领域情感词典。该词典包含2156个情感词，其中褒义词1184个，贬义词972个。此外，本研究还参照唐晓波等（2016）的研究，构建了情感调整词典。情感调整词包括否定词和程度词，否定词的出现次数为奇数时会改变情感极性，程度词的出现则会改变情感强度。

在构建完酒店评论情感词典后，本文对评论文本进行情感计算以提取文本的情感倾向与强度。通过Python编写的文本分析程序，对评论文本进行分句与分词处理，获取特征词所包含情感词、否定词、程度副词对应的权重，评论中所有特征词情感强度数值之和，即该条评论的情感强度值。计算公式如下：

式（1）中，score为该评论的情感强度值，DegWeight为程度副词的权重，wordi为情感词Oi为否定词的个数。如果情感强度值大于0，则为正面情感极性；如果情感强度值小于0，则为负面情感极性。

3.4 回归模型构建

本研究因变量评论有用性的取值为评论获得的有用票数，属于计数变量，而非连续变量，且不呈正态分布，不满足普通最小二乘回归模型（OLS）的基本要求。对于计数变量，常见的回归模型有泊松回归模型和负二项回归模型，前者对于样本特征有特殊的强假设，即样本的均值和方差相等。而在本研究中，评论有用性的样本方差大于均值（方差为4.61，均值为2.43），存在一定的过度离势现象。负二项回归适用于因变量过度离散的回归分析，是泊松回归的扩展形式。因此，本文利用负二项回归模型进行实证研究。此外，本研究还将利用泊松回归模型进行重新估计，比较两种回归模型的拟合结果，以检验负二项回归模型的适用性和研究结论的稳健性。具体表达式如下：

式（2）中，Usefulness表示评论有用性，Valence表示评论效价，Emotion_intensity表示情感强度，Controls则表示控制变量，β为回归系数，δ为随机干扰项。

3.5 研究结果分析

3.5.1 描述性统计与相关性分析

本研究利用Stata 16.0对总样本进行描述性统计分析，结果如表2所示。因变量评论有用性的平均值为2.43，标准差为4.61，说明评论有用性的数据分布比较离散。自变量评论效价为二分变量，其样本均值为0.83，说明样本中大部分评论（83%）为正面评论。情感强度的均值为49.68，说明样本总体的情感倾向比较积极，且不同评论之间情感强度差值很大，因此在回归时，对其作对数化处理。控制变量中，评论图片的均值为0.58，说明有超过半数的评论是带有图片的。而评论深度和时间间隔等变量的极差也很大，在模型回归时也对其作对数化处理。

表2 描述性统计

如表3所示，本研究所有自变量相关系数的绝对值均在0.300以下，说明它们之间的相关关系很弱。为排除多重共线性的干扰，进一步对方差膨胀因子（VIF）分析后发现，VIF值介于1.26至2.47之间，小于临界值3.00，说明各自变量之间不存在多重共线性问题（O’brien，2007）。

表3 相关性分析

3.5.2 回归分析

本研究利用Stata16.0实现3个模型的回归分析，其中模型1只包含控制变量。首先，利用模型1对所有数据进行回归，验证评论效价对评论有用性的影响；其次，为验证情感强度对评论效价和评论有用性影响关系的调节作用，将所有评论数据划分为负面评论和正面评论2个子数据集，并通过模型2和模型3分别验证情感强度对负面评论有用性和正面评论有用性的影响；然后，通过调整模型回归方法，进一步检验研究结论的稳健性；最后，参考池毛毛等（2020）和李进华等（2018）的研究，利用泊松回归模型对负二项回归模型的模型1、模型2和模型3进行重新估计，并利用赤池信息量准则（AIC）和贝叶斯信息准则（BIC）对比负二项回归和泊松回归的拟合结果，当AIC、BIC值越小，模型拟合度越高（Akaike，1973；Schwarz，1978）。具体结果如表4所示。

表4 模型回归结果

在模型1中，评论效价对评论有用性存在显著的负向影响（β=-0.538，p＜0.001），即相较于正面评论，负面评论有用性更高，H1得到验证。控制变量中，评论深度、时间间隔和评论图片对评论有用性的影响均是正面且显著的，与已有研究结论相吻合（Hu et al.，2021；史达等，2020）。

在模型2中，对于负面评论情感强度，首先取其绝对值的对数再进行回归分析。结果显示，情感强度对负面评论有用性存在显著的正向影响（β=1.172，p＜0.001），即负面评论的情感强度越高，消费者对评论的感知有用性越强，H3得到验证。而模型3的回归结果显示，正面评论情感强度的高低对评论有用性的影响差异并不显著（β=0.080，p=0.247＞0.100），H4得到验证。

稳健性检验结果显示，泊松回归各个模型的AIC和BIC均小于负二项回归模型的结果，说明负二项回归更适合本研究。此外，在泊松回归模型中，尽管各个变量的回归系数大小与负二项回归结果略有差异，但它们的作用方向与负二项回归结果保持一致，说明本研究结果具有较好的稳健性。

3.6 结果讨论

研究一通过对去哪儿旅行网的酒店评论数据分析后发现，评论效价对评论有用性存在显著的负向影响，假设H1得到验证。同时，情感强度对上述关系起调节作用。具体而言，对于负面评论，情感强度越强，评论有用性越强，H3得到验证。对于正面评论，情感强度的高低对评论有用性的影响差异并不明显，H4得到验证。尽管本研究为假设H1、H3和H4提供了支持证据，且研究结论具有良好的外部效度，但无法完全排除一些干扰因素对结论的影响，也尚未检验评论效价对评论有用性影响的内在作用机制。因此，需要更为严谨的研究设计来弥补上述局限性。

4 研究二：基于情景实验数据的统计分析

本研究利用情景实验重复验证H1、H3和H4，以增强实验结果的稳健性，并在此基础上，重点考察评论效价对评论有用性影响的中介效应（H2），以及情感强度对中介路径的调节作用（H5、H6）。

4.1 实验设计

本实验采取2（评论效价：正面和负面）×2（情感强度：高和低）组间实验设计，形成正-强、正-弱、负-强、负-弱4组实验情景，实验参与人员被随机分配到上述4组情景中。被试为海南大学的在校大学生，之所以选择大学生作为被试，一是大学生闲暇时间较多，有一定的酒店预订经历，便于情景融入；二是大学生的人口统计特征具有一定的同质性，避免无关统计变量对实验的干扰；三是便于招募，收集数据方便。

4.2 实验材料和变量操纵

4.2.1 实验材料

为选择合适的刺激材料，本研究需要进行前测实验，以提高正式实验成功的概率。（1）前测1：选择20名被试并要求其想象在去哪儿旅行网预订酒店的情境；然后实验选取足够多的酒店评论呈现给被试，并要求其基于现实情境阅读这些评论；最后，要求被试填写阅读的评论数量。结果显示，被试在作出购买决定之前平均阅读3.1条评论，因此本文选取3条评论作为实验材料。（2）前测2：在去哪儿旅行网平台选取10条典型的正面评论（每条150字左右），评论内容主要包括舒适度、卫生和服务等属性的相关描述（Banerjee et al.，2019）。随后要求前测1中的被试回答“这条评论的正面情感很强烈”（“1”表示“完全不同意”，“7”表示完全同意），选取3条均分最高的正面评论作为实验材料。另外，还需要基于真实的网页排版对实验材料进行模拟，比如各组评论网页的大小、排版、色调需保持一致，酒店名称使用统一的虚拟品牌，且包含相同的基本信息，如客房设施、餐饮、交通等。最后，为排除外部因素对实验结果的干扰，对评论中的无关要素进行删除，如评论者ID、评论者等级、入住时间等。

4.2.2 变量操纵

实验需要对评论效价和情感强度进行操纵。首先，对评论效价进行操纵，参考Chen等（2008）的研究，实验选取前测2中的3条均分最高的正面评论，对评论中表明评论者态度的形容词进行词义反转，同时尽量排除语言风格和文字数量等因素的干扰，如“环境很好”改为“环境很差”，同时相应地将其调整为1星负面评论。其次对情感强度进行操纵，对于“正-强”和“正-弱”两组，在保证情感极性不变的情况下，实验对评论中出现的情感特征词进行替换，比如将“太棒了”替换成“还可以”，同时将星级评分由5星替换成4星；同样，对“负-强”和“负-弱”两组也进行类似的替换，比如将“极差”替换为“不好”，同时将星级评分由1星替换成2星。

4.3 量表设计

本实验需要测量的变量包括评论有用性和感知风险，均采用现有文献中开发的成熟量表，并通过李克特7级量表进行打分，其中，“1”表示“非常不同意”，“7”表示“非常同意”。借鉴Park等（2009）和Ismagilova等（2020）的评论有用性量表，并结合实验具体情境，提出4个题项。根据Dai等（2014）的研究，感知风险一般可划分为经济风险、功能风险、安全风险、时间风险、社会风险和心理风险6个维度。本实验借鉴Ariffin等（2018）和Yang等（2016）的感知风险量表，并结合酒店具体情境和消费者行为特征，在表述上进行简单的修订，提出6个题项。

此外，为了确保题项更加贴近本研究的实验情景，首先，本文严格遵循问卷的修订程序，对英文题项进行翻译和回译；其次，邀请多名营销领域专家对语义不详、难以理解的测量题项进行审核和修订；最后，邀请海南大学67名MTA学生进行了试填。对问卷进行信度和效度检验时发现，感知风险的第5个题项“我的朋友或家人可能会因为我预订该酒店的错误决定而取笑我”的因子载荷系数小于0.5，因此删除该题项，最终的测量题项如表5所示。

表5 量表的测量题项

4.4 实验步骤

实验设定如下情景：“您正打算在网上预订酒店，于是在去哪儿旅行网上搜索了某酒店的基本属性信息以及在线评论信息。”然后分别向4组被试呈现不同的在线评论页面，在被试阅读完评论信息后，要求他们回答关于评论有用性和感知风险的测量题项，接着填写对评论效价和情感强度的感知作为操纵检验，最后填写被试者的人口统计信息。

4.5 实验结果

本实验利用SPSS 26.0软件进行数据处理和分析，主要内容包括独立样本T检验、可靠性分析、因子分析以及回归分析。

4.5.1 样本特征和操纵检验

本实验共招募276名大学生作为实验对象，剔除不完整填写和规律性填写的问卷后，共得到232份有效样本，有效率达84.1%。其中男性100人，占比43.1%。性别（t=0.195，p=0.846＞0.050）、预订频率（F（3，228）=1.893，p=0.132＞0.050）变量对评论有用性无显著影响。

结果显示，M负面=2.82，M正面=5.11，t=-16.63，p＜0.001，评论效价差异水平显著；M低情感强度=3.13，M高情感强度=5.13，t=-12.05，p＜0.001，情感强度差异水平显著。因此，实验对评论效价和情感强度的操纵有效。

4.5.2 信度和效度检验

对问卷进行信度和效度检验，结果显示评论有用性和感知风险的Cronbach’sα系数分别为0.713和0.859，均大于0.700，说明问卷具有良好的信度。同时，评论有用性和感知风险量表的KMO值均在0.600以上，Bartlett球形检验结果显著，且各测量题项的因子载荷均大于0.700，C.R.值均大于0.700，AVE值均大于0.500，说明各变量具有良好的聚合效度。此外，各变量AVE值的均方根大于其他变量之间的相关系数，说明各变量之间具有良好的区分效度。

4.5.3 假设检验

首先，使用逐步回归的方法检验评论效价对评论有用性的影响，以及消费者对产品感知风险的中介作用，结果如表6所示。对感知风险进行回归发现，评论效价对感知风险存在显著的负向影响（β=-2.093，p＜0.001），即相对于正面评论，消费者对负面评论的感知风险更高。对评论有用性进行回归，结果表明，评论效价对评论有用性也存在显著的负向影响（β=-1.480，p＜0.001），即主效应显著，H1得到验证。在主效应检验中加入感知风险进行回归，结果显示评论效价（β=-0.862，p＜0.001）和感知风险（β=0.298，p＜0.001）对评论有用性的影响均显著。相较于方程2，方程3中加入感知风险后评论效价主效应回归系数的绝对值更小，说明感知风险的中介效应显著，且为部分中介效应，H2得到验证。

表6 感知风险的中介作用

其次，对样本数据进行多因素ANOVA分析，以检验情感强度是否对评论效价与评论有用性的直接关系起调节作用，结果如表7所示。评论效价对评论有用性的影响存在显著性差异（M负面=4.838，M正面=3.670，F（1，228）=565.601，p=0.000＜0.050），即消费者对负面评论的感知有用性高于正面评论，H1再次得到验证。评论效价和情感强度之间存在显著的交互作用（F（1，228）=94.874，p=0.000＜0.050），即情感强度会调节评论效价对评论有用性的影响，二者的交互作用如图2所示。对于负面评论，情感强度高低对评论有用性的影响差异显著（M负-高=5.26，M负-低=4.41，p=0.000＜0.050），即负面评论的情感强度越高，消费者的感知有用性越强，H3再次得到验证。而对于正面评论，尽管低情感强度的评论有用性略高于高情感强度的评论有用性，但差异并不明显（M正-高=3.62，M正-低=3.72，p=0.174＞0.050），H5再次得到验证。

图2 评论效价和情感强度交互作用对评论有用性的影响

表7 评论效价和情感强度对评论有用性的影响

最后，尽管实验已证实评论效价对评论有用性存在直接影响，且情感强度在这一直接路径中起调节作用。同时，实验也证实了感知风险中介了评论效价与评论有用性之间的关系，但情感强度对这一中介路径是否起调节作用还无从得知。因此，本研究采用Hayes（2013）开发的Process程序中的模型7进行有调节的中介效应分析。由于情感强度对正面评论和负面评论调节效应的方向不同，因此本文参考任小静等（2019）的变量设置方法，将情感强度设为自变量，低情感强度取值为0，高情感强度取值为1；将评论效价设置为调节变量，负面评论取值为0，正面评论取值为1；分别将感知风险和评论有用性设置为中介变量和因变量。实验采用偏差校正的Boostrap方法估计95%的置信区间，若区间不包含0，则说明情感强度在评论效价→感知风险→评论有用性这一中介路径中起调节作用。另外，Hayes（2015）进一步提出检验有调节的中介效应的判定指标Index，该方法相较于传统分组条件间接效应检验优势明显。

检验结果表明，评论效价与情感强度的交互项对感知风险的影响显著（β=-0.816，p＜0.001），说明情感强度越高，评论效价对感知风险的负面影响越强。进一步由Process程序得到在调节变量不同取值下的中介效应，结果如表8所示。对于负面评论，情感强度越高，消费者对评论的感知风险越强，进而对评论的感知有用性越强（95%置信区间：LLCI=0.31，ULCI=0.48，不包括0），且中介效应值为0.39，H4得到验证。而对于正面评论，情感强度高低对消费者感知风险的影响差异不显著（95%置信区间：LLCI=-0.11，ULCI=0.02，包括0），即情感强度不能通过提高消费者的感知风险进而提高正面评论的感知有用性，H6得到验证。此外，有调节的中介效应的判定指标Index为-0.44，95%的置信区间为［-0.55，-0.33］，不包括0，再次说明上述有调节的中介效应是显著的。

表8 有条件的间接效应分析

4.6 结果讨论

本实验弥补了研究一中大数据分析的不足，通过情景实验方法，进一步检验并揭示了评论效价影响评论有用性的作用机制和边界条件；再次检验了评价效价主效应，即评论效价负向影响评论有用性（H1），也再次验证了情感强度在评论效价与评论有用性影响关系中起调节作用（H3和H4）。另外，本实验证实了感知风险在评论效价与评论有用性关系中的中介作用（H2），以及情感强度对上述中介作用的调节效应（H5和H6）。具体而言，评论效价还会通过影响消费者对产品的感知风险进而对评论有用性产生影响。同时，情感强度在这一过程中起着调节作用，即对于负面评论，情感强度越高，消费者对产品的感知风险越强，进而对评论有用性的感知越强。而对于正面评论，由于情感强度的高低对消费者感知风险的影响差异并不明显，因此对评论有用性的影响也不显著。

5 结论与讨论

5.1 研究结论

本研究构建了一个有调节的中介模型，并通过大数据分析和情景实验的混合方法考察了评论效价对评论有用性的影响，以及感知风险的中介作用和情感强度的调节作用。具体结论如下：

（1）评论效价对评论有用性存在显著的负向影响，即相较于正面评论，负面评论更有用。尽管在线评论中的“负面偏见”效应已被多次证实（Chen et al.，2013；任小静等，2019），但仍有研究者通过实证发现正面评论有用性比负面评论有用性更高（Luo et al.，2021；Liu et al.，2015）。本文认为出现矛盾性结论的原因可能在于对评论效价定义得不够严谨，认为评论评分与评论内容的情感极性是一致的，而忽视了“好评下的差评”以及同一条评论中同时包含负面和正面评价的情况（李琪等，2014；石文华等，2018）。因此，本文通过构建酒店领域的情感词典，计算每条评论内容的情感极性，从评论评分和情感极性两个方面对评论效价进行重新定义，证实了评论效价对评论有用性存在负向影响。

（2）感知风险在评论效价与评论有用性的影响关系中起中介作用，即评论效价不仅可以直接影响评论有用性，也可以通过感知风险的中介效应影响评论有用性。前景理论认为消费者在不确定情境下对损失的敏感程度要远高于对收益的敏感程度（Tversky et al.，1992），因此在决策时偏好于规避风险的保守策略（杜晓梦等，2015）。由于评论效价直接反映消费者对酒店产品体验的主观情感，而对产品的好恶分别对应着消费者在进行购买决策时预估的收益和损失，因此评论效价会通过影响消费者的感知风险，进而影响评论有用性。

（3）情感强度调节了评论效价对评论有用性的主效应和中介效应。具体而言，对于负面评论，情感强度越高，评论有用性越高。对于正面评论，情感强度高低对评论有用性的影响无明显差异。进一步地，本文检验了情感强度对感知风险中介效应的调节作用。结果显示，对于负面评论，情感强度越高，消费者对酒店产品的感知风险越强，评论有用性也就越强；而对于正面评论，由于情感强度高低对消费者感知风险的影响差异并不明显，因此对评论有用性的影响也不显著。究其原因，负面评论中包含大量对酒店产品的负面评价，而消费者对损失的敏感程度远远高于对收益的敏感程度，因此在决策时会给予负面评论极高的权重，导致无意识地放大负面评论的风险效应，进而做出风险规避行为，即负面情感强度越高，消费者的感知风险就越强，进而对负面评论有用性的感知越强。反之，尽管正面评论描述了酒店产品或服务的正面评价，但由于负面评论在消费者预订决策中占有极高权重，因此负面评论大大削弱了不同情感强度引起的评论有用性差异，即情感强度高低对评论有用性的影响并不明显。

5.2 理论贡献

第一，考虑了评论内容的情感极性及强度，在自变量的判定上更加严谨。已有研究通常以星级评分将评论划分为正、负两种效价，而此类通过单一指标反映情感极性的数字评级方法，难以准确衡量评论的真实情感，因此本文通过构建面向酒店领域的情感词典，得出每一条评论的情感极性及强度，提升了研究结论的科学性和可靠性。在此基础上，本文还考察了情感强度的调节作用，进一步细化不同情感之间的差异，厘清了不同情感强度下评论效价对评论有用性的影响的边界条件，拓宽了在线评论情感研究的广度和深度，也为酒店大数据情感分析提供了一定的方法论启示。

第二，深化了对评论效价影响机制的理解。以往研究重点关注了评论效价对评论有用性的直接影响，忽略了两者之间可能存在的中介路径。同时，关于评论效价与评论有用性之间的影响关系还存在“负面偏见”和“正面偏见”的分歧。而本文基于前景理论和感知风险理论，引入感知风险作为中介变量，证实了评论效价不仅可以直接影响评论有用性，还可以通过消费者的感知风险，对评论有用性产生间接影响。研究结论对评论效价的影响机制给出了可靠的证据，也对现有研究中存在的分歧给出了可能的解释。

第三，研究方法的多元化提升了结论的稳健性。以往对评论效价的相关研究局限于大数据分析或情景实验的单一方法。而本文将大数据分析与情景实验相结合，通过两项研究验证了本文所提假设。两项研究的结果既有一致部分，如两项研究均证实了情感强度对评论效价主效应的调节作用，进一步强化了研究结果的稳健性；同时又相互补充，尤其是研究二通过情景实验方法验证了感知风险的中介效应，从而弥补了研究一难以明确评论效价与评论有用性的强因果关系且无法解释评论效价主效应的影响机制的不足。

5.3 管理启示

尽管在线评论中正面评论的数量远高于负面评论，但在实际决策中，出于风险规避的心理，消费者会给予负面评论更高的权重。且负面评论的情感强度越高，消费者对酒店产品的感知风险越强，对评论有用性的影响也越强。因此，酒店应高度重视对负面口碑的及时管理甚至是危机管理。

第一，做好补救措施。服务补救悖论认为，相较于未遭遇服务失败的消费者，遭遇服务失误并获得有效服务补救的消费者对商家有更高的满意度，并倾向于向其他消费者进行正面口碑传播（Krishna et al.，2014）。因此，在面对负面评论时，尤其当消费者的措辞较为激烈时，酒店应第一时间作出回应，积极主动地与消费者沟通，解释服务失败的原因，补偿服务失败造成的损失，以安抚消费者的不满情绪，防止消费者的直接抱怨演变成酒店形象的公关危机。

第二，倾听消费者的反馈。酒店应认识到消费者的负面评价可以帮助酒店发现管理缺陷，因此与消费者进行沟通时要积极听取他们的意见，针对酒店产品服务中存在的问题，向消费者传达酒店持续改进质量的强烈意愿。例如，明确酒店顾客投诉的赔付承诺，全面展示酒店产品的真实信息，完善在线酒店预订的信用和支付体系，从而降低消费者在经济、产品与服务、安全等方面的感知风险，赢得消费者的青睐。

第三，鼓励消费者追加评论，尤其是获得良好消费体验及得到有效补救的消费者，这样不仅可以增加消费者与酒店之间的良性互动，也可以向潜在消费者传达酒店以顾客为中心的经营理念，在遇到服务失败的情境时，酒店不仅不会逃避责任，反而是主动与消费者进行协商，必要时进行补偿。通过展示成功的服务案例以及补救案例，消除潜在消费者的后顾之忧。

5.4 局限性及未来研究方向

首先，图片是在线评论的重要信息载体，现有研究仅从图片有无、图片数量等维度探讨其对评论有用性的影响（史达等，2020；张艳辉等，2017），仅有邓宁等（2019）利用深度学习对图片内容和情感进行了解析，因此后续研究既可单独考察图片情感对在线评论有用性的影响，也可就评论文本情感与图片情感是否一致展开研究。其次，本文在自变量的选取上剔除了评论评分与评论内容情感极性不一致的评论，未来可重点考察当评论评分与情感极性矛盾时，对在线评论有用性的影响及作用机制进行研究。最后，本文仅选取感知风险作为中介变量，后续研究可从新的理论视角，探讨评论效价影响在线评论有用性的其他中介机制。