用户评论标签摘要系统的有效性研究

2016-08-17刘景方李嘉张朋柱刘璇

系统管理学报 2016年4期

刘景方，李嘉，张朋柱，刘璇

（1.上海大学管理学院，上海 200044；2.华东理工大学商学院，上海 200237；3.上海交通大学安泰经济与管理学院，上海 200030）

用户在线评论已经成为影响消费者购物决策的一个重要因素。与传统媒体（如电视、报纸等）中厂商产生的内容相比，消费者认为用户生成的内容更可信[1]。根据Neilsen 的调研[1]，91%的受访者认为他们在购买一项新产品或服务时，会在网上查看相关的评论、博客以及其他用户产生的内容；46%的受访者认为网络口碑会影响他们的购物决策。Froster预计，到2014年大约超过50%的零售产值将会受到各种形式网络评论的影响。随着用户在线评论的普及，在线评论的研究重点已经从如何吸引消费者发表评论，转移到了消费者如何有效的评估和利用这些评论[2]。

消费者在网购前阅读在线评论，本质上是为了降低感知风险，并做一个正确的决策[3-4]。通过了解更多的信息和决策理由（如产品的优点和缺点），消费者会对自己的购物决策更有信心[5]。然而，消费者在处理在线评论时面临的一个巨大挑战是信息过载。由于网络上产生的评论数量超过了个人信息处理能力，故消费者不得不借助某些启发规则来简化阅读评论的任务[6]。例如，用户会直接通过评论的条数和平均得分来判断用户口碑，而不会进一步阅读评论文字。或者重点关注中评、差评以及最近发表的评论，因为这些评论数量相对较少，而且有较高的诊断性。虽然这些启发策略可以降低消费者的认知负载，但同时也增加了产生选择性偏见的可能性[6]。例如，由于评分者的个人尺度和满意水平不同，给中评和差评不一定表示产品真的很差，而给好评的不一定意味着评分者对产品一定满意。仅仅依赖一些表面线索（如评论条数、评价得分、中评和差评）难以对真实的产品口碑形成正确认识，因此，迫切需要工具来辅助消费者处理海量的评论信息。

基于标签的评论摘要是电子商务网站上新出现的一种工具，用于缓解消费者面临的信息过载问题。这一工具将评论按照产品属性（如屏幕、电池、通话质量）或用户感受（如款式新颖、质量好、外观漂亮）分为若干类，并且给每类一个标签。标签上除了有标签名，通常还会标记实例数（评论条数）和标签极性（对应优点还是缺点），并且当用户点击标签时显示与该标签相关的评论。得益于自然语言处理中面向方面的观点挖掘[7]技术的发展，基于标签的摘要在技术上日趋成熟，被越来越多的电子商务网站所采用。最近的一项问卷调查表明，基于标签的评论摘要已经成为在线评论商品系统中最有魅力的功能之一[8]。虽然基于标签的摘要对缓解用户信息过载和选择性偏见有很大的潜力，然而作为一种新出现的工具，其有效性和作用机理还未得到信息系统学界的研究。评论的标签摘要为什么会对消费者有用？是否提供标签摘要一定会有用？什么类型的产品更加适合标签摘要？这些是理论界和实践界都很关心的问题。

虽然从个体层次上研究用户评论对消费者行为影响的研究已经很多，但这些研究大多关注用户评论的内容（如质量、态度、数量、辩证性）、发送者（专业性、可信度、发帖动机等）和接收者（参与程度的高低、专业知识等）因素上。而且这些研究绝大多数都基于人类信息处理的双重加工理论[9-10]、归因理论[11-12]、认知适应理论[13]和负面偏见[14-15]。目前还没有研究从信息过载和选择偏见的角度研究用户评论对个体购物决策的影响。为了填补这一研究空缺，本文以图式理论和认识适应理论为基础来解释用户处理评论信息的行为，并针对两类典型的商品（体验品和搜索品）检验了用户评论标签摘要系统的有效性。

1 文献综述

1.1 在线评论对消费者决策的影响研究

在线评论对消费者决策的影响，已经有学者做了大量的研究。这些研究将网络口碑看作一种对个人影响的过程，即消息发送者和接收者之间的通信如何影响消费者的购物决策行为[13-14，16-17]。

一些学者研究了评论内容如何影响消费者决策行为。例如，用户更容易关注负面信息而非正面信息，而且倾向于给负面消息更大的权重，负面网络口碑具有比正面网络口碑更大的影响力[15]。影响销量最重要的不是评论分数，而是评论数量[18-19]。因此，Berger等[18]认为“任何宣传都是好的宣传”，只要有足够的网络口碑，甚至不管口碑的态度如何，都会带来销售额的提升，因为足够的网络口碑提升了产品的可见度。此外，用户通常将辩论的质量（包括信息内容、准确性、格式和及时性等[20]）看作是双重加工理论中的主路径（中央路径），更高的辩论质量会让用户觉得信息的可用性更高[16，21]。

另一些学者研究了评论发送者因素如何影响消费者决策行为。在网络口碑的环境下，由于信息接收者和发送者素不相识，故用户在确定网络口碑的信息源可信度时有困难[15]。但是，在网络口碑情况下，研究发现，信息源可信度对网络口碑的效果有直接影响[16，22]。当消息接收者将发帖动机归结为产品因素时，就会觉得消息更加可信，则更容易采纳信息；相反，如果消息接收者将发帖动机归结为发帖人因素时，就会对消息发送者的动机产生怀疑，则更难采纳信息[11-12]。

还有一些学者研究了评论接收者因素如何影响消费者决策行为。随着参与动机的增加，高质量负面网络口碑的作用比低质量网络口碑的作用要强[23]。当个体参与动机较高时，他们更愿意通过主路径（负担较重的认知活动）进行信息处理；当个体参与动机较低时，他们更倾向于在信息处理过程中依赖外围线索。当用户具有较高水平知识时，处理网络口碑就比较容易；当用户具有较低知识水平时，处理网络口碑就需要更高的认知负担[13]。

近年来，关于评论有用性的研究引起了很多学者的兴趣。影响评论有用性的因素包括评论中蕴含的情感类型[24]、评分的一致性[25]、评论者的参与程度[26]、产品类型和评论类型的匹配程度[27]、评论的辩证性[28]以及评论的展现方式[29]等。Yin等[24]研究表明，与愤怒相比，蕴含焦虑情感的评论会更有用。同时，他们还发现，情感对评论有用性的影响是通过用户感知的努力程度这一中介变量发生作用的。Qiu等[25]发现，如果用户评分的方差较大，则会降低评论的可信度和诊断性，并且这种倾向对于正向评论而言更加显著。Ye等[26]发现，评论者的参与程度（新近程度、频率、货币价值）对评论的有用性有正向影响。Huang等[27]发现，产品类型和评论类型的匹配对评论的有用性有显著影响：基于属性的评论更适合描述搜索品；而基于体验的评论则更适合描述体验品。Jensen等[28]发现，评论的辩证性会提高评论可信度，而包含更多的情感则会降低评论可信度。Huang等[29]发现，评论展示方式会影响评论的有用性和用户对评论的理解：对于搜索类产品，先展示基于属性的评论会更有用；而对于体验类产品，先展示基于体验的评论则会更有用。

用户如何采信和甄别在线评论的研究也引起了一些学者的兴趣。Ku等[30]研究表明，用户更加倾向于相信高声誉用户发表的评论，并且高、低声誉用户可以通过4个变量来区分：信任强度、受信者的平均信任强度、用户的专注性（是否专注评论某一特定类别的产品）以及产品所在类别的平均评分。进一步，邓莎莎等[31]进行了自动化识别虚假评论的尝试，并提出了3类欺骗特征共11种线索来区分虚假评论。

现有的针对网络口碑影响的研究，都是在一般信息处理理论的框架下进行的，主要的理论基础还是双重加工理论（如Elaboration Likelihood Model 和Heuristic-Systematic Model）[13，15-16，21，23，32]。此外，还有研究使用了归因理论[11-12，17]、认知适应理论[13]以及负面偏见[14-15]等作为理论基础。目前还没有学者从信息过载和选择性偏见的角度研究用户评论对个体购物决策的影响，而且这些研究也没有以图式理论或认知适应理论为理论基础。因此，从这个意义上说，本文为研究在线评论如何影响消费者的个体行为开辟了新视角。

1.2 基于方面的观点挖掘

观点挖掘意味着从大量、复杂的非结构化文本信息中挖掘出一个结构，该结构表示大量用户观点的浓缩[33]。基于方面的观点挖掘将一条用户评论中包含的观点抽象为一个五元组（ei，aij，ooijkl，hk，tl），其中，ei为实体的名字（如iPhone5s手机），aij为实体的方面（如屏幕、电池、通话质量、价格等），ooijkl为实体ei关于方面aij的态度（如积极、消极、中立），hk为观点持有者，tl为观点发表时间。基于方面的观点挖掘包含2个关键任务：①识别并提取评论者借以表达观点的产品方面；②决定评论者对该方面的态度取向。例如，在句子“这台相机的图像质量很赞”中，评论对象是“相机”，评论方面是“图像质量”，评论者对“图像质量”的态度是积极的。

解决第2 个任务的经典方法是基于辞典的方法[33-34]。这种方法使用观点词表来确定一个句子中观点的态度，同时还考虑了观点转换和转折从句。这种方法由4个基本步骤组成：

（1）标记观点词（对包含1个或多个方面的语句，标记句子中所有的观点词，每个正向词给+1分，每个负向词给-1分）；

（2）处理观点转换（否定词或某些情态动词可以改变观点取向，当出现这些词时转（1）标记的结果）；

（3）处理转折从句（当but一侧的观点不能确定时，认为but之前的观点取向与but之后的观点取向是对立的）；

（4）聚集观点（应用一个观点聚合函数来计算观点的分数，并据此决定句子中每个方面的观点取向）。这一简单的算法在很多情况下表现都不错，但主要的缺点是表示观点的单词和短语没有涵盖所有类型的表达（包括明示或暗示的观点）。

对于第1个任务，核心问题是抽取评论中蕴含的方面。在线评论通常有两种格式：①让写评论的人明确列出产品的优、缺点；②允许写评论的人用任意文本表达自己的观点（其中包括评价的对象、方面和观点取向）。对于第1种情况比较简单（优、缺点通常由简短的短语或词组组成，每一句段通常只包含1个方面，并且句子之间由逗号、句号、分号、连字符等分开），条件随机场[35]、隐马尔可夫链[36]和序列规则挖掘[37]是典型的方法。对于第2种情况，有大量的研究应用了主题模型。Lin 等[38]通过拓展LDA 提出一个主题-情感的联合模型，但是该模型并未显式地区分方面词和观点词。Mei等[39]提出了一种方法，除了使用方面模型外，还使用了正向情感模型和负向情感模型，从而将方面词和观点词区分开。Zhao等[40]提出了一个Max Ent-LDA 混合模型，利用句法分析来同时发现方面词和对应的观点词。此外，Qiu等[41-42]还提出了一种双循环的方法来同时提取观点词和方面：即通过定义方面来识别观点词，而方面本身又可以通过已知的观点词来定义。观点词和方面的提取被用于定义新的观点词和新的方面，而这又再次被用于提取更多的观点词和属性，直到没有新的观点词和属性被发现时循环过程结束。

基于方面的观点挖掘已经取得了较大进展，在技术上日趋成熟，但是其在商务领域的应用效果和作用机理却很少被探索。因此，本文将研究这一技术如何影响消费者购物决策行为，以及它与同类型商品之间的交互作用。

2 研究模型和假设

本文提出的研究模型如图1所示。其中，自变量外部图式包括低（无标签摘要）、高（有标签摘要）2个水平，商品类型包括体验品和搜索品2 个水平。因变量包括感知有用性和系统满意度。

图式理论[43]认为，每个人头脑中都存在大量的对外在事物的结构性认识。这些存在于记忆中的认知结构或知识结构，称为图式。图式很像自然分类，它们包含事物的某些特征和品质，但通常并不是清楚界定的绝对的归类，如树的种类有很多，但一般都包括树干、树冠、枝叶、甚至花果等特征。大量研究证明，图式是从以往经历得来的，是对反复出现的情况的概括认识，它省略了细节而概括了一些相似情况的共同特点。如人们在生活经历中形成了关于“桌子”的一般概念而省略了对桌子的形状、制造材料等的细微差别。图式化认知常常是无意识进行的，它影响人们对信息的加工以及人们在特定情况下所采取的特定的行为方式。

图1 研究模型

研究表明，图式以一般期待的形式存在，并通过个体的知觉、记忆和推理过程来预测和控制个人的外部世界。上世纪30年代，Bartlett有关故事记忆的研究[44]发现，人们没有按照字义来记住故事的事实，而是改变对故事的记忆来使它们和自己的文化概念一致。Bartlett认为图式化是人们认识世界的一种方式，在回忆时可以帮助记忆检索，而且图式有多种形式。在网络购物环境下，某个用户头脑中关于笔记本电脑的图式可能是CPU、内存、硬盘、屏幕、键盘等，而关于笔记本更多的细节（如颜色、材质）则被忽略了。当用户从外部接受新信息（如阅读了1条用户评论）时，总是期待用头脑中的图式对信息进行归类处理。当用户阅读到感兴趣的内容（如CPU）时，就会下意识地将这条用户评论归到图式中的CPU 类别；当用户阅读到不感兴趣的内容（如笔记本的材质）时，就很有可能将这条消息过滤掉。只有将外部信息通过图式内化以后，用户才能有效地记忆和处理这些信息。

根据消费者在购买前是否可以清楚地预测使用效果，商品分为搜索品和体验品[45]。根据Nelson[45-46]的定义，搜索品是消费者在购买前就可以获知产品质量的商品，而体验品是只有通过购买或试用才能判断商品质量的商品。虽然真实的产品既有搜索品的特性，又有体验品的特性，但是关于搜索品和体验品的分类在电子商务研究中一直被广泛接受[47]。对于体验品，决定商品质量的关键属性是主观且难以比较的，在使用前搜集质量信息相对困难且成本高昂，并且对质量的判断强烈依赖个人的感觉。对于搜索品，决定商品质量的关键属性是客观且容易比较的，在使用前搜集质量信息相对容易，并且不需要依赖个人感觉去判断商品质量。关于搜索品的在线评论大多是基于事实和属性的，而体验品的评论大多是基于个人的体验和情感的，具有高度个性化和特质化的特点，并且可能包含很多不相关的外围因素[22]。这是因为基于属性的评论更适合描述搜索品，而基于体验的评论更适合描述体验品[27]。由于标签摘要本质上是一种数据驱动的技术，故搜索品的标签摘要可以基于产品的属性和特征来进行，而体验品的标签摘要只能基于用户感知和体验来进行。

根据图式理论，存在两种类型的信息类别：①别人创造的类别，称为外部图式；②自己创造的类别，称为内部图式[48]。这意味着不同用户头脑中的图式是不同的。对一个特定的用户而言，自己创造的类别比别人创造的类别更容易搜索，也更容易辅助问题解决[48]。对于搜索品，不同用户感知的影响产品使用效果的因素（属性或特征）相对固定，因此，针对搜索品不同用户的图式会比较相似。然而对于体验品，不同用户感知的影响产品使用效果的因素因人而异，因此，针对体验品不同用户的图式会千差万别。例如，用户对笔记本电脑（搜索品）的图式基本上都是相似的（例如CPU、内存、硬盘、屏幕、键盘等）；但是用户对小说（体验品）的图式则千差万别（例如有的用户会关注小说的故事情节，有的关注人物描写，有的寄托自己的梦想），并且这些不同用户之间的图式相互交织重叠，很难发展出一个符合所有用户需求的统一图式。

因此，本文认为，对于搜索类产品，基于标签的摘要比较容易产生一个符合消费者头脑中的图式；而对于体验品，基于标签的摘要比较难以产生一个符合消费者头脑中的图式。另外，广告领域的研究表明，与客观属性相比，消费者对主观体验持更强的怀疑态度[49]。这意味着与基于主观体验的图式相比，用户更容易接受并相信基于客观属性的图式。

认知适应理论[50]认为，如果一个任务和一种信息的展现方式匹配，则用户就不需要在头脑中对信息的展示方式进行转化，从而导致更高的任务绩效。如果系统提供的外部图式和用户对商品认知的内部图式相一致，则用户就可以直接根据外部图式来进行购物决策，而不需要做进一步的信息转换；反之，如果系统提供的外部图式和用户对商品认知的内部图式不一致，则用户就需要将外部图式进一步转换为内部图式，才能进行购物决策。这一转换过程不仅费时费力，而且容易出现错误，因为外部图式可能会对用户形成认知干扰，影响用户形成正确的内部图式。如果系统能够提供与用户内部图式一致的分类体系，则会提高用户对系统的感知有用性和满意度；如果系统不能提供与用户内部图式一致的分类体系，则不能提高用户对系统的感知有用性和满意度。根据前面的分析，对于搜索品，标签摘要系统容易产生一个符合内部图式的分类；而对于体验品，标签摘要系统不容易产生一个符合内部图式的分类。因此，有如下假设：

H1（a）对于体验类商品，与传统在线评论展现方式相比，增加基于标签的摘要不能提高用户对系统的感知有用性。

H1（b）对于体验类商品，与传统在线评论展现方式相比，增加基于标签的摘要不能提高用户对系统的满意程度。

H2（a）对于搜索类商品，与传统在线评论展现方式相比，增加基于标签的摘要能提高用户对系统的感知有用性。

H2（b）对于搜索类商品，与传统在线评论展现方式相比，增加基于标签的摘要能提高用户对系统的满意程度。

3 研究设计

本研究设计了一个2×2的方差分析实验来验证所提的假设。其中外部图式（高vs.低）和商品类型（体验品vs.搜索品）都是被试间因素。每一个被试被独立完成一个购物决策任务。

3.1 实验系统

为了尽可能地让被试感觉实验环境真实，本文采用过滤和裁剪真实网页的方法来构造一个实验系统。该方法最早由Kumar等[51]提出，他们实时过滤了Amazon.com 上的内容，用于研究推荐系统和用户评论对消费者的影响。具体而言，该系统会在用户浏览器和真实的电子商务网站之间构造一个代理服务器，浏览器与网站之间的通信均通过代理服务器来完成。每当电子商务网站有通信返回时，代理服务器就会对返回内容进行过滤和裁剪，去掉即各种可能影响实验结果的混杂因素（如导航条、产品推荐、服务条款等），只剩下与实验相关的内容（如产品基本描述和用户评论）。为了防止用户发生搜索和冲浪等不可控行为，让被试从有限的候选商品中进行选择，并且指定唯一的入口页面访问商品。因为经过裁剪，所有的商品页面都是不可跳转去其他网址的，因此，用户无法访问到指定候选之外的商品。

本文使用软件Fiddler充当代理服务器，通过在Fiddler中编写脚本来实现网页内容过滤和裁剪的功能。同时，本研究采用淘宝网（taobao.com）作为被过滤和裁剪的真实电子商务网站。由于电商网站会针对不同版本的浏览器生产不同的代码，为了减少Fiddler脚本代码开发的工作量，被试都被要求使用同一种浏览器当客户端。在实验前，浏览器已经被正确地设置了局域网代理服务器地址和端口。

图2展示了用户评论标签摘要系统的界面。该界面中有3类关键的设计元素：①每个标签上会标记对应的评论条数（例如，说到“包装不错哦”的有139条评论），这是因为网络口碑的研究标签，评论数量是影响消费者决策最重要的一个因素。②系统会用不同颜色来区分正向标签和负向标签（例如，红色标签表示优点，灰色标签表示缺点）。因为根据顾客价值理论[52]，感知价值的核心是感知利得（顾客所获得的感知利益）与感知利失（因获得和享用该产品或服务而付出的感知代价）之间的权衡，因此，同时提供产品的优、缺点可以帮助用户更好地平衡利得与利失。③当用户点击标签时，会展现对应的评论列表，并且将提到标签的相关内容用高亮方式标记，这种解释机制有助于提高用户的阅读速度，帮助通过中央路径（即使逻辑分析）进行信息采纳。本实验实现了两种裁剪策略，分别对应有评论标签摘要和无评论标签摘要的情况。

图2 用户评论标签摘要系统的界面

3.2 测量方法

（1）感知有用性。本研究测量感知有用性的量表来自Davis[53]，共包含6 个问题（XXX 表示研究中使用的系统，每一个问题都用1～7分的李克特量表来测量，其中，1 表示强烈不同意，7 表示强烈同意，下同）：

①我发现XXX能够让我很快地完成购物决策任务。

②我发现使用XXX能够提高我的购物决策绩效。

③我发现使用XXX能够提高我的购物决策效率。

④我发现使用XXX能够提高我的购物决策效果。

⑤我发现使用XXX 能使我的购物决策任务容易完成。

⑥我发现使用XXX 对于完成购物决策任务有用。

（2）系统满意度。本研究测量系统满意度的量表来自Au等[54]的研究，共包含4个问题：

①我觉得使用XXX 来完成购物决策任务很惬意。

②我很高兴用XXX 来完成购物决策任务。

③我喜欢用XXX 来完成购物决策任务。

④总体上，我对XXX 感到很满意。

对问卷的信度进行可靠性分析，感知有用性的Cronbach'sα系数为0.948、系统满意度的Cronbach'sα系数为0.882。这说明，问卷具有良好的可靠性。问卷的结构效度分析（探索性因子分析）结果如表1 所示。表中结果显示，PU1～PU6很好地落到了第1 个主成分上，而SS1～SS4很好地落到了第2个主成分上。这说明，所有的10个问题可以归因到用2个构念来解释：第1个构念（对应PU1～PU6）为感知有用性；第2个构念（对应SS1～SS4）为系统满意度。探索性因子分析的结果表明，问卷具有良好的结构效度。

表1 感知诊断性和系统满意度的因子载荷

3.3 被试

本文在上海招募了43名信息管理与信息系统专业大三的本科生参与实验，其中，男生22人，女生21人。他们在实验前被要求填写一份个人资料调查表，其中包括年龄、性别、使用计算机经验、在线购物经验以及商品（MP3 或数码相机）知识水平等相关问题。参与者都具有一定的在线购物经验，对实验商品也有中等程度以上的了解。大学生是在线购物和受在线口碑影响的重要群体，因此，他们是参与本次实验的合适人选。用户被要求独立完成一项购物决策任务。为了更有效地激励被试，实验参与者可以得到考试加分。

3.4 实验任务

本研究中，每个用户被要求独立完成一项商品挑选任务。在实验中，体验品被实例化为MP3，而搜索品被实例化为笔记本电脑。在前人在线评论的研究中，MP3 被当作体验品来处理[22]，这是因为MP3的功能比较简单（主要是存储容量、大小和重量），而影响购买决策的因素主要是MP3的外观、风格及其音质。笔记本电脑则是一个典型的搜索类产品，因为影响购买决策的主要因素是产品性能（如CPU、内存、硬盘、屏幕大小等）。

实验情景为：假设你的MP3或笔记本电脑坏了，你需要挑选一个MP3或笔记本电脑。在一个挑选工具WPC（Wise Product Choice）中为你提供了8个候选，请你从中挑选一个适合你的。用户被要求在认真阅读网络口碑的基础上做出挑选决策，因为除了用户评论外，页面上只有商品的基本信息、价格和简单图片。本文只提供了有限种候选，并且这些候选大部分都是用户不熟悉的品牌，是为了减少用户进行先入为主的选择行为，从而尽可能地减少品牌因素的干扰。这8个候选产品在价格和功能上大致相当，因此，阅读用户评论成为挑选决策的关键。

3.5 实验过程

在正式实验开始前，每一个被试都领到了一份详尽的实验手册。在实验开始前，工作人员对实验目的和实验系统的使用方法进行了介绍。实验前，用户会领到一个登录的用户名和密码，从而被随机分配使用不同的实验系统。用户被要求独立完成商品挑选的决策任务，并且对完成任务的时间没有要求。任务完成后，用户被要求填写一份调查问卷。

4 结果分析和讨论

4.1 感知有用性

感知有用性的描述性统计如表2所示。本文对感知有用性进行方差分析（ANOVA），结果显示，用户界面对感知有用性无显著影响（F（1，39）=1.751，p＞0.05），产品类型对感知有用性也无显著影响（F（1，39）=1.336，p＞0.05）；但是用户界面和产品类型的交互作用对感知有用性有显著影响（F（1，39）=7.888，p＜0.01）。

表2 感知有用性的描述性统计

进一步，在每种产品类型上用独立样本t检验进行分析。表3的结果显示，对于体验品，无标签摘要系统和有标签摘要系统在感知有用性上无显著差异（t=0.933，p＞0.05）。因此，H1（a）被支持。对于搜索品，有标签摘要系统对应的感知有用性要显著高于无标签摘要系统（t=-3.306，p＜0.01）。因此，H2（a）被支持。

表3 感知有用性的比较

4.2 系统满意度

系统满意度的描述性统计如表4所示。本文对系统满意度进行方差分析（ANOVA），结果显示，用户界面对系统满意度无显著影响（F（1，39）=1.308，p＞0.05），产品类型对系统满意度也无显著影响（F（1，39）=1.524，p＞0.05）；但是用户界面和商品类型的交互作用对系统满意度有显著影响（F（1，39）=9.751，p＜0.01）。

表4 系统满意度的描述性统计

进一步，在每种产品类型上用独立样本t检验进行分析。表5的结果显示，对于体验品，无标签摘要系统和有标签摘要系统在系统满意度上无显著差异（t=1.289，p＞0.05）。因此，H1（b）被支持。对于搜索品，有标签摘要系统对应的系统满意度要显著高于无标签摘要系统（t=-3.299，p＜0.01）。因此，H2（b）被支持。

表5 系统满意度的比较

5 讨论

5.1 主要发现

本文研究了基于标签的评论摘要对消费者购物决策的影响，有以下主要发现：

（1）对于体验类商品，提供基于标签的评论摘要不能显著提高用户对系统的感知有用性和满意度。这是因为不同用户对体验类商品认知的内部图式差别很大，很难用单一的外部图式满足不同的用户。用户不可避免的需要将系统提供的分类进行内部转换，才能完成决策任务。因此，用户对系统的感知有用性和满意度无显著提高。

（2）对于搜索类商品，提供基于标签的评论摘要能够显著提高用户对系统的感知有用性和满意度。这是因为不同用户对搜索类商品认知的内部图式差别不大，用统一的外部图式满足不同用户是可以做到的。当系统提供的外部图式与用户头脑中的内部图式一致时，用户不需要在头脑中进行信息的内部转换，就可以完成决策任务。因此，用户对系统的感知有用性和满意度有显著提高。

5.2 理论贡献

（1）对于用户评论如何影响消费者行为的研究，前人大多以双重加工理论、归因理论、认知适应理论和负面偏见为基础。本研究首次基于图式理论和认知适应理论，研究了信息过载环境下消费者对评论的信息处理问题，开拓了用户评论影响研究的理论新视角。

（2）本研究分别针对不同类型商品，检验了评论标签摘要的有效性。据知，目前还没有研究从消费者决策的角度探索评论标签摘要的有效性，也没有针对搜索品和体验品比较其使用效果。本研究对于理解不同类型产品对标签摘要有效性的影响，具有重要的意义。

（3）本研究发现了商品类型对于标签摘要有效性的调节作用。这意味着，本文发现了标签摘要系统的适用范围。由于构造标签摘要系统本身需要投入大量的人力、物力和计算资源，故本研究有助于电子商务网站在不同类型的产品上合理分配资源，从而达到整体效用最大化的效果。

5.3 现实意义

本研究也为电子商务网站和点评网站的设计者提供了若干指导。研究结果表明，对于搜索类商品，应该提供基于标签的评论摘要。因为对于该类商品，容易生成与消费者内部图式相一致的内部图式。对于体验类商品，由于消费者的内部图式千差万别，提供单一的外部图式可能作用不明显。然而，这并不意味着对于体验类商品，提供基于标签的摘要就没有意义，而是意味着需要新型的标签摘要。本文提出个性化和用户自定义标签作为克服不同消费者之间内部图式差异的重要方法。个性化通过用户描述文件或操作历史来推测用户的内部模式，进而生成相应的外部模式。用户自定义标签允许用户生成系统没有提供的标签，从而填补外部模式和内部模式之间的空缺。因此，当电子商务网站和点评网站的设计者在针对体验品评论进行标签摘要时，应更多地考虑向个性化和用户自定义标签的方向发展。

6 结语

本文从用户信息处理的视角，研究了用户评论标签摘要系统的有效性。以图式理论和认知适应理论为基础，针对两种不同类型的商品（体验品和搜索品），提出了用户评论标签摘要系统如何影响系统的感知有用性和满意度的研究模型。进一步，设计了一个实验来验证所提的研究模型和假设。实验结果表明，对于体验类商品，与传统在线评论展现方式相比，增加基于标签的摘要不能提高用户对系统的感知有用性和满意程度；然而，对于搜索类商品，与传统在线评论展现方式相比，增加基于标签的摘要能够提高用户对系统的感知有用性和满意程度。

本研究也存在一些缺陷。首先，在评估用户评论标签摘要系统时，本文只考虑了一种商品分类（搜索品和体验品）的影响。商品分类还有其他形式，如高卷入商品和低卷入商品，也会对标签摘要系统的有用性产生影响。其次，还有其他因素（如用户的知识，购物所处的阶段等）也可能对评论标签摘要系统的有效性产生影响。未来的研究应该考虑这些因素。

基于标签的用户评论摘要，作为一种新兴的工具在电子商务网站上出现的时间不久，却迅速扩散，被越来越多的网站所采纳。如今，国内主流的电子商务平台（如淘宝、京东、苏宁、1号店、易迅、中关村在线等）都装备了某种形式的用户评论标签摘要。因此，理解标签摘要的作用机理和适用范围，具有重要的现实意义。同时，本文还指出，设计更好的支持个性化和用户自定义标签的系统，对于满足差异化的用户图式，具有重要意义。