图书交流平台在线书评有用性影响因素研究<br/>——以豆瓣读书为例

图书交流平台在线书评有用性影响因素研究
——以豆瓣读书为例

2022-06-24刘敬涛李秀霞邵作运

晋图学刊 2022年2期

刘敬涛，李秀霞，邵作运

(1.曲阜师范大学传媒学院，山东日照 276800；2.曲阜师范大学日照校区图书馆，山东日照 276800)

0 引言

网络时代，评价机制早已渗透到电影、食品等领域，“五星好评”不再是人们参考借鉴的唯一度量指标，在线评论转而成为传统口碑的替代形式[1]。最早出现的网络平台中的在线图书评论，成为读者分享交流不可或缺的形式。随着互联网中数据量的不断增长，信息爆炸的问题随之而来，读者难以从海量的评论中遍历所有信息以筛选出有用评论。为解决这一问题，有用性投票应运而生。梳理国内外已有研究发现，目前评论有用性的研究主要集中在影视、电子商务及旅游等商业平台领域。相较于强调收益的商业平台在线评论而言，图书交流平台的在线评论更侧重于阅读体验分享和知识交流，两种平台在其数据生成与处理中存在着显著差异[2-3]，不能将图书平台和商业平台的在线评论一概而论，加之现有在线评论研究多集中于商业领域，鲜有基于图书交流平台进行在线评论有用性分析的研究探索，故而，在线书评的有用性分析探讨显得尤为重要。

此外，在线书评作为图书评价体系中的一个重要参考维度，其有用性分析也有助于识别和选取图书评价指标[4-5]，推动提升相关评价指标选取的置信程度和有效性。同时，大量已有文献证明，从心理学的角度评析用户行为，可以更好地为有用性研究提供理论依据，从而更好地围绕读者或用户进行行为分析。因此，本研究针对图书交流平台特点，利用情感分析方法，基于Deutsch和Gerrard的双过程理论，构建图书交流平台在线书评的有用性模型，识别和探析影响书评有用性的核心因素，以期从用户视角为开展图书评价提供参考。

1 相关理论

1.1 在线评论有用性界定

在线评论有用性研究源于电子商务领域的消费者领域，针对消费者在网络平台中信息不对称现象识别有用的评论，以帮助消费者制订购买决策。Mudambi S. M.等人认为在线评论有用性是一种主观上的认知价值，表示购买者发表的在线评论对潜在消费者的购买决策提供帮助的程度，是对在线评论质量判断的一种规范[6]；国内学者普遍认为在线评论有用性实质上是探究“什么样的评论人们认为有用”，并进行了一系列的探索：江晓东等就不同商品类型的在线评论进行分类，从在线评论的数量特征和文本客观性总结了消费者最有用的评论特征[7]；王亚妮等人基于详尽可能模型，从评论信息的中心路径和边缘路径作为切入点，分别探析评论深度、评论极性、评论及时性和评论者专业性在评论有用性及影响因素中的作用关系[8]。

1.2 双重过程理论

在探讨“什么样的评论人们认为有用”的同时，许多研究也关注了“人们是如何受信息影响的”。双过程理论是源于心理学领域的一项基础理论，用于研究人们两种不同深度的信息处理方式，较为典型的双过程理论模型包括详尽可能型模型(Elaboration Likelihood Model，ELM)和启发式-系统式模型(Heuristic Systematic Model，HSM)。ELM提出两种处理信息的形式，个体会根据自身的能力及目的来处理不同类型的信息(核心信息和相关信息)[9]，核心信息需要谨慎进行信息的加工与处理，而相关信息则需要根据不同的环境和需求形式来决定其使用。HSM模型将信息处理方式划分成基于直觉的启发式和基于理性的系统式[10-11]。一般认为，ELM和HSM等模型都是个体关于不同层次和不同深度信息的接受和处理模式，ELM中的相关信息处理和HSM中的基于直觉的启发式都属于浅层的处理，是一种花费时间较少、相对轻松的处理；相反，深层次的处理是一种花费时间相对较多、速度相对较慢并且费劲的处理[12]。将双过程理论与网络信息研究相结合可以更好地在网络环境下开展用户信息研究，并在多个领域取得研究成果[13-15]。

本研究模型设计思想采用Deutsch和Gerrard的双重过程理论[16]，系源于纽约大学人际关系研究中心的一项关于规范性影响和信息性影响对个人判断的影响研究，研究将规范性影响定义为与公众期望所一致的影响，即：可直接获取的结构化信息所产生的影响；信息性影响定义为从他人处获取信息，并将其作为行为指导的影响，即：对他人言行等信息进行价值判断后所产生的影响。从网络评论特征来看，信息性影响和规范性影响能够较好地解释网络用户的信息接受和评论行为，在依靠虚拟接触的网络环境下，读者除了受图书本身及相关的规范性影响外，还会受到在线评论及相关内容的信息性影响。Cheung M. Y.等人根据上述理论将在线商品评论的情感色彩、偏侧性、来源可信度等划分为信息性影响因素；将推荐一致性(平台与评论之间)、推荐等级划分为规范性影响[17]，从消费者感知在线评论说服力的角度验证了双过程理论对在线评论的适用性。

2 研究模型及假设

2.1 研究模型

结合以往研究，将影响读者进行有用性投票的因素划分为规范性影响(包括评论发布者的资历和评论发布时长)和信息性影响(包括评论情感值及受正、负向情感词数量调节的文本长度)。同时对在线评论有用性的相关研究进行了归纳和总结，最终决定使用在线书评的有用性投票数量来衡量在线评论有用性，并改进了以往的数据处理和情感值计算方法，通过定性分析、定量分析和可视化等结合的方法，提出了一个具有图书交流平台特色的在线书评有用性模型，如图1所示。图1中，研究假设规范性影响和信息性影响均直接作用于在线书评有用性，且正向词和负向词能够在书评文本长度与书评有用性关系中发挥调节作用。

2.2 研究假设

2.2.1 信息性影响

2.2.1.1 评论文本的长度

目前，学界关于评论文本长度对其有用性的影响存在两种观点：一种观点认为，评论长度对于其有用性有积极影响。读者往往认为评论的长度越长，代表评论发布者的专注性和专业性越高。这一点得到了许多研究的验证[18]。另一种观点认为，评论长度与其有用性之间呈着倒U型曲线关系[19]，两者之间存在一个极值点，随着评论长度的增加，有用性随之递增，而到达极值点后，读者阅读评论的成本变高，潜在的有用性可能随之降低。而在在线书评中，书评文本越长，反馈的信息量则越大，更能反映读者对图书的价值判断，因此本研究提出如下假设。

H1 在线书评文本的长度与其有用性存在正相关关系。

2.2.1.2 评论情感

学界围绕评论的情感倾向与书评有用性间的关系，开展了不同层面的研究。一如仅考虑情感倾向，

Fig.1 Online book review usefulness model图1 在线书评有用性模型

Cheung M. Y.等人认为，与中性评论相比，极性评论不仅能提升信息的完备性，且会获得更多的有用性投票[17]。因为能指明被评论对象优缺点的评论，一般是通过实践活动得出的结论。又如考虑评论情感的正负平衡比，Purnawirawan N.等人发现积极评论和消极评论对于读者的影响几乎一致，正负评论情感词数量的平衡和其在文本中的先后顺序显著影响评论的有用性[20]。通过梳理已有研究，尚未有研究印证书评的情感值与其有用性之间的关系。此外，本研究还试图探析书评中的情感词在文本长度中起到的调节作用，以证明内容丰富、观点清晰明确的书评是否更为有用，因此研究提出如下假设。

H2 在线书评的Boson情感值与其有用性呈正相关。

H2a 正向情感词在书评文本长度与有用性之间起调节作用。

H2b 负向情感词在书评文本长度与有用性之间起调节作用。

2.2.2 规范性影响

2.2.2.1 评论发布者的资历

评论发布者的资历很大程度上决定着其评论的可信度，值得注意的是，不同的平台提供的评论发布者的特征方面的隐含性数据也不同。如史达等人通过TripAdvisor平台获取评论发布者的历史评论数和评论者类型，证实了两者均对评论的有用性有积极影响[14]。Forman C.等也通过Amazon平台进行了相同角度的研究，认为评论发布者信息(内容情节、情感倾向)越丰富，其评论的有用性也越高[21]。本研究根据数据来源平台的特点，选取评论发布者加入平台的时长作为时间资历、选取评论发布者的“读过”数作为能力资历两个变量，提出如下假设。

H3a 评论发布者加入平台的时长与其评论的有用性之间存在正相关关系。

H3b 评论发布者的“读过”数与其评论的有用性之间存在正相关关系。

2.2.2.2 书评发布天数

一般而言，学者普遍认为评论发布的时长与其有用性呈负相关。由于电子商务领域中产品更新换代频繁，时间久远的评论难以反映产品的当下面貌，因此评论的及时和新颖显得格外重要。如王智生等、Cao Q.等及Ghose A.等认为评论的发布天数与有用性投票之间存在负向的影响作用，进而讨论与销量之间的关系[22-24]。因评论对象及属性不同，图书交流平台的书评往往不会因图书的再版和纸质的改进而产生变化，反而随着时间的累计及马太效应的影响，高有用性书评会积攒更多的有用性投票。因此，本研究提出如下假设。

H4 书评发布天数与评论有用性之间存在正相关关系。

3 实证研究

3.1 数据来源与处理

豆瓣读书(www.book.douban.com)是目前国内用户活跃量最大的图书交流平台，其优势在于服务功能全面、数据丰富、用户黏性较大、多数用户具有较强的专业性，因此豆瓣读书是网络用户分析和图书评价的绝佳平台。

在数据获取阶段，由于豆瓣读书网站中的图书种类多样、数量众多，所以本研究采取随机抽样的方式，即：图书分类标签和图书样本均以70 ∶1的标准随机筛选，最终选取经济类图书和科普类图书各十本为数据样本。实验数据的采集利用网络爬虫工具八爪鱼爬取图书原始评论(短评)、有用性投票、星级评分分数、评论发布者加入平台时长、评论发布者“读过”数以及评论发布时间。其中，经济类图书删除14条重复评论后，得到短评数量1 857条，有用性投票数获3票及3票以上的评论319条；科普类删除18条重复评论后，得到1 663条短评，有用性投票数获3票及3票及以上的评论336条。数据采集完成时间为2020年12月30日。

在数据统计阶段，将所得数据合并后，为探讨有用性投票的影响因素，筛选出有用性投票数为3及3以上的评论，删减有用性票数1 000及以上的评论，得到评论数共计642条。由于本研究的变量数为7，因此该数据量符合数据分析的要求。随后，通过R语言进行文本切词，经过去重等操作后构建领域词典和领域情感词典，再利用集搜客情感标注工具(V8.8)导出情感词与每条书评的匹配关系。文本长度计算通过Excel中LEN函数计算得出；加入平台时长、书评发布天数均以数据采集完成时间为终止时间，同样通过Excel中的DATEDIF函数计算得出。最后，对每个数据集进行标准化处理，解决各数据集之间单位不一的问题。

3.2 评语情感分析

利用Python中SnowNLP库对评论文本进行情感分析，但与评论发布者标注的星级评分分数进行对比时，发现情感值与星级评分分数的正态分布并不一致，基于改进的Boson情感词典进行文本情感分析更能准确地识别评论中的情感倾向。同时，为避免词典算法中词汇不完善问题，将Boson情感词典与本研究生成的领域词典进行合并处理。然后，利用Python中的Jieba库自编代码切词并设计情感计算逻辑：设置权重乘以情感词的得分，情感词下标加一，获取下一个情感词的位置，设置判断当前的情感词与下一个情感词之间是否有程度副词或否定词，设置否定词取反权等。由于所得文本情感属于非连续数据，且正负不一，因此将其进行了标准化处理。各变量符号及其解释见表1。

表1 研究模型中变量符号及解释说明Table 1 Variable symbols and explanations in the research model

3.3 变量统计分析

通过变量描述性统计(见表2)发现，与其他数据变量相比，“读过”数和加入平台时长两条数据存在缺失值(少于642条)，这是因为某些读者在早期发布评论后，随后进行了账号注销或被平台封号等操作，导致出现后期无法查询评论发布者信息的问题。另外，书评发布天数、“读过”数和加入平台时长等数据极值差距过大，通过标准差看数据分布又过于离散，可见，对数据进行标准化处理是必要的。

除调节变量外，利用SPSS对所有变量进行标准化处理，进而进行Spearman非参数相关性分析，计算Spearman相关系数(见表3)。

表2 变量描述性统计表Table 2 Descriptive statistics of variables

表3 相关性分析结果Table 3 Correlation analysis results

由表3可知，负调节、Boson情感值、“读过”数、加入平台时长、书评发布天数五个变量都一定程度上与书评有用性存在较为显著的相关关系。然而，仅通过变量之间的相关性分析无法准确衡量各变量的重要程度和作用关系，因此需要构建数学模型进行回归分析。

3.4 模型分析

为揭示多个变量对书评有用性的共同作用和交互作用，继续建立计量模型来进一步分析评论特征对书评有用性的影响。根据上文提出的在线书评有用性模型构建数学模型(见式1)，并对变量进行统计与分析，各变量符号及解释如表1。

Helpness=α+β1×Count+β2×Boson+β3×(Pos&Count)+β4×(Neg&Count)+β5×Read+β6×Join+β7×Time+ρ

式1

下面通过StataMP16中Tobit回归和Logit回归来验证假设，验证结果如表4所示。

一般来说，卡方值越大p值越小(p>|t|的值越小回归结果显著)，模型拟合优度较高，回归结果较为显著。再者，通过t值一方面可以判断自变量与因变量之间的正反比关系(t>0时，成正比；t<0则反之)，另一方面可以判断自变量影响的显著程度(t的绝对值大于1即显著)。由此可以看出，评论发布者加入平台的时长与书评有用性成正比(t=2.74)，这说明评论发布者的时间资历对读者具有规范性影响，评论发布者的加入平台的资历越久越能得到其他读者的认可，所以H3a成立。但是，评论发布者的“读过”数却并不显著(t=-0.08)，说明书评所获有用性投票数不受评论发布者的能力资历影响，所以H3b不成立。其原因可能是因为豆瓣读书平台中的“读过”数由个人自行标注，读者可能对其真实性有所考虑。同时，书评发布天数与书评有用性亦呈正相关关系(t=3.49)，这也与其他学者的结论一致[25]，书评发布时间越早越有可能获得更多的有用性投票，因此H4成立。

表4 书评有用性模型回归结果Table 4 Regression results of book review usefulness model

另外从信息性影响看，Boson情感值对应的t值为-0.29，说明书评情感的作用并不明显，并非情感越积极的书评有用性越高，所以H2不成立。另外，图书评论的字符数的影响力同样不明显(t=0.13)，书评的有用性并不受书评文本长度的影响，所以，H1不成立。这与之前的研究结论相反[18-19]，差异原因极有可能是研究对象不同所致，这进一步说明图书交流平台与电子商务平台有用性研究的不一致性。

然而，负调节以及正调节均通过了显著性检验(t=1.83和t=-3.02)，也就是说，尽管评论文本长度无法直接影响评论的有用性，但会通过评论文本中的情感词体现出来。发长文本书评来发泄自己的消极情绪往往会得到更多的有用性投票，即H2b成立；越简短而又正向的书评，读者却越认为低有用性，即H2a成立。

综上，理论模型验证情况如图2所示。规范性影响较为直接地作用于书评的有用性，评论者加入平台时长和评论发布时长均显著影响在线书评的有用性；而信息性影响则需要不同因素相互联结产生影响，书评的文本长度和情感倾向虽不直接影响其有用性，但正向词和负向词能够在书评文本长度与书评有用性关系上发挥调节作用。

4 结论与讨论

4.1 研究结论

本研究以Deutsch和Gerrard的双重过程理论为基础，构建了图书交流平台在线书评有用性识别的研究框架，将书评有用性的影响因素分为信息性影响(包括书评文本长度(字符数)、书评Boson情感值)和规范性影响(包括评论发布者资历、书评发布天数)，通过定性分析、定量分析和可视化等结合的方法，探究多维因素在书评有用性中的影响，研究得到如下结论。

其一,在信息性影响中，书评长度和总体情感值对书评有用性的影响不显著。读者并不关注书评的长短及总体的情感色彩。这与电子商务领域的研究结论完全相反，因为在读书交流平台中，读者需要完整阅读书评才能做出有用性反馈；而在电子商务平台中，用户仅需对评论中所关注的点进行具体阅读，这种找关键词、找图片等浏览方式较前者相比大相径庭。同时，负向词与正向词的数量在书评长度及其有用性之间存在着显著的调节作用。显然，用简短篇幅去赞扬图书的书评不会得到多数读者的共鸣，反而进行批评交流的论述会引起更多人的关注，这是因为能够批判性地提出作品不足的评论，多数是认真研读作品后作出的总结，这也与现实场景中图书交流平台的用户分享、交流的特点相符。且中文书评语言委婉，善用修辞等表达方式，并非书评长度及总体感情色彩所能表示，例如讽刺、反语等，在书评总体情感色彩在很难体现，而通过计算情感词的调节作用，能更好地体现书评的信息性影响所产生的作用。

Fig.2 Theoretical model verification results图2 理论模型验证结果注：一个*表示p<0.10；两个*表示p<0.05；三个*表示p<0.01

其二,在规范性影响中，读者对书评发布者的两种资历(时间资历、能力资历)认可度不同。时间资历对书评有用性有积极作用，书评发布者的平台时间资历久，往往能得到更多的关注与认可；而能力资历在有用性中发挥的作用显然不尽如人意。原因有两方面，一方面，“读过”数是由每个豆瓣读书的用户自己标注的，并无追认和验证渠道；而加入平台时长是由豆瓣官方平台提供，个人用户无法更改或造假。通过对两者的可信度比较，也再现了读者的顾虑和观点。另一方面，时间资历与能力资历未必对等，加入平台时间久未必标注的“读过”数一定高，标注“读过”数高的读者未必加入时间一定久。两组数据相关但不相同。同时，书评发布的时长对书评有用性有显著的积极影响。研究在考虑马太效应和首因效应的影响下，排除了高有用评论再进行有用性分析，依旧得到与假设一致的结论，证明了书评发布越久有用性票数会越多。

综合不同维度下的影响因素，规范性影响和信息性影响在读者的信息行为中均发挥着重要的作用。规范性影响更为直接的作用于有用性反馈，而信息性影响则需要通过不同因素联结的方式发挥作用。以往的研究仅考虑评论的极性及极性的不同所产生的影响，缺乏多因素综合分析的考量。而本研究综合书评长度及句法中的词语色彩，证明了负向词和正向词与书评文本长度结合对有用性反馈具有显著影响。

4.2 讨论

本研究针对图书交流平台的特点，分类识别了影响书评有用性的多维因素，探析各因素的实现机理，并得到了一些与之前研究不同的结论和发现，本研究的结论有助于更好地理解和分析读者阅读倾向和行为，不仅对网站运维方的管理、引导工作富有启示意义，也可以为在线评论有用性分析和图书评价工作探索提供有益参考，进而为在线选取评论维度及评价指标提供科学的分析参考方式。同时，Deutsch和Gerrard的双重过程理论为进行网络环境下的用户分析探索了一个新的理论视角，与图书交流平台相融合可丰富其理论的应用场景和实践领域，拓展了在线书评的理论框架。

研究的局限性在于：首先，本研究仅考虑了程度词、否定词在总体情感分析中的作用，并没有考虑其对具体评论中产生的影响，以进一步界定程度词在句法可读性中发挥的作用;其次，研究结论基于消费者对评论的有用性投票得出，没有测度低有用性投票和认为评论不具有用性的在线书评，上述问题有待在今后的研究中采用更优秀的语言模型以进一步突破。