APP下载

时间距离对旅游网站线上口碑的影响机制研究

2020-12-28章一丹罗继锋吴志艳

上海管理科学 2020年6期
关键词:位数效应距离

章一丹 罗继锋 吴志艳

(1.上海交通大学 安泰经济与管理学院,上海 200030;2.对外经贸大学,上海 201620)

时间距离是影响在线评价的重要因素,但针对旅游在线评论时间距离的研究还比较少见。并且,时间距离对评论影响的研究主要集中在认知理论方面,解释水平/情感强度两条路径的作用尚未被充分讨论,而且缺乏二手数据的支撑。鉴于此,本文对上述问题进行研究,主要贡献体现在:

第一,本文爬虫获取平台旅游网站门票区2017—2018年的全量评论数据,使用文本情感倾向和效价评分结合的方式探究时间距离的两条作用路径。首先采用文本挖掘的方法提炼情感指标,其次运用分位数回归、固定效应模型和中介效应模型等计量模型严谨地验证时间距离的两条作用路径。本文将二手数据的方法应用于心理距离理论研究在以前的研究中不多见,是对当前理论的实证补充。

第二,本文充分论证了时间距离对评分的两条作用路径:(1)随着时间距离的增加,消费者情感减弱从而导致原先低评分变好、原先高评分变差;(2)时间距离的增加带来高水平的构建,对原先评分有正向作用,而整体上时间距离对评分的正向作用是由于评分右偏的J形分布特征,低评分被拉高作用明显大于高评分被拉低作用。这一结论对线上口碑的营销策略有一定的指导意义,适度的评论时间距离能带来更多正向的口碑,而服务商一味促使消费者过早评论可能会带来消极影响。

1 数据

1.1 数据

为了研究旅游网站在线评论的时间距离对评分的影响,编写爬虫程序获取某旅游网站门票专栏2017年4月1日—2018年11月1日的所有产品的评论信息,包括产品编号、消费者编号、出行时间(精确到天)、评论时间(精确到秒)、旅游地区、评分、评论文本。为了结果的有效性,去除数据中的噪声,比如系统故障导致的重复评论,产品上线最开始的30条评论等。最终,共有622178条评论、2451个产品和225428个用户。

此外,旅游以户外活动为主,容易受天气这类外生因素的影响,为避免遗漏天气因素带来的内生性问题,本文编写爬虫程序获取2017年4月1日-2018年11月1日所有景点地区每日的天气信息,包括最高温度、天气(晴、雨、多云)和PM2.5值。

1.2 关键变量

1.2.1 评分

旅游网站评论中的产品评分有1~5分五档,分数越高越积极。622178条样本评分均值4.57,方差0.80。评分有着明显J形偏态分布(Gao et al.,2015;Hu et al.,2006;2009),评分集中在5分档(见图1)。90.1%的评分集中在4~5分,其中5分超过70%。由于消费者对高分(4~5分)的偏好,时间距离对低分段的变化(1~2分)和高分段的变化(4~5分)的影响可能是不一样的,常见的多元回归在这里可能无效,本文增加分位数回归模型验证这种不一致性。

图1 评分分布

1.2.2 时间距离

时间距离定义为消费者出行时间和评论时间的时间差。旅游网站的出行时间精确到天,评论时间精确到分钟,因此本文以天为单位统计时间距离。时间距离的偏度是3.39(p<0.001),因此对时间距离做对数变换,由于时间距离包含0(0没有对数变换),因此整体加1再进行对数变换(McCune et al.,2012)。此外,为了更好地解释交互项,本文对时间距离做了中心化处理(Cohen et al.,2003)。

图2 时间距离分布

1.2.3 文本情感

Senta情感分析系统采用Bi-LSTM双向语义依赖的深度学习框架,本文调用Baidu API的Senta情感分析定制模块,采用迁移学习的方法,获得文本情感得分0~1的连续值。首先利用公开数据集“谭松波的酒店评论语料”训练模型,共包含9000条积极样本、3000条消极样本,训练后的模型精确度从0.77提升到0.84。然后将模型应用到622178条评论文本中,获得连续情感值的均值为0.78、方差为0.28、偏度为-1.51,也存在J形偏态分布的情况。

1.3 控制变量

具体的控制变量见表1,包含产品信息、用户信息和天气信息。产品信息方面,本文统计了评论前产品的历史平均分和历史评价数,分别代表了旅游产品的历史水平和受欢迎程度,这些可能会影响到产品评价(Huang et al.,2016)。用户信息方面,本文统计了评论前消费者的评论平均分和评论数,这可能系统性代表了消费者的评价习惯(Huang et al.,2016)。天气信息是影响旅游出行的重要因素(Becken and Wilson,2013),本文提取了最高气温、天气状况和PM2.5三个指标。选用当日最高气温主要是景点旅游一般是在日间进行,由于一些地区的昼夜温差较大,最高气温比平均气温更能反映出当天的体感温度。为了更好地解释交互项,对最高气温做了中心化处理(Cohen et al.,2003)。天气状况是将天气预报的文字描述划分成4档:1-晴,2-多云,3-小雨阵雨等,4-中雨暴雨等。旅游出行受到淡旺季、气候等因素的影响,因此本文采用年度和月度的时间固定效应,以消除由时间因素带来的模型不可观测因素。需要注意的是,当使用时间和产品的固定效应时,产品信息已经在固定效应模型中体现;当使用时间和消费者固定效应时,消费者信息也得到了体现,相应变量无需再放入模型。

表1 控制变量表

图3 连续情感得分分布

2 模型结果

2.1 时间距离与评分

首先,采用传统的多元回归模型,评分为因变量、时间距离为自变量。模型有两个特点:(1)增加了天气变量、最高气温、天气状况和PM2.5值,其中天气状况(2,3,4)是离散值(2)分别对时间、产品和消费者做固定效应,控制了随时间、产品、个体变化但难以观测的变量,因此三者固定效应模型具有最佳的稳健性。用以下公式对三者固定效应模型做具体解释:

在式(1)中:TD指时间距离,Temp是最高气温,i是消费者编号,j是产品编号,t是时间编号,δi是消费者的固定效应,λj是产品的固定效应,τt是时间的固定效应,Controlijt代表除时间距离以外的控制变量。

回归结果显示(表2),在普通的最小二乘回归(OLS)和多种固定效应模型下,时间距离对评分均有显著的正向作用,且多个模型的回归系数相近。天气因素的影响方面,最高气温对评分有显著的负作用(系数=-0.003,p<0.01);极端天气(天气状况4)相较于好天气(天气状况1)有显著的负作用(系数=-0.028,p<0.01);PM2.5也会影响到评分,旅游当天的 PM2.5值越高,评分越低(系数=-0.015,p<0.1)。此外,表2还报告了时间与天气的交互系数,时间与最高气温的交互项显著为正(系数=0.0007,p<0.01),而最高气温对评分有负作用(系数=-0.003,p<0.01)。因此,时间距离对主效应(最高气温)带来的负影响有一定的调节作用,即随着时间距离的增加,最高气温对评分的负作用逐渐减弱。

值得思考的是,时间距离对最高气温的调节作用也说明了时间距离增加给消费者天气感知带来的减弱作用,由此推断时间距离对评分可能也会存在同样的“弱化”作用。同时,评分有着明显J形偏态分布(Gao et al.,2015;Hu et al.,2006;2009),评分主要集中在5分,低分段的变化(1分/2分向高分)空间大于高分段的变化(4分和5分向低分),传统的最小二乘回归中时间距离对低分段的影响主导了回归系数。因此,传统的多元回归在这里可能是失效的,下面将采用分位数回归模型进一步探究时间距离对不同水平评分的影响。

表2 评分的回归模型结果

2.2 时间距离与情感强度

普通最小二乘法是建立自变量和因变量条件均值关系的线性模型,而分位数回归则是利用自变量和因变量的条件分位数进行建模,它能反映自变量对因变量分布位置、刻度和形状的影响。本文采用分位数回归模型对评分在0.25、0.5、0.75、0.9分位点上进行回归,研究不同水平下时间距离的影响系数。同时,模型在时间和产品层面做了固定效应,由于消费者人数较多,直接将用户平均分和用户评论数作为控制变量加入模型中。固定效益模型能够避免观测不到的变量对模型的干扰,增加了模型整体的稳健性。具体回归模型如下:

其中:λj(τ)是产品j在水平τ下的固定效应,υt(τ)是时间t在水平τ下的固定效应,模型中的不同水平的斜率系数不一样,时间距离TDijts的系数αgi(τ)(τ)代表第g i(τ)组未知的斜率参数。

根据Williams(2013)的研究,时间距离对不同水平的情感有不同的作用,时间距离对消极情感有改进的作用,对积极情感有减弱的作用。前文已经探讨了效价评分和文本情感倾向的差别,本文加入时间距离对文本的情感值(自然语言处理模型计算的连续情感值)的分位数回归,对比时间距离对评分和情感值的不同影响。

表3展示了分位数回归的结果,对评分的回归中,时间距离在 25%(0.029,p<0.01)、50%(0.008,p<0.01)、75%(0.04,p<0.01)分位点上均有正向作用,但影响系数在逐渐变小,而时间距离在90%分位点对评分没有显著的作用。对情感值的回归中,时间距离在25%(0.002,p<0.01)分位点有正向作用,在50%分位点没有显著的作用,在75%(-0.0008,p<0.01)和90%(-0.001,p<0.01)分位点有显著的负向作用,同时负向作用是在逐渐增强的。需要注意的是,因为因变量评分和连续情感值的阈值范围不同,回归系数没有直接可比性。

从模型结果来看,时间距离对不同水平评分的影响系数差异较大,这种差异可能是别的遗漏变量带来的。而时间距离对情感强度的减弱作用明显,随着时间距离的增加,消极情感和积极情感都会逐渐减弱,并且时间距离的作用大小随情感强度的增加边际增大。因此,时间距离很可能通过改变情感强度从而减弱了对评分的影响系数。本文进一步在时间距离对评分的回归中加入情感值作为中介变量。

2.3 时间距离的两条作用路径

时间距离对评分的回归中加入情感值作为中介变量的结果展示在下方。首先,加入情感值后的时间距离在各分位点上对评分都是显著的正向作用,并且影响系数处于同一个量级,即加入剔除情感收缩的影响后,时间距离对各水平评分均有稳健的正向作用。结合解释水平理论的相关研究(Eyal et al.,2004;Herzog et al.,2007;Williams et al.,2014;Huangetal.,2016),认为这反映时间距离通过高水平构建正向提高了评分。

其次,以0.25和0.75分位数为例分析情感值的中介作用。根据温忠麟等(2004)的中介效应测试方法,情感值的中介作用成立。在0.25分位数水平上(图5),时间距离对情感是正向作用,加入情感值后,时间距离对评分的影响系数从原先的0.029(p<0.01)下降到0.023(p<0.01);在0.75水平上,时间距离对情感是负向作用,加入情感值后,时间距离对评分的影响系数从原先的0.004(p<0.01)下降到0.012(p<0.01)。

表3 时间距离、评分和情感值的分位数回归结果

表4 情感值在时间距离对评分影响的中介效应

图4 情感值的中介效应(0.25分位数)

图5 情感值的中介效应(0.75分位数)

2.4 小结

首先,本文通过分位数回归模型论证了时间距离对情感值的减弱作用,并且时间距离对最高气温的调节作用也佐证了这一减弱效应。其次,通过中介效应模型论证了时间距离通过情感和解释水平两条路径共同作用于评分。本文还对模型的稳健性进行了检验。一方面,调整样本集,如随机生成的方式抽取子样本集,在样本集中随机加入被清洗掉的“脏”样本等,测试发现样本数据的变化不会改变时间距离对评分的影响方式;另一方面,调整时间距离的测量方式,如改用周度、月度统计时间距离,取消时间距离的对数变换等,测试发现时间距离的测量方式也不会其对评分结果产生作用。因此,以上的模型结果适用于普遍数据集和测量方式,有良好的稳健性。

3 结论

本文的贡献在于:第一,通过严谨的实证分析,在二手数据中论证了时间距离的两条作用路径,对心理距离、解释水平理论和在线评论的研究工作作出了贡献;第二,为旅游评论的市场营销提供了科学建议。目前普遍督促消费者尽早评论的营销策略可能会带来负面效果,适度增加消费者评论的时间距离可以提高在线口碑。本文的研究还有以下两点不足:首先,本文研究中只论证了时间距离对评分的正向作用,并结合 Williams(2013)的框架推断出这种作用是由解释水平变化带来的,而抽象/具体在其中的作用尚未得到充分论证;其次,本文目前只涉及四种心理距离中的时间距离,Huang et al.(2016)的研究表明时间距离和空间距离会同时影响到在线评分,并且时间距离和空间距离间有交互作用,这些有待后续研究继续论证。

人们常说“距离产生美”,本文的研究发现,旅游活动的回忆会随着时间距离的增加而变化,所谓的“距离产生美”,一方面是时间距离的增加减弱了消极情感,另一方面是时间距离增加使人们更关注抽象事件,从而增加了评价的积极性。当然,时间距离的增加也会减弱积极情感,但由于旅游口碑的J形分布特征,消极情感的改善效果和解释水平的正向作用更为突出。因此,服务商不必一味促使消费者过早评论,适当的“距离”能够产生更“美”的口碑。

猜你喜欢

位数效应距离
铀对大型溞的急性毒性效应
五次完全幂的少位数三进制展开
连续自然数及其乘积的位数分析
懒马效应
算距离
应变效应及其应用
每次失败都会距离成功更近一步
爱的距离
遥感卫星CCD相机量化位数的选择
距离有多远