融合移动端用户序贯行为信息的OTA点击转化决策

2024-03-26高鸿铭

统计与决策 2024年5期

高鸿铭，陈聪，朱慧

（广州大学管理学院，广州 510006）

0 引言

搜索引擎重塑了用户搜索旅游产品和筛选产品信息的方式。近年来，携程、Expedia、trivago等第三方在线旅行社（OTA）搜索平台已成为销售产品及服务的重要渠道[1]。酒店预订决策具有低发生频率且高购买支出的特征，是典型的高介入度产品决策[2]。这意味着用户需要高度参与搜索和比较产品信息[3]，以订购满足需求的客房。用户通过搜索引擎结果比对备选项，价格、评价、与目的地的距离等因素是影响酒店预订决策的关键因素[4]。点击转化是酒店预订意愿的直观度量，点击转化是指当用户使用OTA 搜索引擎时，点击跳转到目标商务酒店网站的行为。系统性地理解移动端用户酒店预订决策意愿，提高点击率，优化搜索引擎和竞价排位是OTA获得酒店广告主代理佣金的关键手段[5,6]。

根据法国在线广告公司Criteo的调查报告，当前全球旅游用户在移动设备上完成了高达60%的交易；在“最后一分钟快速预订酒店”业务中，移动端占据89%的流量。学者们发现,当消费者进行高介入度的产品决策时，更倾向于使用移动设备而非PC端[7]。然而，移动设备的小尺寸屏幕增加了用户导航任务的复杂性，降低了信息学习效率[8]。移动与普适计算改变了购买决策环境。

目前关于搜索引擎和用户决策的研究有很多，但存在一定的局限：（1）现有文献多以PC 端搜索引擎为研究对象[6,9]，经验证据难以直接泛化到移动搜索情境。（2）粗粒度数据设定的研究范式无法厘清点击转化决策的影响因素。用户决策表现出个体异质性，是一个兴趣动态化的复杂系统过程[10]。学者们通常采取实验室模拟[2,6]和问卷调查数据[11]进行分析，不够贴近真实搜索决策过程。少数学者从交互行为出发展开研究，但他们倾向于以总体用户聚合数据为研究单元[9]，忽略了个体序贯行为信息的实时特性。（3）酒店广告主聚焦于竞价预算和投资回报率[6]。例如，在搜索结果页面中，中部排位的酒店表现是否一定优于尾部排位？第一排位与第十排位的点击转化率差异如何？以上问题在移动搜索领域研究较少。

搜索引擎优化策略是信息系统领域的前沿话题，针对移动搜索中高介入度产品决策机理的研究仍较为稀少。本文从人机交互的序贯行为信息证据入手，探究酒店预订移动端平台的点击转化决策机制，基于个体用户的序贯行为决策链路，利用细粒度数据构建一个动态贝叶斯推断模型展开研究，以期深化对高介入度产品在移动搜索引擎中的排位效应和价格偏好的理解，为优化OTA 移动搜索引擎和竞价排位提供理论支持。

1 影响搜索引擎优化的信息因素

搜索引擎优化已在不同学科和领域引起广泛关注，其旨在为缓解信息过载提供过滤和排序建议。信息系统多从设计科学视角探讨搜索引擎营销成功的决定因素[9]。搜索引擎按其服务对象可分为两类：信息检索型（如百度、谷歌等）和产品搜索型（如淘宝、携程和Expedia）。在信息检索方面，Pan等（2007）[12]通过眼动追踪实验发现，用户更倾向于点击谷歌搜索结果中排位靠前的链接。Rutz 和Trusov（2011）[13]研究发现，搜索结果中的头部排位广告能引发较高的点击转化率，并为中小企业带来利润增长。针对旅游搜索引擎的研究与开发已成为旅游学科和信息系统学科的一个重要交叉研究领域。Law和Huang（2006）[11]通过问卷调查发现，近50%的用户最多查看搜索结果前三屏的内容。Pan（2015）[1]研究指出，无论是PC 端还是移动端，不同目的的营销组织在搜索引擎平台的点击率都呈现幂律分布，即大部分关注集中在排位靠前的位置。

在旅行产品搜索引擎方面，Van de Rest 等（2016）[6]通过模拟实验发现，屏幕排位与酒店预订决策之间存在负相关关系，即排位越靠后，转化率越低。Ert 和Fleischer（2016）[2]在PC 端进行实验，结果显示，排位靠近尾部的酒店比中间位置的酒店具有更高的点击转化率。

价格因素在搜索引擎优化中同样占据重要地位。Baye等（2009）[14]研究发现，拥有较低价格的电商产品平台能提高点击转化率。后续研究发现，在其他条件不变的情况下，产品价格上升会降低PC 端用户的购买意愿[9]。然而，在旅游信息搜索平台上，消费者介入程度相对较低，而预订酒店决策却要求用户付出更高的认知参与和搜索成本[2]。Holmes 等（2014）[7]研究发现，当用户进行高介入度产品决策时，更倾向于使用移动设备。

筛选器是一种辅助用户在搜索过程中形成产品考虑集的工具，包括筛选、排序等功能，旨在降低搜索成本[15]。关于筛选器的效果，现有研究的结论并不一致，PC端证据表明，筛选器对低介入度产品购买决策（如图书）没有影响[16]；而对于高介入度产品购买决策（如酒店预订），Ghose等（2014）[9]认为筛选器的使用降低了购买意愿，Chen 和Yao（2017）[15]则认为筛选器的使用诱发了更多的搜索、提高了购买意愿。

已有研究主要采用问卷调查获取数据，可能会受到样本抽样偏差和用户回忆偏差的影响；也有研究采用聚合总体用户进行数据建模，但未考虑用户的异质性。这些研究在很大程度上忽略了决策过程的动态性。鉴于此，本文首先基于个体用户的序贯行为决策链路进行建模分析，并考虑移动搜索界面中动态信息线索的影响程度；其次，由于移动端酒店预订决策具有高介入度产品的特性，因此需要进一步探究价格和筛选器使用对移动点击转化决策的影响；最后，与PC端的研究不同，本文还将考虑感知价格（用户在搜索过程中对产品价格的感知比较）的影响。

2 研究框架与模型构建

2.1 移动用户序贯行为决策链路的理论框架

鉴于个体活动的异质性，本文以“消费者-产品”的微观决策单元为基础，将其拓展到“消费者-产品-时间”三元对交互，重点考虑移动用户序贯行为决策链路中的异质性与时间特性，从而更准确地刻画和预测用户搜索行为和点击转化决策。

以用户i的一次浏览会话为例，用户i进入某OTA移动搜索平台，输入关键词检索，开始了会话。在本文中，解释变量为移动点击转化决策Dijt。当t=1 时，用户i浏览酒店j的信息，可对酒店图片、评论、价格、销量等信息进行交互。若无点击转化发生，则Dijt=0；若点击跳转到酒店h的官方网站，则Dijt=1，表明发生了转化。在后续交互中，用户i可在搜索结果中对任一酒店j进行点击转化，也可使用筛选器自定义搜索结果。循环往复，直至满足需求或超过愿意支出的搜索成本，会话结束。一次搜索过程被定义为一条序贯行为决策链路Dijt={Dij(t=1)，Dij(t=2)，…，Dij(t=T)}。

研究问题：定义i∈{1，2，…，K}为移动用户集合，j∈{1，2，…，J}为交互的酒店产品集合，用户i与对象j的交互时刻为t，则本文的目标是优化移动搜索引擎，基于序贯行为信息的时间特性，最大化链路Dijt={Dij(t=1)，Dij(t=2)，…，Dij(t=T)}的点击转化率，同时探讨影响点击转化决策的因素。

2.2 融合个体序贯行为信息的动态贝叶斯推断建模

假设在移动搜索会话中，用户潜在效用向量Z由可观察的信息因素向量F所决定。那么，如式（1）所示，可用离散选择模型刻画点击转化的决策概率。

其中，ψ(·) 是标准正态分布的累积分布函数，表示随着Fijt中各因素的变化，用户i在时刻t面向酒店j发生点击转化的概率。这等价于Pr(Dijt=1) ，即用户i在时刻t在OTA中点击酒店j链接并成功跳转到酒店j的商业预订网页的概率。

由于存在异质性，贝叶斯推断的数据增强方法是对待估参数向量δ给定一个正态先验分布p(δ)[16]。在给定观察数据矩阵(Fijt，Dijt)的情况下，在观察窗口内，可从单次决策事件推导出整个序贯决策链路的似然函数，如式（2）所示。

被观察到的点击转化次数服从伯努利分布。在式（2）中，c被视为点击转化的比例常数；φ(·;u，s2)是标准正态分布的概率密度函数；而I(X∈A) 是指示函数，当满足特定条件时，随机变量X包含于集合A中，其值为1,否则为0。

由贝叶斯理论可知，后验概率正比于先验概率与似然函数的乘积。通过将式（2）中的潜在效用Zijt积分除去，式（3）得到δ的边际后验概率密度Pr(δ|Fijt，Dijt)，用以分析不同特征对点击转化决策的影响效应。

2.3 影响移动用户点击转化决策的随机效用框架

相比传统的点估计模型，针对总体用户，贝叶斯推断允许从微观角度探讨个体的异质性决策过程，用户i在时刻t面向酒店j的潜在效用Zijt被构造为：

其中，δ=[δi0，δi1，δi2，δi3，δi4，δi5，δi6]-1是待估参数向量，Fijt中的因素包括屏幕排位rankijt、第一排位rankFirstijt、排位二次项（以解释非线性效应）、价格priceijt、局部相对价格priceSortijt和筛选器使用toolijt。为了探讨使用筛选器的自定义列表和屏幕排位的交叉效应，纳入交互项：

式（5）中，待估参数向量δ拓展为一个10 维列向量。式（4）和式（5）中，随机扰动项εijt独立同分布于标准正态分布。

因此，用户i在时刻t面向酒店j的点击转化决策为Dijt由其潜在效用决定：

2.4 MCMC方法的Gibbs抽样算法估计后验概率

针对式（3）所建立的动态贝叶斯推断模型，本文采用MCMC方法的Gibbs抽样算法[16]进行估计。潜在效用向量Zijt条件依赖于参数δ和观测数据矩阵()Fijt，Dijt；δ的边际后验概率密度可由依赖于Zijt和Fijt的条件概率Pr(δ|Fijt，Dijt)获得。故δ和Zijt的后验分布分别为：

Gibbs抽样先根据总体先验分布p(δ)初始化δ0，再开始迭代抽样：第一步，式（7）和δ0抽取，也就是其抽样依赖于给定观测到的数据(Fijt，Dijt)和δ0的截断单变量正态分布；第二步，基于第一步的抽样结果，g根据式（8）从相应的条件概率分布抽取δ1；第三步，重复前两步迭代，直至马尔科夫链参数收敛，最终得到δ的边际后验概率密度Pr(δ|Fijt，Dijt)。

3 数据来源及特征测度

本文的研究数据集来自德国一家大型OTA移动端的会话日志数据①该OTA的商业设定与携程、trivago等OTA移动端搜索引擎结果列表每页25个产品的通用设置一致。。该OTA为旅行者提供了酒店预订服务，覆盖超过190 个国家和地区。观察周期为2018 年11 月1日至2018年11 月7 日，记录了用户点击流数据。由于存在缓冲数据，即因为系统加载等原因会生成重复数据条目，其持续时间为零，这些记录无法真实地反映消费者的决策性质，因此需要过滤掉冗余数据。最终的数据集为2295 个移动用户面向7264 家酒店的2596 个在线浏览会话，包含15638条交互记录。

本文以可观测的屏幕排位、价格与筛选器使用的多维度特征构造信息因素向量F。

（1）屏幕排位：本文采用三个变量来表征。在搜索结果中，用户i查看酒店h在时刻t的排位定义为排位变量rankijt：

该变量为整数型变量，其取值范围为1～25。在搜索结果中，排位越高，rank的值越接近于1，即越靠近头部排位。

为了解释屏幕排位潜在的非线性效应，排位变量的二次项也被考虑在模型当中。

由于受到移动设备小尺寸屏幕的限制，用户注意力可能存在衰减规律，即用户对第一排位付出最高的关注[1]，因此设定屏幕第一排位变量为：

其中，rankFirstijt为二分类变量，当用户i在时刻t交互的酒店j居屏幕第一排位时，其值为1；否则为0。

（2）价格偏好：预订酒店决策是典型的高介入度的产品决策，以往研究多关注酒店价格，类似地，本文定义用户i在时刻t交互的j酒店的价格为priceijt。

与全局价格偏好不同，移动用户在每次重新检索或使用筛选器后，可能会对单次搜索结果页面中的产品价格进行比对。本文定义priceSortijt表示酒店j在时刻t的搜索结果页面中25个酒店以价格降序的排位：

其中，priceSortijt是用户对酒店价格的一种局部价格比对偏好，与排位变量rankijt相似，为整数型变量。priceSort的值越接近于25，表示价格排位越靠后，即酒店h在时刻t在搜索结果页面中的相对价格越低。本文以此来量化用户面向一次搜索结果列表中对25 个酒店价格的敏感程度。

（3）筛选器使用：当用户使用移动搜索引擎时，筛选器可辅助他们满足个性化的定制需求，包括过滤筛选和排序改变功能。本文用一个二分类变量toolijt来捕捉用户i在时刻t的搜索结果列表是否来自使用筛选器后的自定义筛选结果。当其值为1时，表示当前列表为用户自定义列表；当其值为0 时，表示当前列表为搜索引擎给出的默认列表。

信息因素向量F中变量的描述性统计见表1。用户浏览交互过的酒店中，平均排位为第7（6.98），其中1/4 的交互产品是居于第1排位。酒店价格的均值为97.99美元/晚。23%的酒店产品是来自使用筛选器后的用户自定义列表。

表1 “消费者-产品-时间”三元对的信息因素向量F 的描述性统计

4 模型估计与结果分析

4.1 模型抽样与性能检验

在R 语言中，本文运行了40000 次MCMC 迭代。前30000 次迭代是为确保模型收敛，保留最后的10000 次迭代结果作为Pr(δ|Fijt，Dijt)后验参数的分布估计。图1 是对δ前6个参数的后验分布密度图。与点估计P值判断统计显著性的思想相似，贝叶斯推断通过判断0值是否位于95%后验分布的置信区间内进行检验。当某个参数的95%后验分布的贝叶斯置信区间内含有0时，表示该参数统计上与0没有显著差异；若0不在区间内，则说明该参数具有统计意义，代表变量对点击转化决策的存在显著影响。以排位变量rankijt为例，图1 显示，δ1的95%置信区间内不含0，这表明δ1与0值存在显著差异，说明移动搜索中屏幕排位对点击转化决策存在显著影响。

图1 参数δ0 至δ5 的后验估计分布密度图

为进行鲁棒性检验，本文设计了两个动态贝叶斯模型，以对数边际密度（Log marginal density）验证本文模型的优劣，其值越大表示模型拟合程度越高。本文先对模型1（即考虑式（4）中的因素）进行估计；接下来，在模型1 的基础上，在式（5）中引入交叉项，构建模型2，再次进行估计。为方便表示，根据δ的后验估计分布（见图1）计算每个参数的均值和方差。对数边际密度的计算结果表明，模型2 优于模型1，即筛选器的使用和屏幕排位的交叉项能有效提高模型拟合程度。

为了进一步检验模型的预测性能，本文将总体数据集中的2295名用户随机划分为训练集和测试集。训练集包含1203 名用户，共8298 条记录，用于模型训练和参数估计；测试集包含1092 名用户，共7340 条记录，用于评估模型的预测性能。在比较性能时，本文将广义线性模型中的二项logit 模型作为基准模型，将统计学习中的支持向量机、树形机器学习中的随机森林作为对照模型。同时，将精度召回曲线下的面积（PR-AUC）和ROC 曲线下的面积（ROC-AUC）作为评价指标。其中，PR-AUC 衡量了模型在不同召回率下的精度表现，而ROC-AUC则衡量模型对正、负样本分类的准确性。二者的值越大，表明模型的预测结果越好。

由表2可知，动态贝叶斯推断模型在预测性能上明显优于其他三个模型，而二项logit 模型的效果最差。二项logit模型主要从计量模型角度解释变量间的线性关系，而支持向量机和随机森林则从聚合数据层级上考虑了变量间的非线性关系，这可能是导致他们的预测性能优于二项logit 模型的原因。动态贝叶斯推断模型融合了个体用户决策的时序依赖性信息，能更好地对用户异质性进行解构和建模，从而在PR-AUC 和ROC-AUC 方面比二项logit 模型分别高出19.01%和15.42%的预测精度。总体而言，动态贝叶斯推断模型在预测点击转化决策方面是稳健且最优的拟合模型。

表2 模型预测性能比较

4.2 移动用户点击转化决策的影响因素分析

下页表3 是对全体2295 名用户的β后验分布计算的均值和标准差（括号内）估计结果。从截距的系数显著为负可知，移动用户在会话中倾向于继续搜索而不是进行点击转化。与在旅游信息搜索引擎[1,11]和PC端上的研究[6,9,15]结果一致，屏幕排位rankijt在移动搜索引擎中以首因效应的形式存在。换言之，酒店产品在移动屏幕上排位越靠前，用户的点击转化概率越大（δ1=-0.022）。尽管用户可以搜索并滚动查看整个搜索结果页面以建立考虑集合，但移动端因屏幕较小而形成的“信息组块”可能阻断了用户获取并学习全局信息的可能性。因此，移动用户不得不逐块地去搜索和比对产品信息。同时，由于认知注意力机制的限制，在会话初期搜索成本较低[15]，用户更可能对输入关键词后首先出现的酒店产品给予更多关注，即存在首因效应。第一排位rankFirstijt的影响没有统计意义。值得注意的是，移动搜索引擎中的排位效应并非单调变化，排位变量的二次项与移动点击转化决策之间存在显著正相关关系，意味着排位效应实际上可能是一种“U”型效应，即移动用户对搜索结果列表中头部和尾部排位酒店的点击转化概率要大于中部排位选项。可能的解释是，在移动界面中，随着用户不断滚动页面持续浏览，搜索成本增加，认知注意力衰减，中部排位的酒店选项很难被用户召回，因此更倾向于头部排位和尾部排位的酒店。

表3 后验估计结果（基于2295名用户，共15638条搜索记录）

此外，在移动搜索引擎中，价格偏好的实证结果与基于PC端的负相关关系不同[9,14]，这表明酒店价格priceijt可能是移动点击转化的一个有效的质量信号。价格是酒店质量的外显因素，较高价格的酒店有可能缓解移动用户的信息不对称性，因此导致移动搜索中酒店价格正向影响用户预订酒店意愿。然而，移动用户在酒店点击转化决策中表现出局部比对的价格敏感特征（priceSortijt影响显著且系数为正，δ5=0.018），这意味着在会话的局部搜索中，用户倾向于从单次搜索结果列表的25个选项中选择价格排序较低的酒店。

当移动用户开始搜索后，搜索平台界面按照产品流行度、大众评分排序等规则输出默认列表。而当用户使用筛选器后，界面输出自定义列表。从表3 可知，使用筛选器toolijt将对点击转化决策产生负向影响。进一步观察交叉效应可以发现，筛选器并不会增强或减弱屏幕排位的首因效应和“U”型效应。但当出现自定义列表时，相比默认列表，它增强了用户对第一排位的点击转化概率（toolijtrankFirstijt的系数显著为正，δ8=0.197）。

4.3 屏幕排位与筛选器使用的交叉弹性分析

屏幕排位的效应分析有益于量化竞价排位的商业绩效表现，帮助OTA 在竞价排位拍卖时面向酒店广告主进行合理定价。因此，本文利用已估计的动态贝叶斯推断模型，在其他变量保持为均值的条件下，进行屏幕排位和筛选器使用的交叉弹性分析①在进行弹性分析时，采用控制变量法，与屏幕排位和筛选器无关的变量取值为均值，利用收敛后的10000次δ的后验估计分布预测点击转化的后验概率分布，而非依赖表3中汇总的统计量进行预测，以便更贴近个体用户异质性的决策过程。。为了方便理解，本文用均值和标准差这两个参数描述搜索结果中第1 排位至第25 排位的点击转化预测的后验概率分布，在图2中以散点和误差棒的形式绘制这些分布的可视化效果。

图2 屏幕排位和筛选器使用对点击转化决策的弹性分析

图2 中，虚线表示默认列表的平均点击转化概率为40.15%；而实线则表示自定义列表为34.21%。无论是浏览默认列表还是自定义列表，屏幕排位对移动用户点击转化决策的效应都呈现非线性的“U”型特性。本文的结果与已有研究关于PC 端的研究结果存在差异。在PC 端研究中，筛选器的使用对购买意愿产生了正向影响[15]或没有明显影响[17]。而移动端的证据表明，默认列表带来的经济效益可能高于使用筛选器后的自定义列表。

通过误差棒分析发现，使用筛选器后的点击转化平均概率的波动区间更大，放大了移动用户点击转化决策的不确定性。换言之，相比默认列表，自定义列表使移动用户投入更多搜索成本，但这有可能促使他们的产品考虑集范围扩大，决策不确定性的提高使得最终点击转化概率降低，因而造成效益损失。

图2还表明，在自定义列表中，第1排位的效应影响程度要比第2排位高出1.45%；而在默认列表中，第1 和第2排位之间的效应差距要小得多，仅为0.05%。可能的解释是，当使用筛选器时，移动用户根据个性化需求对产品进行筛选和排序，自定义列表搜索结果出来后，用户感知第1 排位的酒店产品与他们需求的匹配程度更高（尽管实际上可能并非如此），从而提升了该排位的点击转化概率。

5 结束语

首先，本文建立了一个将动态消费者搜索过程转化为序贯决策链路的点击转化决策的理论框架，借助MCMC方法，结合一家主流OTA 的移动端大数据开展研究。该模型考虑了个体决策点的时序依赖性，预测效果优于二项logit 模型、支持向量机和随机森林。其次，本文拓展了屏幕排位对高介入度产品决策的影响的研究，发现移动搜索中的屏幕排位以非线性“U”型特性存在，且首因效应明显。再次，价格是移动搜索过程中一个全局的正向质量信号，但研究结果显示，移动用户在单个搜索结果列表中倾向于选择价格排序较低的酒店。最后，研究显示，相比默认列表，移动用户使用筛选器得到的自定义列表很可能会降低点击转化概率且提高决策不确定性。

在管理实践上，本文从投资回报角度提供了竞价排位系统的定价策略，OTA可根据屏幕排位的绩效差异给酒店广告主进行差异化定价。同时，应关注尾部排位的效果，并对其进行个性化调整以提升整体点击转化率。从搜索引擎的设计角度出发，OTA可根据移动用户在会话中全局锚定其可能的预期价格这一特性，在后续的结果列表中，调整酒店选项的价格排序，以便更快地满足用户需求，降低搜索成本。相比模拟实验和问卷数据，从真实个体用户搜索数据构建的动态贝叶斯推断预测模型更有利于优化搜索引擎推荐策略。在实际应用中，应兼顾用户的动态偏好和筛选器使用情况，以提供更符合用户需求的定制化产品列表。