APP下载

数据驱动的高校图书馆用户留存研究*

2022-12-17陈添源詹庆东林艺山

图书馆论坛 2022年11期
关键词:生命周期均值聚类

胡 婧,陈添源,詹庆东,林艺山

0 引言

当前“赋能存量、做优增量、把握变量”是高校图书馆(以下简称“高校馆”)面向“十四五”规划加强信息资源建设和业务创新的重要理念之一[1]。然而高校馆在发展新用户和开拓新服务的营销服务过程中,存在用户流失现象[2]。提升用户留存成为高校馆重要工作,该如何在存量和增量中提高用户留存,防止用户流失呢?有鉴于此,构建适宜于高校馆业务实践的用户留存分析框架和实证方法成为亟待解决的问题。而随着高校馆信息化建设加速,众多业务平台中存储着大量的用户行为数据,借助大数据工具加强用户行为分析,提升高校馆的精准服务,这种研究范式日益受到关注和认可。本文以此为出发点,以数据驱动模式开展用户留存分析,从高校馆的用户行为数据中识别用户留存行为特征,洞察用户生命周期的每个阶段或关键节点的用户留存群体差异特征,进而制定分群营销服务策略,以期为高校馆提升用户服务精准化水平提供借鉴。

1 研究述评

1.1 用户留存分析及其在图书馆领域的相关研究

综合相关研究[3-4],用户留存分析起源于经济学和管理学领域,用于定量分析用户经过一段时间仍旧继续使用该产品或服务的行为,在给定的统计时间窗口内,留存用户占新增用户的比例即为用户留存率,它是体现产品或服务是否具备可持续发展和用户黏性的重要指标。传统市场营销中,业务增长重心在于获取新用户。随着移动互联网和大数据迅猛发展,用户对同质产品和服务的选择和获取途径得到极大丰富,用户流量红利逐渐消失,用户增长从“流量”转变到“留量”,用户留存率被视为用户增长的关键指标[5],尤其忠诚用户的留存行为特征被列入传统平台迈入转型和升级的重要参照[6]。用户留存分析陆续被运用于旅游网站[7]、学术虚拟社区[8]、移动App[9]等领域,学者们不断探索运用各种模型或算法分析和识别用户留存的关键行为特征。纵观既有研究,它们以用户生命周期为主线,挖掘业务关键节点的用户留存行为,推动用户拉新、促活和留存,提高服务营销收益。

高校馆用户留存研究集中在平台服务、阅读推广和移动阅读等。平台服务方面,刘薇[10]调研广州大学城13所高校馆微信公众号的用户运营情况,探讨提高用户获取、留存和活跃度的公众号运营策略。阅读推广方面,任运月等[11]以阅读推广活动的用户“拉新”“留存”“促活”作为目标维度,调查40所图书馆采用不同运营策略及其与实现目标的关系;戴和忠等[12]提出基于用户阅读行为的图书质量评测算法,将用户留存数据作为重要指标。移动阅读方面,郑德俊等[13]、明均仁等[14]基于扎根理论设计用户访谈,通过结构方程模型分析影响“微信读书”“超星移动图书馆”这两个移动阅读平台用户流失的主要因素,探讨提升用户留存率、预防用户流失的对策;朱雅彬[15]在用户调研基础上,通过SVM算法识别移动图书馆用户流失特征,提出用户留存对策。

综上所述,用户留存作为衡量服务质量和需求匹配度的核心指标,研究范式走向系统化,从单纯统计分析发展到数据挖掘、模型深度运用。它聚焦了用户生命周期的产品认知、用户促活、留存与转化等,这种以数据驱动结合业务场景和用户行为特征来洞察用户留存关键影响因素的研究模式契合图书馆提高精准服务水平的现实需要与转型探索,可以为开展精准化服务带来基于数据驱动的辅助决策。但是,高校馆用户留存研究还停留在引入相关概念对服务方式展开定性分析;定量实证方面,更多是基于主观意识层面的访谈和调研;仅有的基于用户行为分析也只是将用户留存作为评测图书质量的一个指标。此外,多从用户流失角度出发,反向探讨提高用户留存的策略,鲜有从用户留存分析角度展开,也未有文献利用数据寻找影响用户留存的核心要素和分群开展精准营销的方法。鉴于此,本研究尝试以高校馆的战略目标和业务服务场景为出发点,以数据驱动用户增长的研究视角构建图书馆业务情境下的用户留存分析框架,并选取具备全量数据特征的典型业务实践作为实证研究对象,探索基于用户行为数据的留存行为特征识别和用户分群,为高校馆在资源与服务定位、用户维系和创新服务等方面提供精准化服务的决策辅助。

1.2 用户生命周期与同期群分析

用户留存贯穿于用户与产品或服务交互的全过程。在用户生命周期的不同阶段均有用户留存的关键行为特征。为识别和区分不同生命周期阶段的用户留存,典型分析框架采用同期群分析算法(Cohort Analysis)[16],以具有某种共同的行为特征、同处于某一相同时期两个维度进行用户识别,具备这两个特征的用户称为一个同期群。

确定时间划分标准是同期群分析的关键,各领域根据用户在服务场景中的交互特征确立分期时间标准,如互联网营销用户留存时间划分通常有次日留存、7日留存和五周留存3类[17]。然而在大数据环境下,区分不同用户的需求和行为特征更多是通过消费者的具体行为和建立新的以用户生命周期为基础的模型来完成分析。以行为数据变动并动态修正的NES模型[18]认为,可以通过用户产品使用周期,将用户类型分为新用户N(New Customer)、主力用户E(Existing Customer)和睡眠用户S(Sleep Customer)等时长区间。其中睡眠用户可动态分级为瞌睡用户S1、半睡用户S2及沉睡用户S3等时长。故此,基于高校馆用户服务的实际业务场景,本文将同期群分析与NES模型的大数据营销模式相结合,基于数据驱动识别和划分不同的用户留存区间值。

1.3 基于RFM模型的用户留存分群

开展用户留存分析的最终目标是实现分群的精准化营销,提升服务效益。精准化营销的前提是基于数据挖掘的用户细分。因此,基于数据驱动的用户留存分析需要在用户行为数据集分析的基础上建立用户留存分群标准,结合业务场景进一步描述和分析影响用户留存的行为指标体系。在用户细分研究领域,RFM模型是经典的基于数据分析的用户分群模型,通过R(Recency,最近一次消费)、F(Frequency,消费频率)、M(Monetary,消费金额)3个指标的组合来划分用户群体,是衡量用户价值的重要工具[19]。该模型广泛应用于客户关系管理分析,并在使用过程中衍生出众多改进的RFM模型。在图书馆领域,对RFM模型的改进主要用于热门图书评价[20]、图书馆用户画像[21]等研究。为有效描述图书馆各项业务的用户留存关键行为要素,本研究将以RFM模型为指标体系基础,结合用户生命周期和服务复用周期等行为特征进行指标重构,从而全面描述图书馆服务的用户留存行为标签体系。

2 研究设计

2.1 实证分析思路和框架设计

在确立同期群分析的区间划分之后,根据高校馆业务场景和可获取的用户行为特征构建数据驱动的用户留存分析框架,见图1。在该分析框架中,以高校馆提升各项服务的用户留存率为战略目标,根据业务服务目标自上而下分解用户留存行为的核心指标,继而对接业务系统平台定义和抽取数据字段;然后,采集、清洗和存储与此相关的用户行为数据,以同期群分析法划分和确立用户留存区间范围,继而以用户价值模型为基础重构用户留存的行为标签体系;采用聚类分析探究不同用户留存群体的分群和特征差异,最后讨论不同分群的留存行为特征及与其相适宜的营销服务策略。

图1 高校图书馆的用户留存实证分析框架

2.2 用户留存行为指标体系构建

为描述不同用户留存阶段的行为特征,从用户维系、用户忠诚和用户价值等视角出发,以衡量用户价值的RFM模型作为指标体系基础,将用户生命周期和服务复用周期融入RFM模型进行指标重构,组成用户留存行为标签体系。指标R为用户最近一次使用图书馆该项服务的时间,指标F为用户在选定时间段内使用该项服务的次数,这两项指标的变化体现用户留存行为的异动状况;指标M改造为指标C,衡量用户使用该项服务付出的等待时间成本;新加入的指标L(用户生命周期)体现用户的服务忠诚度,表征用户与服务之间的黏性;指标S(服务复用周期)则体现用户二次使用服务的时间间隔,是衡量用户留存行为的关键指标和开展营销服务的最佳时间节点。最终的用户留存行为标签体系如图2所示。

图2 高校图书馆用户留存行为指标的RFCLS体系

3 实证分析

3.1 实证对象选取和战略目标

本文选取一站式资源检索平台——福建省高校数字图书馆(以下简称“FULink”)文献提供系统为用户留存分析的实证对象,该平台整合了课题组所在馆的馆藏数字资源,通过共建共享模式向用户提供一站式的资源检索、浏览和文献提供服务,是用户获取各类学术资源的重要入口,支持用户快速获取馆藏的各类数字资源,也提供缺藏资源的文献提供服务。以此平台开展基于数据驱动的用户留存分析实证研究,既是探索提升平台使用率、用户复用率以及服务可持续发展的重要途径之一,也能发现和获取影响平台可持续增长的关键因素。根据图1的用户留存分析框架,在平台日志系统采集用户行为的全量数据,通过基于NES模型的同期群分析法和图2所示的RFCLS行为标签体系识别和获取用户留存行为的特征数据,据此分析和讨论契合于不同用户留存阶段的营销服务策略。

3.2 数据采集和描述性统计分析

根据文献提供服务的业务流程,通过Web开发者工具抓取FULink的日志页面,对每条行为数据进行HTML代码解析,以用户留存分析的数据集需求设计10个存储字段。字段分为两类:一是文献申请用户的行为信息,包含申请ID、申请邮箱、申请时间、申请标题和申请文献类型;二是文献提供的响应信息,包含响应状态、响应题名、响应成员馆、响应时间和响应文献类型。为获取上述确立的文献提供服务相关字段数据集,通过编写爬虫代码,调用xml2和rvest函数包将获取的行为数据逐条按照字段爬取,利用cbnid函数组配为数据框(DataFrame)格式,依次采集和导入到MySQL数据库存储。对各字段进行缺失值、异常值、空值处理及字段类型转换,共获取近5年(2016-2020)38,126名用户文献申请共计458,035条。

在Jupyter Notebook数据分析平台上连接MySQL数据库读取用户行为数据,以用户名为关键词索引统计文献申请数来看,四分位数为(1,2,8,6363),均值13大于Q3分位数8,这说明总体差异较大,存在部分文献服务需求极强的用户。而从每篇文献的响应时效来看,其统计四分位数为(3,5,6,7474),均值12(小时)远大于Q3分位数6,说明响应时效总体差异较大,大部分的文献响应时效有待提升。以每个自然月为观察窗口,计算每月文献提供数量和月增长率并绘制增长曲线,如图3所示,文献提供数量和月增长率均呈季节性波动变化且逐步下降。

图3 FULink文献提供服务的月增长率及每月文献提供数量曲线图

3.3 用户生命周期和服务复用周期的挖掘分析

在用户行为数据集通过计算增加“用户初次使用时间”“最后一次使用时间”两个字段,相减获取本次实证时间统计窗口内每个用户的生命周期值。对数据集以用户名和申请文献日期为索引组合升序排序,对每个用户依次统计其首次使用日期,新增FirstRequestDate列加入数据集。新增RetentionDays字段用于存放下一条文献提供记录的申请日期与FirstRequestDate字段的时间差值,并转换为天数,即为每个用户的服务复用周期值。其均值、四分位数等数据特征见表1。

表1 FULink文献提供服务的用户生命周期和服务复用周期的值分布(单位:天)

从表1第二列看出,用户生命周期均值为181天,中位数为3天,说明部分生命周期很长的忠实用户拉高均值。生命周期值为0天的用户占46.7%,这部分用户没有留存,仅使用一次服务就流失了。去除这部分用户比例,用户生命周期均值为339天。汇总留存用户的生命周期值分布发现,1-90天用户数占比35%,远高于90-181天的12%;37%用户的生命周期集中在0.5-2年,属于较高质量客户;生命周期在2年以上有15.8%的用户群体,他们拥有极高的用户粘性。

从表1第三列看出,用户服务复用周期均值为92天,中位数为45天,说明大部分用户的服务复用时间间隔集中在1.5个月以内。进一步统计,32.7%用户集中在1-7天,52.5%用户集中在17天(Q1分位数),说明大部分的用户在半个月左右会再次使用文献提供服务。

根据NES理论,以45天为文献提供服务的复用周期单元值,结合实际使用场景分为新用户、存量用户和沉睡用户等不同时长区间,存量用户区间还细分为主力用户E0、瞌睡用户S1和半沉睡用户S2等不同周期值,其NES周期值分布情况见表2。

表2 FULink文献提供服务的用户NES周期值分布

3.4 同期群分析

根据前述确立用户留存分析的框架思路,将用户生命周期和服务复用NES周期各区间时长值相结合按时序排列,确立以(0,7,30,45,60,90,180,242,365,1462)为初始留存区间端点,通过同期群分析计算用户的留存区间分布情况。左侧闭区间表示全为使用2次及以上的留存用户。留存区间计算过程如下:利用Pandas的数据分箱cut函数对RetentionDays字段依次进行(0,7,30,45,60,90,180,242,365,1462)的同期群留存区间统计,统计结果如表3所示。从表3来看,文献提供服务的年留存率达到35%。除周留存率和月留存率相对稳定之外,其余区间的用户留存率处于波动变化中,留存率最低降到13.1%,但文献申请均值最高增长到19篇。其中,主力用户E0区间的留存率整体较低,瞌睡用户S1区间的留存率最高,这说明可以在上述这些用户留存区间节点上探索通过各种用户促活手段来提升用户留存率的途径。

表3 用户留存区间的各项留存指标值

3.5 用户留存行为的聚类分析

3.5.1 数据获取

依据前述构建的文献提供服务用户留存行为标签体系RFCLS,对每个指标的用户行为数据获取定义如表4所示。指标R通过统计其最后一次文献获取时间再与时间窗口截止日期进行相减来获取,指标F利用统计函数sum()对各时间窗口期的每个用户的文献获取数量进行求和,指标C则通过汇总计算每个用户的平均等待时间成本来获取,指标L通过计算用户首末两次文献获取时间的差值来获取,其中同一天多次使用视为一次。指标S的数据获取方法是以用户名为索引,按照升序排序后计算服务复用的间隔天数。这5个指标从用户留存意愿、用户粘性、使用频次、用户沉没成本和服务复用等方面描述文献提供服务的用户留存特征。

表4 文献提供服务的用户留存行为指标定义

3.5.2 聚类分析

根据用户留存行为指标体系,对现有数据集按设计字段抽取相应数据汇聚成每个用户的留存行为特征集,在Jupyter Notebook平台连接MySQL导入数据并展开聚类前的描述性统计分析,见表5。各行为指标数值的标准方差和均值较大,呈现右偏态分布。通过Corr函数对上述5个行为指标进行相关性分析,各变量之间相关系数均<0.4,变量之间独立,非常适宜采用Kmeans聚类分析。从表5看,个别指标变量取值差异较大。为取消量纲不一致的影响,采用Standard Scaler函数对所有待聚类数据标准化和归一化处理,通过缩放特征达到最终聚类结果的量纲一致。

表5 用户留存行为指标变量描述性统计(2016.01-2019.12)

Kmeans聚类是一种无监督学习的算法,考虑到实证数据集存在右偏态分布,易产生极值离群点干扰。为确保实证聚类结果辅助业务决策的可行性,参照相关聚类分析,采用多次使用随机种子确定待选的簇数,以Elbow肘曲线法结合轮廓系数(Silhouette Coefficient)评价方式共同确立最佳聚类[22]。采用机器学习Scikit-learn库的Kmeans算法,初始设定聚类个数为2~9,模型运算结果见图4(a)。随着K值递增,最佳聚类数为3~9个,而通过轮廓系数发现K=4时,silhouette score为0.4。图4(b)显示,除第一个聚类少量样本的轮廓系数<0,整体聚类结果的分离度较好。故此,本次实证选取聚类个数K=4。

图4 Kmeans聚类分析的Eblow肘方法及轮廓系数评价结果图

3.5.3 群体差异分析

经Kmeans聚类分析后,根据用户在RFCLS五个留存行为指标的特征差异命名4个聚类群,聚类结果的中心值见表6。在Jupyter Notebook平台通过statsmodels库中的anova_lm函数对4个聚类群体展开方差分析,5个用户留存行为指标均存在显著差异。在同期群分析获取的各区间段上,周留存、当月留存、90天留存和半年留存等区间均存在显著差异。从表6所显示的最终聚类中心看出,聚类影响较大的指标C、指标F和指标S等3个行为指标对于聚类划分起着显著的分群作用。上述5个用户留存行为指标的分析结果可以用雷达图(见图5)表示出来。

表6 文献提供服务不同用户留存群体的最终聚类中心

图5 FULink文献提供服务用户留存群体的行为指标雷达图

4 不同用户留存群体的特征描述及营销服务策略讨论

实证结果表明,FULink文献提供服务的文献数量和月增长率均呈季节性逐步下降,年用户留存率35%,统计时间窗口内的用户生命周期为1年左右。基于NES理论分析的服务复用周期分布规律显示,周留存、月留存、半年留存等区间是提升用户留存率的最佳节点。研究数据表明,用户留存提高5%,服务收益就会提高25%[23]。本次实证分析显示,用户留存曲线的持续走低,说明该资源服务平台与用户需求的匹配已出现不平衡,急需根据不同用户留存群体的特征差异实施精准化营销服务。故此,对上述4个聚类展开用户留存群体的特征画像描述,继而讨论与之相适宜的营销服务策略。

4.1 聚类1:拉新用户群

此类用户留存群体占比最大,属于新用户类型,RFCLS等5个指标的聚类中心特征值较低,用户生命周期均值为180天,32.7%用户生命周期在半年以上。周留存率为37.8%,月留存率为34.5%,文献数的均值为57篇,响应时效均值为13小时。从用户服务复用的时间区域分布看,间隔15天用户占比50%,随后就进入睡眠状态或者直接流失,该群体在本次实证时间窗口内用户留存率为10%。而通过对已获取文献的学科主题展开文本汇聚挖掘,中文文献需求集中于“计算机科学、土木工程、电子商务、物流、物联网、供应链、复合材料”等研究领域,英文文献需求集中于“智能控制、心理学、微生物、分析化学”等研究领域。

拉新用户群的显著特征为快速下降的用户留存率,应围绕周留存、15天留存和月留存等关键节点实施服务营销,加强核心服务功能的使用引导和用户交互的及时反馈,触发用户完成关键行为,激活用户认可服务的核心价值。例如通过开拓用户成长的积分增长体系不断激发用户对平台的使用,持续满足用户在资源获取服务场景中的使用需求,解决用户在其他同质平台获取缺藏资源的时效痛点,推动拉新用户向平稳留存群转化。

4.2 聚类2:选择留存群

此类用户群属于存量用户类型,指标L和指标S聚类中心特征值较高,服务复用的间隔时间均在223天以后,生命周期均值为2年,可见该用户群体的活跃度较低。文献数的均值为69篇,响应时效均值为9小时。相较于拉新用户群,这两个指标均有提升,而且该群体在实证时间窗口内用户留存率为88%。对篇名、文献类型等挖掘汇聚显示,中外文献数量比例为2∶1,期刊论文、学位论文等文献类型需求较多,“人工智能、土木工程、云计算、物联网、公共管理、化学化工”等研究领域的文献居多。

基于“留存率高、活跃度低”的留存行为特征,应采用用户激励和提高互动的促活营销策略提升用户留存率。例如在各类资源服务场景中提供多种用户接触点,强化核心功能指引和触发服务复用频次,培养用户的使用习惯和平台功能发掘的能力,辅助签到、积分和等级成长等用户激励机制提高活跃度,让用户一有资源获取需求就立即联想到平台,推动用户向平稳留存群转化。

4.3 聚类3:平稳留存群

此类用户群属于忠诚用户类型,指标R、指标F和指标L聚类中心特征值较高,用户生命周期均值为2.6年,文献数的均值为362篇,服务复用间隔时间为39天,响应时效均值为13小时,用户活跃度最高,该分群在本次实证时间窗口内用户留存率为95%。对篇名、文献类型等挖掘汇聚显示,中外文献数量比例为4∶1,期刊论文、学位论文、电子图书等文献类型需求最多,研究领域集中在“土木工程、材料科学与工程、产业经济、大数据、物联网、算法模型、化学化工”等。

上述留存行为指标表明该群体形成了较好的价值感知和品牌忠诚。但优化用户体验和扩展多元化的服务场景,沉淀用户储值成本和满足个性化需求,才能提升服务品牌力和用户忠诚度,进而减少用户流失。对于平稳留存的忠诚用户群体,持续提升文献响应时效是第一要素,并将一站式检索、资源整合揭示、文献分析与可视化等功能深度融入其资源获取情境之中,根据用户访谈、问卷调研等形式获取新功能需求,做好功能迭代与平台升级,持续输出服务价值才能保持用户留存。

4.4 聚类4:流失用户群

此类用户群属于易流失用户类型,指标R聚类中心特征值最大,服务复用间隔时间为33天,其中(365,1462]区间仅有30%,生命周期均值为1.1年,响应时效均值为386小时,但是文献数的均值为88篇,这说明该聚类群体的短期文献获取需求强烈,响应时效均值较长引起用户流失,该群体在本次实证时间窗口内用户留存率为29.3%。挖掘汇聚显示,中外文献数量比例为3∶1,期刊论文和学位论文等文献类型需求最多,研究领域集中在“化工材料、企业管理、跨境电商、知识产权”等。

上述流失用户群的留存行为特征表明该群体存在短期获取数字资源的需求,且集中于周留存和月留存区间,文献响应时效差的比例较高。故此,可以根据该群体的学科资源需求特征制定针对性的分组用户召回策略。例如统计分析响应时效差的文献学科属性,及时扩充相应学科领域的数字资源,优化响应时效,在开展学科服务中侧重文献提供服务的场景复现和服务引导,唤醒用户对核心服务价值的再认知,减缓用户留存率下降的态势。

5 结语

结合数据驱动的用户留存实证,通过用户生命周期和服务复用特征挖掘、基于NES理论的同期群分析、RFM模型指标重构及K-Means聚类分析等一系列数据分析方法将高校馆数字资源服务的用户留存群体划分为拉新用户群、选择留存群、平稳留存群和流失用户群,识别和分析了影响用户可持续增长的留存行为指标,从服务场景定位、平台功能升级和用户激励等角度给出了相适宜的营销服务发展策略。构建的用户留存分析框架为高校馆业务实践开展差异化精准服务、有针对性地分配服务资源、更精准地达成战略目标提供更为精准化的数据支撑和决策建议。

本研究仍具有一定的局限性:一是虽然从后台日志采集了文献提供服务的用户行为全量数据,保证了各项分析和用户留存结果的普适性。但是,由于平台尚缺乏用户身份的认证管理,本次实证获取的用户留存行为特征较为有限。未来,用户留存分析框架仍需进一步采集和补充用户在其他高校馆业务平台中更为丰富的留存行为,从而增强用户留存分析在支撑高校馆精准营销服务方面的适用性。二是本次实证获取的用户留存和营销服务策略建议,还需借助后续平台功能拓展、用户行为数据跟踪、模型迭代修正和叠加增量数据等方式不断验证用户留存分析支撑高校馆用户增长的合理性和有效性。

猜你喜欢

生命周期均值聚类
一种傅里叶域海量数据高速谱聚类方法
全生命周期下呼吸机质量控制
从生命周期视角看并购保险
民用飞机全生命周期KPI的研究与应用
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
面向WSN的聚类头选举与维护协议的研究综述
浅谈均值不等式的应用
改进K均值聚类算法
安徽:打造创新全生命周期的金融资本支撑体系