基于R语言的视频网站用户在线行为分析
2017-07-27吴柳
吴柳
摘要:基于所采集的某视频网站用户访问行为数据,重点从浏览量和访问次数等两个引流指标以及转化率、跳出率和视频类型喜好等三个粘性指标进行了深入分析挖掘。发现了隐藏在数据背后的用户访问行为规律,包括浏览量变化的影响因素,用户访问网站的时间规律,转化率与等待时间的相关关系,对视频网站的兴趣程度以及对不同视频类型的偏好等。根据所获取的用户访问习惯,提出了网站改进的相关建议以吸引并留住更多用户,改善其使用体验,促进视频网站的快速发展。
关键词:数据分析与挖掘;在线行为分析;引流指标;粘性指标;网站优化
1概述
随着网络和计算机技术的发展,各类视频网站已成为人们进行学习娱乐的重要场所,而一个网站的成功与否最重要的衡量标准就是用户的满意度。由于Web应用能够以很细的粒度、很高的频度不断记录用户的行为轨迹,这些数据中隐藏着用户的访问习惯、兴趣偏好以及情绪变化等,同时也隐含着用户群体行为的规律和发展趋势。挖掘深藏在数据背后的知识,能够发现用户习惯的观看流程,访问网站的时间以及喜好的视频,各视频间存在的关联关系等。掌握了这些知识,就能科学解决用户跳出等问题,根据用户访问习惯改进网站服务流程以及针对用户进行个性化服务,变革传统的网站管理和运营模式,主动提高用户的体验以促进视频网站的快速发展。
然而如何对这些海量的、动态变化的、结构形式多样的视频网站访问数据进行统计分析,挖掘出其中有意义的模式和趋势,已成为学术界和工业界普遍关注的热点研究问题。用户在线行为分析作为一种重要的研究手段被广泛应用在互联网领域。而R语言作为能够进行交互式数据分析和探索的强大平台,具备一套完整的数据处理、计算和制图软件系统,在数据分析和挖掘领域应用广泛。
因此,本文基于R语言对视频网站的用户在线行为数据进行分析挖掘。通过对采集到的用户行为数据进行引流指标、粘性指标的分析和挖掘,得到网页被访问的频繁度、停留时间、用户观看视频的喜好等信息。将分析的结果应用到网站运营与管理中,不仅能够为网站个性化服务、精准推销和开发新型业务模式提供技术和理论支撑,而且能够把握当前网络关注的热点问题,从而正确引导用户的网络舆论方向。
2引流指标分析
引流指标包括浏览量(PV)、访问次数、访问人数(UV)、访问时间、新访客数、新访客比率、IP等内容。本节主要对PV趋势和访问次数与访问时间进行可视化分析。
2.1浏览量
页面浏览量即为PV(page view),用户每打开一个页面就记录一次。PV越多越说明该页面被浏览的越多。PV之于网站,就像收视率之于电视,已成为评估网站表现的基本尺度。
2.1.1数据准备
截取了某一视频网站2016.04.11-2016.04.24的日浏览量信息。以一个星期为周期进行了统计,并将数据分成上周和本周两组,如表1所示。
从图2可以看出,同比增长率曲线和环比增长率曲线都基本处于副Y的正半轴且数值较大,同比最高为周五达到了13.87%,环比增长最高为周六,达到了31.41%。周一到周五每日访问量都相差不大,但周六周日访问量明显增长,环比增长率均超过了30%,充分说明该视频网站在采样周期内正健康快速发展。
2.2访问次数
访问次数即Visit,表示某时间段内访客在网站上进行会话(session)的次数,一次会话过程中可浏览多个页面。页面浏览量(PV)是以页面角度衡量加载次数的统计指标,而访问次数(Visit)则是访客角度衡量访问的分析指标。如果网站的用户黏性足够好,同一用户一天中多次登录网站,那么访问次数就会明显大于访客数。
如图2所示,如果访客没有重新打开和刷新网站的网页,或者访客关闭了浏览器超过30分钟,则当访客下次访问网站时,访问次数加1。反之,半小时内再次访问则只算同一次访问,以上对访客的判断均以Cookie为准。
2.2.1数据准备
将一周的日访问次数按照划分时间段(零点到两点为一个时间段,以后每两个小时计为一个时间段,一天共12个时间段)进行统计,并算出总计结果,如表2所示。
2.2.2数据可视化分析
访问时间与次数的曲线矩阵图如图3所示,分别表示周一到周日的单位时间段内访問人次图以及全周单位时间段内的总访问人次图。
从图3可以看出,该视频网站从周一到周日以及总计图,其曲线走向基本一致,“0~2”、“2~4”、“4~6”这三个时间段内基本没人访问网站;“6~8”时间段内网站访问人数剧增;再之后一直到20:00,每个时间段内访问人数有所波动但幅度不大,并在“18~20”这个时间段内达到一天访问的峰值;在“20~22”与“22~24”这两个时间段内,访问人数直线下降。
2.3结果分析
在众多的引流指标中,选取每日浏览量PV和时间段内访问次数这两个指标,分别从页面角度和访客角度衡量网站加载次数。从浏览量指标来看,每一周比上一周,每一天比前一天浏览量都呈上升趋势,说明网站正健康快速发展。从访问次数来看,时间段内访问次数曲线走向基本一致,表示网站访客来源很稳定,整个网站充满活力。从总体分析结果来看,该视频网站持续吸引着用户的关注。
从图3可以看出,不同的时间段,上网的人数不同,访问该站点的人数也不同,因此,有时PV值的涨落,其主要贡献在于不同时段上网人数的自然波动。同样一个视频在不同的时段发布,PV值就会有差别。根据用户的生活规律,一天中休息时间一般集中在午后和晚上,一周的休息时间只有周六周日,因此周六周日访问次数明显增加。即使其他因素不变,由于人们回访网站的周期性不一样,也会对网站的PV带来影响。当然,由于不同的人回访的周期长短不一、时段不一,这个影响因素未必会导致明显的波动,而可能分散在不同时段的PV表现中。
由此看来,一个简单的PV数据,其实是多种因素综合贡献的结果,所以PV的涨落,有时不是完全可以通过人为编辑手段来加以引导和影响的。因此,盲目以PV来衡量网站的成败好坏是不合理的,有些看似变化的东西,其相对关系其实没有改变,只是一种单纯的数量变化。
3粘性指标分析
粘性指标指网站对用户的吸引程度,本节主要对分析跳出率、转化率及视频类型喜好进行可视化分析。
3.1转化率
转化率指用户进行了相应目标行动的访问次数(成交人数)与总访问次数的比率,即转化率=转化次数访问次数。
这里所指相应的行动可以是用户登录、用户注册、用户订阅、用户下载、用户购买等一系列用户行为,因此网站转化率是一个广义的概念。以用户登录为例,如果每100次访问中,就有10个登录网站,那么此网站的登录转化率就为10%,而最后有2个用户订阅,则订阅转化率为2%,有一个用户下订单购买,则购买转化率为1%。需要注意的是,很多人将网站转化率仅仅定义为注册转化率或者订单转换率,这都是狭义的网站转化率概念。本文将一次用户下载定义为一次转化,数值越高说明越多的访问完成了网站运营者希望访客进行的操作。
3.1.1数据准备
根据网站提供的视频模块(电影、公开课、电视剧等),将采集到的数据进行整合,得到如表3所示的数据集。
3.1.2数据可视化分析
将整合的数据用气泡图展示出来,如图4所示,其中横轴表示页面浏览量,纵轴表示平均等待时间,气泡大小表示转化率大小,气泡颜色代表不同的视频模块。
从图4可以看出,电影、综艺和电视剧占据转化率排行的前三甲,当然,其页面浏览量和等待时间也高于其他模块。从气泡的位置能反映出等待时间可能受页面浏览量的影响,页面浏览量越高的等待时间也越长。气泡的大小反映转化率可能也受页面浏览量的影响,页面浏览量越高的转化率也大。虽然直观地来看,似乎转化率与等待时间也成正相关,但事实上我们知道这两者其实是没有关系的。转化率与等待时间都受页面浏览量的影响,某一个模块的浏览量高,说明访客对这个模块兴趣度高,转化率也就越高,访问量越大,服务器和数据库处理不过来自然等待时间就要长。但这两者与页面浏览量之间的关系是没有传递性的,也就是说转化率与等待时间之间没有正相关关系,相反的,单从这两者分析而言,两者之间可能存在负相关关系。
3.2跳出率
跳出率指只浏览了一个页面便离开了网站的访问次数占总的访问次数的百分比,即只浏览了一个页面的访问次数/全部的访问次数总和。
跳出率是非常重要的访客黏性指标,它说明了访客对网站的兴趣程度。跳出率越低说明粘性指标越好,访客对网站的内容越感兴趣,这些访客就越可能是网站的有效用户、忠实用户。该指标也可以衡量网络营销的效果,指出有多少访客被网络营销吸引到宣传产品页或网站上之后,又流失掉了。比如,网站在某媒体上做广告推广,分析从这个推广来源进入的访客指标,其跳出率可以反映出选择这个媒体是否合适,广告语的撰写是否优秀,以及网站入口页的设计是否用户体验良好。
根据表3数据,按照网站提供的“电影”,“公开课”,“电视剧”,“曲艺”,“综艺”,“电视TV”,“军事前沿”,“国际形势”,“动漫”,“资料片”这10个模块,用堆积柱状图表示其跳出率,如图5所示。
从图5可以看出,公开课和资料片的跳出率相对较高,说明这两个模块跟网站其他模块相比受关注度比较低,说明用户对政治问题关注较低;电影、综艺等模块跳出率相对较小,说明用户对娱乐节目兴趣度较高;曲艺、动漫、军事前沿、国际形势等模块跳出率低说明用户日常生活爱好广泛,对社会关注度比较高。
3.3视频类型喜好
视频类型喜好指用户对视频类型的偏好。通过对视频类型喜好的分析,得出网站推出的视频类型在用户群中占据的比例,能够为网站优化提供依据。
根据表3数据,按照网站提供的“电影”,“公开课”,“电视剧”,“曲艺”,“综艺”,“电视TV”,“军事前沿”,“国际形势”,“动漫”,“资料片”这10个模块,用饼图展示每个模块占据的访问量百分比.如图6所示。
从图6可以看出,电影、综艺和电视剧占据了该视频网站页面浏览量的大半部份,结合转化率和跳出率进行分析,可以看出,该视频网站页面浏览量越高的其跳出率也很低,转化率也高。页面浏览量低的如资料片、公开课,其跳出率也高,转化率也很低。曲艺、电视TV的页面访问量虽然低,但其转化率却很高,跳出率也低,说明来访问的访客都是忠实的喜爱者。
3.4结果分析
以上主要从转化率、跳出率和视频类型喜好三个方面对网站的粘性指标进行了可视化分析。在网站分析中需要掌握多少人進入了网站、浏览了多少页面、多少人看了一个视频就关了网页、多少人收藏了网站等,作为后续业务调整的依据。网站粘性指标分析是用数据化的方式呈现用户依赖网站的状况,在数据中能发现问题和机遇的线索,帮助网站管理者从各维度了解访客的喜好,从而达到优化网站的目的。
降低跳出率的关键就是要提高用户体验。提高用户体验首先就是要有运营稳定的服务器;然后就是要根据分析统计的结果确定网站自己鲜明的个性,内容要丰富,独特,原创性好;再就是要提高网站的交互性,网站首页布局要合理,操作应简单方便,为访客节省时间。最重要的一点,就是要做好高质量的内容,根据分析的结果,针对多数用户喜欢的视频类型和其他粘性指标对网站内容质量进行优化。只有高质量内容,才能激发用户浏览的兴趣,从而能吸引和留住更多的用户,达到网站运营的效果。
4总结与展望
随着社会媒体和大数据的兴起和广泛使用,利用数据分析驱动网站优化是一种最科学的决策方式。本文基于所采集的用户访问某视频网站行为数据,重点从引流指标和粘性指标两个角度进行了分析。通过分析访问数据的数量和质量,掌握视频网站的访问情况,提出相关改进建议以吸引并留住更多用户。同时,在掌握用户的访问习惯后,就能够理解为什么经常有用户跳出的问题。服务流程应当如何改进才能符合用户访问习惯以及针对个体用户进行个性化服务,从而变革传统的管理和运营模式,改被动为主动提高用户的体验,促进网站的发展。下一步为了提高视频网站的个性化服务,可采用数据挖掘中频繁模式挖掘方法确定视频与视频之间、用户与视频之间关联规则,从而其推荐其可能感兴趣的相关视频,提高服务质量,进一步增强网站的用户体验。