基于大数据的用户行为分析系统
2020-02-24李微丽罗汝一鸣
李微丽 罗汝 一鸣
摘要:随着互联网的日益普及,网民每天的网络行为带来了网络数据的爆炸式增长。网络用户行为数据中蕴含着大量有价值、有意义的信息,网络用户行为分析系统通过对这些数据进行统计、分析,结果通过前台直观的报表展示,并进行智能推荐。一方面可以帮助营销商从中发现用户使用产品的规律,并将这些规律与网站的营销策略、产品功能、运营策略相结合,优化用户体验、实现更精细化和精准的运营与营销,让产品获得更好的增长。另一方面还可以应用于公安部门兼顾打击罪犯、获取证据、提前管控、缩小影响范围从而保护人民、不阻碍互联网的正常发展轨迹。
关键词:互联网;大数据;用户行为分析
一、绪论
随着科学技术的飞速发展和社会经济水平的不断进步,互联网规模迅速膨胀,网络流量、用户规模等互联网组成部分快速增长。根据《第33次中国互联网络发展状况统计报告》中的数据统计,截止2013年12月底,中国网民规模已达到6.18亿,互联网普及率为45.8%。这充分说明了互联网已经逐渐成为人类生活、学习所依赖的一部分。
网民每天的网络行为带来了网络用户行为数据的爆炸式增长,网络用户行为数据中蕴含着大量有价值、有意义的信息,通过对用户行为日志进行统计、分析,结果通过前台直观的报表展示,可以帮助营销商大致掌握用户的喜好,从中发现用户使用产品的规律,将这些规律与网站的营销策略、产品功能、运营策略相结合,对用户进行智能推荐,以优化用户体验、实现更精细化和精准的运营与营销,让产品获得更好的增长。此外,可以通过数据分析来预测用户的行为倾向,为有关部门对网络舆论进行合理的监控和干预提供了理论依据,还可以帮助公安部门针对犯罪嫌疑人进行网络行为监控等。
二、用户行为分析系统架构设计
(1)数据采集层。使用传统的JS为网站定制埋点方案以采集数据,经过Flume日志收集系统进行高可用、高可靠、分布式的海量日志监听和采集。根据其业务需求可在任意地点任意场景进行数据采集,通过植入多段代码,追踪用户在每个界面上的系列行为,采集到用户的全量行为。
(2)数据分析层。Flume将采集后的数据发送到kafka消息队列进行缓存,发送到Hdfs分布式文件系统对海量用户行为日志进行存储,以达到高容错、高可靠性、高可扩展性、高获得性、高吞吐率等。SparkStreaming消费kafka消息队列中的数据。为了提高分析计算效率,使用Spark的Transformation算子和Action算子进行实时分析。Hive使用sql语句的形式结合多个优化MapReduce算法,以天为单位读取Hdfs分布式文件系统中的数据进行离线分析,并将结果放入Mysql关系型数据库,根据计算结果进行可视化展示。
(3)数据应用层。分为数据展示、智能推荐、行为预测三大块。数据展示:后台使用Mybatis持久化框架连接数据库,通过Sprintboot提供数据访问接口。前台使用Angular组件Asynclack异步消息处理與后台进行交互,加快了响应速度。最后通过Echarts图表动态直观的展示用户的各种行为指标。还支持报告数据用API形式导出,以更灵活、便捷、个性化的方式完成网站数据的展现、分析等操作;智能推荐:使用基于内容过滤的推荐算法和基于双重聚类的协同过滤推荐算法融合后的混合推荐技术,对用户行为日志进行分析并对用户进行智能推荐服务,此技术在保证推荐准确率的同时,还能有效提高推荐结果的多样性,解决了传统推荐算法推荐结果单一、数据稀疏、冷启动等问题;行为预测:根据已有的用户行为数据,设计数据包重组算法,实现网络数据的重新组合。采用协议解析技术,还原网页的组成元素。基于SharpPcap与PacketDotNet类库对模型进行实现,最后采用多重分形的思想建立用户行为模型,用LUBAM模型计算出某时间段内用户的行为过程,并预测下一时间段内用户的行为过程。以最小均方误差值作为估算误差指标,判定用户行为的倾向程度。
三、研究内容
(1)智能推荐:智能推荐即根据对用户的了解,推送用户可能会感兴趣的产品。假设我们将此系统应用在一个商城平台上,那么当用户在挑选商品时势必会过滤掉不感兴趣的商品,搜索一些感兴趣的商品,我们对相应的按钮填上埋点,就可以收集用户感兴趣的关键词,从而使用智能推荐算法,对用户推送一些产品。而传统推荐算法缺少对个体多样性的考虑,推荐结果过于单一,还具有冷启动、数据稀疏性等问题。为解决这些问题,本系统使用基于内容过滤的推荐算法和基于双重聚类的协同过滤推荐算法,将两种推荐算法进行融合后的混合推荐技术作为系统的推荐引擎,完成智能推荐系统模型的设计与实现。
(2)用户行为预测:抽取行为报告中含有敏感信息的行为序列,基于多重分形思想建立用户行为模型,计算某时间段内用户的行为过程,并预测估计下一时间段内用户的行为过程,以最小均方误差值作为误差判断参数。如果基于LUBAM的行为过程预测方差值较小,则说明用户在未来一段时间内仍可能有敏感行为发生,若预测方差值较大,则表明用户未来一段时间内发生敏感行为的概率相对较小。
参考文献:
[1]谷红勋,杨珂.基于大数据的移动用户行为分析系统与应用案例[J].电信科学,2016,32(3):139-146.
[2]任思颖.基于大数据的网络用户行为分析[D].北京邮电大学,2015.