基于Hadoop的购物行为分析系统的设计与实现
2021-03-10刘海宋阳阳王宝孙瑞霜苏云飞于改露
刘海 宋阳阳 王宝 孙瑞霜 苏云飞 于改露
摘 要:随着信息技术的高速发展,网络购物已经走进千家万户。网络购物便捷化的方式使得人们可以随时随地选购自己喜欢的物品和服务。在此背景下,网络购物行为数据呈现爆发式增长。本文通过使用Hadoop大数据处理技术对网络购物行为数据进行了系统性分析,并使用SSM框架技术对大数据分析的结果进行了可视化展示。系统的实现将为网购卖家提供更加具有实际指导意义的进货需求服务和客服服务,也可以为买家提供较为精准的购物参考服务,以帮助买家找到理想商品,提高购物效率。
关键词:Hadoop技术;SSM框架;购物行为;大数据技术
中图分类号:F713.55;TP311.13 文献标识码:A 文章编号:1003-5168(2021)28-00-03
Abstract: With the rapid development of information technology, online shopping has entered thousands of households. The convenient way of online shopping allows people to buy their favorite items and services anytime and anywhere. In this context, online shopping behavior data has shown explosive growth. This paper uses the Hadoop big data processing technology in the big data technology to systematically analyze the online shopping behavior data, and uses the SSM framework technology to visualize the results of the big data analysis. The implementation of the system will provide online shopping sellers with more practical guidance for purchase demand services and customer service. At the same time, it can also provide buyers with more accurate shopping reference services to help buyers find ideal products and improve shopping efficiency.
Keywords: Hadoop technology;SSM framework;shopping behavior;big data technology
随着网络信息技术越来越成熟,网络购物逐渐改变了人们的生活。如今的网络购物可以让人们实现足不出户,动动手指,产品就会随着物流及时送到消费者的手中[1]。日常生活中所需要的衣服、食品、电器甚至汽车等商品,都可以通过互联网来进行购买,因此互联网购物给人们的生活带来了极大的便利。在网购领域,目前淘宝、京东、拼多多等购物平台销售额逐年增长,已在市场中占据主导地位。尤其是京东每年推出的“618”购物节和淘宝推出的“双11”购物节,当天销售额更是成为全民关注的焦点。“双11”购物节诞生以来,淘宝和天猫销售额2009年为0.52亿元,到2020年时已经达到了4 982亿元[2]。在此背景下,网络购物行为数据量迅速增长,数据的增多给数据处理带来了挑战。如何快速高效地处理购物行为数据,并从中提取出有价值的信息,成为近年来的研究熱点。笔者将对网络购物行为大数据处理与分析系统的设计与实现过程进行详述。
1 系统需求分析
对于数据分析,首要的工作是确定数据集的来源。本系统的数据集全部来自天池大数据众智平台(https://tianchi.aliyun.com/),通过注册申请即可得到公开的淘宝用户行为数据集。该数据集中约有100万条用户行为信息数据,每一条数据内容包括用户ID、商品ID、商品类目ID、行为类型和时间戳等信息。数据集中包含商品类目数量9 439个,用户数量987 994个,商品数量4 162 024个,所有行为数量之和高达1亿个。面对如此庞大的数据集,传统的MySQL或者Oracle数据库已经不足以支撑数据的分析和查询操作,而大数据技术中的Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)数据存储技术是专门针对大量数据而设计的。HDFS的高可靠性、高获得性和分布式等特点为庞大的数据集存储提供了保障,完全可以满足数据存储的需求。数据存储完毕之后,它可按照功能需求对数据进行系统性的处理和分析。目前,市场上的大数据分析工具较多。Hadoop作为出现较早的典型开源分布式计算平台,因其可以运行在Linux平台上,且具有可靠性、可扩展性、容错性、低成本和支持多种编程语言等优点,被广泛应用于各种大数据处理的场景。百度、网易、华为、中国移动及淘宝等企业都用Hadoop处理大量的数据信息[3],再加上Hadoop与HDFS的完美兼容性,完全可以满足数据处理与分析的需求。考虑到前端的数据可视化SSM技术需要频繁地访问数据分析的结果,将数据分析结果存储到MySQL数据库中是比较合理的一种方案。
通过对数据集进行查看可知,每一条行为数据主要包含用户ID、商品ID、商品类目ID、行为类型和时间戳5个字段。其中,行为类型字段包括点击、购买、加购及喜欢4种属性。通过分析消费者的行为类型占比,可以满足各店家调整营销策略的需求;通过分析一天中各个时间段的购物人数,可以满足卖家了解消费者购物时间的需求;通过分析每日的购物人数,可以满足卖家了解消费者购物时间倾向的需求;通过分析商品数量排名,可以满足卖家了解消费者商品喜好的需求;通过分析商品类目排名,可以满足商家及时调整商品营销策略以适应消费者购物导向的需求。
2 系统可行性分析
2.1 技术可行性
本系统所有的操作都计划在Linux操作系统下实现。Linux操作系统操作命令简单,较易上手。整个大数据技术环境的搭建,包括JDK、Hadoop、Sqoop和MySQL数据库也都计划在Linux系统上完成。Linux与大数据技术的兼容性良好,将使整个搭建过程更具简洁性和易操作性。对于大数据分析结果的数据可视化,本系统计划使用易学易用的SSM框架技术实现,且前端与后端之间通过MySQL数据库实现分离。综上所述,本系统在技术层面完全可行。
2.2 操作可行性
本平台计划采用交互性较强的Web界面,操作简单、直观,对使用者没有太多的技术要求[4]。用户使用系统之前不需要经过专业的培训指导,并且系统对用户的计算机专业素养要求也不高,只要具备日常的上网能力和一些基本的计算机操作常识,就可以理解并且熟练地使用系统。综上所述,本系统在操作层面完全可行。
2.3 经济可行性
本系统所计划使用的开发工具都是开源的,数据集全部来自天池大数据众智平台,通过注册申请可以免费得到。本系统计划由团队成员独立完成,遇到难以解决的问题一般通过互联网查询即可解决,没有产生其他额外费用。此外,本系统面向的用户也极其广泛,无论是商家还是消费者,应用价值都颇高。综上所述,本系统在经济层面也完全可行。
3 系统设计与实现
3.1 数据处理流程设计
在搭建好大数据系统环境的基础上,按照大数据的数据处理流程,需要先将申请下载好的原始淘宝用户行为数据集进行筛选,筛选后的数据上传到分布式文件存储系统HDFS中,而后在数据仓库Hive中进行数据分析。Hive是Hadoop的一个数据仓储工具,可将结构化数据文件映射为数据库表并存储到HDFS上,可把SQL语句转换为MapReduce程序运行[5]。数据分析完毕后,因为结果数据一般不大,因此可将分析结果数据存储到MySQL数据库中,使数据看起来井然有序,直观易懂。服务端通过读取MySQL数据库中的数据,利用数据可视化SSM框架技术将分析结果进行更加直观的图表化展示。综上所述,数据整体处理流程设计过程如图1所示。
3.2 功能设计
下载好的数据集中,每一条用户行为数据主要包含用户ID、商品ID、商品类目ID、行为类型和时间戳5个字段。
通过分析可知,行为类型字段又包括点击、购买、加购、喜欢4种行为属性。通过对所有用户的行为类型属性进行统计,可得到每种属性在4种行为属性中的占比,对于卖家进一步提升自己的服务让更多的用户购买甚至是回购至关重要。
已知数据集中包括各个商品ID字段,通过统计各个商品的销售数据,可以分析出商品销售量排名;已知数据集中包括各个商品类目ID字段,通过统计各个商品类目销售数据,可以分析出商品销售类目排名;已知数据集中消费者购物的具体时间字段,通过切分时间,只保留具体的日份值,可以分析出用户购物的日份人数和比例;通过切分时间,只保留精确的小时值,并对小时值的数量进行统计分析,就可确定一天中各时间段具体的购物人数和比例,对于卖家集中时间点提升服务人员数量和质量以充分满足消费者购物需求具有重要价值。
3.3 系统实现
上述设计完成之后,通过大数据编程和前端编程实现本系统。本系统在数据可视化方面选用了SSM框架实现,主要原因在于SSM中的Spring MVC组件和MyBatis组件均属于比较轻量级的功能开发组件,其部署应用对于平台的资源要求比较低,且逻辑处理过程充分发挥了轻量级的优点,可以获得较高的处理效率,降低系统的编碼难度[6]。
从图2可以看出,买家点击行为数量在各个时间点都要远高于同时间段的其他行为,在一天24 h中,买家点击、购买、添加购物车和收藏等行为数量从18:00开始增长,直到22:00到达顶峰后开始减少,到晚上23:00后各种行为数量开始趋于平缓。因此,对于商家和卖家来说,服务的主要精力应该放在18:00—23:00。
4 结语
随着互联网和移动开发技术的快速发展,网络购物人数日益增多,海量的商品使人应接不暇,一定程度上给消费者和商家造成了困扰。消费者如何在大量的商品中购买到理想的高性价比商品,商家如何掌握消费者的喜好对产业进行系统优化调整成为了当务之急,而购物行为分析系统的设计与实现有助于解决这一难题。通过分析各个商品的排名和商品类目排名,可以帮助消费者在琳琅满目的商品中锁定心仪商品,并且进行初步了解和客观判断,极大地节省挑选商品的时间,同时可以使商家了解消费者的需求和喜好,以便对产业及时作出相应的调整。通过了解一天中各个时间段的购物人数,商家可以及时对客服和工作人员的数量做出调整,以改善消费者的购物体验,提高销售量。
综上所述,本系统中商品排名和商品类目排名、消费者行为类型占比等各个功能的实现,不论是对商家还是消费者都助益良多,具有极高的参考价值,能够满足用户的需要,适应市场的需求。
参考文献:
[1]顾璟.智慧物流企业配送效率影响因素分析[J].时代汽车,2021(19):21-22.
[2]任晓宁.双十一“静悄悄”[N].经济观察报,2021-11-15(18).
[3]石方夏,高屹.Hadoop大数据技术应用分析[J].现代电子技术,2021(19):153-157.
[4]刘海,王壮壮,乔昭源,等.基于SSM框架的校园帮平台的设计与开发[J].数字化用户,2020(45):20-22.
[5]张凤斌.高校图书馆学科服务小数据系统的构建与优化[J].图书馆,2021(11):64-68.
[6]尤洋.供电公司机房环境集中监控系统设计与实现[D].成都:电子科技大学,2019:58-60.
3534500338261