电子商务大数据分析综合实践平台建设
2017-11-27邹倩颖
邹倩颖, 罗 岚
(电子科技大学成都学院 云计算科学与技术系, 四川 成都 611731)
电子商务大数据分析综合实践平台建设
邹倩颖, 罗 岚
(电子科技大学成都学院 云计算科学与技术系, 四川 成都 611731)
电子商务大数据分析综合实践平台的构建是在响应国家提出的“互联网+”计划后,结合云计算、大数据等新技术,以电商企业需求为核心而提出的。在分析了电商企业目前对电子商务大数据分析人才的缺乏,以及当前高校电子商务专业实践教学的现状与问题后,提出了电子商务大数据分析综合实践平台的建设思路和方案,着重介绍了该平台的构成核心技术及相应数据分析流程模块,方案具有较强的可操作性,并对电子商务大数据分析人才培养具有一定的理论价值和实践指导意义。
电子商务; 实践教学; 大数据分析
中国电子商务专业教育最早可追溯到1998年,在接近20年的发展中,电子商务专业经历了尝试期和蓬勃发展期,尤其是进入2012年以后,云计算、大数据以及物联网这些信息时代的新概念不断涌入电子商务领域,使得中国电子商务进入了“后电商时代”[1]。2014年11月21日,李克强考察义乌刘村,将电子商务等新业态比作中国发展的“新发动机”。自此社会对电子商务专业创新创业型人才出现了“井喷式”需求[2]。2015年3月,李克强在十二届全国人大三次会议上的政府工作报告提出“互联网+”计划后[3],促使各行各业快速渗透,加速产业融合,而电子商务平台成为各行各业产业融合的有效平台。
以大数据为背景,介绍了电子商务实践教学与大数据技术在数据分析与挖掘等方面的融合。以开源平台Hadoop技术为核心架构,提出了基于电子商务数据的数据采集、数据存储、数据清洗、数据分析与挖掘以及数据可视化等方面的大数据分析综合实践平台解决方案,以及为电子商务数据分析师人才培养提供的实践平台。
1 电子商务实践平台的现状与问题
从目前电子商务专业实践课程教学内容来看,大部分院校该专业实践教学存在以下特点[4-7]。
(1) 实践教学条件与教学内容不足。由于缺乏相应的资金、设备等基本硬件投入,大部分院校该专业所开设的实践教学课时数无法满足实践教学的要求;从实践教学内容上看,实践性不强,由于前期资金的缺乏,买了硬件却不愿花钱买软件,使得电子商务实验变成了上网、办公软件应用、建Web网站、计算机应用等基本技能的实践场景,并且这些实践教学内容之间关联性不强,无法体现综合素质的培养。
(2) 实践教学体系落后。大学电子商务专业4年开设的实践教学内容包括办公软件应用实训、计算机应用实训、数据库实训、Web应用实训、网页与网站设计实训、奥派移动客户端运用、行健客户管理系统运用、金蝶K3系统运用。以上实践教学内容只能部分反映电子商务专业的培养体系,无法体现该专业全部的教学内容及实践内容,尤其是在数据分析与挖掘方面目前根本没有这方面的资源。
(3) 实践技能型师资不足。电子商务的实践性特点要求教师不仅具备电子商务基本技能,还需具备较强的实战水平。但大多数该专业的教师虽学历高,但缺乏实践经验,对学生的实践培养更多的是“纸上谈兵”,没有从企业需求出发修订相应的实践教学内容,致使实践教学目标与企业人才需求严重脱节。
2 构建电子商务大数据分析综合实践平台
在“互联网+”时代背景下,电子商务专业实践教学要根据企业需求不断修订实践教学内容、增加新的实践教学手段。从目前电商平台急需电子商务大数据分析师这一需求出发,向电子商务专业提供了基于大数据环境的电商平台大数据分析综合实践平台解决方案,该方案的实施一方面填补了一些高校在数据分析与挖掘方面的实践教学空白,另一方面也适应企业需求,为企业在数据分析与挖掘方面提供了人才储备[8-9]。
2.1 大数据分析平台的选择
在硬件方面,大数据分析综合实践平台以Hadoop YARN作为基础框架。由于该框架是典型的分布式平台系统,因此可以整合目前所有硬件设备,在无需购买新硬件的同时构建此平台。在软件方面,Hadoop是Apache社区的开源软件,以Hadoop为框架的其他软件因遵循开源社区规则,也是免费使用。因此该平台软件成本为零。
2.2 综合实践平台构建
整个综合实践平台框架由软硬件基础层、架构层及应用层组成。软硬件基础层包含分布式集群、虚拟机、Linux等;架构层由Hadoop Yarn框架组成;应用层由数据采集、数据存储、数据清洗、数据分析和数据可视化5个模块组成,见图1。
图1 综合实践平台框架图
该平台的建设具备普适性,并非只能用于电子商务专业,只要与数据分析相关的专业都可建设该平台,为实践教学提供有效手段。该平台包含以下几个方面内容:
(1) 数据采集模块。利用网络爬虫等工具从全网获取所需分析的数据对象。
(2) 数据存储模块。由于处在信息爆炸的时代,传统关系型数据库已不能满足海量数据存储的需求,因此该平台选择利用分布式数据库,将获取的数据进行存储以备后续使用。
(3) 数据清洗模块。由于采集的数据可能存在缺失、冗余、异常等问题,因此对数据进行清洗可实现数据质量的提升,为数据分析做准备。
(4) 数据分析模块。数据分析与挖掘是提供决策支持的基础,利用Hadoop框架下的机器学习算法可实现实时计算、离线计算等数据处理需求,从中挖掘数据间潜在关联。
(5) 数据可视化模块。单纯的数据不利于客户对其结果进行分析与研究,因此将数据分析后的信息进行可视化展示,以图、表或其他方式展示结果,有利于提升客户体验及提高决策人员的研判速度,同时也最大化地避免感性思维带来的风险。
从以上分析看,构建大数据分析综合实践平台是开展大数据与电子商务专业实践融合的重要一步。虽然实验室中所使用的数据并不能真正达到大数据的5 V特征,但它奠定了全过程应用大数据的基础,与电商企业需求相符。
2.2.1 数据采集模块
数据采集模块采用的网络爬虫技术,可分为2种运行模式。针对静态网页使用Python编写的网络爬虫工具来完成数据采集,针对动态网页使用JavaScript编写的网络爬虫工具来完成相应工作。两者有机结合,确保了在爬取信息时的全面性。
2.2.2 数据存储模块
由于互联网时代信息量不断增加,所需存储的环境也发生了巨大改变。传统的以关系型数据库为核心的集中式数据环境已不再适合这样的场景,本方案选取NoSQL数据库中的HBase作为分布式数据存储载体,为实践中的大数据场景做铺垫。而NoSQL数据库本身的优势,如列式数据库、内存数据库、横向扩展等优势为数据存储提供的优化场景。
2.2.3 数据清洗模块
通过对数据进行清洗可清除存储在数据库中的缺失、冗余、异常的数据,从而实现数据质量的提升。该方案中包含的数据清洗模块由前期准备、数据检测、质量评估、数据修正、数据输出5个模块,见图2。
图2 数据清洗模块框架图
前期准备时需先对已存储数据进行简单分析,确立清洗目标与所需具体实现方法,获取完善的数据清洗方案。
数据检测需完成数据预处理与基本检测,然后将检测结果进行统计。数据预处理主要用于消除数据不一致、空数据、无效数据等。同时数据检测还需检测冗余数据、缺失数据、异常数据[10]。通过此过程,可获取质量水平较高的数据信息,为后面的数据挖掘做铺垫。
质量评估通过数据质量检测的统计结果对数据质量进行定位与评估,结合业务影响与问题本质分析情况,参照前期准备好的清洗方案,进行方法改进,得到新的数据清洗方案,即数据修正方案。
数据修正采用各种方法对检测后的数据进行修正,大体功能有通过采用排序、融合、基于规则等方法消除已标志的不一致数据[11];删除空数据、合并重复数据,降低冗余。
数据提交时需结合之前的清洗方案与质量评估来验证清洗之后的数据是否真实合理,若满足则提供给数据挖掘模块,不满足可反复提升数据质量。
数据清洗一直贯穿着数据处理的整个生命周期,筛选符合输入要求的数据源、评估并修正挖掘后的数据,确保输出数据的正确性。该数据清洗框架能在不同阶段提供高质量的数据,并具有松耦合、高灵活性、可扩展性、交互性良好的优点。
2.2.4 数据分析模块
数据分析是提供决策支持的基础,采用YARN框架紧密结合多个组件,通过机器学习算法实现实时计算、离线计算等综合大数据分析流程,并做合理归纳推理,从中挖掘出数据间潜在关联,基本架构见图3。
图3 基于YARN的离线、实时计算数据分析架构图
在离线数据处理方面,主要利用Mahout中常用关联分析、协同过滤、分类算法、聚类算法等进行数据分析。在实时数据处理方面,主要利用Spark框架下Streaming与MLlib相结合的方式进行数据分析,更加快速地获取分析结果。
2.2.5 数据可视化模块
该综合实践平台数据可视化模块通过集成百度开源项目Echarts可视化工具来实现。通过Echarts将数据挖掘的结果进行图形化绘制,从而呈现数据间的关联。
3 综合实践案例分析
3.1 需求分析
现客户需要在电商平台上购买某一特定商品,且这一商品客户之前重未购买过,希望通过该平台向客户推荐这一商品综合评价最高的店铺信息。
传统电商平台的推荐引擎是根据客户历史消费行为去推荐某一商家的某一产品,又或是通过客户自身属性对客户进行细分,相似客户属性信息进行商品推荐。若客户需要在电商平台上购买一个新商品,或客户细分组中也从未出现过类似的所购商品,且该商品售卖商家数量较多,客户将如何选择才能获得一次满意度较高的购物历程呢?基于以上需求,通过分析可知,客户在购买新商品时主要注重以下2点:第一,商品价格;第二,卖家好评度。其中,卖家好评度中可挖掘出商家态度评价、商品本身质量问题、商品物流情况等隐藏信息。
3.2 综合实践平台操作流程
通过以上分析,在数据采集模块中制定相应规则,从购物网站爬取相应卖家店铺名称、此商品的价格及评论信息,存储于分布式数据库中;利用数据清除模块将无效信息清除;通过数据分析模块对所获得的用户评价数据进行聚类,将商家态度评价、商品质量评价和物流评价分类,并通过关联分析算法,将商品价格与这些数据进行关联分析,获得综合推荐率;在数据可视化阶段,将数据分析所获得结果以推荐表的形式,向客户推荐综合排序前10名的商店供客户决策参考。
3.3 结果展示
实验以淘宝网电商平台为例,客户需购买商品为“飞利浦新安怡宽口径自然玻璃奶瓶”,数据采集结束后,显示数据量为11 772 000条记录,其中包括卖家店铺名称、商品价格以及对该商品的所有评论。在经过数据清洗后,数据量为10 049 207条记录。根据客户需求进行数据分析后,通过数据可视化展示,其结果如表1所示,向客户推荐综合排序前10名的商家及对应的价格信息。
表1 商品可视化展示结果表
由表1可知,该商品的价格范围在64.00~79.00元之间性价比最高,且以上店铺均出自淘宝天猫商城,说明天猫商城的商品比普通店铺的商品更有信誉,更有客户群。
通过该综合实践平台的建设,电子商务专业学生可在该实践平台上体验整个大数据分析的全流程,并能够根据个人爱好有选择性地进行各个模块的深入学习与实践,为成为电子商务大数据分析师做准备。
4 结语
电子商务大数据分析综合实践平台的建设为顺利开展电子商务大数据分析师人才培养提供了实践教学环节。该平台的建设也体现了以电商企业需求为核心、以学生为本,提升综合实践能力、培养综合实践应用型人才的培养目标。对提升电子商务专业人才竞争力有非常重要的意义。在未来的实践探索中,可利用该平台建立更加完善的电子商务实践教学内容,实现更多的实践教学环节,比如消费者行为分析、市场调查与预测等方面的实践教学内容。
References)
[1] 唐人.后电商时代来临:4万亿产业的互联网进化[M].北京:机械工业出版社,2016.
[2] 姚建莉.李克强考察义乌:电子商务将成发展新发动机[EB/OL].(2014-11-21). http://it.sohu.com/20141121/n406237729.shtml.
[3] 李克强.制定“互联网+”计划促电子商务健康发展[EB/OL].(2015-03-05). http://www.chinanews.com/gn/2015/03-05/7103116.shtml.
[4] 魏小锐,李勇,赵维佺.电子商务三元制实践教学体系探索[J].实验室研究与探索,2016,35(3):157-160,172.
[5] 刘浩.电子商务开放式实验教学浅析[J].湖北经济学院学报(人文社会科学版),2011(7):183-184.
[6] 肖斌,唐美玉.创新型电子商务实验室建设方案[J].企业技术开发,2014(10):82-83.
[7] 支侃买.互联网+时代背景下民办高校电子商务专业建设研究[J].现代经济信息,2015(18):399,401.
[8] 贺卫红,曹毅.创新型电子商务实验室的建设与改革[J].中国教育信息化,2008(17):13-15.
[9] 董春桥,张延荣. “互联网+实验室”建设探讨[J].实验技术与管理,2017,24(1):240-243.
[10] 宋金玉,陈爽,郭大鹏,等.数据质量及数据清洗方法[J].指挥信息系统与技术,2013(4):63-70.
[11] 王曰芬,章成志,张蓓蓓,等.数据清洗研究综述[J].现代图书情报技术,2007(12):50-56.
Construction of comprehensive practical platform for E-commerce big data analysis
Zou Qianying, Luo Lan
(Department of Cloud Computing Science and Technology, Chengdu College of University of Electronic Science and Technology of China, Chengdu 611731, China)
In response to the national “Internet+” program, and according to the demands of E-commerce enterprises, the construction of the comprehensive practical platform for E-commerce big data analysis is put forward with combining the new technologies such as the cloud computing, big data, etc. In the analysis of the fact that the E-commerce enterprises lack the big data analysis talents, and based on the current situation and problems of the practical teaching of E-commerce majors in colleges and universities, the idea and scheme for the construction of such platform are proposed. The core technology of the platform and the corresponding data analysis process module are introduced. The scheme has the strong operability, and the certain theoretical value and practical guiding significance for training the E-commerce big data analysis talents.
E-commerce; practical teaching; big data analysis
10.16791/j.cnki.sjg.2017.11.049
G642.0
A
1002-4956(2017)11-0198-04
2017-06-12
四川省教育厅基金资助项目(172A0819);电子科技大学成都学院院级教改项目(17JG0227)
邹倩颖(1980—),女,四川成都,硕士,讲师,电子科技大学成都学院大数据教研室主任,研究方向为大数据应用、数据挖掘.
E-mailzqy_bb@163.com