面向中小企业的电商平台挖掘系统设计
2015-05-30黄雅萍马可辛周余洪刘晓强
黄雅萍 马可辛 周余洪 刘晓强
摘 要: 中小企业电商平台在资金和技术不足的情况下,难以快速有效的构建简单而实用的电商数据挖掘系统。文章从分析电商海量数据资源的来源、提取方法及其流程入手,提出了一个基本的数据挖掘系统方案架构,从而实现为中小企业电商平台服务的一整套数据挖掘系统。该系统架构简单实用、易搭建、易整合,可以为中小企业提供更好的服务支持。
关键词: 中小企业; 电商平台; 数据挖掘; 海量数据
中图分类号:TP311.132.3 文献标志码:A 文章编号:1006-8228(2015)04-18-03
Abstract: Under the situation that the SME (small and medium-sized enterprises) e-commerce platforms are lack of fund and technology, it 's very difficult to build a simple and practical e-commerce data mining system quickly and effectively. This article analyses the e-commerce mass data resources, its origin, and the process of how to get it. Besides, The article draws a basic data mining system architecture to achieve a set of data for the service of e-commerce platform for small and medium enterprises mining system. The system structure is simple, practical and easy to build. It can provide a better support for SME's improvement and product sales.
Key words: SME; E-Commerce platform; data mining; mass data
1 电商平台和数据挖掘
随着网络的高速发展,传统的销售模式已经越来越跟不上社会发展的节奏。企业需要一个网络在线平台,能够跨地域和时间进行商品销售和交易,这个平台被称为电商平台。目前电商平台在各个领域的应用得到很大发展,尤其是与中小企业的发展紧密结合。中小企业的电商平台面临着越来越激烈的竞争,纷纷以先进技术为功底吸引用户,促进商品的销售以达到利润的最大化。
数据挖掘技术在电商平台中获得了很好的应用,有效地应对在激烈的竞争中获取利润最大化的问题。电商平台的应用主要概括为:产品搜索,产品推荐,欺诈检测,商业智能[1]。
2 电商数据挖掘的资源及其流程
电商数据挖掘是一个将信息、数据转化为促进电商平台的浏览量和购买行为的过程。电商数据挖掘的资源主要包括第三方平台、互联网上各种形式的文档和用户访问信息/访问行为的追踪三种。
数据挖掘流程包含五个过程,分别为:设定数据挖掘方向、整理可利用数据源、构建数据挖掘模型、集成数据挖掘模型到电商平台管理后台和相应外部API接口的开发及维护。电商数据挖掘过程如图1所示。
3 面向中小企业的电商平台挖掘系统设计
3.1 面向电商平台的数据挖掘系统功能分析
面向电商平台的数据挖掘系统主要完成客户信息、商品信息及物流信息的分析等功能。图2详细构建了适合中小企业的简单并且易于构建的面向电商平台的数据挖掘系统(SME-EMS, Small and Medium-sized Enterprises E-Commerce Mining System)的具体实现过程。
3.2 基本数据导入
⑴ 用户信息导入。利用数据挖掘的分类技术对用户信息进行分析归类,主要的依据有用户的地域、 爱好、用户登录时间、用户支付和配送习惯、用户年龄等。不同的公共属性可以生成不同的分类,从而发现潜在客户,并对有目的性的目标群体进行技术营销和推送。
⑵ 用户订单信息导入。用户的订单直接影响库存信息,库存决定产品的需求和配送。通过挖掘逐月逐日的数据获取产品的数量以及客户对产品的颜色偏好、规格偏好、款式偏好等,对于企业安排生产计划提供技术支持。
⑶ 导入订单配送信息。电商平台企业需要紧密结合物流行业,其订单配送的年/月/日信息可以很直观地预测不同地点的配送量,优化配送结构,缩短配送时间,节约压货和库存费用。
⑷ 导入用户评论打分信息。通过分析用户的评论和打分信息知道用户所喜好的产品,差评的产品,喜欢的颜色以及款式等。
⑸ 导入用户收藏信息。通过收入用户收藏的信息,分析预知用户想购买的潜在产品。
⑹ 第三方平台数据导入。将第三方平台提供的一些具有参考价值的数据导入到系统自定义的数据库中。
3.3 日志处理
3.3.1 日志收集
日志数据收集包括服务器节点的日志数据收集以及客户端数据采集。
⑴ 服务器节点的信息。访问电商平台网页产生的请求无论是提交POST还是获取GET甚至PUT都在服务器节点端产生大量的访问日志。服务器节点端可以通过配置获取服务器端运行的错误信息以及可以设置年/月/日/周等不同格式储存这些文件。同时大多数电商平台,还增加额外的后台SHELL程序去追踪记录用户浏览和购买过程中的信息。
⑵ 客户端信息。可以设置不同的用户操作节点增加JavaScript或第三方插件对用户不同的行为进行追踪和记录,一般可以获取更为真实的直观的浏览行为路径,与⑴比较,其优势在于可以直接储存在数据库中,便于直观的查看数据记录系统,有些第三方系统还可以生成不同的数据和报表。
3.3.2 日志处理分析
海量的数据信息在实际应用中需要删除大量无用信息,必须进行数据清理,根据不同的需求清理出不同类别的信息。其处理步骤如下。
⑴ 查找用户行为的日志。对用户行为的日志进行采集。
⑵ 根据用户行为日志,进行2次归类分析。主要获取用户访问IP、访问路径和访问时间。
⑶ 对2次数据进行再次处理。主要对用户访问路径进行分析,获取用户访问的页面、产品和购买流程。对用户访问IP进行分析,获知用户所在的区域,通过用户访问时间获取用户的访问习惯,最后对这些进行不同的归类持久化。
3.3.3 根据规则导入日志分析结果
在电商平台数据挖掘系统中,采用路径分析技术和关联规则分别对用户访问情况和商品访问情况进行分析。
⑴ 用户访问情况分析。从用户访问日志获取用户的访问路径,从访问路径可以获知用户查看的页面和产品,对于一些常访问的页面可以总结其中的布局样式描述图片,而对不被经常访问的页面,可以对页面进行优化调整,提高网站整体的PV值。通过路径获知如下信息:产品销售状况,从而实现产品的调整优化;页面是否存在安全漏洞,从而通过代码调整,防止注入和攻击;用户的访问区域和用户喜好,适当的推送相关联的产品,为用户提供人性化的服务,同时提高用户的访问时间。
⑵ 商品访问情况分析。首先从整体的用户访问情况分析,设定一定的规则。然后基于这个规则进行分析。通过路径关联分析, 可以获知大部分用户的访问习惯并适时推荐相关联的产品,以增加促销的效果。
3.4 SME-EMS系统设计
由于海量的日志文件和用户数据处理需要消耗大量的系统资源,在系统中对数据处理过程进行了前、后端分开处理的设计。为了不影响前端挖掘系统的体验度,在前、后端系统中间加入了挖掘系统数据同步的机制。在日常使用的时候,不进行导入同步,所有信息同步的机制在每天晚上3点左右进行,这个时间段用户访问最少,生成的日志最少,能保证数据的实时性和准确性。为了和电商平台系统进行交互并达到实时推荐和促销的目的,数据挖掘系统也需提供接口给电商平台系统。中小企业电商平台挖掘系统SME-EMS的整体架构如图3所示。
⑴ 后端定时任务。采用PERL+MYSQL+CRON+LOADBLANCE+HEARTBEAT技术[2],实现后端定时任务。 PERL技术在文本的分析匹配时速度和效率是最高的。鉴于低成本运行,系统主要采用MYSQL数据库主从结构。海量数据的处理服务器使用两台或N台并做服务器的负载均衡,保证数据正常处理。CRON任务可以通过设置时间自动运行相应的任务。此过程主要根据规则实现用户数据、日志数据、第三方平台数据的分析处理生成元数据,需要消耗大量的时间和系统资源。HEARTBEAT主要防止MYSQL服务器宕机时候的数据丢失。
⑵ 挖掘数据再次分析处理同步。采用RSYNC+PERL+MYSQL+CRON技术[3,4],实现服务器之间的数据同步。为保证电商平台数据挖掘系统前端的正常工作,保证服务器不受影响,系统特别增加了挖掘数据同步服务器。在适当的时候系统可以进行聚类分析、语义分析、模式匹配分析、行为模式分析。根据相应的规则定义以及前端生成的元数据分析二次生成需要的数据,增加数据挖掘的精准度。对于中小企业来言,就是根据不同需求提出对产品销售有促进作用的有用的数据信息。
⑶ 前端任务。采用PHP+MYSQL+REDIS+MEMCACHE+HEARTBEAT+LOADBLANCE技术[5],实现前端任务。PHP主要实现生成元数据的查询展示修正功能,REDIS+MEMCACHE实现数据的缓存。用户可以根据自己的需求生成不同的报表和图表,查询不同条件的电商平台数据,增加用户的体验度。系统增加了一台缓存服务器,并特别增加数据库集群通信服务,防止MYSQL服务器宕机而影响正常的日常工作。
⑷ 同步电商接口实现。采用 MYSQL+PHP+REDIS+MEMCACHE技术[6],实现同步电商接口。用PHP或PERL实现定制生成不同类型的接口,实现和其他平台的对接。系统除了生成报表、分析数据以及推动线下的活动,还需要做到跟电商系统进行实时对接,精准地提供商品的转化购买力和用户的体验度,并同时预留接口给仓储(WMS)、物流(Logistics)、邮件服务(EDM)、库存(IMS)、客户管理(CRM)、客户管理系统的客服中心(Call Center)以及集团管理系统(ERP)等。
4 SME-EMS系统实施分析
4.1 SME-EMS与传统电商平台挖掘架构的比较
⑴ 实现费用低。SME-EMS采用开源的开发环境和技术,软件成本几乎接近零。具体成本分析如表1所示。对于中小企业而言,低成本、系统易维护、团队易组建是基本的要求和目标,本系统则是一个很好的选择。
⑵ 易与其他系统集成。 SME-EMS便于与其他电商平台配套系统集成。很多电商企业自身有WMS,EDM,IMS,Logistics,CRM,CALL Center以及定制化的ERP系统,这些系统大部分都是独立的一套系统,并且在选择和定制化使用上存在多样性,这导致与数据挖掘系统的接口集成很复杂,可变性很强。采用PHP开发接口定制化很强并且容易开发维护,而大部分中小企业电商平台是采用PHP+MYSQL的B/S结构免费系统,所以易于集成。
4.2 SME-EMS的系统实施可行性分析
从体系架构和技术实现的角度分析,SME-EMS需要若干服务器,分别作为存储服务器、同步服务器、调度服务器和数据服务器,各类服务器的角色及其在整个电商平台数据挖掘体系的功能明确。开发人员可以选择PERL,PHP,PYTHON等脚本语言,根据确定的需求,开发相应的数据分析挖掘任务。
5 结论
本文将数据挖掘技术和电商平台两者有机结合起来,为中小企业快速实现电商平台挖掘系统提供了有效的实现方案。整个系统成本低、易于搭建、易于开发维护,适合帮助中小企业电商根据客户的消费趋势和市场走向,调整市场策略,进行正确的决策,提高利润率。系统不足之处在于,对于庞大的电商系统和大数据增长级的平台,系统的稳定性存在不足,需要改进调度算法,优化分析查询处理方法等。
参考文献:
[1] 李楠.电子商务中的数据挖掘[J].中国城市经济,2011.12:378-379
[2] 门伯里,豪斯,普拉奇.实用负载均衡技术:网站性能优化攻略[M].人民邮电出版社,2013.
[3] 施瓦茨,扎伊采夫,特卡琴科.高性能MySQL[M].电子工业出版社,2013.
[4] 施瓦茨,福瓦,菲尼克斯.Perl语言入门(中文版)[M].东南大学出版社,2012.
[5] 基恩,席卡里尔.Pro JPA2中文版:精通Java持久化API[M].清华大学出版社,2011.
[6] 赵丽芬.数据挖掘技术在电子商务中应用研究[J].信息与电脑(理论版),2011.4:174