跨行业数据挖掘在农产品电子商务中的应用研究

2016-04-11王鑫

山东行政学院学报 2016年1期

关键词：数据挖掘电子商务农产品

王鑫

（山东商业职业技术学院，济南250103）

跨行业数据挖掘在农产品电子商务中的应用研究

王鑫

（山东商业职业技术学院，济南250103）

摘要：利用跨行业数据挖掘方法对农产品电子商务网站搜集的各种信息进行整理和分析，并运用数据挖掘模型对数据进行运算，可以发现农产品相关客户的行为特征、购买习惯以及商品的特性。通过发现的这些规律对农产品电子商务网站进行优化可以提高客户的访问率和转化率，大大提高农产品电子商务网站的运营效果。

关键词：CRISP-DM；电子商务；网络日志；C5.0模型

一、引言

跨行业数据挖掘过程标准是目前业界主流的数据挖掘流程，简称CRISP-DM。1999年由欧盟机构联合起草，在金融、医疗保健、市场营销、零售业、制造业、司法、工程和科学、保险等行业适用广泛。据统计，超过60%的挖掘模型使用跨行业数据挖掘技术。商业理解（Business Understanding）、数据理解（Data Understanding）、数据准备（Data Preparation）、建立模型（Modeling）、模型评估（E鄄valuation）、模型应用（Deployment）六个部分完成了数据挖掘在各个行业的应用，他们从大量的数据中，通过分类、估计、预测、相关分析、关联分析等手段，揭示以往未被发现的、隐含的、有潜在价值的信息。但是，此项技术在农产品电子商务中鲜有应用。

二、农产品电子商务网站CRISP-DM的应用基础

在商业应用上，数据挖掘能够解决以下技术难关：数据库营销（Database Marketing）、客户群划分（Customer Segmentation Classification）、背景分析（Profile Analysis）、交叉销售（Cross-selling）等市场分析行为，以及客户流失性分析（Churn Anal鄄ysis）、客户信用分析（Credit Scoring）、欺诈发现（Fraud Detection）等等，以上应用全部基于Inter鄄net的发展。［1］由于互联网的信息交互，大量的数据被记录在Web页面或者数据库中，人们通过不同的手段提取这些记录的价值。农产品电子商务网站同样有强大的数据库支撑，任何一个客户在网络上的浏览轨迹、注册、登陆、购买信息等都会被忠实的记录下来。通过特殊的技术和方法，从Web页面文档或者网络活动中提取具有潜在价值和隐藏的信息，进而对这些信息进行处理和分析，最后获得有价值的农业相关信息。除了强大的数据库之外，农产品电子商务网站同样有各类不同的客户群，以及基于经纪人、种植户等交叉销售的行为，具备使用CRISP-DM的基础。经过跨行业数据挖掘，可以分析农产品电子商务网站客户流失的原因，以及客户信用等级评价等问题。［2］以上问题的解决对于农产品电子商务业务运营商来说意义重大，他们对了解用户以及客户的使用和购买习惯具有极大兴趣，通过对网站结构进行优化，使得客户浏览、购买体验更加舒适。根据客户消费习惯推送有价值的销售信息，有效实现精准营销。只有更好的吸引客户，增加客户粘性，最终才能提高网站的转化率。结合数据挖掘的各项条件以及农产品电子商务的各项特性，利用数据挖掘来提升农产品电子商务网站的运营效果，具有广阔的应用空间。

三、农产品电子商务网站应用CRISP-DM的前期准备

（一）商务理解下的基础数据来源

电子商务的属性是商务。通常，电子商务是通过网站这一载体实现的，因此商务活动要首先从电子商务网站的数据分析开始。一般来说，电子商务网站运营状况可查看访问量和成交量两类数据。访问量考察这是一个客户的多次访问还是不同客户的一次访问，每次访问的时间长短和访问深度表现如何。［3］成交量是通过购买的产品组合发现客户的购买习惯和产品之间的联系，通过多次交易行为提取购买习惯。农产品电子商务网站与其他网站相同，也是以商业属性为主，同样我们可以通过查看访问量和成交量两类数据来取得农产品商务的特征。农产品的网络数据分析根据不同数据提取层次，分为以下几类：

从整体网站进行的数据准备。网站级别的数据挖掘通常将农产品电子商务网站作为一个整体进行分析，主要内容包括：访问网站的用户（消费者、浏览者、经纪人、种植户等）分析、网站购买情况分析、网站销售金额分析等情况，以上数据可以从网络日志中提取并进行挖掘。［4］

从页面进行的数据准备。需要关注：哪些网页访问量最大、访问者进入与退出网页分析，同样通过网络日志提取相应分析数据。

从访问者个体行为进行的数据准备。对于访问级别的数据挖掘通常从访问者的角度进行数据分析，主要涉及以下方面：网站访问留滞时间分析、网站/网页访问顺序、网站/网页访问导致购买行为分析，访问级别的数据分析。除了依赖于网络日志数据，也需要结合Cookie数据分析。［5］

从访问者群体进行的数据准备。访问者级别数据挖掘除了关注访问情况之外，还需要注意不同的访问是否由同一个访问者产生和发起，同时对该访问者不同时间的访问行为进行进一步的对比分析与挖掘。访问者级别的数据挖掘除了利用网络日志搜集相应数据，还需要网站注册信息数据。

从客户进行的数据准备。客户级别的网络数据挖掘关注已经至少产生过一次购买行为的客户。在进行客户级别分析的时候，往往利用包括网络日志、注册信息、浏览历史、购买历史行为数据、评价信息等多方面的数据。

（二）数据采集途径

数据挖掘的对象是通过各种路径搜集来的各种数据，电子商务数据主要来源于电子商务网页，包括：点击流数据（Click stream）、结果数据（Out鄄comes）、研究数据（Research Data）、竞争数据（Competitive Data）这四类，他们的来源途径分别为：

点击流数据。通过农产品电子商务网站的Web日志、Web Beacons、JavaScript标记和包嗅探器获得，点击流数据记录了用户访问网站的全部情况，包括用户的电脑信息，如用户浏览器类型、各类经人员（包括农民经纪人、种植户）等访问历史、客户购买的访问历史数据；用户的请求与相应信息，如种植户查看或者操作的内容，以及点击后的响应情况（响应时间、数据流量等）等。［6］

结果数据。结果数据是各类农产品相关用户在网站中使用服务或者购买产品时被记录的数据。对农产品电子商务网站来说，此部分数据是数据挖掘的主要内容。［7］

农产品研究数据。主要是通过市场调研手段获得的数据，这部分数据通常是网站根据业务需要主动获取。

竞争对手数据。来源于竞争对手或者相关网站的数据的收集与整理。

（三）数据挖掘内容

网络日志中包含了众多的信息，但是对于电子商务数据分析来说这些信息大多不能直接用于数据分析，需要对这些信息进行各种复杂的交换，才能从中提取对数据分析有使用价值的变量，同时结合其他来源的多个数据集进行数据挖掘。［8］一般在对网络数据进行整理的时候有以下三个步骤。

首先，厘清访问数据，识别不同的访问及访问者。在网络日志中，IP地址相同、操作间隔不超过30分钟，并且用户代理（浏览器）未发生变化则可认为是同一访问；为了识别同一访问者对网站的多次访问，还需要通过Cookie信息以判断其为同一个人（使用同一台电脑）。

其次，从网络日志中提取农产品网站的变量信息。提取用户的搜索关键词信息，便于生成反映用户查询关键词信息的数据表（包含查询次数超过30次的关键词）；提取访问时间、每页停留时间、访问连续页面直接的间隔时间、访问的顶级目录和从何处（从何种搜索引擎或门户网站）进入网页等信息，便于生成用户网络访问习惯数据表。

最后，清洗并合并数据。将网络日志中提取的数据与其他来源的数据进行合并，将注册信息、登陆信息、产品信息、购买信息等与从网络日志中提取的信息进行合并，进而生成比较完整的分析数据集。

四、农产品电子商务网站CRISP-DM的模型应用

（一）访问用户购买行为预测模型

用户购买行为预测模型所采用的大多是决策树模型，它可以利用一系列规则划分，通过建立树状图用于分类和预测。当用户在农产品电子商务网站产生购买行为时，用户一定会在订购确认或者付款界面进行订单确认。此模型的目的即预测用户的哪些特征或者其在网页上的行为导致用户使用订购确认或者付款界面。决策树模型常用的算法有CART、CHAID、ID3、ID4.5.C5.0，在农产品数据挖掘中，C5.0模型是应用较广泛的一种，其优点是适用于处理大数据集，采用Boosting方式提高模型准确率。［9］

C5.0模型采用属性的信息增益率来选择属性，根据带来最大信息增益的字段拆分样本，以信息熵的下降速度作为最佳分支变量和分割阀值的依据。［10］在利用C5.0算法建立模型之前需要对从网络日志中搜集到的一次访问中包含的多条记录变为一次访问只包含一条记录，并且要将用户方位网页、引用网页、网页顶级目录分别作为不同变量来建模。由于用户使用订购确认或者付款界面的频率相对较少，因此在建模过程中需要对变量进行平衡处理。

（二）农产品精准推荐模型

农产品精准推荐模型的原理是利用聚类分析算法对用户进行细分，找出每个聚类类别最常购买的若干农产品。利用C5.0决策树模型的聚类功能，将用户访问网站的行为数据作为模型的信息熵，对用户进行细分，对访问用户根据其访问行为归入到某个聚类类别，并向此类别的客户推荐该聚类类别中历史客户最常购买的产品。模型建立之后可以根据用户访问的页面想起推荐感兴趣的产品，包括消费者购买的水果，或农民种植户购买的化肥，均可以实现精准营销。

（三）人性化网页推荐模型

农产品网站使用客户具有其特殊的使用习惯，通过搜集用户在网站上的行为，包括访问用户最初浏览的三个页面，结合浏览这三个页面的时间间隔这5个变量，利用C5.0模型对用户的习惯进行聚类。模型建立之后，当新的访问用户访问了3个页面之后，可以应用之前已经生成的聚类模型将其归入某个聚类中，并根据该类别中最常被查看的3个页面向该访问用户推荐页面，推荐的形式可以体现为第4个页面的链接，也可以在第4个页面的特定区域先生这些页面的概况。

除此之外，还可以利用电子商务数据对访问者建立模型，包括访问者细分模型、访问内容预测模型、访问内容细分模型、基于关联贵州的产品特征模型等等。