零售4.0时代先行发货问题的大数据分析

2020-11-09马丽娜万美妤杜玉申

长安大学学报（社会科学版） 2020年5期

马丽娜，万美妤，杜玉申

(吉林大学商学院，吉林长春 130012)

随着信息技术的发展，购物渠道越来越多，促使许多零售商实施多渠道战略。但是，由于数字化的不断发展，线上和线下购买渠道之间的区别正在消失。在这种情况下，传统的分销渠道正在发生变化，全渠道零售成为整个零售业发展的关键路径[1]，多渠道零售正在转向全渠道零售，迎来了第四代零售革命，即零售4.0时代。

全渠道零售是为顾客提供的一种无缝连接购买渠道，让顾客通过所有可行渠道体验购物，如线下渠道、线上渠道和移动渠道[2]。同时，购买渠道的多样化使数据源越来越多，产品数据和顾客数据的数量呈爆炸式增长，使数据聚合更困难。由于顾客个体不断飞速地产生数据，因此需要利用大数据分析来从数据中提取隐含信息，从而为商业决策提供帮助[3]。大数据分析在零售业虽然已经广泛应用，但由于零售业本身数据种类和来源过于繁杂，使得大数据在零售行业的切实应用存在一定的困难。本文通过基于遗传算法优化的模型，完善了大数据分析在零售业中的应用和能产生的相关指导作用。

大数据的应用主要包括云计算、关系数据库以及数据挖掘技术等[4]。大数据分析在零售4.0时代中的重要性表现在以下两个方面。其一，在全渠道零售商业中，零售商必须以顾客为导向，与顾客紧密联系。例如，他们需要将所有可行的购买渠道与相匹配的顾客和产品信息连接起来，并汇总所有数据进行分析，以便与顾客进行个性化交流。大数据挖掘可以完成购物篮分析，从而帮助企业预测顾客购买趋势并设计营销促销策略。大数据分析可以洞察顾客的需求，预测顾客的行为，有效帮助企业做出满足顾客个性化需求的决策[5]。其二，无论订单是在线上还是在线下完成，零售商提供全套发货和提货方式非常重要。顾客希望在下单后快速交付，所以交付绩效是影响全渠道零售交易中顾客购物体验的关键因素之一。例如，亚马逊申请了先行发货专利，用于预测顾客何时进行购买并在顾客在线下订单之前将产品运送到最近的配送中心[6]。

通常，衡量交付绩效的两个一般因素是成本和时间。近期的相关研究中，学者们考虑用成本和时间来改善配送网络，但是较成熟的模型通常假设已知顾客的需求，它不适用于先行发货，因为不同产品的顾客需求完全是根据顾客行为预测的结果。因此，应该考虑预测结果的置信度，因为它决定是否应该在收到任何订单之前把产品预先运送到特定配送中心(DC)，而且它可以有效解决当优化一个因素时导致其他因素改变产生的问题。例如，当将某类产品运送到配送中心A所需的成本低于配送中心B时，但预计在配送中心B附近的购买置信度比配送中A附近的购买置信度更大时，零售商不得不面对交易成本与预测置信度之间的权衡。如果产品运送到购买置信度更高的地点，预计投资回报率可能会更好。

本文的目的是分析预测顾客的购买行为，并根据多种因素，包括运输成本、运输时间和预测结果置信度，提出一种用来确定将产品分配至不同配送中心的优化模型。

一、文献综述

(一)全渠道零售及大数据分析研究

互联网的出现和发展及其在供应链管理中的重要性，打开了电子物流发展新机会的大门，由于电子商务的拓展，除传统零售外，顾客能够通过多种渠道进行产品购买[7]，例如商店、产品目录、网络、移动终端等包括在内的所有渠道[8]。顾客无论是亲自购物，还是通过目录、手机、在线等其他方式购物，都会对如何购买产品做出决定[9]。随着一些电商分销商对产品不同程度的主导，对传统零售商产生了不同的影响，甚至会导致其退出销售渠道[10]。这种情况下，传统零售商将面临复杂的电子物流带来的挑战，他们在制定零售策略时不得不考虑技术问题，因为一项新技术会为零售业创造新渠道，零售商开始采用多渠道零售策略，学者们已将线上和线下渠道融入零售业视为零售商较有前景的策略。然而，近几十年来信息技术的发展为全渠道零售提供了动力，而全渠道零售业逐渐成为零售业4.0时代的主流战略。

零售业4.0依托于工业4.0，利用大数据进行计算和建模，进行针对性的有效营销，并结合全渠道服务模式，为消费者提供了全新购物体验[11]。中国的零售业在经历了计划经济下的传统零售1.0时代，市场经济下客户主导的终端零售2.0时代，以及电商线上零售的3.0时代后，逐步进入零售业4.0时代[12]。零售业4.0推崇各零售渠道以及物流之间协作，通过形成全渠道新零售模式，为消费者提供跨渠道无差别服务[11]。零售渠道发展的高级阶段是全渠道零售，它是“以消费者为中心”为主要特征，实现各渠道之间的无缝链接，为顾客提供更高的消费体验价值[13]。

尽管全渠道零售商业模式可以让企业通过较多的渠道向顾客销售商品或提供服务，但它也存在潜在的消极因素。一个主要的现象是“展厅现象”，即顾客在商店中打量商品，但同时在网上搜索更多信息并以更具吸引力的价格在竞争对手的网站上购买[14]。同样，“反展厅现象”与“展厅现象”相反，出现了顾客在网上寻求信息但在线下购买商品的现象。因此，多渠道的快速扩散，可能会造成顾客跨渠道搭便车的问题。我们鼓励零售商投入资金来分析顾客的购买行为，顾客大数据分析是从大数据中提取关于顾客行为的隐含信息，并用有效的解释来剖析该隐含信息[15]。

(二)关联规则挖掘相关研究

数据挖掘技术，如聚类和关联，可以从大数据中提取隐含信息来实现目标[16]。聚类是基于对象的相似点将其分成多个类的非监督分类过程，由于聚类所要划分的类是未知的，仅凭数据自然分类，故聚类分析又称作非监督分类，例如高聚类内相似性和低聚类间相似性，物体之间的相似性通常通过距离来衡量，而顾客可以通过具有相似的特征，如兴趣、收入水平和支出相似，组合为一个集群。聚类算法通常采用层次聚类方法[17]和K-means聚类方法，例如采用K-means聚类方法对游客分布分类、对消费者客户分类等[18-20]。此外，关联规则挖掘有助于找出所有项集之间的相关性，并用关联规则来表达它们。关联规则以P→Q的形式表示，其中P和Q分别定义为表示规则的“如果”部分和“那么”部分的项集。Agrawal et al.提出了Apriori算法，一种挖掘关联规则的频繁项集算法，Chung et al.在研究中指出该算法可以用于发现数据集中所有项集之间的关联规则[21]。戴稳胜等使用数据挖掘技术发现交叉销售机会，即研究顾客购买某公司的一种产品后，又购买该公司另一件产品的关联性，通过数据挖掘构建顾客需求预测模型[22]。张德鹏等利用企业数据资源，提出利用关联规则技术制定商品的营销组合，为商品提供外在推动力[23]。何黎等利用相关性分析和关联规则分析对平台用户进行分析，实现个性化营销[24]。郭燕等认为数据挖掘为零售业创新提供了新工具，对于传统零售业而言，充分运用大数据成为创新制胜的必由之路[25]，范生万等采用Apriori算法对通过聚类分析的企业客户和商品进行关联规则分析，从而指导商品精准营销[18]。

(三)遗传算法相关研究

顾客在下订单后希望快速收到产品，一些新型交付方式，诸如多峰性和时窗方式等越来越重要[9]。另外，改善配送网络也成为提高物流绩效的关键，配送网络通过不同的配送中心把来自不同来源点(供应商)的产品配送到不同的需求点(顾客)。物流的两种主要属性是交付速度和交付可靠性，前者是指缩短订单接收和顾客交付之间时间的能力，而后者则指准确报价或预期交付日期和数量的能力。遗传算法(GA)是启发式方法之一，广泛使用于配送网络问题。相比于其他算法，遗传算法对所要优化目标函数的连续性和是否可微没有严格的要求，并且在一定时间内能够从大规模优化问题中做出选择[26]。在遗传算法中，每个单独的解决方案都用染色体的形式表示，染色体通过使用遗传算子进行修改，如交叉和变异。遗传算法的目标是创建新一代可行的解决方案，使其趋于函数的最优解。Lin et al.开发了一个遗传算法模型来确定交付和回收商品的最佳提货策略[27]；Ko et al.采用遗传算法优化了新型电动汽车充电基础设施的分配，他们考虑了电力变送器成本这一非线性成本[28]；Dib et al.结合了遗传算法和可变邻域搜索算法，解决道路网中的最短路径问题[29]；赵泉午等在优化大型零售企业城市配送网络的研究中，运用遗传算法时，考虑了配送中心到需求点的配送距离[30]。

本文创新性地将遗传算法和基于聚类的关联规则挖掘相结合，研究了多因素对配送网络的影响，并提出了先行发货的优化方法。

二、基于遗传算法的优化模型

图1是先行发货的遗传算法优化模型。图1构建了基于遗传算法优化模型的基本框架，以此分析顾客行为和先行发货，它由3个模块组成：(1) 大数据管理模块；(2) 顾客预测分析模块；(3) 先行发货优化模块。大数据中的有些数据更能显著地体现出顾客在全渠道零售中的购买行为，为了筛选出这些数据，需要把各个顾客的数据集远程存储在大数据管理模块的云端中，零售商能够从云端获取大数据分析的数据。在利用云端管理数据的模式下，大数据管理模块为全渠道零售供应链各方共享信息提供了一个公共平台。顾客预测分析模块嵌入了大数据挖掘技术，以确保所有信息源均有效满足挖掘目标。换言之，模型中完成的大数据挖掘技术的功能包括聚类和关联。在预先发货优化模块中，遗传算法用于为先行发货生成近似最优配送解决方案，以下介绍各个模块的详细信息。

(一)大数据管理模块

云计算是管理大数据的新兴技术之一，是减少运营和资本成本较有前景的工具，云计算系统的体系结构要求的细节可以参考Rimal et al.的研究[31]。云计算是基于互联网的计算，通过计算机或其他设备之间提供共享资源、软件和信息，在大数据管理模块中，把从物理渠道、商品目录渠道、手机移动渠道和电脑在线渠道收集的数据整合并存储在云中。由于现收现付成本结构，其资源成本取决于使用量，可减慢新渠道的增加，为零售商提供更灵活多变的渠道整合技能。

(二)顾客预测分析模块

把多种渠道中的数据汇总到云端之后，进行顾客预测分析，进而从数据中发现信息，以利于提取顾客隐含的行为模式并预测未来的购买行为。在顾客预测分析模块中，数据分为两个级别：网络层级和集群层级。在网络层级，应用关联规则挖掘探究整个配送网络中顾客与已购物品之间的关系。虽然在某些情况下，不同地理位置的顾客可能会有不同的购买行为，但在网络层级的应用关联规则挖掘，能同时考虑到一些适用于整个网络的规则。在集群层级，顾客购买的需求点进一步分为不同的集群，同一集群内的需求将由同一个配送中心实现。因此，配送中心的需求是同一集群内所有需求点的总需求，关联规则挖掘应用于研究每个集群中顾客与已购物品之间的关系。在这个模块中，Apriori算法为预测目标生成一组关联规则，输出则采用“如果-那么”的形式，预测当某商品被购买时顾客对其他商品的购买行为。利用规则置信度衡量已生成规则的有效性，规则置信度也可以作为预测结果置信度的指标，如果相应的预测规则具有较高的置信度，则购买预测产品的置信度更高。每条规则的置信度是包含P和Q的百分比。它可以表示如下

Confidence(P→Q) =P(P|Q)

(1)

式中：P为关联规则的“如果”部分的项集；Q为关联规则的“那么”部分项集。置信度临界值是用户预先定义的值，只有大于或等于临界值的规则才会被视为有用的规则。在先行发货优化模块中，当优化总体规则置信度时，通过遗传算法生成预期运输计划，并最大限度地提高对所考虑规则的整体置信度。

(三)预先发货优化模块

1.问题描述

表1 参数和决策变量的符号

表1中的符号描述了与先行发货相关的问题，图2中，配送网络由所有需求点D及其包含的各类产品N组成。在先行发货期间，不同类型产品将从一组源点S运送到一组配送中心H，当收到顾客订单时，每个配送中心只会将产品分配到集群内的需求点。因此，本文不研究产品如何从总部向需求点交付，产品i运送到配送中心k是否会受到相关预测规则置信度rik的影响。如果某类产品运送到一个配送中心，则发货数量将能够满足服务水平Lr，并且从每个源点Qijk运出的每种产品i的数量不超过源点中可发出数量zij，每个配送中心k具有容量限度Pk。把产品从一个点运送到另一个点时，将会产生单位运输成本cijk和运输时间tijk。

f(x)=min[α(C)+β(T)-γ(R)]

(2)

式中：α为运输成本；β为运输时间；γ为预测规则置信度的权重。式(2)是考虑多因素的目标函数，其目的是使运输成本和运输时间最小化，并使预测规则置信度最大化。

(3)

(4)

(5)

式中：C为总运输成本；T为总运输时间；R为预测规则置信度，C′和T′分别表示运输成本、运输时间的适应度值。虽然R总是介于0和1之间，但C和T可以处于不同的等级。C和T在式(3)和式(4)中分别在0和1之间分别归一化，这可以使它们的聚合在相同维度下进行，消除了对目标结果的不合理影响。

另一方面，这个问题受到以下限制

(6)

式(6)确保满足每个配送中心的容量。

(7)

式(7)保证了运送到配送中心k的数量可以达到与预测规则置信度相对应的服务水平。如果预测规则的置信度大于或等于“高置信度”的最小临界值，则认为服务水平较高(如80%)。例如，在配送中心k的产品i的预测需求是1 000单位，并且根据预定临界值将预测规则置信度视为高置信度，那么从所有源点到配送中心k的产品i的发货量应当是至少80%×1 000=800个单位。

2,…,s

(8)

式(8)确保配送中心中来自各源点的每类产品数量不会超过该类产品的可发货数量。

为了简化模型，有两个假设：所有计划产品一次发货；无论数量如何，每次运输都有固定时间。

在这样的假设下，T与Qijk独立，T既不影响顾客也不影响总运输成本。因此，T在模型中的重要性较低，因此预期在目标函数中β应该不大。另外，R在目标函数中与Qijk独立，但是R会影响zij，从而影响Qijk的最小值。

2.引入遗传算法

在这个模块中，使用遗传算法确定一个近似最优的方案，解决如何从不同的源点将不同类型的产品分配到不同的配送中心进行先行发货。遗传算法的最终目标是确保当顾客在线下单时，该产品已经在顾客附近的配送中心有可发货的库存。

(1)染色体编码。染色体中有两个区域：分配区域和产品数量区域。分配区域是运载μijk值的二进制区域，而产品数量区域是运载Qijk的值。根据基因数，染色体的长度是2×n×s×h。图3显示了染色体的一个例子。父代的染色体是随机产生的，轮盘轮法用于染色体选择，父代与子代的大小相等。根据适应值，在子代中，最差的染色体被进化成最优的染色体取代。在每对染色体中，随机选择预定数量的基因进行交叉和突变，如果违反编码方案，染色体将被修复。

(2)适应度评估。为了研究不同因素对先行发货分配网络的影响，先用遗传算法优化单一因素。该模型考虑了3个因素，即运输成本、运输时间和预测规则置信度，式(9)～式(11)分别计算遗传算法优化运输成本、运输时间和预测规则置信度的适应度值，根据结果得到C'、T'和R'；然后用遗传算法时要同时考虑所有的因素，式(2)用来计算遗传算法的适应度值。

(9)

(10)

(11)

三、优化模型验证和讨论

实验有3个目的：验证关联规则挖掘在分析顾客购买模式方面的效果；验证遗传算法在考虑配送网络中多重因素时的效果；权衡先行发货因素。案例研究中把收集的数据输入到XLMiner(Excel表格数据挖掘插件，能有效对表中数据进行分析挖掘)中以生成一组关联规则，使用Evolver(Excel 表格的高级最优化插件，适用于Microsoft Excel 的创新性遗传算法最优化)执行遗传算法进行优化。

(一)基于集群的关联规则挖掘

为了验证以预测为目的基于集群的关联规则挖掘的可行性，选择一家公司进行案例研究。该公司是国内小型家电制造企业，总部位于广东省，在中国多个城市有分销中心，拥有线上线下销售平台，为消费者提供全渠道销售服务。在案例中，我们选取该公司华南地区某市的分销供应链，该市有两个分销中心，即配送网络中的发货源点，有5个分布在不同位置的直销门店，即配送网络中的配送中心。顾客可以通过线上和线下渠道进行购买，供顾客在产品抵达时提货，每个位置都作为一个集群提供并收集每个集群的交易记录，应用关联规则挖掘来发现隐含模式以预测顾客未来的购买。

Apriori算法涉及两个主要阶段：从数据中找到高频项目组；使用高频项目组生成关联规则。同时，为了识别高频项目组，先设置最小支持度，并关注高频项目组。在实践中，最小支持度的定义是很严格的，直接从其他相关实证中采用这些值显然不可行。如果阈值设置得太低，可能会挖掘出许多无足轻重或无法解释的规则，从而不能为实践者提供建议；相反，如果阈值设置得太高，则可能难以获得任何规则。因此，阈值的最终选择在很大程度上要使用试错法，直到可以挖掘出一些有用的关联规则为止。

在这个案例研究中，从每个地点总共收集500笔交易。小家电产品与超市中的日常必需品不同，它并非必需品，因此不会像超市中出售的产品那样频繁地被购买，鉴于此，为了生成关联规则，最小支持度可以更低。经过试错法后，每种产品类型的最低支持值设为10，如果500笔交易中某种类型产品有10笔以上的交易，则案例公司认为该类型产品很受欢迎。考虑到最小支持度的决策较严格并且依赖于一系列试错程序，所以应对选择的值进行定期评估以保证获得决策的质量[32]。通过关联规则挖掘找出流行产品之间的关系，最小规则置信度设置为75%，表2列出了从其中一个集群中获得的关联规则。如果顾客购买了某件产品(设为条件产品)，则以置信度为比例购买另一件产品(设为结果产品)，根据顾客对条件产品的需求，案例公司可以更好地估计对结果产品的需求。考虑到顾客希望在产品下单后能够快速交货，需要在顾客下订单之前将相关产品运送到最近的分配中心，可以建立更有效的预期运输计划。

在下一部分中，使用遗传算法生成先行发货的配送解决方案，同时考虑预测规则的置信度，该解决方案可以确定从特定源点到特定集群应该装运产品的数量。

(二)先行发货的修正遗传算法

根据参数范围随机生成10组数据，如表3所示，每组将由遗传算法分别确定运输成本、运输距离和预测规则置信度的近似最优值，之后，每组将同时考虑α= 0.5，β= 0.1和γ= 0.4权重的所有3个因素。如上文所述，因为T既不会影响顾客，也不会影响总运输成本，在总体目标中不那么重要，所以β很小。将每个因子下每一组运行10次，其中：种群大小= 50，交叉率= 0.7，突变率= 0.02。记录每10次运行的平均结果，并总结在表4中。例如，在第2～4栏中，应用遗传算法来使运输成本最小化，而记录运输成本CC、运输距离TC和预测规则置信度RC，并作比较。

表2 关联规则

表3 模拟配送网络中的参数

表4 优化结果摘要

图4～图6是比较结果，证明了优化一个单一因素会牺牲其他因素。如图4所示，运输时间的最小化导致配送网络中的运输成本增高。如图6所示，其他因素的最小化可能会产生相对较低的置信度值。因此，如果根据先行发货的预测结果提供产品，则配送计划将与基于其他因素(例如运输成本和运输时间)的计划大不相同。然而，考虑到所有因素的重要性，C-O，T-O和R-O的值表明每个因素的效能越来越接近最优值C'、T'和R'。在图4中，这种改进更为明显，C-O线更接近C-C线，并且比C-T和C-R线好得多，这是由于赋予C较大的权重(α= 0.5)。另外，线T-O是图5中最靠近线T-T的线，线R-O是图6中最靠近线R-R的线，证明了提出用遗传算法在处理先行发货多种因素时的优化可靠性。

四、结语

本文是基于以下3种现象而产生思考的。第一，电子商务的增长使顾客可以通过不同渠道购物，每秒产生大量数据，那些未能设置分析大数据业务部门的企业将面临大数据革命中的生存挑战。第二，在全渠道零售商业中，竞争越来越激烈。由于网上提供了很多产品信息，顾客在商店中定位商品，但同时在线搜索更多信息，并有可能在竞争对手的网站上购买，这种现象越来越普遍，因此了解顾客购买行为并积极响应市场非常重要。第三，顾客在下订单后希望快速交付产品，因此企业需要通过先行发货以增强顾客购物体验，也要求企业预测顾客的购买情况。

本文基于以上问题，提出遗传算法和基于聚类的关联规则挖掘相结合的优化模型。首先利用云计算来管理从所有有效渠道生成的大数据，应用基于集群的关联规则挖掘来分析大数据并发现顾客隐含的购买模式，求出规则，帮助预测未来购买趋势。然后根据这些规则，考虑多种因素，利用遗传算法选择先行发货的近似最优解决方案。本文贡献主要表现在两方面，一方面在研究配送网络时，不仅考虑运输成本、时间等运输自身存在的影响因素，还考虑到顾客购买产品的情况，通过对顾客购买产品的预测，提高了先行发货的准确性；另一方面，通过对遗传算法的引入，丰富了大数据分析在营销渠道领域的应用，解决了快速交付产品带来的问题。实验结果给了实践者一个启示，即在处理先行发货问题时，优化单一因素将会牺牲其他因素。因此，我们应该同时考虑所有因素，这样才能控制配送网络多方面的整体效能，使得其接近最优状态。

本文也有一些局限。一个局限在于文中的聚类是根据地理标准预先定义的，即需求点是根据它们的距离聚类。另一个局限在于模型中做出的假设。文中假设所有计划物品都立即发货，而且无论数量多少，每次运输都有固定的时间。这种假设使得模型变得相对简单，并使运输时间与发货数量独立。因此，需要在未来的研究中建立没有上述假设的模型，使得运输时间与数量相关，这可以更好地模拟实际情况。