APP下载

基于可拓聚类的服装需求预测方法

2018-05-22何海洪余军合许立波李兴森

计算机应用与软件 2018年5期
关键词:需求预测复杂度区间

何海洪 余军合 许立波 李兴森

1(宁波大学机械工程与力学学院 浙江 宁波 315211)2(浙江大学宁波理工学院计算机与数据工程学院 浙江 宁波 315100)

0 引 言

服装需求具有较强的季节性与波动性,加之其影响因素较多,对服装需求进行预测往往难度较大。然而对服装需求进行预测可以帮助服装企业更好地优化库存、更合理地安排生产与采购,有助于增强企业的市场响应能力,减少呆滞库存或断销情况,为库存管理、生产计划、采购计划等提供重要依据。因此,服装需求预测一直是企业面临的一个重大难题,同时也是国内外学者比较关注的问题。

服装需求影响因素的复杂性使得服装需求预测多为非线性预测问题,而神经网络具有较强的非线性拟合能力,因此很多研究者将其应用于服装需求预测,并用遗传算法、极限学习机、模糊理论等对其进行改进和优化,一定程度上提高了预测精度[1-7]。孟志青等[8]运用非线性机器学习的核函数技术建立了一种对时尚服装需求预测具有较高动态精度的服装需求预测模型;Martins等[9]在对服装产品进行试销基础上,假设真实销售与试销比例一致,然后根据试销比例对服装需求进行分类预测,验证结果表明按照畅销—滞销分类后再按照试销比例进行预测能提高预测精度,但基于提前销售的预测方法容易造成产品信息泄露;张秀美等[10]在考虑服装需求随季节、气候条件、价格、性别等因素动态变化情况下,运用模糊理论对各因素进行模糊化,然后以改进的二乘支持向量机(LS-SVM)为主,融合多种方法对服装销量进行了动态预测;池可等[11]在将服装分为基本型、季节型和流行型的基础上,探究了特尔菲法、移动平均、指数平滑、季节性指数法、一元回归与多元回归对不同类型服装的适用情况,并提供了适用于服装销售预测的方法选择表。上述方法大多是对某种预测方法的改进或者多种方法的融合,复杂度较高。此外在服装库存调配管理、采购生产计划等方面,准确预测一个确切合适的区间范围往往比预测一个具体值更具现实指导意义。

因此,本文考虑将可拓聚类方法应用到服装需求预测中。可拓聚类方法是可拓学[12]与聚类分析相结合的一种以形式化方式表示研究对象,并根据关联函数定量分析待测样本隶属于某区间范围的分析方法,其在区间预测方面有一定优势,不仅能判别出待测样本的所属区间类别,还能计算出其属于某一区间的程度。可拓聚类已经在包括网络舆情演化趋势、设备故障预测等很多领域得到了应用[13-16]。本文将在分析服装需求预测特点以及服装需求影响指标基础上,构建服装需求预测的可拓聚类模型,并结合实例数据,对服装需求进行区间预测;对预测效果进行对比分析,并对算法复杂性进行研究。

1 服装需求预测特点及指标构建

1.1 服装需求预测特点

服装需求量往往会因产品风格与特色的不同而不同,主要表现为三种形式:(1) 受流行趋势影响较小的经典款,其需求量在各季节均较为稳定;(2) 风格特色和流行主题含量较高的流行款,其需求量受流行趋势影响较大;(3) 自身功用与季节关系密切的季节款,其需求量随季节变动呈现显著的有规律的波动[11]。

受季节影响的服装产品往往体现出一定的趋势性和周期性,对此类产品进行预测较为复杂,具有一定的代表性。本文选取国内一家上市服装企业的季节性显著的单裙为研究对象,其连续两年的销量数据分布如图1所示。不难发现两年销量按周次顺序均呈现先增大后减小的规律,表明单裙年度销量趋势大致相同,规律具有一定的延续性;此外两年同期销量差异较大,而且同一年份不同时期的销量差异也比较显著,体现了服装行业需求波动较大、季节需求差异明显的特点。

图1 2015-2016年单裙周销量

正是由于服装需求规律具有一定的连续性和顺延性,所以可以根据已有的历史销售数据对未来的需求量进行预测分析。又由于各时间段的需求存在较大波动,使得依赖时间先后关系的预测方法仅仅根据历史数据对潜在需求进行较为准确地预测比较困难。此外,预测无法做到完全准确,而对于基于预测的决策往往需要预测对实际问题具有切实可行的指导意义,预测要么具有符合要求的精度,要么能给出符合业务需求的合理范围。因而本文采用可拓聚类方法对服装需求量进行区间预测。

1.2 服装需求预测指标构建

服装作为时尚产品,其特点就是季节性、时尚性和流行性,并且生命周期较短,其需求往往随季节、气候、价格、颜色、节假日、流行趋势、店铺装修、品牌知名度以及地区消费差异等因素动态变化[1,10]。在服装需求的主要影响因素中,价格很大程度上影响着人们的购买意愿[5,10,17]。同时,气温、天气状况对服装销售也具有较大影响[5,10,18-19]。

因此本文根据单裙销售数据和企业销售目标整理出每周的平均价格,同时折算出每周的平均折扣以及对应的销售指标。此外采集对应时间点的气温和天气状况信息,整理出每周的平均气温以及每周晴天、雨天、阴天、雾天的占比情况。由于获得的各项分析指标数据间存在量纲或数量级差异,所以先将所有数据进行极差归一化到[0,1]区间。以价格—销量为例,分析可得图2所示的平均价格与销量的分布图及关系图,同理可得图3所示的其他因素与销量的关系。

图2 平均价格与销量关系

图3 各变量与销量关系

由图2、图3可知,平均价格与销量的泊松相关系数为0.76,表明两者显著线性相关,可将价格因素作为销量预测的一个重要自变量。同时,周平均价格、平均气温、晴天占比、销量指标与销量具有较强的正相关关系,阴天占比和其他天气与销量具有较弱的相关性,雾天占比和雨天占比与销量呈现一定的负相关关系。这些均与实际情况较为符合:该企业采用高价位产品投放较多的产品策略,所以销量会随平均价格升高而升高;通用的折扣表现形式为数值越小优惠力度越大,而优惠力度越大销售往往越好,因此销量会随平均折扣增大而减小;而对于具有季节性特点的单裙而言,销量会随气温的上升而增加;晴天、雨天等天气情况会影响人们出行,进而影响销量变化。为综合考虑各因素对销量进行预测,本文将9个因素均作为销量预测的影响因素参与分析。

根据上述对服装需求特点及销量影响因素的分析,对销售数据以及天气信息等进行整理可得平均价格、平均气温、雨天占比等9个影响因素的周度数据,部分原数据如表1和表2所示。其中,每周数据作为一个已知样本,并按照两年周次的先后顺序对其进行编号;c1-c9分别为平均价格、平均折扣、平均气温、晴天占比、阴天占比、雾天占比、雨天占比、其他天气以及销量指标9个销量预测分析指标,最后一列为销量数据。

表1 单裙周销量及影响因素数据1

表2 单裙周销量及影响因素数据2

续表2

2 服装可拓聚类预测模型

许多服装需求预测方法主要是对销量具体值的预测,不易确定预测结果的波动范围,而在实际生产计划、库存管理等业务中,如果能得到未来销量的波动范围,可使决策者能更好地预先了解未来的需求情况,进而更好更科学地对相关业务进行分析与决策。本文提出的可拓聚类预测方法,先根据业务人员允许的预测波动,结合历史销量情况对销量预测范围进行等级划分,然后对新的销量待预测样本进行等级范围预测,从而实现销售量的区间预测。

2.1 物元模型

2.2 确定经典域与节域

要得到各指标的经典域和节域,首先应对销量进行区间等级划分。根据单裙销售业务专家的建议,在实际的销量预测分析中,一般周平均误差在15%~20%间均可接受,因为实际周销售情况出来以后可结合该周或前几周的误差情况对下周预测进行调整。因此本文用历史周销量最大值172与最小值18之差乘以可接受的周均误差范围便可得到具体误差范围值23.1~30.8件,然后求平均值取整为26件,即本文以26件为间隔对销量进行区间等级划分,此方法可将销量划分为6个等级,整理如表3所示。

表3 销量各等级区间范围

在可拓学中,经典域为所划分的第i个销量等级Oi(i=1,2,…,m)中,Oi对应的第j个特征cj(j=1,2,…,n)的量值范围,包含各特征经典域的销量等级物元可形式化表示为:

与经典域类似,节域为全体等级Op中全部已知样本关于第j个特征cj(j=1,2,…,n)的全量值范围(j=1,2,…,n),体现各特征节域的销量全等级物元可形式化表示为:

可知经典域是某一等级某特征的取值范围,节域为所有等级的某特征的取值范围,经典域为节域的一个子集。

根据表2划分的销量区间等级,分别统计出Ⅰ~Ⅵ每个等级中关于销量各影响指标c1-c9的取值范围构成各等级对应指标的经典域;统计出Ⅰ~Ⅵ全体等级中所有已知样本关于各销量影响指标的全值范围,构成对应指标的节域。由于各指标均进行了归一化处理,所以由全部已知样本的各销量影响指标c1-c9的取值范围构成的各指标节域均为<0.00,1.00>。同时,由前述可知,若以Oi(i=1,2,…,6)表示第i个销量区间等级,cj(j=1,2,…,9)表示第j个销量影响指标,vij(i=1,2,…,6,j=1,2,…,9)表示第i个销量区间等级的第j个销量影响指标的取值范围,则各等级各指标归一化后的经典域表示如下:

第1销量等级各指标经典域可表示为M1=

第2销量等级各指标经典域可表示为M2=

第3销量等级各指标经典域可表示为M3=

第4销量等级各指标经典域可表示为M4=

第5销量等级各指标经典域可表示为M5=

第6销量等级各指标经典域可表示为M6=

2.3 可拓距计算与初等关联函数构建

与经典数学中的特征函数和模糊数学中的隶属函数类似,可拓学用关联函数来定量刻画论域中的元素具有某种性质的程度[12,20]。关联函数可以表示元素具有某性质的程度,换言之,即为描述类内事物的区别,而在建立关联函数之前,需要运用可拓学中表示点与区间距离的可拓距,一是因为关联函数通过可拓距构建;二是因为要描述类内事物的区别,运用经典数学中“区间内的点与区间的距离为零” 来度量显然不合适。可拓学将具体事物的某一特征数据看成点,它与某类别或区间范围的距离称为该点与相应范围的可拓距。其数学定义为:实轴上任一点x与实域中任一区间X=的可拓距为:

(1)

当论域中的元素具有多个特征时,各特征具有某性质的程度可用初等函数描述,综合考虑该元素多个特征具有某些性质的程度可用综合关联函数描述。例如本文单裙销量有c1-c9共9个影响指标,则用9个初等关联函数分别表示c1-c9每个指标与所分销量等级中对应指标的经典域的隶属程度,用综合关联函数表示综合考虑某一等级9个初等关联函数,用以描述该销量隶属于对应等级的程度。

此外,对关联函数而言,使得具有某性质程度最大的元素值为该性质对应关联函数的最优点;对于区间而言,其均值更能体现区间特性,减少异常点影响。对本文每个等级的已知样本各指标求均值时发现,各等级中每个指标的均值与该等级对应指标的经典域的中值存在较大差异,所以以最优点为经典域中点构造的初等关联函数计算待测物元各指标与各等级中对应指标经典域的隶属程度并不合适。如对优惠力度而言,优惠力度越大销量越高,而并不是在优惠力度中等程度销量最大,因此需用最优点不在区间中点时的侧距对点与区间的距离进行描述,并构造最优点不在区间中点的初等关联函数。

(2)

(3)

(4)

2.4 确定权系数及待测样本所属等级

权系数反映了某指标对分析目标的重要程度。本文中各权系数即为c1-c9各指标对单裙销量的重要程度。本文采用比重权系数法求各指标权重,即对每个销量区间等级与每个待测样本,均计算待测样本各指标对销量的相对重要程度,其计算公式为:

(5)

式中:xj表示待测样本第j(j=1,2,…,n)个指标的量值,bij代表第i(i=1,2,…,m)个等级中第j(j=1,2,…,n)个指标经典域中的最大值。求出权系数与各指标关于各等级对应指标初等关联函数值后便可计算待测样本p属于第i等级的综合关联度Ki(p),其计算公式为:

(6)

当求得所有等级的综合关联函数值后,其中最大值所在的等级即为待测样本的预测等级,即若Ki=max(Ki(p)),i=1,2,…,m,则判定待测样本p属于第i等级。

3 实例分析

3.1 待测样本关联度计算

根据前文对销量等级的划分以及销量各影响指标的经典域和节域的构建,利用初等关联函数计算式(4)可计算出待测样本各指标关于各等级对应指标的初等关联度值。

以待测样本1为例,其物元模型为M=(O1,Ci,Vi)

表4 待测样本1各指标与各等级间的初等关联度

续表4

3.2 待测样本权系数计算

由权系数计算式(5)可知,要计算c1平均价格指标在各等级中的相对权重,首先需要计算待测样本1的c1指标值与每一等级中c1指标的经典域中较大值的比值;然后按第1步分别求出待测样本1的c2-c9指标值与每一等级中对应的指标经典域中的较大值的比值,并对每一等级的所有指标的该比值求和;最后在每一等级中计算c1-c9中某指标该比值与该等级中所有指标该比值之和的比值,即为对应指标在每一等级中的相对权系数。对所有指标在所有等级中的权系数进行计算并整理可得表5。

表5 待测样本1各指标在各等级的权系数

3.3 综合关联度计算

当求得表4和表5所示的待测样本1各指标关于各等级对应指标的初等关联函数值和权系数后,可根据综合关联度计算式(6)计算待测样本1隶属于各等级程度的综合关联度值,即将表4、表5中每一行中对应指标列的数值进行数乘后求和,结果即为待测样本1隶属于各个等级的程度情况。

按前述步骤可计算本文剩余11个待测样本对应的可拓距或侧距,进而求出各初等关联函数值、权系数以及综合关联函数值,将12个待测样本的计算结果进行整理可得表6所示的各待测样本与各等级的综合关联度及预测范围,其中p为待测样本,K1(p)~K6(p)为6个销量等级的综合关联度;O_D、P_S分别为各待测样本原始销量值与可拓聚类预测的销量等级范围。

表6 各待测样本与各等级综合关联度及其范围

3.4 预测结果与分析

根据Ki=max(Ki(p)),i=1,2,…,m,可由表6确定各待测样本属于哪一等级以及隶属于该等级的程度。例如,对于待测样本3而言,其关于第2等级的综合关联函数值最大为10.26,且远远大于其关于其他等级的综合关联度,表明待测样本3的销量范围预测为第2等级的销量范围(44,70],并且隶属程度较大、可信度较高。

可拓聚类为懒惰学习算法,为更直观地展现其预测效果,将其与同样为懒惰学习而应用又较为广泛的经典算法K近邻进行比较。结合待测样本实际所属等级情况以及可拓聚类、K近邻算法的分析结果,整理出表7所示的各待测样本销量的可拓聚类预测方法与K近邻方法和实际情况的对比情况。

表7 各待测样本可拓聚类与K近邻预测效果对比

续表7

由表6、表7可知,可拓聚类预测结果中,12个待测样本有10个预测完全正确,仅待测样本5、10与正确结果相差1个等级,而K近邻算法预测结果中,有7个待测样本预测正确,待测样本5、6、10、12与正确结果相差1个等级,待测样本11与正确结果相差2个等级。因此可拓聚类在服装等级区间预测方面相较K近邻而言,预测效果更好。并且可拓聚类能根据待测样本与各等级综合关联度的大小得知待测样本属于某等级的程度以及与其他等级的亲疏关系,表明可拓聚类在服装销量预测中不仅是可行的、有效的,同时还具有可反映隶属程度的优势。

4 时间复杂度分析

假设共有N个已知样本点,r个已知的类别等级,n个待测样本,各样本有m个特征,则K近邻算法首先计算每个待测样本各特征与所有已知样本的距离,时间复杂度为O(n×N×m)。然后对每个待测样本的N个距离进行升序排序,时间复杂度为O(n×N×log2N);而后读取每个待测样本所有排序后距离的前k个;然后确定k个点所属类别的频率,时间复杂度均为O(n×k);最后对每个待测样本前k个所属类别的频率进行排序,时间复杂度为O(n×r×log2r)。而可拓聚类算法首先需要计算每个待测样本与每个等级中相应特征与经典域、节域的侧距或可拓距,进而计算对应关联度;然后计算每个待测样本各特征在各等级的权重,时间复杂度均为O(n×m×r);此后计算每个待测样本在各等级的综合关联度,时间复杂度为O(n×m);最后对所有等级的综合关联度进行排序,选择最大关联度对应等级为待测样本预测等级,时间复杂度为O(n×r×log2r)。因为N>>m,N>>r,所以K近邻时间复杂度为O(n×N×m)或O(n×N×log2N);可拓聚类时间复杂度为O(n×m×r)。可拓聚类中的等级个数是由已知样本根据实际问题或者领域知识划分得到的,所以一般等级个数r远远小于已知样本数N,因此可拓聚类算法的时间复杂度也远远小于K近邻算法。

以本文为例,r为6,N为106,K近邻的时间复杂度是可拓聚类的17.67倍左右,但是可拓聚类却有比K近邻更好的预测效果。当已知样本量更大时,例如N=10 000,K近邻的时间复杂度则是可拓聚类的1 666.67倍左右,即样本量越大,可拓聚类时间复杂度的优势越显著,可见可拓聚类用于服装销量预测的有用性与高效性。

5 结 语

服装需求受很多因素影响,要对服装销量进行很好的预测就必须综合考虑较为重要的影响因素。同时由于服装需求存在明显的波动性,对销量进行区间预测比预测具体值更有参考意义,使得基于销量区间预测的库存管理等活动更具有灵活性与可控性。通过可拓聚类方法实现对销量区间的预测,使研究对象及各指标均能以形式化的模型更直观简单地展现,而且通过关联函数可得到待测样本隶属某一等级的具体程度以及与其他等级的亲疏关系,能更好地体现待测样本的特点。此外,可拓聚类方法具有较好的预测精度,而又避免了传统预测方法或多种预测方法融合的繁复性,具有很低的计算复杂度,实际数据分析以及与K近邻分析结果对比均表明可拓聚类方法运用于服装需求预测的有效性与优越性。下一步工作将对可拓聚类预测方法在更大数据集中的预测效果进行进一步探索。

参考文献

[1] 罗戎蕾,刘绍华,苏晨.基于遗传算法的BP神经网络服装销售预测方法[J].北京邮电大学学报,2014,37(4):39-43.

[2] Tsan M C.An intelligent fast sales forecasting model for fashion products[J].Expert Systems with Applications:An International Journal,2011,38(6):77-80.

[3] Wang Taiyue,Lin Suli.Application of neuro-fuzzy networks to forecast innovation performance—The example of Taiwanese manufacturing industry[J].Expert Systems with Applications,2010,37(2):56-59.

[4] Coskun H,Diyar A.Comparison of direct and iterative artificial neural network forecast approaches in multi-periodic time series forecasting[J].Expert Systems with Applications:An International Journal,2009,36(2):76-81.

[5] Chen F L,Ou T Y.Sales forecasting system based on Gray extreme learning machine with Taguchi method in retail industry[J].Expert Systems with Applications,2011,38(3):1336-1345.

[6] Yu Y,Choi T M,Hui C L.An intelligent fast sales forecasting model for fashion products[J].Expert Systems with Applications,2011,38(6):7373-7379.

[7] Thomassey S.Sales forecasts in clothing industry:The key success factor of the supply chain management[J].International Journal of Production Economics,2010,128(2):470-483.

[8] 孟志青,马珂,郑英.基于核函数技术的时尚服装需求预测方法[J].计算机科学,2016,43(11A):455-460.

[9] Martins V L M,Werner L.Forecast combination in industrial series:A comparison between individual forecasts and its combinations with and without correlated errors[J].Expert Systems with Applications,2012,39(13):11479-11486.

[10] 张秀美,孙永剑,郭亮伟.面向大批量定制的基于改进的LS-SVM服装需求预测模型[J].纺织学报,2010,31(5):141-145.

[11] 池可,陈雁.基于对象信息的服装销售预测方法选择[J].纺织学报,2009,30(10):139-142.

[12] 杨春燕,蔡文.可拓学[M].北京:科学出版社,2014.

[13] 郭韧,李红,陈福集.基于可拓聚类的网络舆情演化预测研究[J].情报理论与实践,2017(1):83-87.

[14] 李春晓.复杂设备故障预测可拓聚类分析模型[J].计算机工程与应用,2015,51(11):129-134.

[15] 亢亢,赵晓林,高建国.可拓聚类预测在矿山地质环境质量预测评价中的应用[J].安全与环境学报,2013,13(2):111-116.

[16] 郭德勇,郑茂杰,郭超,等.煤与瓦斯突出预测可拓聚类方法及应用[J].煤炭学报,2009,34(6):783-787.

[17] Aksoy A,Ozturk N,Sucky E.A decision support system for demand forecasting in the clothing industry[J].International Journal of Clothing Science & Technology,2013,24(4):221-236.

[18] Thomassey S,Happiette M,Castelain J M.A global forecasting support system adapted to textile distribution[J].International Journal of Production Economics,2005,96(1):81-95.

[19] Bahng Y,Kincade D H.The relationship between temperature and sales:Sales data analysis of a retailer of branded women’s business wear[J].International Journal of Retail & Distribution Management,2012,40(6):410-426.

[20] 蔡文,杨春燕.可拓学的基础理论与方法体系[J].科学通报,2013,58(13):1190-1199.

猜你喜欢

需求预测复杂度区间
区间值序列与区间值函数列的收敛性
一类长度为2p2 的二元序列的2-Adic 复杂度研究*
毫米波MIMO系统中一种低复杂度的混合波束成形算法
浅谈需求预测在企业中的应用
基于BP神经网络的济南市物流需求预测
基于灰色模型对上海市电力需求预测分析研究
Kerr-AdS黑洞的复杂度
全球经济将继续处于低速增长区间
非线性电动力学黑洞的复杂度
区间对象族的可镇定性分析