APP下载

基于多维关联规则的猪肉价格波动原因分析

2019-07-22乔浪郭新宇彭程

江苏农业科学 2019年11期
关键词:数据挖掘影响因素

乔浪 郭新宇 彭程

摘要:我国是世界上最大的猪肉生产国和消费国,猪肉是我国人民肉食的主要来源,分析猪肉价格的波动原因具有重要意义。以2006—2015年猪肉价格月度数据为研究对象,采用数据挖掘中的多维关联规则算法,定量分析猪肉价格与供给、需求、成本3个方面9个影响因素之间的影响关系。结果表明,供给因素方面,猪肉价格与猪肉产量、年末存栏量、出栏猪肉呈负相关性;需求方面,猪肉价格与居民消费水平、牛肉价格和鸡肉价格呈正相关性,其中牛肉价格的变动对猪肉价格影响较大;成本方面,猪肉价格与生猪价格、仔猪价格和玉米价格呈正相关性,其中生猪价格的变动对猪肉价格敏感性较高。运用数据挖掘技术定量分析猪肉价格和影响因素的关联程度,以期为有关部门稳定猪肉价格提供科学依据。

关键词:猪肉价格;影响因素;数据挖掘;多维关联规则

中图分类号:F323.7   文献标志码: A  文章编号:1002-1302(2019)11-0332-04

我国是世界上最大的猪肉生产国和消费国,根据世界肉类组织第四届世界猪肉大会统计,2006年我国的猪肉产量为5 197.2万t,是当年世界猪肉产量的50.1%。猪肉是我国人民肉食的主要来源,养猪业在我国畜牧业中也占据着主导地位。因此,猪肉价格不仅影响着我国畜牧业的发展,更关系到我国国民经济的持续稳定发展。然而近年来我国猪肉价格出现波动周期延长,幅度增大的异常现象,尤其是2007年,我国各地区猪肉价格普遍出现大幅度涨价现象,一度突破了我国最高猪肉价格记录。这样的异常现象严重影响了猪肉的产量,进而导致我国国民经济发展出现不平衡现象。因此,探讨猪肉价格的波动原因具有非常重要的现实意义,本研究运用多维关联规则,从季节、地域、猪肉产量等诸多方面对猪肉价格进行定量分析,进而找到影响猪肉价格的具体因素。国内外学者对于猪肉价格波动的原因分析已经进行很多研究。李秉龙等从政府调控、猪肉供给、需求3个方面对猪肉价格短期波动的原因进行了解析[1]。韦敬楠等运用向量误差修正模型(VEC)分析证实了我国生猪价格与猪肉价格之间的传导关系,并利用非对称条件异方差模型(TARCH)证实我国生猪价格和猪肉价格之间的传导具有双向非对称性特征[2]。徐磊等从草地农业系统观方面分析猪肉价格,指出猪肉价格和玉米价格是呈正相关的[3]。江六一等运用蛛网模型理论、季节调整法以及H-P滤波法对我国活猪价格进行分析,指出我国活猪价格是季节性变化的,猪肉价格增长趋势与消费价格指数(CPI)有关[4]。李宝仁等运用蛛网模型分析猪肉供求曲线的弹性关系,发现我国猪肉价格波动具有发散性特征,并运用向量自回归模型对影响猪肉价格的因素进行定量分析,指出玉米价格对猪肉价格波动的影响十分明显[5]。胡凯等分析生猪价格波动的结构性原因,构建因果分析图和系统动力学流图,并建立系统动力模型进行仿真分析,发现生产延迟和较大的供给价格弹性是生猪价格大幅度波动的本质因素[6]。陈哲蕊等运用脉冲响应函数等方法对我国猪肉价格、饲料价格以及加工价格进行分析,发现饲料价格波动是造成猪肉价格波动的主要因素,猪肉价格波动反作用于玉米价格等[7]。虞祎等根据均衡转移模型理论将我国猪肉市场从城乡2个相对独立的市场进行了分析[8]。陈秋月等基于时间序列分解,对江苏省的生猪、仔猪和猪肉的月度价格进行分析,发现三者的价格波动呈高度一致的周期性波动上升,短期内波动受外部影响明显,波动幅度较大,价格波动周期和生猪饲养周期一致,大致39个月为1个周期[9]。王毅等用X12季节调整法和H-P滤波法对猪肉价格进行波动分解实证分析,发现猪肉价格周期波动与生猪生产周期波动基本一致,且波动周期大致为3~4年[10]。程素云等利用VAR模型对我国生猪价格波动与CPI的关系进行实证分析,发现CPI不是生猪价格波动的格蘭杰原因,生猪价格波动是CPI的格兰杰原因,两者存在长期稳定的关系[11]。上述对猪肉价格影响因素的研究,更多是从向量误差修正、季节调整法、时间序列等数理统计和经济学理论的角度出发,分析各因素对猪肉价格的影响,较少有学者会对各因素对猪肉价格的影响程度进行分析。本研究对影响猪肉价格的因素进行详细分析,运用数据挖掘中的多维关联规则方法计算猪肉价格和各影响因素之间的强关联规则,将各影响因素定量化,明确各因素对猪肉价格的影响程度,有助于更深入了解和掌握猪肉价格的驱动因素和波动规律。Agrawal等于1994年首次提出关联规则的概念[12]。马高庭等基于改进的关联规则算法建立鸡肉产品质量安全预警模型,挖掘出影响鸡肉安全的因素[13]。郑晓峰等基于关联规则和粗糙集对道路运输管理数据进行了分析[14]。曹卫东等运用多维关联规则方法对航班排序进行了优化[15]。尚威等使用多维关联规则技术对交通事故记录进行了分析[16]。肖斌等将时序关联规则运用在钻井事故分析中[17]。陈伟珂等将关联规则应用在地铁施工事故分析中[18-19]。本研究将多维关联规则技术应用在猪肉价格分析中,深度挖掘猪肉价格与影响因素间的内在联系,分解猪肉价格的波动原因,不但可以有效地简化处理猪肉价格数据,还可以通过检验各因素的频繁程度来挖掘和推导出有价值的规则表达式,从而定量获取各因素对猪肉价格的影响程度。

1 多维关联规则理论

1.1 关联规则

关联规则作为数据挖掘的一个重要分支,其主要作用是在数据背后发现事物与事物之间可能存在的关联或联系。设I={i1,i2,…,im}是项的集合。设T为事务表,其中每个事务Ti是项的集合,使得TiI。设A是1个项集,事务Ti包含A当且仅当ATi。关联规则是形如AB的蕴涵式,其中AI,BI,且A∩B=,则在此蕴含式中A称为前件,B称为后件[12]。

关联规则的强度可以用支持度和置信度来度量[12]。支持度(Support)的公式是Support(A→B)=P(AUB)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系较小;如果A与B同时出现的非常频繁,则说明A与B总是相关的。置信度(Confidence)的公式是Confidence(A→B)=P(A|B)。置信度揭示了A出现时,B是否也会出现或有多大概率出现。如果置信度为100%,则A和B可以捆绑销售了。如果置信度太低,则说明A的出现与B是否出现关系较小。

同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则[12]。项的集合称为项集。项集的出现频率是包含项集的事务数,简称为项集的支持计数,如果项集的出现频率大于或等于给定的最小支持度阈值,那么就可以称这个项集为频繁项集。频繁k项集用来探索得到频繁(k+1)项集。频繁项集的子集都是频繁项集。

关联规则的挖掘可以分为2步:第1步,在事务表中找出所有频繁项集;第2步,在满足最小支持度和最小置信度的前提下,由频繁项集产生强关联规则。在这2步中,第2步相对容易,但挖掘关联规则的总体性能由第1步决定[12]。

1.2 多维关联规则

根据关联规则中涉及的维数可以将关联规则分为单维关联规则和多维关联规则。如果关联规则中的项和属性每个只涉及到1个维,则为单维关联规则。如果关联规则涉及2个或多个维,则为多维关联规则。多维关联规则是处理各个维之间的关联,而根据多维关联量化属性的处理方式,多维关联规则可以分为使用量化属性的静态离散化挖掘多维关联规则、量化关联规则和基于距离的关联规则。

2 多维关联规则模型的构建

以《中国农业统计年鉴》和《全国农产品资料汇编》发布的2006—2015年猪肉价格数据为基础,选取影响猪肉价格的9种因素作为分析对象,建立猪肉价格多维数据模型。

2.1 猪肉价格属性的定义

猪肉价格属性是指影响猪肉价格的各个因素,映射在本研究中多维关联规则中的每个维。本研究从供给属性、需求属性、成本属性3个方面分析猪肉价格属性,这些属性将通过定性和定量的方式分析得出。

2.1.1 供给属性 根据价格形成的相关理论,供给和需求是影响价格的2个非常重要的因素。首先从供给方面对猪肉价格进行分析,一般情况下,当猪肉供给量上涨时猪肉价格会降低,当猪肉供给量不足时猪肉价格会随之升高,两者之间呈负相关关系。本研究选取猪肉产量、出栏肉猪和年末存栏量作为供给因素对猪肉价格进行分析。

2.1.2 需求属性 居民收入水平与居民对猪肉的购买能力息息相关。一方面当居民收入高时,其对猪肉的购买能力强,当居民收入较低时,其对猪肉的购买能力会大大降低。因此,居民收入水平可以作为猪肉需求的直接信号。另一方面,随着人们生活水平的提高,消费观念的改变,对于牛羊肉、鸡肉等的消费也逐渐增加,当猪肉价格偏高时,替代品价格直接影响猪肉的需求水平,因此,替代品价格的波动对猪肉价格的研究也尤为重要,本研究主要选取牛肉价格和鸡肉价格进行分析。

2.1.3 成本属性 在猪肉价格形成的过程中生猪生产成本起着尤为重要的作用,它直接影响着生猪价格和生猪供给总量等因素,这些因素最终又会通过内部机制传导到猪肉价格上。生猪生产的投入要素主要包括土地、圈舍、饲料、人工的投入成本、仔猪价格等。目前我国的生猪生产主要分为规模养殖和散户养殖。在我国生猪生产过程中,猪饲料须要消耗大量的玉米、大豆等粮食作物,饲料成本占养猪成本的60%以上[20]。在散养模式中,生猪物质成本的90%以上为仔猪成本和饲料成本,导致仔猪和饲料成本成为决定生猪生产成本的最关键因素[21]。因此,选取生猪价格、仔猪价格和玉米价格作为成本因素进行分析。

2.1.4 其他属性 除了供求属性和成本属性外,自然灾害、生猪疫情、国家政策、经济形势等都是影响猪肉价格的因素,自然灾害会诱使仔猪成活率下降,母猪流产率上升等一系列问题,极大地影响生猪的出栏率,生猪疫情会严重影响生猪的成活率,使得猪肉供应不足进而导致价格上升,国家政策可以调控市场经济,从而对猪肉价格产生影响,国民经济高速发展,总体物价上涨,猪肉价格也会随之升高。但是由于自然灾害和生猪疫情的出现存在偶然性,国家政策和经济形势的影响无法定量化,所以本研究针对这些因素不作主要分析。

2.2 猪肉价格多维数据模型的建立

2.2.1 概念分层 在关联规则挖掘中,由于多维数据空间数据的稀疏性,在底层和原始层的数据项之间很难找到强关联规则,所以多维数据模型中,引入概念分层的概念,概念分层定义了一个映射序列,该序列将底层概念映射到高层概念,在较高的概念层中发现的强关联规则可能提供更普遍的意义。概念分层采用概念层次树的方法,将数据库中各属性值及其概念依据抽象程度不同而构成的层次结构(图1)。

2.2.2 多维数据模型 当今数据仓库和数据仓库技术是基于多维数据模型的, 多维数据模型将数据看作是数据立方体的形式。本研究采用多维数据模型中最为常见的星型模型对猪肉价格属性数据进行建模,星型模型由事实表和维表组成,事实表中存放了大量的无冗余数据,在其周围围绕着众多维度表,每个维度表代表1个维,其中存放着描述维的数据。由图2可知,猪肉价格本身属性为事实表,维度表有猪肉产量、出栏猪肉、年末存栏量、居民消费水平、牛肉价格、鸡肉价格、生猪价格、仔猪价格和玉米价格。

3 基于多维关联规则的猪肉价格数据挖掘

3.1 数据准备

选择全国范围内2006—2015年的猪肉价格数据进行关联规则挖掘,其中在分析生猪价格、仔猪价格、玉米价格、牛肉价格和鸡肉价格对猪肉价格造成的影响时,选取2006—2015年的月度数据,在分析猪肉产量、出栏猪肉、年末存栏量和居民消费水平对猪肉价格造成的影响时,由于这些因素的数据按年度来统计,因此选取2006—2015年的数据。在分析其他属性对猪肉价格的影响时,采用的方法是分析其他属性的数据变动对猪肉价格数据变动的影响,为便于挖掘,将所有属性的原始数据转换成布尔型的二进制数据,比较前一数据,数据不变或变大的属性,环比记为“1”;数据变小的属性,环比记为“0”(表1)。

3.2 数据挖掘

本研究以最小支持度为0.3,最小置信度为0.7为例,选取猪肉价格、猪肉产量、出栏猪肉、年末存栏量、居民消费水平、牛肉价格、鸡肉价格、生猪价格、仔猪价格、玉米价格为维度进行多维关联规则挖掘。其中重要性指标定义为Importance(A→B)=P(AB)/P(A)P(B),其中P(A)表示事务中A发生的概率,P(B)表示事务中B发生的概率,P(AB)表示事务中A和B同時发生的概率。根据重要性指标的公式可知,重要性大于1时表示一旦拥有A则再拥有B的概率会增加,小于1时表示一旦拥有A则再拥有B的概率会降低。根据2006—2015年猪肉价格年度数据,本研究挖掘到的规则见表2。

规则1、2、3表示供给属性对猪肉价格的影响。当猪肉产量下降时,猪肉价格上涨的概率是100%,当出栏猪肉数量下降时,猪肉价格上涨的概率是100%,当猪肉的年末存栏量下降时,猪肉价格上涨的概率是100%。对比这3条规则可知,供给属性与猪肉价格呈负相关性,猪肉产量、出栏猪肉和年末存栏量降低,猪肉价格反而会上涨。从重要性指标来看,供给属性对猪肉价格的重要性同等重要(为1.13),且为正值,说明当供给属性出现下降时猪肉价格上涨的概率将增加。

规则4、5、6表示需求属性对猪肉价格的影响。当居民消费水平上涨时, 猪肉价格上涨的概率是89%, 当牛肉价格上涨时,猪肉价格上涨的概率是84%,当鸡肉价格上涨时,猪肉价格上涨的概率是83%。相比这3条规则可知,需求属性与猪肉价格呈正相关,当居民消费水平、牛肉价格和鸡肉价格上涨时,猪肉价格也会上涨。从重要性指标来看,牛肉价格上涨对猪肉价格上涨的重要性较高(为1.59),说明虽然猪肉价格与需求属性呈正相关关系,但牛肉价格的上涨对猪肉价格上涨更加敏感。

规则7、8、9表示成本属性对猪肉价格的影响。当生猪价格上涨时,猪肉价格上涨的概率为92%,当仔猪价格上涨时,猪肉价格上涨的概率为78%,当玉米价格上涨时,猪肉价格上涨的概率为73%。根据这3条规则可知,成本属性与猪肉价格呈正相关关系,当生猪价格、仔猪价格和玉米价格上涨时,猪肉价格也会随之上涨。从重要性指标来看,生猪价格上涨对猪肉价格的重要性较高(为1.74),说明相比玉米价格和仔猪价格的上涨,生猪价格的上涨更能引起猪肉价格上涨。

4 结束语

本研究以《中国农业统计年鉴》和《全国农产品资料汇编》发布的2006—2015年猪肉价格数据和影响因素数据为基础,运用多维关联规则建立猪肉价格多维数据模型,选择供给、需求、成本等3个方面的数据进行关联规则挖掘分析。结果表明:(1)供给因素与猪肉价格呈负相关关系,当猪肉产量、出栏猪肉和年末存栏量降低时猪肉价格升高的概率为100%,三者对猪肉价格的影响程度相当,均为1.13。(2)需求因素与猪肉价格呈正相关关系,当居民消费水平、牛肉价格和鸡肉价格上涨时猪肉价格上涨的概率分别为89%、84%、83%,其中牛肉价格对猪肉价格的影响最大,为1.59,雞肉价格其次。(3)成本因素与猪肉价格成正相关关系,生猪价格、仔猪价格和玉米价格上涨时猪肉价格上涨的概率分别为92%、78%、73%,其中生猪价格对猪肉价格影响最大,为1.74,仔猪价格其次,为1.47,玉米价格相对偏低,为1.38。

综上,对稳定猪肉价格提出以下政策建议。采取多种措施保障生猪供给量持续稳定增长,降低生猪养殖成本,改进生猪养殖方式,增强生产能力;建立猪肉和生猪、玉米、仔猪之间的价格预警机制,实时公布猪肉市场信息,加强猪肉行业的信息引导;密切关注居民消费水平、牛肉价格和鸡肉价格等需求因素的变动,积极调整因需求因素的变动造成的猪肉价格异常。

本研究应用数据挖掘中的多维关联规则算法,探讨和分析供给因素、需求因素、成本因素对猪肉价格的影响及影响程度,研究得到的关联规则对深入研究猪肉价格变化规律具有一定的参考价值。猪肉价格的变动受到多重因素的影响,本研究主要从供给、需求和成本因素进行分析,但不同时间和空间下供给、需求和成本因素对猪肉价格的影响也存在差异,未来将结合时间、空间2个尺度对猪肉价格的波动进行更加全面和准确的研究。

参考文献:

[1]李秉龙,何秋红. 中国猪肉价格短期波动及其原因分析[J]. 农业经济问题,2007(10):18-21.

[2]韦敬楠,张立中,张美艳. 中国生猪价格与猪肉价格非对称传导效应研究——基于VEC-TARCH模型[J]. 价格月刊,2017(4):28-32.

[3]徐 磊,侯扶江. 以草地农业系统观分析猪肉价格问题[J]. 草业科学,2010,27(6):123-128.

[4]江六一,丁家云,周正平. 我国猪肉价格波动规律及调控对策研究——基于H-P滤波法的实证分析[J]. 经济问题探索,2014(9):96-101.

[5]李宝仁,姚熙嘉. 我国猪肉价格波动的原因分析与政策建议[J]. 北京工商大学学报(社会科学版),2014,29(5):119-126.

[6]胡 凯,甘筱青. 我国生猪价格波动的系统动力学仿真与对策分析[J]. 系统工程理论与实践,2010,30(12):2220-2227.

[7]陈哲蕊,田文勇,吴秀敏. 饲料价格、加工价格、猪肉价格波动关系实证分析[J]. 价格月刊,2017(3):47-52.

[8]虞 祎,胡 浩,刘 莹. 我国城乡两市场的猪肉价格的影响因素分析——基于均衡转移模型[J]. 南京农业大学学报(社会科学版),2009,9(2):38-42.

[9]陈秋月,杨泳冰,陈甜甜. 基于时间序列分解的江苏省猪肉价格波动分析[J]. 安徽农业科学,2013,41(14):6499-6502.

[10]王 毅,郭亚军. 中国猪肉价格波动周期分析[J]. 江苏农业科学,2013,41(7):397-400.

[11]程素云,胡 进. 我国生猪价格波动与CPI关系的实证研究[J]. 江苏农业科学,2017,45(23):307-311.

[12]韩家炜,Kamber M. 数据挖掘:概念与技术[M]. 范 明,盂小峰,译.北京:机械工业出版社,2007.

[13]马高庭,蒋万春,申艳光. 基于关联规则的肉鸡产品质量安全预警模型[J]. 江苏农业科学,2015,43(3):271-274.

[14]郑晓峰,王 曙. 基于粗糙集与关联规则的道路运输管理信息数据挖掘方法[J]. 华南理工大学学报(自然科学版),2014,42(2):132-138.

[15]曹卫东,连松江,张伟航. 基于多维关联规则分析的航班排序优化[J]. 计算机工程与设计,2016,37(9):2553-2558.

[16]尚 威,尚 宁,覃明贵,等. 交通事故的多维关联规则分析[J]. 计算机应用与软件,2006,23(2):40-42,65.

[17]肖 斌,肖亚飞. 时序关联规则在钻井事故中的应用[J]. 计算机应用,2017,37(增刊1):308-311.

[18]陈伟珂,李金玲,聂凌毅. 基于关联规则的地铁施工事故分析[J]. 城市轨道交通研究,2011,14(11):67-71,75.

[19]侯艳娟,张顶立,李鹏飞. 北京地铁施工安全事故分析及防治对策[J]. 北京交通大学学报,2009,33(3):52-59.

[20]姜会明,王振华. 生猪供给波动:短周期分解与经济学解释[J]. 中国畜牧杂志,2012,48(18):17-20,24.

[21]杨 静,姜会明. 吉林省猪肉价格波动影响因素实证分析[J]. 黑龙江畜牧兽医,2015(6):1-4.

猜你喜欢

数据挖掘影响因素
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究