APP下载

中国民航货运量预测规则集及其应用

2017-07-19李红启简晓荣刘寅莹袁俊丽

中国民航大学学报 2017年3期
关键词:中国民航货运量粗糙集

李红启,简晓荣,刘寅莹,袁俊丽

(北京航空航天大学交通科学与工程学院,北京 100191)

中国民航货运量预测规则集及其应用

李红启,简晓荣,刘寅莹,袁俊丽

(北京航空航天大学交通科学与工程学院,北京 100191)

运用粗糙集理论构造出规则集并应用于民航货运增速预测,从整个行业层面确定民航货运量发展趋向,可为民航货运资源配置提供重要参考依据。借助基于粗糙集理论的民航货运量预测流程,以1978—2014历年数据作为样本,采用灰色关联度分析扩充样本量,经过决策表建立、预处理、规则获取与测试等环节,确定了中国民航货运量预测规则集。结合“十三五”时期中国经济社会发展主要特征预期,认为“十三五”期间中国民航货运量的年环比增速处于5%~10%。

民航货运量;预测;规则集;粗糙集理论

在工业化、城镇化和信息化深度融合进程中,中国物流活动呈现出非常活跃的状态,这不仅体现在物流规模的增长,更体现在物流服务质量的提升。特别是在快递、多式联运等领域,传统的5种运输方式需协调配合,以确保现代物流服务时效性。相比于其他运输方式,航空运输以其快速、机动灵活等技术经济优势,能够很好地满足中高附加值货物的物流服务时效要求。民航货物运输在中长运距和跨国运输中发挥着不可替代的作用。

从宏观的行业层面开展民航货运量预测研究,对于合理把握民航货运行业发展趋向、辅助决策民航货运资源配置等具有重要意义。迄今可用于民航货运量预测的方法非常多,总体上可分为两大类:定性预测方法与定量预测方法。定性预测方法可充分利用既有经验和知识,但一般不能给出具备良好精准度的量化预测结论。定量预测主要依托各种统计数据,以历史情景可再现为前提假设,或者以确定出各类统计指标间逻辑关系为前提条件,能够给出具备一定精准度的预测结果。从既有研究工作看,用于预测民航货运量的定量预测方法主要表现为ARIMA模型、模糊回归模型、马尔科夫链预测模型、分形模型等,表1为中国航空货运量几条典型的预测研究成果[1-6]。

既有研究工作表明,开展民航货运量预测研究面临有效统计数据不足、模型参数设定依据不充分、预测结果表现方式不一、预测结论难以确切验证等困境。尤其当有效数据量偏小或存在异常数据时可能导致预测结果不合理。本文提出基于粗糙集理论的民航货运量预测流程,针对有效数据量偏小的问题,利用灰色关联度分析来扩充既有统计数据样本量,经过运算获得规则集,并利用该规则集预测“十三五”期间中国民航货运量的发展速度。

表1 中国航空货运量预测研究成果及主要结论Tab.1 Literature and results of Chinese air freight volume prediction

1 基本概念

粗糙集理论集样例学习、规则提取、规则辨识于一体,不需要先验知识,可直接对数据进行分析和推理。粗糙集理论涉及若干基本概念和原理,简介如下。

1.1 等价关系

知识库(用 IS表示)是一个四元组:IS=〈U,A,V,f〉,U为被研究对象组成的有限非空集合,亦被称为论域[7]。令R为U上的二元关系,x、y均为U中的任一对象,R(x)为所有与x具有xRy关系的y的集合。若R同时具有自反性、对称性和传递性,即当R同时满足:∀x∈U,∃xRx;∀x,y∈U,∃xRy⇒yRy;∀x,y,z∈U,∃xRy,yRz⇒xRz时,R被称为是U上的一种二元等价关系,也称为一种不可分辨关系。

1.2 决策表

在用粗糙集理论处理不确定和模糊的信息时,所有数据都被存放在决策表中。决策表[7]用来描述论域中全部对象的特征,其每一行对应一个对象,每一列对应一个属性,行与列的交汇处对应于属性值。属性包括条件属性和决策属性两种,在f∶U×A→V中,A=C∪D,且为条件属性,D为决策属性。

1.3 上下近似集与粗糙集

设x⊆U,R⊆A,则X对于R的下近似集R-(x)和上近似集R-(x)及边界BND(X)定义为则称X对于R是精确的或清晰的;反之,X对于R是粗糙的或模糊的,称R是粗糙集[8]。

1.4 属性约简

在论域 IS 中,设定误差水平为 δp和 δN,B⊆C,a∈B,Dep(B,D,δp,δN)=Dep(B-{a},D,δp,δN),则称 a 为 B中可约简的,否则为不可约简的;当所有a∈B在B中不可约简,且 Dep(B,D,δp,δN)=Dep(C,D,δp,δN),即 D对B、C有相同依赖度,那么B是C的一个约简。

2 建立初始决策表

基于粗糙集理论的民航货运量预测步骤可大体分为:

1)确立预测目标 以往研究针对民航货运量的预测结果往往是面向具体时间区间(如1年、1个月)的民航货运量绝对数,这种形式的预测结果往往可信度偏低。本文拟瞄准“十三五”期间中国民航货运量的发展态势预估,以民航货运量的发展速度作为预测目标。

2)建立决策表 决策表主要由对象、属性、属性值构成。这里的对象即样本年份,属性即所选取的各类统计指标,属性值即指标统计数据。

3)数据预处理 视可用数据情况,该步骤可能涵盖以下操作:①决策表的完备化,旨在消除数据异常和数据缺失等问题;②采用合适手段(如主成分分析)进行降维处理,以消除冗余属性;③采取恰当策略划分出用于规则获取的训练集和用于规则评价的测试集。

4)数据离散化与属性约简 数据离散化就是对呈现出连续特征的数据进行离散化处理,使数据呈现出分类的特点。属性约简就是删除不相关或不重要的属性、并保持分类能力的一种运算。

5)规则获取与测试 基于训练集进行运算,可获得规则集。基于测试集和精确度、适用度等指标,对规则集的适用性进行评价。

2.1 属性选取与原始数据

鉴于本文拟定的预测目标,将“民航货运量的发展速度区间”作为预测目标,这样一来,就以民航货运量增长率作为决策属性(用AF表示)。基于经济学、市场学、现代物流学等基础理论来筛选条件属性,选用GDP增长率、工业GDP增长率、居民消费水平增长率、社会消费品零售总额增长率、全社会固定资产投资增长率、交通运输仓储和邮政业GDP增长率等作为条件属性。此外,民航运输以其快速高效等优势在国际贸易中发挥重要作用,将出口总额增长率、进口总额增长率也作为条件属性。将这里选取的条件属性(即:GDP增长率、居民消费水平增长率、全社会固定资产投资增长率、出口总额增长率、进口总额增长率、工业GDP增长率、交通运输仓储和邮政业GDP增长率、社会消费品零售总额增长率)分别以 a、b、c、d、e、f、g、h表示,各属性的增长率是指年环比增长率。

兼顾中国经济社会发展历程等因素,以1978—2014年历年数据作为研究对象,各属性指标数据均来源于国家统计局官方发布数据。对于某些年份个别指标的统计数据有缺失问题,借助曲线拟合的方式进行补充。

2.2 基于灰色关联度的样本量扩充

样本数量偏少,一则不利于粗糙集方法优势的充分发挥,二则很可能影响所获取的规则集的适用性。借鉴文献[9]提出的“赋权”的思想,即以某样本的“发生频率权”表示属性值相等的若干对象。另一方面,考虑到不同年份经济社会发展状况差异对民航货运发展可能产生的不同影响,根据各属性的灰色关联度来设定各个对象的“发生频率权”。这样的处理方式,不仅可增加样本对象的数量,也可在原始决策表中体现出各个样本年份的重要性。灰色关联度分析[10]是对特征序列和影响因子序列进行关联性分析,确定特征序列与影响因子之间的关联度,进一步得出特征序列与各项影响因子间的关系,来说明影响因子对特征序列的重要程度。本文借鉴文献[10]给出的灰色关联度分析方法进行数据扩充,其主要步骤如下。

1)以相对偏差来反映某样本属性值与基准增长率之间的相对偏离程度,即:相对偏差=│某样本属性值-基准增长率│。以k表示属性、i表示样本年份序号,x0(k)表示基准年份属性k的取值,xi(k)表示第i年属性k的取值,Δi(k)表示相对偏差,则有Δi(k)=│x0(k)-xi(k)│,i=1,…,n。

非参数回归的贝叶斯估计···································苏雅玲 何幼桦 (6,1022)

经过上述计算,可确定某对象(年份)与基准对象(基准年份)之间的关联程度。关联度越高,则某对象(年份)越接近所有样本年份的平均发展水平。本文设定:如果基准年份出现x次,则与基准年份有关联度γi的年份将出现xγi次,即“发生频率权”为xγi次。这里设定基准年份出现次数为10,即x=10。

2.3 初始决策表

初始决策表包括8个条件属性和1个决策属性。根据灰色关联度分析确定每一个样本对象发生频率权的赋值,然后进行各个对象重复发生频率的扩充,拟定出初始决策表,如表2所示。

表2 初始决策表Tab.2 Original decision table

3 数据离散化与属性约简

由于样本数量有限,本文采用重复利用法,将初始决策表中的样本对象同时作为训练集和测试集。

本文借助Rosetta软件中Equal frequency binning算法进行数值离散化。经计算得到各属性条件的断点分别为:pa={10.8,17.5},pb={10.6,14.6},pc={16.6,25.6},pd={12.8,27.9},pe={9.7,25.2},pf={10,18},pg={11.4,17.9},ph={11.9,17.4}。用 0、1、2 等整数值分别表示各条件属性由其断点划分的区间。

对于决策属性值,以区间(-∞,0],(0,5],(5,10],(10,15],(15,+∞)划分中国民航货运量的增长率。用“0”、“1”、“2”、“3”、“4”分别表示中国民航货运量增长率处于区间(-∞,0],(0,5],(5,10],(10,15],(15,+∞)时,决策属性AF的取值。

表3 决策表Tab.3 Decision table

续表3Tab.3 Continue

4 规则获取与测试

根据表3,借助Rosetta软件生成初始规则集,然后依据精确度和适用度来对所得规则进行筛选,挑选出初始规则集中精度大于0.75、覆盖度大于0.05的规则,得到用于中国民航货运量增长率预测的规则集,如表4所示。

表4 用于中国民航货运量预测的规则集Tab.4 Rule set for Chinese air freight volume prediction

用表4给出的规则集来测试其对所有样本的识别能力,测试结果如表5所示。测试显示,表4所列规则集识别能力好。

5 “十三五”期间中国民航货运量增长率预测

《中华人民共和国国民经济和社会发展第十三个五年规划纲要》提出,“十三五”期间中国经济将保持中高速增长,GDP年均增速保持在6.5%以上。本文认为,“十三五”期间中国GDP年均增长率很难达到10.8%(属性a的断点)以上,条件属性a取0。

表5 规则测试结果统计Tab.5 Test results of rule set

有研究表明,消费与GDP存在明确的弹性关系[11]。“十三五”期间随着中国经济发展战略的转变,扩大消费、改善民生和增加居民收入很可能取得积极成效,设定消费弹性系数提高为1.1。由“十三五”期间GDP增长率底线为6.5%,则居民消费水平增长率为1.1×6.54%=7.15%。本文认为,“十三五”期间中国居民消费水平增长率达到10.6%(属性b的断点)的可能性小,条件属性b取0。

对于固定资产投资总额的增速,文献[12]预计“十三五”期间中国固定资产投资增速可能下降到10%。该增长速度较16.6%(属性c的断点)差距较大,条件属性c取0。

对于社会消费品零售额的增速,文献[11]认为“十二五”期间消费品零售额平均增长在13%左右,比“十一五”放缓约5%。“十三五”期间中国社会消费品零售总额可能保持在一个相对较缓的发展水平,社会消费品零售总额增长率可能不会超过15%,该水平将处于区间内(属性h的两个断点),条件属性h取1。

对于其他属性指标,鉴于现阶段中国经济社会发展所面临的较为特殊的国际国内环境,较难断定未来一段时期内属性指标的取值在其断点的哪一侧或哪个区间,这里认为难以运用其他属性指标。

将条件“(a=b=c=0)∩(h=1)”与表 4所列的规则进行对比,有规则⑧与该条件不相冲突,可以选用。依据规则⑧,“十三五”期间中国民航货运量增长率处于5%~10%。

6 结语

本文基于粗糙集理论的民航货运量预测流程,采用灰色关联度计算来扩充数据样本量,获得了民航货运量预测规则集。结合“十三五”时期中国经济社会发展趋向预期,认为“十三五”期间中国民航货运量的年均增速将处于5%~10%的区间。本文所获得的民航货运量预测结论有助于“十三五”时期民航发展相关专项规划的决策参考。

[1] 冯社苗.基于灰色Verhulst模型的民航远期货运量预测研究[J].华东交通大学学报,2013,30(3):61-64.

[2] 潘开灵,尤佳滢,贾向南.灰色-权马尔可夫的地区航空货运量预测[J].物流技术,2015,34(19):127-130.

[3] 周慧艳,李 程.基于多影响因素的民航货运量模糊回归预测[J].物流技术,2014,33(3):216-218.

[4] 游庆山,徐海文,雷开洪.基于主成分追踪的航空货运量预测研究[J].武汉理工大学学报,2013,35(5):73-77.

[5] 周 叶,肖灵机.基于ARIMA模型的我国航空货运量预测分析[J].南昌航空大学学报(社会科学版),2010,12(3):22-27.

[6] 方文清,蒋由辉,文 军.分形理论用于航空货运量的预测[J].交通科技与经济,2009,11(2):105-106.

[7] PAWLAK Z.Rough sets[J].International Journal of Computer and Information Sciences,1982,11(5):341-356.

[8]PAWLAK Z,SKOWRON A.Rudiments of rough sets[J].Information Sciences,2007,177(1):3-27.

[9] 李红启,刘 凯.基于Rough Set理论的铁路货运量预测[J].铁道学报,2004,26(3):1-7.

[10]李 瑞,代明睿,李凤姿.基于灰色关联度的铁路货运量关键影响因子选取方法研究[J].铁路货运,2015(11):11-14.

[11]国家信息中心课题组.“十三五”时期我国消费增长预测[N].经济日报多媒体数字报刊,2015-1-15(13).

[12]李杨.“十三五”固定资产投资增速或下滑至10%[EB/OL].(2014-11-26)[2016-09-20].http://news.hexun.com/2014-11-26/170806635.html.

(责任编辑:黄 月)

Rule set and its application in air freight volume prediction

LI Hongqi,JIAN Xiaorong,LIU Yinying,YUAN Junli
(School of Transportation Science and Engineering,Beijing University of Aeronautics and Astronautics,Beijing 100191,China)

Rough set theory is adopted to find a rule set for air freight volume prediction.Based on the prediction,the tendency of Chinese air freight volume is identified,which is important reference to allocate resources of air freight industry.The prediction procedure that combines rough set theory and the requirement of air freight volume prediction is provided.Concerning statistical data from 1978 to 2014,grey correlation analysis is used to increase the number of samples.The rule set for air freight volume prediction is attained after a series of executions involving decision table construction,completion,discretization,reduction,rule acquirement,and so on.Considering the main characteristics of Chinese economy and society during the 13th-five-year-plan period,it is predicted that the annual growth rate of air freight volume is 5%~10%.

air freight volume;prediction;rule set;rough set theory

V35;F562

A

1674-5590(2017)03-0054-05

2016-09-26;

2016-11-24 基金项目:国家自然科学基金项目(71202016,71672005)

李红启(1977—),男,山东平度人,讲师,博士,研究方向为物流与供应链管理.

猜你喜欢

中国民航货运量粗糙集
粗糙集与包络分析下舰船运行数据聚类算法
中国民航局发布《2022 中国民航绿色发展政策与行动》
基于Pawlak粗糙集模型的集合运算关系
通告
多粒度犹豫模糊粗糙集*
抗战中国民航秘闻之和“桂林”号事件有关的那些名人
抗战中国民航秘闻之中航“桂林”号客机被截击
2017年上半年拉脱维亚港口货运量同比增长7%
一种基于粗糙集理论的社交网络潜在路径研究