APP下载

基于支持向量机的北京市房地产价格指数预测

2011-03-15聂会星徐枞巍

关键词:格兰杰价格指数向量

梁 坤, 聂会星, 徐枞巍

(合肥工业大学管理学院,安徽合肥 230009)

房地产价格指数受供给、需求、预期和政府宏观调控等多方面因素的影响,兼具内生变量和外生变量的双重性质[1]。这就要求建立预测模型指标体系时应该从物价指数、房地产开发投资、人民生活国民经济核算、金融证券、国内贸易等方面进行全面分析,综合考虑有关指标的客观代表性、可操作性、易获取性和公布时间频率等因素,筛选解释能力较强的指标对房屋销售价格指数进行回归预测。本文通过分析各指标与解释变量之间在统计上的因果关系,提取出关于房地产价格指数回归预测的指标体系,并利用支持向量机预测模型对所得数据进行回归。

支持向量机(SVM)是建立在统计学理论基础上发展起来的一种机器学习方法[2],是继神经网络[3]之后统计学习领域的又一次重大发展,如文献[4]的应用。神经网络模型可以解决非线性问题,而且已经被应用在各个领域,包括预测系统的建模中,如文献[5]研究了将logistic和神经网络结合构造模型的方法。然而神经网络方法缺乏统一的数学理论,在确定网络结构、建立模型、确定权重等各个步骤中都依赖庞大的数据样本,容易得到局部最优解;且其依据经验风险最小化原则,往往使训练模型过于复杂,形成“过学习”现象,从而导致推广泛化能力较差。支持向量机方法从结构风险最小化角度出发,提高了模型的泛化能力[6]。SVM的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,在求解最优化问题和计算判别函数时并不需要显示计算非线性映射函数,而只需计算核函数,有效地避免了“维数灾”问题。

1 SVM回归模型

设样本为n维向量,某区域的l个数据样本及其值的表示为(x1,y1),…,(xl,yl)∈Rn×R。利用线性回归函数f(x)=w◦x+b对样本数据进行拟合。根据SVM回归理论,采用线性ε不敏感损失函数引入松弛因子ξi≥0和ξ*i≥0,即

则问题转化为在约束条件下的最小化目标函数,即

(1)式中第1项使函数更为平坦,从而提高了泛化能力;第2项为减小误差;常数C>0控制对超出误差ε的样本的惩罚程度。

引入拉格朗日乘子ai,a*i≥0,将有条件极值问题转化为无条件极值问题,并根据对偶原理得到其对偶问题为:

从而得到回归模型为:

其中,ai,a*i≠0,对应的样本就是支持向量。

对于非线性回归,通过非线性变换 x→Φ(x),将输入空间映射到高维特征空间Z,在特征空间内构造线性回归估计。内积的计算可用满足Mercer条件的核函数K(xi,xj)得到[7],从而确定非线性拟合函数:

(2)式、(3)式中的b*,取在边界上的一点即可确定。

由于径向基核函数对应的特征空间具有无穷维,有限样本数据在其特征空间中均线性可分,所以选择径向基函数作为核函数,即

2 应用分析

2.1 指标体系的构建

根据2008年中国统计年鉴,房地产价格指数包括房屋销售价格指数SI、土地交易价格指数GI、房屋租赁价格指数 LI和物业管理价格指数M I 4类。房屋销售价格指数与公众对房地产价格波动预期的相关性最强,本文选择房屋销售价格指数SI来反映房地产价格指数的整体性波动。

2.2 解释变量的选取

(1)解释变量的初选。从理论上分析,房地产价格指数受供给和需求以及预期等多方面因素的影响,所以首先应该全面分析,对解释变量进行初选。初选时需综合考虑有关指标的客观代表性、可操作性、易获取性和公布时间频率等因素,选取若干指标作为候选指标体系。本文利用文献[1]中提供的指标体系作为初始解释变量,见表1所列。

表1 房地产价格指数走势的可能影响因素

(2)解释变量的遴选。为了使模型更加合理,需对初始解释变量进行遴选。常用的指标选取方法有主成分分析法、基于向量自回归模型的脉冲响应分析、格兰杰因果检验法等。其中主成分分析法利用降维的思想,以较少的主成分来综合代替原来众多的评价指标,并且使这些主成分尽可能地反映原来指标的信息且彼此之间互不相关。但是,综合评价结果较容易受到评价指标属性的影响。如果存在一个指标数量多、相关性强的指标子集时,则第1主成分的权重系数将向该子集中的指标倾斜,其它指标的权重系数将会很小;而且,主成分分析得出的主成分因子经济意义难以解释[8]。基于VAR模型进行脉冲响应分析有力地判断了一个内生变量产生一个冲击后对其它内生变量的各期影响,但由于指标数据样本较少,难以考察先行期数较长的指标。

本文采用格兰杰因果关系检验,格兰杰因果关系检验的原理是将来不能预测过去。如果y的变化是由x引起的,则 x的变化应该发生在y的变化之前[9]。在格兰杰检验之前首先利用ADF检验对指标数据进行预处理并使之平稳[10]。用19个候选指标对房屋价格指数SI进行双变量格兰杰因果检验,p值越小,表明解释变量对被解释变量在统计上的因果关系及预测能力越强。最后,得到最终解释变量见表2所列。

表2 SI影响因素的格兰杰检验分析

其中,DSI、DCPI、DII、DRI、DM 1表示对原始数据进行一次差分,EPCDI表示对原始数据进行二次差分。其中城镇家庭人均可支配收入在10%的显著性水平拒绝原假设,其余先行指标在5%的显著性水平上拒绝原假设。

通过格兰杰因果检验筛选出对SI解释能力较强的5个先行指标。它们分别是:居民消费价格指数、工业品出厂价格指数、原材料燃料动力购进价格指数、城镇家庭人均可支配收入、货币,其具体数据见表3所列。

表3 北京市部分经济指标及其数据

2.3 SVM建模

本文利用Libsvm-2.89对房价实施回归预测,具体步骤如下:

(1)按照Libsvm-2.89软件包所要求的格式准备数据。指标数据输入 Form atDatalibsvm. xls,执行FormatDataToLibsvm宏命令,将原始数据转变为符合 Libsvm-2.89软件规定格式的数据。

(2)对数据进行简单的缩放操作。为了防止某些特征过大或过小,造成数据训练过程的不平衡并且减慢该计算的速度,利用svm-scale对处理后的数据进行归一化。

(3)考虑选用RBF核函数。由于径向基核函数对应的特征空间具有无穷维,有限样本数据在其特征空间中均线性可分,所以选择径向基函数作为核函数[11]。

(4)采用交叉验证选择最佳参数C和g。假设训练集共有n个数据样本,则可将其分为n组进行交叉验证。利用gridregression.py进行网格最优寻参,最终获得最佳参数C和g。

(5)采用最佳参数C和g并利用svm-train. exe对整个训练集data.txt进行训练,获得支持向量机模型data.txt.model。

(6)利用获得的模型进行测试与预测。其运行界面如图1所示,其中,#iter代表迭代次数; nsv代表支持向量数;nBSV代表边界上的支持向量数;g为径向基核函数参数1/σ2的取值。寻参结果为C=512,g=0.000 976 562 5,支持向量机模型为data.txt.model。

图1 支持向量机模型训练及预测运行界面

通过SVM回归预测得到的结果见表4所列,由于原始数据有限,每次只预测后一期数据。

表4 预测结果与实际值的对比

2.4 SVM回归修正

由统计学习理论,实际风险由2部分组成:一部分是经验风险,即训练误差;另一部分是置信范围,即VC维信任,其与VC维及数据样本数有关。经验风险R em p(a)和实际风险R(a)之间以至少1-η的概率满足如下关系:

由上述分析,为了控制误差范围,提取相应指标,进行多组实验,在每一组中将总体或其中一部分按不同配比划分成训练集和测试集。比较每一组回归预测的相对误差,建立绝对误差与支持向量率、迭代次数等的线性关系,将得到的线性关系作为今后回归的误差修正因子。6次实验结果绝对误差与支持向量率、迭代次数等因素的情况见表5所列。

表5 误差及其影响因素

对于2007年的数据预测结果见表6所列,将前5次实验参数和绝对误差作为训练数据,利用得到的模型估计实验6的绝对误差为1.19。将本文算法与其它预测算法相比较的结果,见表7所列。

表6 误差及其修正

表7 本文算法与其它预测算法的比较

由于本文数据年份较少,VAR模型中内生变量相互间的长效作用难以凸显,预测精度不高。灰色预测所需信息较少,但一般适合于符合指数增长的数据的预测,故本文提出的算法预测精度较高。

3 结束语

本文利用支持向量机对北京市房价进行预测。选取了房屋销售价格指数作为房价的衡量指标,通过格兰杰因果检验从大量指标中选取解释能力较强的5个先行指标构造预测模型。鉴于支持向量机模型适宜小样本数据,泛化能力强,具有全局最优等特点,故采用SVM模型对构造的预测模型进行预测,并对预测误差实施回归修正。应用分析结果表明,预测结果和修正后结果均与实际情况相符,具有一定的实用价值。

[1] 曾五一,孙 蕾.中国房地产价格指数的模拟与预测[J].统计研究,2006,(9):27-30.

[2] 王 珏,周志华,周傲英.机器学习及其应用[M].北京:清华大学出版社,2006:35-39.

[3] 周开利,康耀红.神经网络模型及其MA TLAB仿真程序设计[M].北京:清华大学出版社,2004:2-8.

[4] 刘 伟,孙 林.基于支持向量机的课堂教学质量评价[J].合肥工业大学学报:自然科学版,2010,33(7):968-971.

[5] 戴 静.我国中小企业成长危机预警研究[D].长沙:中南大学管理学院,2007.

[6] 白 鹏,张喜斌.支持向量机理论及工程应用实例[M].西安:西安电子科技大学出版社,2008:28-35.

[7] Vapnik V N.The nature of statistical learning theory[M]. New York:Sp ringer-Verlag,1995:123-180.

[8] 胡健颖,苏良军,金赛男,等.中国房地产预警模型的建立与应用[J].统计研究,2006,(5):36-40.

[9] 赵卫亚.计量经济学教程[M].上海:上海财经大学出版社,2003:160-162.

[10] G ranger C W J.Investigating causal relations by econom etrica modelsand cross-spectralmethods[J].Econometrica,1969,37:424-438.

[11] C ristianiniN,Shaw e-Taylor J.支持向量机导论[M].李国正,王 猛,曾华军,译.北京:电子工业出版社,2004: 32-51.

猜你喜欢

格兰杰价格指数向量
向量的分解
聚焦“向量与三角”创新题
2020年12月中国稀土价格指数及四大功能材料价格指数
8月百城价格指数环比连续16个月上涨
7月百城价格指数环比连续15个月上涨
各种价格指数
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
格兰杰因果关系在神经科学领域的发展及缺陷
榜单