基于稀疏神经网络的广州市二手楼价影响因素分析
2022-07-01陆晓炘
陆晓炘
(广西师范大学,桂林 541000)
0 引言
广州作为超一线城市拥有大量的外来定居人口,买房成为了许多人关心的事情。二手楼价影响因素错综复杂,吸引了不少学者对其进行研究,温海珍等通过HPM 得出杭州市房价的主要影响因素是建筑面积、楼龄等9 个因素。文献[1-2]从影响楼价的微观因素入手,得出事实上教育和娱乐的便利程度也是人们买房时不得不考虑的因素的结论;哈巍等探究了学区房的溢价问题,表明附近的学校数量对楼价有一定的影响;缪格等得出了地铁、商圈、教育都是武汉二手房价格的影响因素的结论。
随着二手楼价研究的发展,其影响因素包括宏观、微观加起来有很多,这时普通的回归方法很容易造成过拟合,使得分析效果不佳,此外,由于真模型不一定为线性,所以需要考虑更一般的模型。神经网络是机器学习中用于对函数进行估计和近似计算的模型,不局限于线性模型,在楼价预测上有较好的估计效果。文献[6-8]的研究对楼价建立BP 神经网络预测模型,所建模型均为适用于维度不高情形的全连接神经网络,但并没有对楼价的影响因素作详细分析。高凤伟等建立神经网络模型并使用扰动法识别各影响因素的重要程度,但由于该方法计算复杂且无法提供可靠的参数变化,不适用于高维稀疏问题;Glorot等表明稀疏神经网络通常可以改善DNN 的训练和预测性能;FENG等提出在输入权重上拟合一个带有Lasso 惩罚的神经网络,表明了稀疏输入神经网络优于现有的非参数高维估计方法;YE 等提出了利用惩罚神经网络逼近复杂系统的方法,并通过测量解释变量对响应变量方差的解释效用来选择解释变量,证明了该方法在样本容量趋于无穷大时,能够以概率1选择相关变量并排除不相关变量;MA 等将变换后的正则化器应用于网络权值矩阵空间,提出了一种有效的随机近端梯度算法求解新模型,并证实了该方法的有效性; SUN 等提出用频率方法学习稀疏DNN,并在贝叶斯框架下证明其后验一致性,变量选择一致性和渐近最优泛化。
稀疏神经网络是有效用于解决模型过参数化的方法,因此,本文以广州市二手楼价为例,结合爬虫和高德地图API 获取包括微观因素与宏观因素的二手楼信息,对数据进行预处理后建立稀疏神经网络,并对所获取的因素作变量选择,分析广州市二手楼价的主要影响因素。
1 稀疏神经网络
1.1 神经网络模型
神经网络模型包含输入层、隐藏层、输出层3部分,假设模型为U层神经网络,输入层为变量矩阵=(,,…,X),第1 层的神经元个数为,则个样本通过激活函数进入第一层神经元的函数如下:
从第层神经网络输出矩阵的计算中不难发现,第层神经网络的输出矩阵是由第- 1层神经网络的输出矩阵迭代而来,既第层神经网络的输出矩阵的计算表达式可以改写为=( ),其中为神经网络第层的激活函数,使用激活函数是为了加入非线性因素,使得模型可以近似到非线性函数,全神经网络的运行算式表达为:
(,,)为最终的输出层。
1.2 Lasso正则化下的神经网络
神经网络的反向传播是通过计算总误差达到权重更新的过程,常用的优化算法是梯度降法。均方误差是用于度量估计值与真实值之间差异程度的指标。
在高维情况下,响应变量通常满足稀疏性假设,本文选用加正则化均方误差函数作为神经网络反向传播的损失函数,通过惩罚权重的方式达到变量选择效果。
2 广州市二手楼价影响因素分析
2.1 数据获取与预处理
本文从房天下网站(https://gz.esf.fang.com/)爬取广州市二手楼数据样本共15854个,每个样本数据有14 条信息,同时考虑到宏观因素的影响,本文通过连接高德地图API 来获取房屋周边信息变量共6个,所获取的变量如表1所示。
表1 变量
大量的数据中容易出现数据缺失的情况,本文采用平均值填补缺失的方式对物业费,绿化率,容积率中的缺失数据进行填补,用数据剔除的方式对其余缺失数据进行处理,最后剩下15796个有用的样本。
对二手房屋的价格进行描述分析后,从图1可看出广州市二手楼价呈偏态分布,所以本文在建立神经网络前先对楼价变量进行对数化,所得结果如图2所示呈正态分布。
图1 二手楼价分布图
图2 对数化后二手楼价分布图
2.2 建立模型
将数据打乱后按8.7∶0.7∶0.6 的比例把数据分为训练集、验证集和测试集,建立20-5-1 神经网络模型,选用relu 函数() = max(0,)作为第一个隐藏层的激活函数,tanh 函数作为输出层的激活函数,反向传播使用梯度下降法进行100 次迭代,分别对参数为= 0.01,=0.005,= 0.002,= 0.001,= 0 的神经网路进行20 次建模,在= 0.001 的情况下,计算剔除概率大于90%的变量个数,所得预测误差情况与变量剔除情况如表2所示。
表2 不同正则化参数下预测效果对比
从表2的平均均方误差和均方误差极差可以看出,正则化参数为0.002 时模型估计效果与稳定性最好,而且对于本文例子而言,= 0.002的稀疏神经网络模型与普通神经网络模型相比有在剔除冗余变量的同时能降低预测误差的优点,所以最终建立= 0.002 的稀疏神经网络并对数据进行50 次建模,对每一次第一层网络的权重绝对值求和,权重和∑| |≤0.001 的变量则为不入选变量,其中10 次建模剔除变量情况如表3所示。
表3 其中10次剔除变量的下标
其中最近地铁距离,1500 米内三甲医院数量,500 米内市场、便利店数量,房间数,客厅数,卫生间数,楼龄,物业费,绿化率的剔除概率均大于90%,面积,装修风格的剔除概率均大于80%,最后认为500 米内地铁数量,1000 米内中小学数量,1000米内商场数量,所属地区,朝向,楼层,有无电梯,容积率,建筑类型为影响广州市二手楼价的主要影响因素,面积,装修风格为影响广州市二手楼价的次要影响因素,其中500 米内地铁数量,1000 米内中小学数量,朝向,有无电梯的权重绝对值和以10 倍数量大于其余变量,可以认为这4个变量为影响广州市二手楼价的最主要因素。
2.3 结果分析
从稀疏神经网络变量选择的结果可看出,交通便利、教育便利、购物便利是许多人买二手房时的主要考虑因素,也侧面说明了学区房导致楼价泡沫并非无稽之谈。房屋朝向和有无电梯则直接影响买家的入住体验,买家在这方面的强调符合现代人尤其是年轻人一切效率至上又注重养生的特点。其中面积不再成为广州市二手楼价的主要影响因素,反而二手楼房附近的交通情况、学校数量、商业发展情况、所属区更能反映楼价高低,这点说明了二手楼房所在区域的发展对当地楼价的影响之大。
3 结语
本文利用二手楼房网络数据,对广州市二手楼价建立稀疏神经网络模型,在给定阈值的情况下得出500 米内地铁数量,1000 米内中小学数量,朝向,有无电梯为广州市二手楼价的最主要影响因素,结论符合时代特点。其中所属区域发展情况对二手楼价的影响比房屋面积大这点值得引起我们的思考,亦可以从中得到一些启发,比如可以引入不同区域的人均GDP作为变量代表该区域的经济发展状态,引入不同区域10年内是否有政府发展项目作为变量代表该区域房屋的升值空间,这样把更多宏观因素考虑在内,可以得出更具地域特点的分析结果。