APP下载

新质生产力视域下广东省二手房交易市场改革路径研究

2024-12-03陈晞琳

国际公关 2024年22期

摘要:新质生产力是创新变革新范式,是推动经济高质量发展的关键力量。本文基于2010年1月至2023年2月广东省十大城市二手房交易的365 393条数据,通过构建XGBoost模型来预测二手房交易的成交价并分析影响成交价的重要特征。研究结果表明,挂牌价格、城市区位、户型、建筑面积等相关变量是影响二手房成交价的重要因素。结合新质生产力的背景和概念,本文为广东省二手房交易市场的创新发展提出建议:优化上市价格策略、加大城镇规划和基础设施建设力度、注重多元化户型以及面积配置、健全市场监管政策以及推动信息化建设可促进广东省二手房市场交易,同时,可以融入新质生产力的创新活力,共同实现推动区域经济协调发展的目的。

关键词:新质生产力;二手房交易市场;XGBoost模型;交易价格

2024年1月,中央经济工作会议在北京举行,习近平总书记在中共中央政治局第十一次集体学习时强调:“新质生产力是创新起主导作用,摆脱传统经济增长方式、生产力发展路径,具有高科技、高效能、高质量特征,符合新发展理念的先进生产力质态。”[1]当下,我国正步入经济稳步增长、科技高速发展以及生产力不断革新的时代,在传统行业中融入高质量与创新生产力是当下行业改革的主要方向和各行业聚力发展市场经济的共同目标。据中国统计年鉴数据显示,2023年中国GDP总额为126.06万亿元,GDP增速为5.20%,经济发展韧性强。在我国庞大经济体量的核心圈内,房地产占据着重要地位,是经济高速运转的核心引擎之一。从二手房交易市场领域来看,2023年全国二手房市场成交套数约为596万套,面积约5.7亿平方米,成交金额约7.1万亿元,成交面积和成交金额比2022年分别增长44%和30%。作为中国经济支柱的产业之一,房地产行业如何在新质生产力时代下进行革新,尤其针对二手房交易市场的高幅度增长,如何融合新质生产力,为二手房交易市场注入创新发展的平台与技术,是维持我国二手房的市场流通和促进产业不断兴盛发展的重要路径。

广东省作为中国经济最为发达的地区之一,有着庞大的二手房交易市场。尤其是珠三角各市以及周边其他城市的联动形成了一个活跃的区域二手房交易市场。目前,广东省二手房交易市场仍处于传统的运转模式,交易房屋信息不透明,业主定价无依据导致价格不符合市场需求,进而延长成交周期,造成二手房屋交易困难,不利于二手房交易市场的运转。因此基于广东省近年来各城市的二手房交易的数据,从房屋相关的相关变量如:“城市”、“商圈”、“房屋户型”等角度出发,基于大数据采用机器学习的方法预测广东省二手房成交价格,为二手房交易定价提供符合市场需求的模型依据。同时,研究影响广东省二手房成交价格的重要特征,从重要特征的角度出发提出新质生产力背景下广东省二手房交易市场的发展革新路径。

目前,关于我国二手房交易领域的研究焦点主要集中在房价的驱动因素及其空间差异性。在西安市的案例分析中,罗琳等人 (2023)发现,二手房价格表现出明显的空间异质性,[2]房龄是一个重要的影响因素,同时,靠近重点小学和公园的房产价格会有显著提升;在政策影响方面,冯晗等人 (2022)在杭州的研究揭示了义务教育公民同招政策改革后,[3]学区房溢价显著上涨,这反映了公共教育资源分配的不均衡性;纪宇凡等人 (2022)在南京的研究指出,[4]房屋的面积和楼层对房价有负面影响,而卧室数量、朝向和绿化率则对房价有正面作用,房产若靠近地铁站、市中心、学校和公园,其价格会更高;涂锦等人 (2021)对成都市与重庆市的比较研究显示,[5]区域位置、房屋属性和购房政策是影响房价的主要因素,并建议根据城市特点进行政策调控;在估价模型方面,邢会歌等人 (2021)证实了神经网络分位数回归模型在预测二手房价格区间时,[6]比传统线性模型更为精确和稳定;张望舒等人 (2020)使用Lasso-GM-RF组合模型对北京市二手房价格进行预测的研究也表明,[7]该模型在不同经济环境下均能提供良好的评估效果;武婷等人 (2019)在广州的研究中发现,[8]空气质量对房价有显著影响,PM10浓度的降低与房价上升相关,而PM2.5浓度与房价呈正相关,这强调了优化城市空间布局的必要性。

依据目前二手房交易市场的研究文献方向,研究领域针对广东省二手房交易的文献较少。因此,本文基于广东省十大城市,从大数据的角度,采用机器学习方法XGBoost对广东省二手房的成交价进行预测,并分析影响二手房成交价的重要特征,以期为新质生产力视域下广东省二手房交易市场的改革路径提出创新发展方向。

一、数据来源和研究方法

(一)数据来源

本文依据链家二手房信息网公开发布的广东省十大城市二手房交易相关数据,汇总了2010年1月1日至2023年2月13日广东省十大城市二手房交易共384 508条数据,涉及13个变量,筛除缺失成交价信息的数据后共剩余365 393条数据。数据集包含变量为:“成交价格 (万)”、“挂牌价格 (万)”、“调价 (次)”、“建筑面积 (m2)”、“建成年代”、“城市”、“成交年份”、“区域”、“商圈”、“小区”、“房屋户型”、“房屋朝向”、“配备电梯”、“房屋用途”。其中,数据涉及的10座城市分别为广州、深圳、珠海、佛山、东莞、惠州、中山、江门、清远、湛江。具体的变量定义、取值和单位汇总如表1所示。

(二)研究方法

基于上述广东省十大城市的二手房交易数据,采用机器学习的XGBoost方法,以 “成交价格 (万)”为预测对象,与剩余的13个变量进行拟合。XGBoost是一种高效的梯度提升树算法,通过逐步增加决策树来增强预测能力。每次迭代时,XGBoost根据当前模型的误差构建新的决策树,将新树的预测结果加入现有模型以修正误差。拟合过程包括初始化预测值、计算残差、构建新决策树和更新预测值。XGBoost通过正则化机制来防止过拟合,支持并行计算和缺失值处理,广泛应用于分类、回归和排序等任务。整体上,XGBoost采用向前式分布可加的建模方式,且基础学习器为包含J个叶节点的决策树,具体公式可表示为:

fb(X)= fb-1(X)+βb hb(X;αb)= fb-1(X)+ ∑Ji=1 γjb I (X∈Rjb)

其中,fb(X)是第b轮迭代后模型的输出; fb-1(X)为第b-1轮迭代后模型的输出;βb即第b轮迭代的学习率,控制新加的树的权重;hb(X;αb)为第b轮迭代中新加的回归树,参数为αb;新加的树对应的输出则用∑Ji=1 γjb I (X∈Rjb)表示。

XGBoost算法每次迭代,不仅以损失函数最小为目标解决决策树,而且构造目标函数,并以目标函数最小为目标解决决策树。目标函数由损失函数和复杂度函数两个部分组成:

objB (θ)=L[yi, fB (Xi)]+Ω[ fB (X)]

其中,L[yi, fB (Xi)]为损失函数 (回归预测可采用平方损失函数),分类预测可采用交互熵;Ω[ fB (X)]代表模型(决策树)的复杂度。对第b次迭代,目标函数为:

objB (θ)= ∑Ni=1 L[yi, fb-1 (Xi)]+ ∑Ji=1 γjb I (X∈Rjb)+Ω[fb-1 (X)]+ Ω[∑Ji=1 γjb I (X∈Rjb)]

其中,Ω[fb-1 (X)]是fb-1 (X)的复杂度;Ω[∑Ji=1 γjb I (X∈Rjb)] 为第b次迭代新增决策树的复杂度。XGBoost以损失函数和复杂度之和为最小目标,每次迭代的目的是要找到目标函数最小下的新增决策树,通过泰勒展开得到损失函数在fb(X)处的近似表达[9]。

通过上述步骤,XGBoost可以有效拟合数据,提高预测能力,并通过正则化防止过拟合。

二、数据预处理

由于数据集中存在缺失数据,因此,在进行XGBoost拟合之前需要对数据的缺失值进行填充,主要分为以下两个方面:一是对数值变量缺失值进行填充,对 “挂牌价格 (万)”“建筑面积 (m2)”“建成年代”分别计算均值填充为缺失值并对数值数据进行标准化;二是对类别变量缺失值进行填充,对 “城市”“成交年份”“区域”“商圈”“小区”“房屋户型”“房屋朝向”“配备电梯”“房屋用途”中的缺失值填充为该变量取值的众数。

基于XGBoost算法对模型二手房成交价格进行预测,模型涉及的变量需要为数值形式,因此,需要对类别变量进行处理,将类别变量的取值转化为数值型。因此,采用独热编码将每个类别转换为新的二进制特征来处理分类变量。一个有10种类别的特征如 “城市”,经过独热编码后生成10个新的特征,每个特征对应一个类别。

三、实证分析

经过数据预处理后的数据集,在Python环境中安装XGBoost 库,将80%的数据划分为训练集,20%的数据划分为测试集。同时,设置XGBoost算法所需的参数,由于数据量较大达到365 393条,为防止过拟合以及减少算力,采用50棵树,树的最大深度设置为3,学习率为初始值0.1,每棵树采用80%的特征。使用参数对模型进行拟合以及预测,由于预测值达到对应的样本数目共365 393条数据,仅输出并展示部分预测结果如表2所示。

基于拟合的XGBoost模型,需要对模型的拟合效果进行评估,计算相应的模型性能的评估指标,具体的指标计算结果如表3所示。

根据模型预测的结果,均方误差 (MSE)为4 510.895 0,均方根误差 (RMSE)为67.163 2,平均绝对误差 (MAE)为20.616 6,决定系数 (R2)为0.917 5。均方误差的取值越小,说明预测值与真实值整体的误差较小。该XGBoost模型的决定系数为0.9175非常接近1,说明模型的拟合效果很好,模型能够解释91.75%的数据变异。

在整个训练过程中,XGBoost模型持续评估每个特征的增益,并将这些信息累积起来,最终为每个特征生成一个重要性评分。这种方法可以有效识别出对预测结果影响最大的特征。XGBoost中的特征重要性是根据特征在决策树中的使用频率和其分裂增益来计算的。在训练过程中,XGBoost会生成多棵决策树。每次生成决策树时,算法会选择一个特征来进行节点分裂,这个选择取决于该特征的分裂增益,即该特征在分裂时对减少模型误差的贡献。分裂增益表示某个特征在分裂节点时对提升预测准确性的贡献。每当一个特征被用于节点分裂时,都会计算其增益,这些增益值会被累积,形成该特征的总重要性值。因此,特征的重要性反映了其在所有决策树中的使用频率和贡献度。累积增益越高,说明该特征对模型的贡献越大,对预测结果的影响也越明显。依据上述XGBoost预测模型,可进一步计算重要特征以及重要性值。模型输出前10个重要特征以及重要性值如表4所示。

XGBoost预测模型中,首先,最重要的特征为 “num-挂牌价格 (万)”,对应的重要性值为0.313 983,说明挂牌价格是影响预测成交价格的最主要因素;其次是城市特征,“cat-城市-深圳”和 “cat-城市-广州”也具有较高的重要性值,表明城市信息对房屋成交价有显著影响;排在第三位的重要特征是房屋户型,“cat-房屋户型-一室一厅”作为重要特征,说明不同户型对成交价的影响较大;最后是其他特征,包括区域、建筑面积、房屋朝向、商圈、建成年代和成交年份等。

四、结束语

(一)结论

本文通过XGBoost模型详细分析广东省二手房市场交易数据,探索二手房市场交易改革在新质生产力视域下的路径。该模型评估结果表明最好模型的均方误差 (MSE)为4510.8950,均方根误差 (RMSE)为67.1632,平均绝对误差 (MAE)为20.6166,R2为0.9175表明该模型预测准确率和解释力较高。该模型的特征重要性分析表明,挂牌价格、城市位置尤其是深圳和广州、房屋户型、区域、建筑面积、房屋朝向、商圈、建成年代和成交年份等因素对成交价格有显著影响。基于上述研究内容,以下三点可以归纳出本文的研究结论:第一,二手房交易价格最主要的影响因素是挂牌价格。因此,合理的挂牌价格既可以促进房屋交易,又可以通过市场化手段优化资源配置,在新质生产力背景下提高市场整体效率;第二,城市区位对房价影响明显。成交价格受城市区位影响较大,尤其是深圳与广州,这反映出各地房价差异明显。深圳、广州作为广东省的核心城市,基础设施水平较高,市场吸引力较强,因此具有较高的市场需求;第三,户型、建筑面积等也会对成交价格产生重要影响。成交价格的重要影响因素还有房屋的户型和建筑面积。随着新质生产力的发展,购房者对房屋内部结构和使用面积的要求更高,从而驱动开发商提供更具适用性的房屋设计,这种需求是开发商必须考虑的问题。

(二)建议

结合新质生产力背景,笔者提出以下建议,期望以新质生产力赋能交易市场改革发展为切入点,进一步完善广东省二手房交易机制。

第一,优化上市价格策略,增强市场交易活力。在新质生产力视域下,通过精准定价提升房源吸引力,促进房屋的顺利成交,从而提高市场的整体效率和生产力。房地产中介和卖方应以大数据分析和市场动态为基础合理定价,避免挂牌价格过低或过高而导致二手房滞销。

第二,加大城镇规划和基础设施建设力度,增强城镇竞争力。政府应进一步完善深圳、广州等核心城市规划和基础设施建设,以宜居、便民等特点吸引高素质人才和资本流入,促进房地产市场健康发展,进而促进区域整体生产力水平的提高。

第三,注重户型以及面积配置,满足多元化需求。基于市场需求和新质生产力发展的要求,开发商应提供多样化的合理面积配置以满足不同购房者的需求,增强住房市场竞争力,从而促进市场的高效运行和资源的优化配置。

第四,健全市场监管政策,增强市场透明度和公正性。政府要保证房价的合理波动,防止恶意炒作,保持市场健康稳定发展,这是在新质生产力背景下通过政策引导和市场调节实现的。同时,提高市场透明度,保障买卖双方利益,以透明的市场信息公开机制促进市场的公平公正。

第五,推动信息化建设,提高交易智能化水平。利用先进的信息技术和智能化手段帮助买卖双方做出更加科学合理的决策,促进交易率和市场活力的提升,进而促进新质生产力的发展和应用,为二手房交易平台的功能和服务水平提供全面的市场信息和交易数据。

广东省二手房市场将通过上述改革路径实现健康、稳定、可持续的发展目标,从而更好地适应新质生产力的发展要求。此举既能促进房地产市场整体增效,又能促进区域经济协调优质发展,为全省经济提供坚实有力的支撑。

参考文献:

[1] 赵爱玲.新质生产力 中国经济的未来动能[J].中国对外贸易,2024(04):8-10.

[2] 罗琳,杨喜平,李继园.西安市二手房价格的影响因素及空间异质性[J].地域研究与开发,2023,42(04):57-63.

[3] 冯晗,陈海敏,周洪.公民同招改革与学区房溢价变化:基于杭州二手房交易微观数据的研究[J].中国经济问题,2022(05): 182-196.

[4] 纪宇凡,戴靓,丁子军,等.城市二手房价格的影响因素及其空间效应:基于MGWR模型对南京的实证[J].资源开发与市场, 2022,38(07):777-783+896.

[5] 涂锦,蒋宛晨,冷正兴.我国城市房价影响因素的差异化研究:基于成都市二手房市场大数据的分析[J].价格理论与实践, 2021(10):75-78.

[6] 邢会歌,钱苏琴.城市二手房价格区间估计方法研究:基于神经网络分位数回归模型的分析[J].价格理论与实践,2021(05):85-88+194.

[7] 张望舒,马立平.城市二手房价格评估方法研究:基于Lasso-GM-RF组合模型对北京市二手房价格的分析[J].价格理论与实践,2020(09):172-175+180.

[8] 武婷,沈静.城市空气质量对住宅价格的影响研究:基于广州市二手房的大数据分析[J].规划师,2019,35(10):47-52.

[9] 薛薇.Python机器学习:原理与实践[M].北京:中国人民大学出版社,2021:162-163.

作者简介: 陈晞琳,女,汉族,广东汕头人,硕士研究生,中级统计师,研究方向:数字经济、统计学。