大数据技术在重庆市房地产市场监测分析中的应用研究
2021-05-16赵根闫亮
赵根 闫亮
重庆市规划和自然资源信息中心 重庆 400015
概述
传统的数据管理与分析技术通常以结构化数据为管理对象,利用集中化软硬件架构或计算存储设施设备处理和分析小规模数据集,计算、存储、分析成本较高,大数据的数据分析技术通过分布式架构数据处理及管理方式,对于多源异构数据(结构化数据、图片、影像、文档资料等)、大规模数据集(PB量级)等无论是数据类型还是数据量方面的处理,其效率有着指数级提升。大数据分析以数据全体或总体为分析对象,数据是核心和关键,聚焦于分析数据的属性、特征、联系和规律[1]。本文所指房地产市场监测分析是对重庆市主城区城镇土地上的商品房从规划建设、预售许可、上市交易、可售存量、抵押贷款、转移登记、二手房交易等全生命周期的动态数据,同时采集经济政策、房产市场调控政策及部分开发企业、中介机构等数据。所以利用大数据技术对长时间、全域性、多种类数据进行处理和分析,对决策支持和政策制定研究具有重大意义。
本文以重庆市主城区2010年以来的房地产市场交易数据为研究对象,选取2010—2019年的年度及月度市场交易、档案、宏观调控政策等数据,利用大数据挖掘、关联分析等技术,结合房地产市场监测分析方法,构建全面、合理的重庆市房地产市场分析指标体系,对重庆市房地产市场进行客观分析和系统研究,为进一步全面实现基于大数据分析的重庆市房地产市场监测、分析等决策支持系统提供支撑和示范。
1 房地产市场监测分析数据处理需求
1.1 房产数据分析需求不断增大
近年来,重庆市积极发挥中国西部桥头堡引领作用,围绕习近平总书记对重庆提出的营造良好政治生态,坚持“两点”定位、“两地”“两高”目标,发挥“三个作用”和推动成渝地区双城经济圈建设等重要指示要求,重庆经济飞速发展、城市建设大大加快,房地产市场也发展迅速。近十年全国房地产市场发展热潮的影响,以及重庆市本身城市特点和建设的统筹规划,对于重庆市房地产市场发展的规律和后期趋势变化有着紧密的关系。因此,对重庆市房地产市场的发展情况进行数据分析,对城市重点及热点区域进行监测和趋势判断,这对于领导决策城市规划建设及调整和指导房地产市场健康、有序、稳定发展具有重大意义。分析过程中所需要加工处理的各类业务数据、交易数据、档案数据,以及宏观经济、社会、政策数据等急剧增加[2],截止到2020年12月,重庆市主城区各不动产登记中心所办理的交易、登记数据达到1.2PB。
1.2 数据处理不能满足要求
当前房产业务数据存在数据量巨大、含有大量非结构化数据、实时动态变化等显著特点,传统的建立在关系型数据库或数据仓库基础上的分析方式已不能支撑动态、智能化的决策分析需求,其不足之处主要体现在以下几个方面[3]:
(1)对非结构化数据支持有限,不能利用所有可能的有效数据源,使得分析结果存在片面性;
(2)传统的数据存储和处理方式决定了其难以应对海量数据的读写和计算要求,其管理方式存在局限性;
(3)由于对海量数据处理能力较差,在做数据分析时,通常采用的方式是抽取一定样本进行有监督的数据分析,这使得分析结果的准确性很大程度依赖样本的合理性和准确度,存在不确定性。
2 大数据技术在房地产市场监测中的应用研究
2.1 房地产市场监测分析的数据构成
房地产市场作为重要的经济市场之一,其在规模上、流程上、层次上和结构上都具有相当的复杂度。从流程上讲,有土地供应、开发建设、上市交易、转移登记、可售管控、二手房交易等环节[4],其他各种类型数据还有以下几种:
(1)基础属性数据。房屋作为市场中的基本数据单元,也是市场的交易客体。基本属性数据包括:位置坐落、价格朝向、建筑信息、商业自住、房屋类型、周边配套、附加设施、周界规划信息等。
(2)市场交易数据。交易活动数据作为房产市场重要数据组成部分,其数据类型包括预售上市价格(一户一价)、商品房及存量房交易数据(交易时间、成交量、抵押、转移登记等动态数据),其中根据现房或期房,又需要进一步收集网签数据或金融机构解抵押数据等。
(3)宏观数据。房地产市场作为重大民生保障经济市场之一,涉及点多面广,政府部门涉及发改、规划、国土、住建、交通、市政、水务、电力等多个部门,又同时和经济政策、国家或城市房产调控政策等息息相关。
2.2 大数据技术应用实现路线
本文通过研究大数据关键技术,通过分析、比较,选择符合实际需求的成熟模型,挖掘房地产市场各因子之间的潜在关系,以此为突破口研究大数据技术在房地产市场分析与预测中的应用,包括数据的收集存储、建模及预处理、分布式数据管理、数据分析与挖掘、展现和应用等多个方面。系统的整体架构如图1所示。
图1 房地产大数据分析整体架构图
房地产交易大数据的采集和预处理是将业务数据进行有选择的筛选和清洗后采集到大数据平台中,并针对实际的需求进行相应的预处理,这是进行数据分析和预测的前提[5]。
房地产交易大数据的分析与挖掘,在现有成熟模型、算法的分析比较大数据应用中,最关键的是分析手段与数据挖掘技术的利用,通过需求分析,确定研究对象,选择合适的成熟算法和模型,从而挖掘房屋购买需求、房屋价格、购房者分类、行业政策、宏观经济指数等之间的潜在关系,为决策提供支持[6]。
2.3 大数据建模、ETL清洗、转换
(1)建模。以房产市场分析管理为核心,以“图-房-人-金-档”为主线,分析客体(房)、主体(人)、载体的关系,建立房产业务时空模型[7],该模型构建计(规)划、立项、建设、交易、使用、征收的房屋全生命周期,围绕商品房项目、政策性项目(房源)分析房屋业务及数据;分析权利主体、从业主体以及管理主体三者之间的关系,实现人(自然人和法人)的管理,同时通过房屋的各类交易,建立人与房的紧密联系;在交易和管理过程中形成了各种载体,即房产档案;在交易的过程中又产生了资金、税费以及各类房屋价格的管理。最终,房屋交易和管理的一切活动,全部基于地图进行时空的展示、管理和分析,如图2所示。
图2 房产业务时空数据模型图
(2)数据清洗。数据清洗是将不规范的数据筛除掉或修正,主要发生的原因来源于系统错误或人为错误等环境,如系统出现错误字符、关联数据错误、识别错误等,人为错误包含交易登记各环节中的漏签、错签、空签及其他错误等。小部分数据在不影响分析的情况下可以筛除,但是错误信息可以同步反馈给各部门进行修正。
(3)数据转换
数据转换主要是转换数据的类型、粒度以及计算规则[8],主要原因是在市场发展过程中,市场交易规则一直处于相应变化中,各区域对于市场规则的制定和统一过程存在一定的差异,如交易价格(建筑面积、使用面积)、房屋类型(别墅有独栋、联排、叠拼,洋房有高层洋房、花园洋房、底层洋房等),统计口径也存在粒度、周期、类型、规则等各种计算差异性。数据转换即是根据统一的计算规则、统一的统计指标进行各类数据的转换。
2.4 数据分析结果
为了更加直观地研究全市房地产市场变化趋势,尤其是重点区域的变化前后对比情况,如“沿轻轨线”“两江四岸”“环内环线”等,从地理位置、城市发展的不同角度对房产交易数据进行分析,对上述区域建造了数据模型,通过历年来的数据可以展示相关地域的房产上市和交易随着时空变化而产生的不同。
如图3左部分所示,通过渝北区沿轨道热力图我们可以发现,轨道交通具有十分明显的外部效益,其形成的聚集效应势必会改变城市发展过度分散的土地利用形态和空间分布,促进沿线房地产增值,将中心区域和其他区域紧密连接。另外,也能够节省城市建设用地和发展空间,对城市空间布局的优化和节约城市空间资源具有重要作用。
图3 近十年城区(左)及两江四岸(右)房地产市场变化趋势
图3右部分所示数据模型主要是根据管理部门业务需要动态建立的“两江四岸”数据模型,通过上述房产交易数据分析,展示历年来重庆市作为江边城市中房产相关数据的变化,可以发现重庆市购房者对于“江景房”的购置热情。以沿江房产热力图分析可以发现,房地产市场与空间规划和政策引导具有紧密联系,房屋除了使用价值、本身建筑属性价值之外,还受到空间位置、景观环境、交通规划、职住平衡等各方要素的叠加影响。
3 结束语
本文深入研究了大数据技术,并通过收集、分析、梳理研究了房地产市场分析指标和核心业务数据等内容,建立了重庆市房地产交易监测分析专题研究模型,实现了大数据关键技术应用于房地产交易数据的采集、预处理、分布式存储和管理,利用现有房地产交易的数据进行分析与挖掘,使用现有成熟模型、算法的分析比较,对房地产市场中交易情况和发展变化趋势等进行全面分析和研究。
下一步工作计划是重庆市机构改革工作的推进,整合重庆市发改委、规划、土地、住建等多部门业务数据,形成完整的跨时空、跨业务流程的房地产全生命周期监测分析。