如何提高房地产信息系统效率
2014-04-18花景新山东城市建设职业学院研究员博士生薄煜明南京理工大学研究员博士生导师陈志敏南京理工大学博士生
文│花景新 山东城市建设职业学院研究员、博士生薄煜明 南京理工大学研究员,博士生导师陈志敏 南京理工大学博士生
如何提高房地产信息系统效率
文│花景新 山东城市建设职业学院研究员、博士生薄煜明 南京理工大学研究员,博士生导师陈志敏 南京理工大学博士生
房地产市场信息数据库是由省级节点和地市级节点组成的分布式结构。
地市房地产市场信息前置数据库主要为信息查询服务,同时也作为房地产市场信息数据仓库所需指标数据的数据来源;省级房地产市场信息数据库主要是为监管监测以及数据仓库服务的,它需要监管监测地市分支节点数据质量和服务质量;还要依据变化的决策分析需求动态地从地市房地产市场信息前置数据库中采集决策分析所需的指标加载入数据仓库,用以提供数据增值服务。
集中部署方式系统建设节省了各级之间的整合的工作,节省了建设时间,同时有利于数据统一,各节点的数据保持了较高的一致性,但是集中式部署加大了中心建设的难度,并且安全防范难度大,运行风险较大。分布式部署保持了各节点的业务独立性,同时安全性较高,并且节省了中心的建设资金投入,但是分布式部署数据标准、格式等差距较大,很难满足各种统计分析的需要。
针对以上问题,建议首先将分散在各市县的房地产市场信息集合起来,形成全省房地产市场信息数据库和数据仓库。通过采用分布式云存储技术来分布存储方法,集中管理分散在市县的业务数据资源,建立了全省房地产市场信息数据仓库。从业务上,解决了地域分散、业务分理、行政分管带来的实施障碍;技术上,解决了海量数据处理、负载均衡和数据快速膨胀引起的扩展性问题。在维护各市县房产业务办理部门的自主权力的同时,实现了数据的整合。
两类信息系统部署方式
省级房地产市场信息数据库和地市级房地产市场信息前置数据库统一的数据采集规范为:存量数据因为数据量比较大,通过网络传输效率低,为保证数据采集的速度,存量数据可一次性生成到前置库中;非存量数据采集系统将采用周期性增量采集的方式进行采集。采集周期:为满足数据实时性要求,采集系统对非存量数据的采集周期暂定为每半分钟一次。增量数据的判断:采集系统只采集已经办结的业务数据,判断是否是增量数据缺省将按照业务办结的时间来判断(将判断是否增量的时间称为“时间戳”);并且要求办理数据不能再更改。
包括两类信息系统部署方式:大集中式部署和分散式部署。
大集中式部署即全省建立统一的业务系统、统一的业务数据库,各节点(指各基本业务办理单位,如市、县的房产登记管理部门)通过网络直接中心系统。
首先,该部署方式系统建设周期短。统一建立一个系统,供各节点集中办理业务,省去了各级节点之间的整合的工作,节省了时间,提高了效率,大大缩短了建设周期;其次,采用集中式部署有利于数据统一。数据集中存储和管理,数据标准和存储方法一致,使各节点的数据保持了高度统一性,并且可以节约各节点的建设资金。在各节点还没有建立自己的系统的情况下,把建设投资绝大部分放在了统一的中心,减少了各节点的系统建设资金的投入,同时能够充分满足各种数据使用的要求。数据集中在中心数据库,方便满足各种统计分析的要求,即使出现了新的统计分析要求时,也能方便地提供数据支持。
但是,信息大集中式部署加大了中心建设的难度。由于系统和数据统一到一个中心,增加了中心的负载,对中心的硬件、软件、网络建设都提出了很高的要求,同时,也加大了中心的技术维护难度和工作量,对技术人员的数量和技术水平提出了更高要求。因此,这一方式不适用业务量较大的地区;其次,该部署方式不利于保护已有的投资。
目前,全国大部分市、县都已经建立了自己的系统,投入大量的资金,具备了很好的基础。特别是发达及中等发达地区的市、县的系统建设已达到了很高的水平。在这种情况下再搞一刀切,浪费了各市、县的已有投资,再投巨资建立一个大中心,势必造成资金浪费,并且难以适应各节点的不同业务需求。各地方的房产业务的实际情况、机构设置情况差别较大,并且越是经济发达、政策完善的地区情况越复杂,很难用一套系统适应各种不同的情况。同时,集中式部署安全防范难度加大。众多的节点用户同时通过网络使用一个平台、一个数据库,增加了数据、系统、网络损毁和故障的风险,对整个系统的安全防护要求很高。
第二种是分散式部署。即将房地产市场各业务系统数据分散在节点(指各基本业务办理单位,如市、县的房产登记管理部门),业务数据也分散在各节点,个人住房信息查询也由节点自行提供。节点只报送报表给上级部门,以满足上级部门统计分析需求。
目前绝大多数省(自治区)均采用这一方式。分散式部署充分体现了各节点的业务独立性。由于各节点的系统是独立的,可以通过定向改进使系统更加符合本地的情况,充分满足个性化需求。其安全性较高。
系统的应用和数据库是在内网中的,与互联网隔离,减少了安全危害,提高了系统的整体安全性,充分发挥了地方已有投资的作用。各节点的系统是独立的,承载了绝大多数据的业务量,充分发挥了它的作用,是整个系统的重要组成部分;同时,分散式部署节省了中心的建设资金投入。由于中心系统的功能单一,只是满足报表分析统计等简单需要,所以对软件、硬件及网络要求很低,建设投资也很低。
但是,分散式部署不利于数据统一。各节点的系统是在不同条件下建立的,软件类型、数据库种类及关键技术等千差万别,数据标准和存储方法各异,使各节点上的数据统一性较差;各节点都要建立自己的系统,水平不一,条件悬殊,特别是历史原因造成的数据标准不统一的实际情况下,必然会给全省数据共享、数据整合带来阻力,也不便于管理和服务水平的提升,由此造成数据整合困难、管理困难,服务水平难以提升;同时,数据分散在各节点,标准不统一,关键技术不尽相同,各节点只是提供相对固定的报表,很难满足各种统计分析的需要,特别是不能适应不断变化的数据使用要求。
需改进存储技术
在研究分析了以上两种系统部署方法的优缺点之后,根据实际情况,各市、县系统建设的基础很好,全部设区城市和90%以上的县(市、区)都建立了自己的系统,有6个设区城市列入国家房地产市场信息系统建设重点城市,有4个城市被评为全国优秀。考虑到大集中式部署没有必要,而分散式部署的固有缺点又难以克服,所以我们结合了“大集中”和“分散式”的优缺点,采用“分布式存储,集中管理”的部署方式,即数据分布式存储,由省级平台统一管理,建成一个物理分散、逻辑统一的虚拟全省房地产市场信息网。这样既维护了各市县房产业务办理部门的自主权力,又实现了数据的整合。其主要特点有以下几方面:
第一,能够充分保护各节点已有投资,同时大幅降低中心建设的投资。业务管理系统及业务数据库仍分散放在各业务节点,并保持独立性。在不影响各节点原有业务系统运行的前提下,实现业务明细数据虚拟整合,满足全省统一查询要求;实现指标性数据实质整合,满足全省数据决策分析及预警预报要求。在充分利用了各节点原有的投资,并不大幅度增加中心节点投资的情况下,实现了全省联网和数据整合。
第二,业务上能够保持各节点的独立性,管理上能够满足省级监管和决策需求。不干涉各节点的管理系统及数据库,使其仍保持现状,避免了地方上的抵触和防范心理,使联网工作能够开展的更加顺利。部分指标数据集中到全省数据仓库中,完全能够满足各种数据使用的要求。
第三,可有效地分散系统负载,充分发挥各节点基础设施资源和人力资源优势。
所以,我们创新式地采用了“分布式结构化云存储技术”来建立全省房地产市场信息数据库,并建立了基于云计算技术的省级房地产市场信息管理平台来管理这些分布部署的数据库,很好地解决了海量数据处理、负载均衡和数据快速膨胀引起的扩展性问题。
在结构化数据管理领域,人们已经习惯了采用关系型数据库来建设信息系统,很少去评估数据库的适用性,忽略了“围绕数据的用途来决定数据的结构”这一基本原则。关系型数据库也确实在结构化数据管理信息系统的建设中起到了重要的作用,其自身也得以高速发展。但在数据量快速膨胀的形势下,关系数据库处理数据的实时性不能得到有效地保证。
针对以上问题,我们采用分布式结构化云存储技术(NOSQL),即非关系型数据库技术,它是相对于关系型数据库提出的。NOSQL在数据存储方面具备庞大的水平扩展性(指能够连接多个软硬件的特性,这样可以将多个服务器从逻辑上看成一个实体),可以处理超大量的数据。目前Google的BigTable和Amazon的Dynamo使用的就是NoSQL型数据库。
NOSQL主要是为解决High performance -对数据库高并发读写的需求; Huge Storage -对海量数据的高效率存储和访问的需求;High Scalability&&High Availability-对数据库的高可扩展性和高可用性的需求而设计的。这也是本项目应用所面临的问题。
研究发现,非关系型数据库具有以下优势:
第一,事务管理要求不高。关系型数据库注重事务管理,在事务一致性管理方面建立了严格的管理体系,但事务也是导致数据库实现复杂化、性能下降最主要的根源。事务管理对于业务管理系统是必须的,而房地产市场信息数据库只要保证对单条记录的更新是原子的即可。这样可以避免为了支持事务所要考虑的串行化、事务的回滚、死锁检测等复杂问题的出现。
第二,不需要复杂的SQL查询,特别是多表关联查询。房地产市场信息数据库主要是为Web查询和分析决策服务的,任何大数据量的Web系统,都非常忌讳多个大表的关联查询以及复杂的数据分析类型的复杂SQL报表查询。不论从查询还是分析决策的角度,适当的冗余都是必要的,特别是地市房地产市场信息前置库,更多的只是单表的主键查询以及单表的简单条件分页查询。
第三,对数据库的写实时性和读实时性要求不高。对关系数据库来说,插入一条数据之后立刻查询便可读出来这条数据,但是对于房地产市场信息数据库应用来说,并不要求这么高的实时性。
第四,可以提高数据库的横向扩展能力。对于房地产市场来说,数据量是与日俱增的,而关系型数据库横向扩展是很难的,没有办法简单地通过添加更多的硬件和服务节点来扩展性能和负载能力,往往需要停机维护和数据迁移,而NOSQL则可以在不间断服务的情况下轻松扩展,并且可以运行在便宜的PC服务器集群上。
房地产市场信息是个TB级的数据库,每年还在以百G的速度迅速膨胀,关系数据库SQL在数万条记录的表中检索尚可正常工作,但当数据量继续增大时,效率便会明显降低。NOSQL不支持完全的关系数据模型,而是为客户提供简单的数据模型,让客户来动态控制数据的分布和格式,这样能大幅度地提高访问速度。
第五,拥有处理TB级甚至PB级海量数据的能力。房地产市场信息是个TB级的数据库,每年还在以百G的速度迅速膨胀,关系数据库SQL在数万条记录的表中检索尚可正常工作,但当数据量继续增大时,效率便会明显降低。NOSQL不支持完全的关系数据模型,而是为客户提供简单的数据模型,让客户来动态控制数据的分布和格式,这样能大幅度地提高访问速度。
我们通过分析大集中式部署和分散式部署的缺点,通过对房地产信息数据库的建库过程、业务特征和使用需求的全面分析,并提出了改进分布式结构化云存储技术(NOSQL),该技术使得房地产信息系统在充分利用了各节点原有的投资,并不大幅度增加中心节点投资的情况下,实现了全省联网和数据整合,解决了海量数据处理、负载均衡和数据快速膨胀等典型问题。