面向智慧城市的大数据中心建设方案设计
2017-11-07孔令礼
孔令礼
(山西省测绘地理信息局,山西 太原 030001)
面向智慧城市的大数据中心建设方案设计
孔令礼
(山西省测绘地理信息局,山西 太原 030001)
分析了智慧城市大数据的分类与特性,基于分布式存储与云计算技术设计了智慧城市数据模型,该模型能够高效地组织存储地理数据、业务数据、实时数据等智慧城市的关键数据组成部分,采用智慧城市数据模型搭建了智慧城市大数据中心的建设框架。
智慧城市; 大数据; 数据中心; 分布式
随着云计算、物联网、新一代移动宽带网络等技术的迅速发展和深入应用,信息化向更高阶段的智慧化发展,智慧城市的概念迅速崛起并快速发展[1]。城市智慧化已成为继工业化、电气化、信息化之后的新一次浪潮,是目前最热门的研究课题之一。智慧城市以地理空间数据为载体,融合专题业务数据,依托互联网为社会公众、政府部门及企事业单位等提供查询、分析、辅助决策等服务。智慧城市的建设能够极大地促进城市数据资源的集成、开发和利用,然而,如何全面高效地组织和存储智慧城市涉及的海量多源异构数据,是建设智慧城市面临的首要问题。
本文基于分布式存储与云计算技术设计了智慧城市数据模型,该模型能够高效地组织存储地理数据、业务数据、实时数据等智慧城市的关键数据组成部分,并且基于智慧城市数据模型搭建了智慧城市大数据中心的建设框架,在兼容现有城市信息化成果的基础上,解决了海量多源异构智慧城市数据的组织管理问题。
1 智慧城市大数据的分类与特性
1.1 智慧城市大数据的分类
智慧城市是以人为主体,以空间利用为特点,以集聚效益为目的的空间地域系统[2]。基于城市数据的类别、分布、规律等特征,不同行业部门和应用领域对城市数据有不同的划分标准,如国家标准有《基础地理信息要素分类与代码》(GB/T 13923—2006),行业标准有《城市市政综合监管信息系统管理部件和事件分类、编码及数据要求》(CJ/T 214—2007)。依据数据的获取方式、用途与固有特性,本文将智慧城市涉及的数据分为3种类型:地理数据、业务数据、实时数据。详细内容如下:
(1) 地理数据:地理数据作为统一的空间定位框架和空间分析基础的地理单元载体,是城市数据的基础和关键组成部分,包括矢量数据(地理实体数据集、路径规划数据集等)、瓦片数据(地图瓦片、三维地形瓦片、建筑物模型瓦片等)、索引数据(地名地址索引、公交站点索引等)、栅格数据(遥感影像数据、数字表面模型数据等)、表格数据(属性表、统计表等)。
(2) 业务数据:各行政部门及各行业的专题数据,如城市规划、人口户籍、金融物价、医疗卫生、能源消耗等。
(3) 实时数据:具有实时更新特性的数据,对数据的时效性要求较高,如环境监测数据、天气监测数据、客流量数据、视频监控数据等。
1.2 智慧城市大数据的特性
1.2.1 大数据特性
城市数据种类繁杂、规模庞大,包含的信息与知识极为丰富,同时由于数据稀疏性的影响,城市数据的价值密度也较低。综上可以看出,城市数据完全符合大数据所具有的4V特性,可谓是大数据范畴中一个极具代表性的典型样本。
1.2.2 时空多维特性
以地图为基础的时空多维特性是城市数据的另一个重要特点。在空间上,根据城市规模和数据获取方式的不同,城市数据具有不同尺度的空间跨度;在时间上,根据产生的时间不同,城市数据具有时间相关的变化和分布。因此在进行城市数据分析和应用时,一方面需要考虑时间和空间两个维度的数据演化特性,另一方面还需要充分利用时间和空间不同维度之间的数据关联关系。
1.2.3 多源与异构特性
智慧城市数据具有非常多的类型与来源,其底层结构、组织方式、维度及粒度都存在较大的差异。如气象是时序数据、兴趣点是空间点数据、道路是空间图数据、人的移动是轨迹数据(时间+空间)、交通流量是流数据、社交网上用户发布的信息是文本或图像数据[8]。
2 智慧城市数据模型
本文依据智慧城市数据的3种类型,分别设计了适合的数据模型,以达到管理和整合大规模异构数据的目的。
2.1 地理数据模型
本文采用四叉树结构对地理空间进行规则划分,以地理网格的方式将研究范围划分为多个地理块对象并把这些地理块对象的内部结构使用文档数据模型依次描述和保存。文档模型存储数据的方式是闭包键值对,这种保存方法和关系模型的保存方式是不同的,它支持嵌套的结构,而且不存在强制的模式限制。本文所采用的模型可以有效地解决异构空间数据的一些关键问题,如数据管理、统一组织、调度及存储等。逻辑表达如图1所示。
图1 数据模型逻辑表达[12]
本文采用四叉树的方法对全球地理空间进行多尺度划分,按照层次结构将所有的地理网格和对应的异构空间数据统一存档,搭建了智慧城市地理空间数据的组织框架。地理网格中的异构空间数据以文档的方式进行表达,便于使用文档数据库(如Mongodb)进行分布式存储。
2.2 业务数据模型
列式存储(column-based storage)是用二维表的形式存储数据,首先以一维字符串的形式存储一列的数据,然后再进行下一列数据的存储。该方法采用稀疏存储的方式,因此同一表中的每一行可以存在不同的列。对比行式存储,列式存储有很多优点,如更高的数据压缩比、便于联机分析、查询快与存储海量数据等。列式数据模型概念视图见表1。
列式数据模型包括以下几个组成部分:
(1) 表。列式数据模型的基本管理单元是表,它的排序是按行进行的,存储是按列进行的。
表1 列式数据模型概念视图
(2) 行键。Key作为每行的唯一标识,是该行的主键,用来检索记录。
(3) 列簇。列簇由表的Schema独自定义,很多列可以同时出现在一个列簇中,任意多版本数据可以包含于一个列中。
(4) 列名。列簇前缀和修饰符连接构成一个列名。例如article:contents,article是列簇前缀,contents是修饰符,两者由冒号(:)连接。
(5) 时间戳。列值版本用64位整型的时间戳表示,精度为毫秒。
智慧城市中的业务数据属于结构化数据,具备大数据的特性,其应用场景中经常存在批量读取与聚合分析等操作,适合使用列式数据模型进行存储。现有城市信息化成果多以关系数据库存储业务数据,关系数据库采用行式存储,由于行式存储与列式存储可以相互转换,因此现有城市信息化成果的业务数据可以无缝迁移到本文的业务数据模型中。
2.3 实时数据模型
对于实时数据首先采用实时数据库进行存储和管理,经处理后再进行持久化存储。实时数据在时间变化的过程中更新较快,因此数据容易“过期”,系统不仅要保证数据库内部状态(数据值)正确,还要保证内外状况的匹配,产生新数据与原数据时在时间上也要保证一定的精度。
实时数据模型描述如下:数据对象d有dv、dtp、devi这3个分量,依次代表d的现值、采样时间、外部有效期。实时数据模型有内部一致性、外部一致性和相互一致性特征。
(1) 内部一致性:即数据正确性,dv需满足预先定义的数据库内部状态的完整性和一致性限制。
(2) 外部一致性:设tc为当前时间或检测时间,当且仅当(tc-dtp)≤devi,d是外部一致的,即dv的状态与外部对应的对象状态一致。
(3) 相互一致性:用来产生新数据的一组有关联的数据是一个相互一致集,记为R,R中的数据应能够在同一个公共时间段内被取出,该公共时间段即为R的相互有效期,记为Rmvi,假如R中任意两个数据d和d′,|dtp-d′tp|≤Rmvi都成立,那么R是相互一致的。
3 智慧城市大数据中心建设
3.1 建设框架
本文充分考虑大数据价值的发挥与可持续发展的要求,以数据中心、服务支撑相结合的技术路线,建立从基础设施、数据存储管理、平台整合到对外服务的一体化大数据中心,将地理空间大数据、业务专题大数据及各类传感器采集的大数据进行有效管理,提供基础服务与专题服务。数据中心建设框架如图2所示。
3.2 技术架构
智慧城市的大数据中心不再是传统意义上的机房、服务器的集合,而是一套完整、复杂、庞大的综合系统,可以做到对时空大数据和各种信息的聚集处理、传输、交换、存储和管理。其技术架构如图3所示。
面对智慧城市中各类数量庞大的数据,尤其是空间数据、视频数据等非结构化的数据,传统关系数据库已无法满足智慧城市大数据存储管理的需求。由于NoSQL数据库的水平扩展、非线性、分布式等优点,其已经广泛应用于大数据领域中,如Google的Bigtable、以Hadoop为架构的HBase等。本文采用开源技术构建核心技术体系,以分布式文件系统(HDFS)、列式数据库(HBase)和文档数据库(MongoDB)作为数据存储底层基础,利用YRAN实现资源的调度和管理,通过Hlive实现类似SQL的数据库操作能力,利用Sqoop将关系数据转换到HBase中,由Spark和Mahout处理复杂模型的并行计算,实现了在云环境中的非结构化、半结构化和结构化数据到分布式文件系统的存储和导出功能,并保证了数据的安全性。
本方案采用了大表文件索引、云计算技术、分布式文件系统、虚拟化等成熟的云存储和分布式技术,提供了基础的存储与私有云环境,解决了海量多源异构数据的高效组织、管理、并发服务等问题,另外,本方案设计了多主题融合库,为特定应用场景下的数据分析与可视化提供了快速的数据入口,避免了同类型数据的多次提取。
图2 智慧城市大数据中心框架
图3 智慧城市大数据中心技术架构
4 结论与展望
智慧城市是我国城市化进程中的重要机遇和挑战,云计算与大数据技术的应用为构建智慧城市带来了可能[4]。本文分析了智慧城市建设中大数据组织管理的关键技术,设计了智慧城市的数据模型,进行了详细的分析阐述,并基于该数据模型搭建了智慧城市大数据中心的建设框架。
本文基于分布式技术,解决了智慧城市大数据的组织管理问题,但对城市数据挖掘算法模型尚未探讨,这也是将来的重点研究方向。
[1] 赵元,彭玲,池天河,等.智慧城市综合信息分析系统的设计与实现[J].测绘通报,2014(11):116-119.
[2] 杨丽娜,邵静,彭玲,等.面向智慧城市数据管理和多维决策的时空数据仓库建设[J].测绘科学,2014, 39(8):44-49.
[3] 龚健雅,李小龙,吴华意.实时GIS时空数据模型[J].测绘学报,2014,43(3):226-232.
[4] 朱亚杰,李琦,冯逍.基于大数据的智慧城市技术体系架构研究[J].测绘科学,2014,39(8):70-73.
[5] 翟永,刘津,陈杰,等.天地图网站云架构系统设计[J].信息安全与通信保密,2012(9):81-83.
[6] 涂振发.云计算环境下海量空间数据高效存储关键技术研究[D].武汉:武汉大学,2012.
[7] 张小娟.智慧城市系统的要素、结构及模型研究[D].广州:华南理工大学,2015.
[8] 郑宇.城市计算概述[J].武汉大学学报(信息科学版),2015,40(1):1-13.
[9] 李寅超,李建松.一种基于对象和快照的混合地表覆盖时空数据存储模型[J].测绘学报,2016,45(7):858-865.
[10] 胡正华,孟令奎,张文.面向关系数据库扩展的自适应影像金字塔模型[J].测绘学报,2015,44(6):678-685.
[11] 王静远,李超,熊璋,等.以数据为中心的智慧城市研究综述[J].计算机研究与发展,2014,51(2):239-259.
[12] 杨耀东.面向文档的空间数据组织[D].北京:北京建筑大学,2013.
[13] HASHEM I A T, CHANG V, ANUAR N B, et al. The Role of Big Data in Smart City[J]. International Journal of Information Management, 2016, 36(5):748-758.
[14] WEI J Y, CHEN H, ZHI-TAO W U. Research on the Construction of Smart City Based on the Big Data Background[J]. Science & Technology Vision,2016(20):6-7.
[15] SUN A, TONGKAI J I. Big Data Open Platform and Industrial Ecology Construction for Smart City[J]. Big Data Research, 2016(4):69-82.
DesignofLargeDataCenterConstructionforSmartCity
KONG Lingli
(Administration of Surveying,Mapping and Geoinformation of Shanxi,Taiyuan 030001,China)
The paper analyzes the classification and characteristics of big data of smart city, and designs the smart city data model based on distributed storage and cloud computing technology. The model can efficiently organize and store the key data components of smart city such as geographic data, business data and real-time data, and use the model to build a framework of smart city data center.
smart city; big data; data center; distribution
孔令礼.面向智慧城市的大数据中心建设方案设计[J].测绘通报,2017(10):143-147.
10.13474/j.cnki.11-2246.2017.0334.
2017-03-13;
2017-06-28
孔令礼(1963—),男,高级工程师,主要研究方向为GIS。E-mail:zwzhlj@126.com
P208
A
0494-0911(2017)10-0143-05