现代数字城市大数据中心架构研究
2019-11-12刘敬民郭长国符兴斌赵文辉宗建建
刘敬民,郭长国,符兴斌,赵文辉,宗建建
(中软信息系统工程有限公司,北京 102209)
0 引言
城市是人类文明的重要组成部分,也是伴随人类文明和进步发展起来的[1]。城市在社会发展中扮演着重要的角色,承载了人类社会、经济、文化活动的大部分职能。城市的发展经历了物理城市、数字城市和智慧城市三个主要阶段[2]。物理城市是指客观物理存在城市实体,“城”代表城市的边界、面积、人口、地理位置;“市”代表人流、物流、经济流、信息流等经济社会活动。数字城市是城市地理信息与其他城市信息相结合并存储在计算机网络上的、能供用户访问的一个将各个城市和城市外空间连接在一起的虚拟空间,数字城市实现了物理城市的数字化,可以虚拟地展现城市的全貌,实现辅助规划、设计、城管、导航和决策等信息服务,但数字城市只是一个网络空间,只能实现在网络上查看信息。智慧城市是在数字城市建立的数字框架的基础上通过物联网、云计算、大数据和人工智能将现实世界与数字世界有效融合,为经济发展、城市管理和公众提供智能服务的虚拟现实空间,同数字城市相比,智慧城市是一个网络物理空间,不仅可以在网络上查看信息,还可以在网络上执行所需的操作。在第二届数字中国建设峰会上,中国电子提出了“安全为先,需求牵引,迭代发展”的现代数字城市理念与建设思路,认为数据是真正的基础资源和创新引擎,城市现代化要守正创新,回归“数字”本质[3]。同智慧城市相比,现在数字城市是一个安全的网络物理空间,可以安全地在网络上查看信息和执行所需的操作。数据就像现代数字城市的血液一样,是城市信息交换的载体和信息流动的动能,因此,大数据技术是现代数字城市建设不可或缺的支撑,大数据中心作为数据存储和处理的核心部位是现代数字城市建设必不可少的重要环节。当前业界对智慧城市大数据中心的架构进行了探讨和研究[4-5],但尚未形成统一意见,本文参考已有研究,在对现代数字城市大数据中心的功能进行分析和大数据参考架构研究的基础上,提出一种现代数字城市大数据中心的架构。
1 现代数字城市大数据中心需求分析
1.1 现代数字城市模型
李德仁院士[6]提出智慧城市可以用ISGBP模型进行描述,ISGBP模型由5个部分组成,分别是公共基础设施(Infrastructure)、服务(Service)、政府(Government)、企业(Business)、公众(Public),结合现代数字城市“安全为先,需求牵引,迭代发展”理念,将公共基础设施增强为安全基础设施(Security Infrastructure),这样现代数字城市可用SISGBP模型表示,如图1所示。
图1 现代数字城市模型
SISGBP模型强调安全基础设施、数据服务和智能服务的核心地位,安全可信的基础设施是整个现代数字城市建设的内核,为政务信息、行业数据和个人隐私安全提供本质的安全保障;数据服务是建立在“安全内核”之上城市的流动的动能;再之上是城市的功能服务和模型服务;政府、企业、公众是城市的主体,他们三者是现代数字城市需求的提出者,是城市建设的牵引力,通过基于数据和信息交换的智能服务形成良好的互动,达到和谐共处,从而降低行政成本,提高综合效益。可以看出数据是这个模型得以运转和流动的动能,因此大数据中心建设是现代数字城市建设的重要基础环节。
1.2 现代数字城市大数据特征
现代数字城市除具有大数据4V(Volume、Variety、Velocity、Value)的典型特征外,还具有基础设施安全性、需求牵引性等特征,整理归纳如下:
(1)数据量大(Volume)。现代数字城市通过无所不在的物联网将现实城市与数字城市连在一起,人们每分每秒以极速在网络上交换思想、数据和信息。现代城市每日产生超乎想象、数据量不断扩张的大数据,单个高清摄像头每小时产生3.6 GB数据,全国摄像头数目超过2 000万个,数据量将达到PB到EB级;民航飞机装有大量传感器,每个引擎每飞行1小时产生20 TB数据;北京公交一卡通每天使用量达4千万人次,地铁1千万人次,北京市交通调度中心每天的数据增量为30 GB,存储量为20 TB;国家电网年均产生数据510 TB(不含视频),累计产生数据5 PB;单个病人的CT影像往往多达两千幅,数据量已经到了数十GB,如今大城市的医院每天门诊上万人,全国每年门诊更是达数十亿人次,住院已经达到两亿人次,按照医疗行业的相关规定,患者的数据通常需要保存50年以上,医疗大数据也将会达到EB级[7]。
(2)数据多样性(Variety)。现代数字城市数据来源包括城市的地理信息数据、政府的政务数据、各个企业和行业的行业数据、公众的个人数据;各类信息的种类多,并以各种信息载体形式存在,数据类型不仅包括传统的关系数据类型,也包括以网页、视频、音频、e-mail、文档等形式存在的未加工的、半结构化的和非结构化的数据。
(3)处理高速性(Velocity)。城市的快节奏发展需要能够高速处理数据,一是数据的获取、存储以及挖掘有效信息的速度需要快速完成,比如从海量的视频数据中快速检索出有用的信息;二是数据快速动态变化形成流式数据,数据流动的速度快到难以用传统的系统去处理,比如社交数据,其实时动态变化,如果超出时间限制,分析结果就不再具有价值。
(4)数据价值性(Value),或者叫真实性(Veracity)。数据量呈指数增长的同时,隐藏在海量数据的有用信息却没有按相应比例增长,反而使人们获取有用信息的难度加大。以监控视频为例,连续长时间的监控过程,使数据量很大,但可能有用的数据仅有一两秒。
(5)基础设施安全性(Infrastructure Security)。构建现代数字城市大数据的基础设施要为安全可控的基础设施,以保证数据中心的核心安全可控。
(6)需求牵引(Needs Traction)。构建现代数字城市大数据中心的架构和技术路线选择,要以政府、企业和公众的现实和未来需求和需要为牵引,而不是以技术发展来驱动。
1.3 现代数字城市大数据中心需求分析
分析现代数字城市SISGBP模型,可以看出政府部门、企事业单位和个人通过现代数字城市应用系统获取所需服务,大数据中心的主要功能是为现代数字城市应用系统提供数据服务支撑。本文分析现代数字城市大数据中心相关角色和用例如图2所示。
图2 现代城市大数据中心角色及用例
政府部门通过政务信息系统,提供政务活动与服务,对公众服务与生产经营活动进行监督管理,并为大数据中心提供政务数据信息;企事业单位通过行业应用系统,提供公共服务与生产经营活动,接受政府部门的政务活动与服务,也可使用其他企事业单位提供的生产经营服务,并为大数据中心提供行业数据;个人通过现代数字城市应用系统和应用终端使用公众服务,接受政府部门的政务活动与服务,产生的众多数据也同时提供给大数据中心作为一类重要的数据源。
大数据中心主要功能需求包括:
(1)数据采集。能够采集来自政府部门、企事业单位、个人及互联网的文本、图像、视频等结构化、半结构化和非结构化数据。
(2)数据预处理。能够对采集的数据进行标记、清洗、转换。
(3)数据存储。能够存储和管理各种结构化、半结构化和非结构化数据。
(4)数据分析。提供数据挖掘和分析能力,具有文本分析、图像识别、语音识别和视频分析等功能。
(5)数据可视化。提供根据不同数据类型特点的数据可视化能力。
(6)数据处理。具有批处理计算、流处理计算和图计算等大规模数据处理能力。
大数据中心主要非功能需求包括:
(1)数据存储能力。能够存储PB级以上的数据。
(2)数据处理能力。具有快速的秒级的实时处理能力和大规模TB级以上的批量数据处理能力。
(3)数据访问能力。具有开放的对外提供数据访问的接口供现代数字城市应用系统使用。
(4)数据安全性。具有基础设施核心安全可控性,具有保护数据安全和隐私的能力,使得数据能够按权限访问,长期存储不丢失。
2 现代数字城市大数据中心架构设计
2.1 通用大数据参考架构
在大数据参考架构方面,NIST(美国国家标准和技术研究所)提出了其大数据参考架构NBDRA[8],我国国家标准化管理委员会在国标GB/T35589-2017[9]提出了大数据参考架构,如图3所示。
图3 大数据参考架构
该参考架构提供了一个构件层级的分类体系,用于描述大数据参考架构中的逻辑构件以及定义逻辑构件的分类,逻辑构件分为3个层级,从高到低依次为角色、活动和组件。该架构总体上可以概括为“一个概念体系,两个价值维度”。“一个概念体系”是指它是一个通用的大数据系统概念模型,可以作为各种类型的大数据应用系统架构的通用技术参考框架。“两个价值维度”分别为信息价值链(水平轴)和信息技术价值链(垂直轴),信息价值链表示大数据的价值通过数据的收集、预处理、分析、可视化和访问等活动来实现,信息技术价值链表示大数据的价值通过为大数据应用提供存放和运行大数据的网络、基础设施、平台、应用工具以及其他服务来实现。
2.2 现代数字城市大数据中心架构
参照大数据参考架构,结合现代数字城市大数据中心功能需求,本文设计现代数字城市大数据中心分层架构如图4所示。该架构从下到上分别为基础设施层、数据存储管理层、数据处理框架层、数据处理应用层、数据接口层、数据感知层和现代数字城市应用层,以及运维管理分系统。其中,基础设施层对应于大数据参考架构的基础设施组件;数据存储管理层对应于大数据参考架构的平台组件;数据处理框架层对应于大数据参考架构的处理框架组件;数据处理应用层对应于大数据参考架构的收集、预处理、分析、可视化组件;数据接口层对应于大数据参考架构的访问组件;数据感知层对应于大数据参考架构的数据提供者;现代数字城市应用层对应于大数据参考架构的数据消费者;运维管理分系统对应于大数据参考架构的安全和隐私、管理两个角色。
图4现代数字城市大数据中心架构
2.3 架构各层及分系统功能
现代数字城市大数据架构各层和运维管理分系统功能描述如下:
(1)基础设施层。基于安全可控的基础设施、云计算技术,采用物理资源与虚拟资源相结合的方法建立基础设施,为大数据中心提供运行所需核心安全的计算资源、存储资源和网络资源。
(2)数据存储管理层。按照大数据中心所需的各种数据类型,提供分布式数据库、分布式文件系统、内存数据库、列数据库、图数据库等来存储结构化数据、半结构化数据和非结构化数据,并提供数据的统一访问功能。
(3)数据处理框架层。提供满足需求的主流的批处理计算框架、流处理计算框架、图计算框架,并为上层应用提供统一的大规模计算资源的统一管理功能。
(4)数据处理应用层。提供数据采集、数据预处理、数据分析挖掘、智能处理引擎和数据可视化等数据应用工具。数据采集支持实时监控数据、政务数据导入导出、行业数据接入、互联网数据爬取和人工数据录入等功能;数据预处理支持数据标记、数据分类、数据清洗、数据交换与融合、数据索引与存储等功能;数据分析挖掘支持基于可扩展的数据挖掘算法库的数据挖掘与交互分析功能;智能处理引擎提供文本分析、图像识别、语音识别、视频分析和知识图谱分析功能;数据可视化提供统计图可视化、地图可视化、网络数据可视化、文本数据可视化和流数据可视化等功能。
(5)数据接口层。提供统一的访问接口供各类现代数字城市应用使用,各类现代数字城市应用根据授予的权限获取大数据中心提供的数据计算、数据分析和可视化服务;提供数据采集接口采集数据感知层各类数据提供者提供的数据。
(6)数据感知层。提供各类数据源的感知功能,感知数据类别包括RFID、条码/二维码、各类传感器、生物识别、政务数据信息、行业数据信息和互联网数据等。
(7)现代数字城市应用层。提供各类现代数字城市应用功能,按需可包括政务信息系统、公众服务、应急指挥、智能交通、智能医疗等。
(8)运维管理分系统。提供全方位的资源分配、调度和安全管理功能,包括设备管理、流程监控、资源规划、资源调度、资源管理、资源部署和安全隐私管理等方面。
3 结论
数字城市的发展已进入现代数字城市阶段,大数据已成为现代数字城市建设和研究的热点之一,分析和设计现代数字城市大数据中心功能和架构将是现代数字城市大数据中心建设的首要任务。本文在分析现代数字城市模型和大数据特征的基础上,整理归纳了现代数字城市大数据中心相关的角色和用例信息、功能和非功能需求,参考通用大数据参考架构,提出了现代数字城市大数据中心架构,描述了架构各层的功能,可供现代数字城市大数据中心架构设计参考。具体的现代数字城市大数据中心架构设计还需要根据不同城市的特点和建设目标,以及技术路线选择进行丰富和完善。