APP下载

智慧城市大数据系统设计及实现

2020-04-21

广东通信技术 2020年3期
关键词:数据系统数据挖掘子系统

当前,“城市病”问题日益突出。智慧城市从概念提出到落地实践至今,据不完全统计,中国95%的副省级城市、89%的地级城市,总计至少超过500个城市,在政府工作计划中提出建设智慧城市[1]。

智慧城市被公认是治疗“城市病”的最佳途径[2]。但在实际建设中发现,智慧城市建设具有长期性、间接性、复杂性等特点,城市内各组织和部门内部存在着多种彼此孤立的应用系统,系统之间信息无法实现共享,系统中可复用的功能被重复建设,数据一致性也无法得到保证,使得应用系统成为一个个“信息孤岛”。

针对智慧城市建设中普遍存在的跨单位,跨系统的异构数据共享及交换的业务场景,传统的点对点数据通讯方式不能满足安全性,灵活性、可扩展性等方面的要求,需要建立一个高度灵活、快速响应、共享协同、资源集中的数据共享和交互的大数据系统,满足信息共享和协同,支持不断演进的智慧城市迭代。

1 需求分析

1.1 数据:共享交换需求

数据对于城市的价值已经不言而喻。随着城市信息化建设的不断发展,数据越来越多,如何建立信息资源采集、处理、交换、共享、运营和服务的机制和规程,实现分布在各业务部门的信息资源的有效采集、交换、共享和应用,是智慧城市建设的关键任务。

因此,迫切需要建设基于大数据技术的信息共享与交换机制,通过建设数据共享交换平台实现城市内部的信息交换与共享,让信息资源得到充分的开发和利用,提高城市的整体信息化水平。

1.2 应用:决策分析需求

数据整合共享只是手段,数据分析服务才是目的。依托于大数据系统,有效整合政府各部门所掌握的全市经济社会信息资源,充分融合物联网和互联网等城市数据,提升政府形势分析预测水平,给政府在进行发展规划、投资布局、资源环境、管理创新等业务提供有力支撑[2]。

当前在众多组织单位被广泛采用的仍然是人工分析的方法,这种人工分析的方法针对目前一些信息处理的现状,往往面临很大的挑战。例如分析的数据和信息通常分布在许多不同的数据源,信息量大且缺少关联性,并且人工的分析手段通常被看作是一种特殊的专业技能,很难在一个大的组织中进行经验的共享和传递,因而存在一定的局限性。

因此,便捷、高效的情报可视化关联分析平台将在决策中发挥重大作用,将已有的信息化业务系统中的各类数据以图形的方式展现出来,通过图形方式对数据与数据间的关联进行描述和展现,更进一步地,运用众多图形分析的方法(关联分析、网络分析、路径分析、时间序列分析、空间分析等)来发现和揭示数据中隐含的公共要素和关联,帮助各部门、各人员将大量的、未知质量的、低关联性的、低价值的信息转化为少量的、易于理解的、高关联性的、高价值的可操作的情报,从而为分析调查工作提供帮助。

1.3 设计:前瞻性需求

大数据系统建设内容并非一成不变,而是随着现代城市管理业务、信息技术的发展和相关国际标准、国家标准、行业标准的不断完善而进行充实和更新,可以在应用中不断由用户补充和更新功能,具备良好的与其他系统的数据交换和功能兼容能力,具备统一的软件和数据接口,为后续系统的开发留余地。

系统应全面支持XML、SOAP、Web Service、LDAP、UDDI等当前受到普遍支持的开放标准,系统支持异构数据库之间数据交换和共享,支持主流关系型数据库,支持不同操作系统之间信息交换应用的互联互通。系统应能满足今后人口基础库、跨部门协同办公等其他应用建设对信息共享和整合的需要。

2 方案设计及实现

国内各地智慧城市建设各有差异,但是大数据系统都占据重要地位[3]。图1是典型的智慧城市总体框架,其中平台层属于智慧城市的主要建设范畴,平台层是集数据交换、信息存储、大数据分析挖掘的综合中心。

图1 典型的智慧城市框架图

平台层包括两部分:

(1)大数据系统,是一个高速、安全、可靠、互联互通的支撑平台,实现相关部门业务之间的相互通信,采集、处理及存储分散在各部门的相关数据,形成基础数据库、业务数据库和分析数据库,实现信息共享与交换,并通过智慧挖掘和分析海量数据,为上层业务提供决策支撑关键数据。

(2)云数据中心,建有基础架构云,目前通常采用服务器虚拟化、数据库高可用集群、存储虚拟化、网络虚拟化和网络负载均衡等技术,使软硬件资源得到共享和最大化利用,根据需要提供云基础设施服务等。

本文重点针对大数据系统部分的设计及实现进行介绍。

3.1 大数据系统组成

大数据系统包括数据共享交换子系统、城市基础数据库子系统、大数据挖掘分析子系统。

数据共享交换子系统:负责对外提供的各类共享数据的存储和共享管理;

城市基础数据库子系统:负责存储和管理外部系统及相关基础数据的收集及信息管理;

大数据挖掘分析子系统:负责基于基础的结构化数据和非结构化数据的实时分析处理和大数据海量信息的分析归类,并将最终的分析和挖掘结果提供给共享交换子系统进行数据共享处理。

图2是智慧城市大数据系统与外部系统之间的关系示意。

图2 大数据系统与外部系统关系图

3.2 关键模块设计和实现

3.2.1 数据共享交换子系统

数据共享交换子系统面对的是数量繁多的应用系统,数据来源的种类、格式、存储方式各不相同,需要数据共享交换子系统能适配各种不同的数据来源。在数据提供单位发布共享资源后,对于不同的使用单位,希望获取到的内容不完全相同。

数据共享交换子系统采用分布式架构(如图3),可以多个采集服务器并发工作,不同的服务器可以分别运行不同的数据采集流程。

主控节点(Master):Master端负责任务的创建与分发,并且根据各工作节点(Slave)的执行能力智能预测任务的调度分配,提高资源的利用率,实现系统的负载均衡。

图3 分布式架构图

工作节点(Slave):Slave端负责任务的执行,并且根据资源的情况可以建立多个,所以在逻辑上可以进行横向扩展,并构成了一个分布式运行网络,提供了高的系统性能与系统吞吐量。

工作节点网格(Slave Grid):Slave支持Grid,同一个Grid的Slave可以并行执行相同的任务。

数据共享交换子系统是平台的核心组件[4],实现以下功能:

(1)数据采集:可通过前置机、爬虫、物联网关等采集委办局政务数据、社会众包数据、企业数据、互联网数据、物联网数据。

(2)数据清洗:将各种采集起来的数据进行统一标准、格式转换,保证数据的正确性、准确性,清洗掉冗余数据、过期数据、错误数据。

(3)数据存储:数据经过清洗后,分门别类地存放在城市基础数据库中

3.2.2 大数据挖掘分析子系统

大数据的核心是挖掘业务目标,建立分析模型。大数据挖掘分析采用当前主流的大数据处理和分析技术,对数据进行交叉分析,任意组合,设计业务模型,帮助用户从大型数据集中提取感兴趣的知识。

通常大数据挖掘分析流程如图4所示包括以下六个步骤:

图4 大数据挖掘分析业务流程图

大数据挖掘分析的流程:

(1)业务理解:理解业务目标与需求,将其转化为一个数据挖掘的问题和实现目标的初步计划;

(2)数据理解:对挖掘所需所有数据的调查、收集,并熟悉数据以便鉴别数据质量、洞察数据;

(3)数据准备:将原始数据转换为适合挖掘的目标数据。包括数据清洗、选择、转换;

(4)建立模型:选择多种不同的建模(数据挖掘)技术,通过测试数据验证模型质量和有效性;

(5)评价:评价模型的计算结果是否达到预期?是否有还未充分考虑的问题;

(6)实施:由最终客户而不是数据分析人员来实施。

大数据挖掘分析子系统当前主流趋势是利用Spark在迭代计算和内存计算上的优势,将并行的机器学习算法与统计算法运行在Spark上。至于Spark的实现方式,则是集成MLLib。MLlib 是Spark对常用的机器学习算法的实现库,支持常见的机器学习问题。现有常见的机器学习并行算法和并行化统计算法分别如表1和表2所示。

平台一般还集成RStudio Server。Rstudio是R语言的一种强大而便捷的IDE(Integrated Development Environment集成开发环境),提供基于web的开发环境,同时提供RStudio并行化后台以及并行化执行引擎的连接模块,并将R语言脚本的编写、编译、跟踪执行以及中间变量查看和绘图集于一体,为用户提供了一个强大的R的操作环境。用户除了可以自行编写R语言的程序脚本、调用开源版本R提供了数千个R语言的包和函数之外。

系统需要实现的并行化机器学习算法包括常用的分类、聚类、回归等功能,还会根据需求在平台开发中进一步实现更多的并行化算法,通过将数据装载入分布式内存列式存储,支持对海量数据的交互式数据分析,具备在秒级分析和扫描数十亿条数据的能力。

表1 现有机器学习并行算法列表

表2 现有的并行化统计算法列表

3.2.3 城市基础数据库子系统

城市基础数据一般会经常被政府各部门所使用。城市基础数据库由人口数据库、法人数据库、宏观经济数据库、地理空间数据库及建筑物数据库等五大类数据库组成[5]。

人口库是城市基础数据库之一,是智慧城市必不可少的组成部分,在基础数据库中最具典型性。下文以人口库为例说明建库过程和涉及的信息数据:

(1)数据接收:接收信息来源部门的人口信息;

(2)数据检查清理:对接收到的人口数据进行入库前的检查,包括数据量、数据有效性和数据格式,以确定数据是否符合接受规范;对不合格数据不予入库,并将数据问题反馈给信息来源单位;

(3)数据加载:经过检查符合接受规范的数据装载入库;

(4)数据质量检验和控制:建立发现问题、修改问题的循环回馈机制,逐步提高人口数据的质量。回馈过程包括发现数据问题;分析问题原因;向责任单位发布有关问题,通知其修改;责任单位处理问题数据,返回修改后的数据,要求保留数据质量检验活动的记录和问题数据,作为评估数据源数据质量和各部门工作的依据;

(5)数据维护:建立数据更新维护机制,保持人口基础信息数据的鲜活。根据信息来源和责任归属单位的不同,需要建立不同的维护机制,保证人口基础信息库中的数据与来源数据的一致性、完整性和时效性。图6是数据维护当中,典型的人口库数据比对业务流程图。

4 小结

大数据是智慧城市的智慧引擎。大数据通过对多个维度、多种类数据的记录、挖掘、推荐、分类、关联等智慧处理,使城市的发展有更合理的依据,以便向市民提供方便、精准和快捷的服务。同时大数据建立后提供的高速并行运算、海量数据、更优化的算法共同促成了人工智能发展的突破。

图6 人口库数据比对业务流程图

今年的政府工作报告[6]明确提出:“发展壮大新动能。做大做强新兴产业集群,实施大数据发展行动,加强新一代人工智能研发应用,在医疗、养老、教育、文化、体育等多领域推进‘互联网+’。发展智能产业,拓展智能生活。运用新技术、新业态、新模式,大力改造提升传统产业。”大数据、人工智能作为当前最核心的关键技术,两者的深度结合,必将会推动智慧城市向更高层次迭代。

猜你喜欢

数据系统数据挖掘子系统
不对中转子系统耦合动力学特性研究
探讨人工智能与数据挖掘发展趋势
GSM-R基站子系统同步方案研究
基于Spark的高速收费站大数据系统的设计与实现
基于计算机软件开发技术的物联网数据系统
驼峰测长设备在线监测子系统的设计与应用
非均匀采样数据系统的新型模型描述方法
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
车载ATP子系统紧急制动限制速度计算