“智慧庐警”基础设施建设
2018-10-17合肥市公安局信息中心刘跃雍其江安阳
■ 文/ 合肥市公安局信息中心 刘跃 雍其江 安阳
关键字:基础建设 云计算 大数据 超融合 双活
1 引言
随着IT技术的不断发展,信息化已经成为提升广大公安干警战斗力的重要手段,对警务运作、公安执法、队伍建设等方面产生了重要影响。随着“智慧警务”的建设推进,公安信息化面临着如何应用和管理好当前的设备资源、数据资源和应用资源的严峻考验,而云计算、大数据技术的出现及应用,为公安信息化带来了整体变革的机遇。
为全面落实国家大数据战略部署和公安部关于大力实施公安大数据战略的要求,合肥市公安局(以下简称合肥市局)以党的十九大精神为指引,按照国家大数据战略部署,全面贯彻落实全国、全省公安厅局长会议精神,深入推进新时代公安信息化工作改革创新,以科技改革新理念提出新思路,以科技应用新服务完善新机制,以便民利民新举措解决新问题,大力推动警务机制改革与现代科技手段的深度融合。合肥市局主动适应大数据、云计算高速发展的新形势,狠抓基础设施建设,以数据标准化治理为抓手,以实战应用为导向,构建以“数据公安、智慧庐警”为重点的现代化公安科技建设新格局,有力提升了平安合肥建设和社会管理服务智能化水平。
2 整体架构
基础设施是信息化的基础,合肥市局以《公安云计算平台框架指南》为指导,运用云计算、大数据技术与服务架构,建设了“敏捷、高效、安全、可靠、节能”的警务云数据中心,整体架构如图1所示。
在基础设施层,合肥市局实现了硬件资源的整合与共享,将分散在科信和各业务部门的计算资源、存储资源、网络及安全资源整合迁移到云端,为公安信息化建设和应用提供公共的技术环境和服务支撑,满足跨部门、跨层级信息共享的需要。
在硬件整合的基础上,将基础设施划分为数据库、大数据、超融合和虚拟化四个资源池。数据库资源池满足Oracle数据库的业务需要,采用物理服务器Rac和存储双活部署。大数据资源池基于Hadoop架构,搭建统一的大数据平台,汇集公安网内外部海量信息资源,强化情报智能研判,提供全方位的信息资源服务支撑。超融合资源池部署在数据接入区,承载数据接入、摆渡、预处理等业务。虚拟化资源池为各类业务应用提供弹性的云主机和云存储服务,采用X86服务器和双活存储来承载。
图1 合肥市公安局数据中心整体架构图
在四大资源池的基础上,数据中心可以提供云主机、弹性伸缩、弹性负载均衡、VDC、离线处理、实时分析、交互查询、实时检索等服务,支撑超级搜索、超级档案、超级模型、超级人像等应用。整体架构强化了安全技术体系和安全管理体系建设,全方位保障警务系统的可靠运行和信息安全。为降低管理难度,提升运维效率,建设了统一的数据中心资源服务系统和运维管理系统,对IT设备进行统一、规范、自动化的管理、监控和维护,降低运维管理难度。
3 硬件基础与资源池化
在硬件基础层,合肥市局采用了FC-SAN存储、超融合架构的X86计算集群、通用X86服务器集群构筑计算、存储资源,同时采用高性能、高可靠的网络和安全设备,为数据中心提供稳定可靠的带宽通道和安全防护。
3.1 数据库资源池
合肥市局目前大量业务使用的都是Oracle数据库,由于数据库具有高IO、高计算、高可靠的特点,因此采用高性能物理服务器来承载。传统的部署模式下,普遍采用IBM Power小机承载数据库业务,但小机架构封闭且购置成本、维保成本高。同时,X86服务器的性能目前已经不输小机,Linux操作系统在稳定性和可靠性上都已非常成熟,采用X86服务器替换IBM小机成为了趋势。合肥市局目前主要采用高性能X86服务器承载数据库。为避免单点故障,采用服务器RAC组网。
在数据存储层面,采用两台存储使用阵列双活功能组建免网关双活,两端阵列的数据可实现实时同步,同时处理读写请求,面向上层应用提供相同的并行访问能力。任何一台磁盘阵列故障时,业务自动切换到另一台存储访问,保障数据不丢失、业务不中断。
3.2 大数据资源池
合肥市局大数据资源池承载了公安数据管理,为上层公安应用提供数据支撑。它统一管理、集中存储了公安的各类数据,保证数据质量,同时提供多种数据计算引擎供应用选用,以更好挖掘数据价值。
大数据平台提供的能力具体包括:
1)分布式数据存储:提供分布式文件系统HDFS、HBASE、MPP DB能力,同时提供搜索引擎(SOLR)能力,满足存储各种类型海量数据的能力,具备对数据进行快速查询和检索的能力。
2)分布式资源管理和协同:提供分布式计算任务调度和协同,能够有效隔离不同租户的分析计算任务,并进行统一的资源调度和运行监控。
3)分析处理能力:提供批处理(MapReduce)、内存迭代计算(Spark)和流处理框架(Storm)多种计算引擎,同时面向领域的分析语言,具备对结构化、半结构化和非结构化数据进行多层次处理的能力,具备离线计算、流式计算、实时分析和机器学习等能力。
4)数据采集和集成:通过Loader,提供批量的结构化和非结构化数据采集和集成能力。通过Flume,提供流式数据采集和集成能力。大数据平台具备接入和迁移各种类型海量数据的能力。
5)系统管理: 提供可视化的运管工具,运行维护简便,用户经过简单培训应能自主完成日常运维和节点变更等操作。
大数据平台总体逻辑结构如图2所示。
图2 大数据平台总体逻辑结构图
3.3 超融合资源池
超融合资源池主要部署在数据接入转发预处理区,民政、交通、空管、社保等数据在此区域进行数据交互,临时接入需求较为频繁。存储整体数据量不大,但对灵活性和弹性要求极高。基于此,需要提供一种便捷的、资源可弹性部署、按需获取的存储模式,能按需提供丰富的访问接入支持,可快速进行扩展,降低TCO。
鉴于以上需求,合肥市局采用超融合部署模式,使用专业软件,将服务器上的空闲硬盘利用起来,组成分布式存储资源池,提供数据服务。
3.4 虚拟化资源池
合肥市局使用专业软件搭建了虚拟化资源池,将x86服务器虚拟化为多台虚拟机,用户可以在这些虚拟机上安装各种软件,挂载磁盘,调整配置。在业务数据存储方面,同样采用两台存储阵列组成双活,保障业务不中断,数据不丢失。
虚拟化资源池具备以下主要特点:
1)高性能。在计算虚拟化上,提供CPU调度优化,实现软实时调度,降低CPU响应延时和CPU cache失效,提高任务实时性。在I/O虚拟化上,采用高效的“前后驱”通信技术,减少CPU模式切换和内存拷贝带来的开销,同时充分利用硬件辅助虚拟化技术,提供VMDQ和SRIOV特性,减少中断次数和内存拷贝,提高虚拟机IO性能。
2)低成本。在计算虚拟化上,提供内存气泡、内存零页共享和内存交换技术,并通过智能复用以上三种技术提升内存复用比,在同等内存资源条件下可提升虚拟机密度,降低硬件(内存)采购成本。在存储虚拟化上,采用存储链接克隆、存储瘦分配技术,减少对虚拟磁盘的过度调配,可节省或延迟存储设备采购时间,降低硬件(存储)采购成本。
3)高可用性。提供虚拟机热迁移技术,可将业务无中断的迁移到其他物理机上,支持VCPU、VMemory、VDisk、VNIC的热插拔功能,减少系统计划内宕机时间,同时提供虚拟机的热备份技术,确保业务数据的运行安全和灾难恢复。
4)高安全性。实现严格的操作权限控制、服务裁剪、网络端口扫描和访问控制、病毒入侵检测和防护、系统风险扫描和预警等。虚拟防火墙可提供灵活的安全访问策略配置,结合提供虚拟机安全组和VLAN技术,实现多层次安全纵深防御。
5)可管理性。提供虚拟机运行状态查询能力、虚拟机动态调整能力及虚拟机远程安装部署能力,支撑虚拟机大规模运维管理。提供“黑匣子”技术,在系统出现异常或宕机时自动存储VMM内核日志、系统快照、内核诊断信息及“临终遗言”,并保存至非易失性存储设备或自动传送至网络服务器。提供 CPU、存储、网络的QOS功能,支持进程级的资源优先级控制,确保关键应用或虚拟机获得所需的服务器资源,提高用户的使用体验。
6)开放性。扩充业界标准接口Libvirt作为VMM管理接口,提供对外开放接口,开放部分平台VMM功能代码,具有广泛的兼容和生态链支持。
4 服务能力
在资源池划分的基础上,合肥市局数据中心将信息化能力包装成服务,以便更好地支撑应用和各警种使用需要。
4.1 云主机服务
云主机是一种可随时自助获取、可弹性伸缩的云服务器,具备高可靠性、高安全性、高弹性、易用性等特征,可实现自动漂移、数据多副本、支持备份恢复。支持VPC、WAF、漏洞扫描、Anti-DDoS,支持横向纵向弹性、灵活自动伸缩策略。具备统一管理控制台,可有效简化运维管理。可提供通用型、高计算型、GPU型、内存优化型、密集存储型等多类计算资源,搭配通用IO、高IO、超高IO等不同类型的存储硬盘。
4.2 弹性伸缩服务
弹性伸缩服务可根据用户的业务需求和预设策略,自动调整计算资源,保证资源的有效利用。支持定时、周期、动态等多种策略配置,可按策略自动增加和减少弹性云服务器,并同步至监听器。系统可以自动检测实例运行状况,自动移除不健康实例,并启用新实例,提供伸缩组内整体的监控图表及伸缩变更视图。
4.3 弹性负载均衡
弹性负载均衡可自动进行访问流量分发,提升应用系统的服务能力,实现更高水平的应用程序容错性能。系统采用冗余设计,能够自动移除异常节点,并将流量向正常节点重新分发,保障业务的高可用性。弹性负载均衡实现了与弹性伸缩服务无缝集成,可以根据实际流量自动扩展处理能力,自动满足变化的流量需求。搭配弹性伸缩服务和云监控服务,在保证低成本同时,提供弹性可扩展的应用架构,满足业务快速扩张需求,同时有效消除了单点故障,提高了可用性。
4.4 VDC
VDC是指在一个物理数据中心内划分为多个虚拟数据中心,每个虚拟数据中心均包含一定的计算、存储和网络资源,VDC可按照不同的警种和业务部门进行划分。部门或组织可以通过申请虚拟数据中心一次性获得批量计算、存储和网络资源配额,在资源配额下限,VDC管理员可以自由支配计算、存储和网络资源。一个完整VDC包括配额、用户、资源、服务目录、网络、模板。
配额:配额用于限制VDC能够使用最大资源上限,由VDC管理员向全局业务管理员申请VDC时获得。
用户:VDC下包含两种角色用户(VDC管理员和业务用户),VDC管理员负责VDC下的用户管理。
VPC:虚拟私有云,是一个逻辑隔离的网络环境,包括网络、安全组、ACL、VPN等子功能。
服务目录:服务目录显示VDC用户可以申请的服务列表,VDC管理员可以结合部门、组织特殊需求,自定义VDC服务目录。
资源:用户申请的服务资源,包括云主机、云磁盘、应用等,用户可以对资源进行维护和监控。
模板:包括应用模板和虚拟机模板,VDC用户除了可以使用全局模板,也可以创建VDC私有应用模板和虚拟机模板。
4.5 离线处理
离线处理,通常是指对海量数据进行分析和处理,形成结果数据,供下一步数据应用使用。离线处理对处理时间要求不高,但是所处理数据量较为庞大,占用计算存储资源较多,通常通过MR、Spark作业或者SQL作业实现。离线处理平台主要用来进行数据处理和加工,将原始数据加工成明细数据以及进行离线分析和碰撞分析产生分析结果数据,供上层应用调用。
4.6 实时分析
实时分析通常是指对实时数据源进行快速分析,迅速触发下一步动作的场景。实时数据对分析处理速度要求极高,数据处理规模巨大,对CPU和内存要求很高,但是通常数据不落地,对存储量要求不高。实时处理,通常通过Storm、Spark Streaming或者Flink任务实现。
4.7 交互查询
通常是指对数据进行交互式的分析和查询,查询响应要求较高,能够实现人机之间交互,查询通常比较复杂。交互查询的数据通常已经被预处理过,按照适合交互查询的数据模型进行组织。交互查询数据量巨大,对CPU和内存要求很高,对于存储要求也很高。
4.8 实时检索
实时检索,通常是指数据实时写入,对海量数据基于索引主键实时查询,查询响应要求较高,查询条件相对比较简单。查询条件复杂的可以根据关键词在全域数据中通过索引搜索主键后,通过主键查询。全域数据既包含了结构化数据又包含了文本数据。
5 应用支撑
合肥市局通过分析研究,依托警务云基础硬件、数据和服务能力,根据警种的职能需求,打造了超级搜索、超级档案、超级模型、超级人像等一批专业大数据示范应用为代表的系统,深入挖掘海量数据之间关联关系和数据价值,进而提升警种的专业化水平。
5.1 超级搜索
合肥市局开发了类似百度搜索界面的超级搜索应用,通过关键字进行跨库检索、文档解析、数据查询的超级搜索,以人员、车辆、案件、号码为主题,将人、车、案件相关信息集中展示的超级档案,通过设定条件规则,优化数据分析,进一步挖掘信息线索的超级模型。基于SOLR索引库,实现全量数据的一键核查、智能搜索,搜得全,搜得快,搜得准。之前民警需要跨多个系统和平台耗费几十分钟才能获得的结果,在超级搜索中可以一次性获取,数据(治安、刑侦、交管、出入境等非涉密警种数据以及网安、技侦等部分基础类)一搜尽搜,百亿条数据,秒级相应。
5.2 超级档案
合肥市局将数据以人、车、案、电话为主题,建立四大类档案,并在此基础上,开发基于常住人口数据、迁入迁出历史轨迹数据、实有人口数据、婚姻数据等构建的64类家族关系模型;在传统同行同住关系基础上进行扩展,增加同连WIFI热点、同虚拟身份等关联方式的社会关系模型;针对没有直接关系的人员进行社会关系人重合度分析,判断认识可能性的潜在关系模型;根据关系亲密程度,赋予不同分值,计算人员关系的亲密度模型;在七类重点人员细分的基础上,扩充违法嫌疑人、流动人口、上网人员、传销人员等近20种标签,方便民警快速判断人员基础属性的标签模型;对航班、铁路、旅馆、网吧等同一空间内关系人、重点人、相邻座位人员信息进行可视化展示的空间模型等六大类数据模型,实现数据威力倍增。基于SOLR索引库、HBASE关系库、FASTDFS文件库,将分散在各个业务表中的信息组织成有条理的、易阅读的档案化数据。实现基础资料一览无遗、活动轨迹准确鲜活、人员关系智能推荐。
5.3 超级模型
基于MPP DB库,研发了超级模型应用,对基层民警的办案经验进行总结提炼,构建接处警分析、涉毒分析等8大类60余个战法模型,深层次挖掘分析数据价值。民警根据侦查办案需要,可以从海量数据资源池里方便的选取数据、自由设置条件,实现复杂的碰撞比对和深度研判,让普通民警能够简单地玩转数据。
5.4 超级人像
基于Spark和机器学习技术,打造了超级人像应用,该应用汇集了常住人口、实有人口、重点人员、扒窃人员等15类照片库3600余万张照片,人像比对快速高效,在服务群众和侦查破案中发挥了重要作用,极大的提高了公安机关快速判明人员身份的能力,成为执法执勤民警的利器。
6 统一运维与安全
合肥市局秉承“敏捷运营、精简运维”的理念,对统一运维平台做了如下设计:
1)监控调度:包括云平台相关基础设施、支撑网络和对云平台7*24小时实时监控,对各系统运行状态实时关注。
2)安全运维:包括云平台整体安全策略制定,安全巡检和审计,安全事件处理,安全扫描和预警,安全加固和系统优化。
3)网络运维:包括云平台涉及的网络监控、告警,对于网络的故障更换,提供云平台相应的变更保障,确保生产业务按计划迁移及恢复。
4)硬件运维:包括云平台涉及服务器硬件的监控、告警,配合服务器进行异常处理。
5)系统运维:云平台管理节点操作系统部署、带外管理部署、系统监控、日志检查和诊断、补丁升级。
6)系统运维支持:云平台镜像制作、工具部署、系统故障诊断和解决。
7)云平台运维:云平台自身涉及软件的日常操作,监控管理,故障排查诊断,补丁升级等工作。
为了保障警务云数据中心的安全,必须有一个完整的安全架构。合肥市局从分层、纵深防御思想出发,从物理安全、基础安全、虚拟化安全、网络安全、安全域划分与网络隔离、边界防护六个方面展开安全建设。
物理安全是指对数据中心物理接入的物理管控,通过规章制度、机制的执行来管理人员进出以及事后审计。基础安全是指通过系统加固、防病毒和安全补丁等措施防范安全威胁。虚拟化安全是指在虚拟机和主机、虚拟机和虚拟机之间实现安全隔离,部署基于主机的虚拟防火墙/IDS/IP,预防内部虚拟机之间的恶意攻击。网络安全主要从网络隔离、攻击防护、传输安全等角度防范DOS攻击、数据窃听和篡改等安全威胁。安全域划分与网络隔离主要是通过网络划分、隔离手段实现计算、存储、管理、接入等域的隔离。边界防护可以提供实时的入侵检测,通过与防火墙联动等方式进行报警及动态防护。
7 结语
通过基础设施整合,结合大数据技术的发展与应用,合肥市局紧扣公安实战,创新工作机制,在顶层设计、资源整合、分析使用和服务实战上做足功夫,深化以大数据应用为核心的基础信息化建设,以此来促进公安机关警务改革、提高公安机关打击犯罪、预防犯罪和控制犯罪的能力,大幅提高公安机关治安行政管理的能力和效率。
未来,如何进一步让基础设施架构贴近实战,服务实战,将是合肥市局信息化的重要研究方向与发展目标。