APP下载

轨道交通安保大数据平台建设与应用

2020-07-22孙云江易李冰陈华炜杭州中奥科技有限公司

警察技术 2020年4期
关键词:限定词轨道交通标准

孙云 江易 李冰 陈华炜 杭州中奥科技有限公司

引言

我国城市轨道交通的高速发展,在给城市带来新的机遇的同时也给轨道交通安保带来了新的挑战。2018年3月,国务院办公厅发布《关于保障城市轨道交通安全运行的意见》,明确指出城市轨道交通是城市公共交通系统的骨干,是城市综合交通体系的重要组成部分,其安全运行对保障人民群众生命财产安全、维护社会安全稳定具有重要意义。

目前,我国各大城市针对轨道交通安全已经初步建立了一些信息化系统,如视频监控系统、人脸识别系统、指挥调度系统、安检系统、无线通讯系统等,初步具备一定的数据汇聚存储能力。但每个系统独立运行,各系统之间数据共享程度较低,数据的“一次汇聚、多次共享”机制尚未形成,严重制约了轨道交通安保服务进一步的发展。妨碍数据汇聚共享的具体问题表现如下:

(1)各类信息系统烟囱式建设,垂直业务应用系统之间对接难度大,条块分割问题仍未解决,难以互连互通;

(2)缺乏统一的数据标准、接口格式和共享架构,数据调取不畅、应用困难;

(3)数据来源较为单一,缺乏社会数据的融合共享,基础库的数据基本来自于公安,其他委办局数据、社会数据获取困难;

(4)存在数据不全、重复、错误等数据质量问题。

因此,亟需依托大数据技术,构建一套新的从数据接入到数据服务的全生命周期数据处理方法,形成轨道交通大数据平台,为轨道交通安保提供数据及服务支撑。

一、数据中台

数据中台是一套可持续“让行业的数据用起来”的机制,是一种战略选择和组织形式,是依据行业特有的业务模式和组织架构,形成其特有的数据组织标准,通过有形的产品和实施方法论支撑,建立的一套持续不断把数据变成资产并服务于业务的机制。数据来自于业务并反哺业务,不断循环迭代,实现数据可见、可用、可运营。

二、设计思路

(一)统一数据标准

轨道交通系统繁多,各个数据系统数据标准不一致,数据汇聚时的难度增加,数据融合容易形成数据孤岛。数据汇聚后,大量不一致的数据字段、代码集会增加数据分析、数据融合难度,数据无法在大数据平台中流通,因此需要通过大数据平台的数据元、代码集管理模块来统一数据标准,可以对数据元、代码集的结构内容进行编辑、新增、导入、导出等。通过数据对标模块实现数据标准化,数据标准制定流程参见图2。

第一步:标准梳理,结合轨道交通业务数据和已有轨道交通数据标准进行梳理,梳理完后统一维护到数据标准库中,作为基础的标准数据元标准库,为后续数据对标做好准备;

第二步:在数据对标过程中,如果轨道交通的业务数据中无法完成数据元对标,此时对这些内容进行重新标准设计;

第三步:根据数据元、代码集和限定词生成规范设置新的数据元、代码集、限定词。设置好后填写审核申请单,数据标准管理员审核通过生效使用;

第四步:数据元标准管理员对申请的内容进行审核。审核通过后,该内容信息就会纳入数据标准中。

以上工作是一个完整的数据元标准建设过程。而以前数据元标准的建设和对标工作通过人工纸制的方式实现,流程比较复杂,特别是在数据标准对标的时候需要花费大量的人力去验证。

(二)统一数据处理

数据融合处理是为了让数据能够呈现更清晰的数据结构。每一个数据分层都有其作用域,这样用户在使用数据表的时候能够更方便地定位和理解,处理的过程使用数据血缘追踪,避免烟囱式的开发,减少重复投入,形成最大程度的成果复用。通过可视化的数据处理,产出原始库、资源库、主题库和专题库。

(三)统一数据资产管理

数据资产管理是数据中台面向行业提供数据能力的一个窗口,数据资产中心将行业的数据资产统一管理起来,实现数据资产的可见、可懂、可用和可运营。

轨道交通数据复杂多样,数据量庞大,具备PB级别数据规模。如此海量数据,采用完整的分布式部署的数据存储系统,避免服务器故障等情况引起数据丢失。同时针对数据融合计算的需求,采用分布式的数据存储和计算引擎。建设统一资源调度管理系统,高效支持大规模批处理、交互式查询计算、流式计算等多种计算引擎。使用的大数据组件有分布式数据存储组件、分布式离线计算组件、分布式队列组件和分布式实时计算组件等。

(四)统一数据共享

大数据从接入到数据计算、融合提炼数据价值之后,如何赋能业务、给业务系统提供统一的数据服务,并在安全的前提下实现数据共享是非常重要的。

大数据平台通过可视化的方式,构建资源目录和服务目录,以用户需要哪些数据提供哪些数据的思路,完成数据服务API的快速生成。并且形成统一接口规范,规范数据响应参数项和返回参数项,使数据服务更加通用,满足不同系统建设的要求。

1.数据资源目录

数据资源目录参照公安部相关标准要求,结合公交业务管理部门实际情况开展。具体工作内容包括资源库、主题库、专题库的数据资源注册、编目、目录审核、目录接口、数据元信息标注等。

2.数据服务目录

轨道交通警务、安保等业务数据的组织重构和深度加工处理,为上层业务提供统一的数据资源支撑。包括数据资源中心体系中存在的基础库数据、主题库数据、专题库数据、标签数据、关系逻辑数据及其它基础数据集、加工数据集等将以API接口的方式统一封装,根据规则响应业务方的数据请求,为平台下游输出数据资源。

三、大数据平台实现

轨道交通大数据整体架构参见图3。从底往上分成三大平台,其中数据基础平台提供计算、存储和各类计算环境下的公共引擎;数据治理平台搭建了离线计算、实时计算、智能计算、数据资产管理和数据治理功能;数据服务平台则提供智能标签体系、智能轨迹体系、智能关系体系、数据共享服务、数据资源门户,以及基于不同模块的运维体系。

(一)大数据基础平台

大数据基础平台负责对分布式部署的各个组件进行集中管理和使用。该平台提供多样的数据采集能力,能融合各种数据,例如结构化的分析型数据库,以及Word、Excel、文本、图片、模型、视频文件等非结构化数据库。该平台具备海量数据存储能力和多种高性能计算引擎,提供数据开放、工具开放、资源开放等开放平台,为轨道交通内外部用户实现数据分析应用提供了良好的生态环境。该平台提供数据资产管理,具备数据标准管理、数据资产管理、数据质量管理等功能;提供系统运维与监控管理,实现对大数据平台集群进行部署安装、监控告警及日常管理。

(二)大数据治理平台

1.数据标准

数据元管理:实现数据元的增删改查、批量新增、导出操作。实现数据元按照标准,从基础信息(如内部标识符、对象类似、特性词、表示词、中文名称、中文全拼、状态、值域)和管理信息(如提交机构、批准日志、分类方案、计量单位)等角度对数据元进行新增、编辑修改。

限定词管理:实现限定词的增删改查、批量新增、导出操作。实现限定词按照数据标准,从内部标识符、限定词名称、限定词标识符对限定词进行新增、编辑删除。

代码集管理:实现代码集的新增管理。新增代码集包括代码和值域。

通过数据智能对标,数据元管理、限定词、代码集管理可以完成数据标准的统一建设,满足轨道交通数据标准建设的要求。

2.数据处理

各个轨道交通业务系统数据汇聚到大数据治理平台中,数据格式众多、重复率高、无关联、无法反馈出业务属性,数据价值较低。通过数据处理,将这些繁多冗长的数据提炼形成可用好用的数据。数据处理是大数据建设过程中的核心过程,数据处理模块通过轻便、简单的操作帮助轨道交通应用厂商建立数据中心,满足数据融合关联,提炼数据价值。主要的处理手段包括数据提取、数据清洗、数据关联、数据比对、数据标识和数据分发。

3.数据组织

数据合理的组织会产生更大的数据价值,如何根据业务合理组织,是困扰数据建设者的难点。数据组织需要结合行业专家知识,深度解析各类行业下的数据组织形式,通过可视化的操作界面,简单完成数据组织。数据组织主要通过原始库、资源库、主题库、专题库的创建来实现。根据数据处理成果,组织数据资源组织结构。

(三)大数据服务平台

1.数据资源门户

数据资源门户模块集中数据开发服务、数据共享服务、共性支撑工具服务等信息资源,是大数据平台对外提供数据价值成果的窗口,集中化呈现、管理、使用轨道交通信息资源,提供稳定、可靠、高效的数据供给方式,达到数据赋能业务系统的目的。

2.数据开发服务

为了统一的数据安全与数据成果保障,由大数据服务平台统一提供线上数据开发服务,并提供开发环境、测试环境、正式环境,轨道交通的业务开发者可以使用此服务进行数据的业务功能开发、模型开发等,对数据进行定制应用开发。

数据开发服务具备数据资源目录管理、数据开发目录管理、数据任务调试、数据服务调度管理、数据服务日志分析等功能。

3.数据共享服务

数据共享服务通过搭建轨道交通服务总线和API网关,实现不同上层应用对已发布API的调用,实现标准化治理后数据资源的使用。各类轨道交通安保业务系统都可通过API网关获取,API网关提供了API的全生命周期管理,辅助用户简单、快速、低成本、低风险地将数据、业务逻辑或功能安全可靠地开放出来,用以实现自身系统集成及与合作伙伴的业务连接。API网关负责服务请求路由、组合及协议转换,客户端的所有请求都首先经过API网关,由它将请求路由到合适的服务。

4.共性支撑服务

服务平台除了为下游轨道交通业务开发商提供数据开发服务、数据共享服务外,为了更好体现大数据平台赋能能力与体系,提供以下共性支撑服务:

(1)智能标签

标签是通过对用户信息分析而得到的高度精炼的特征标识,而具象到轨道交通标签来说,轨道交通标签模块是对轨交安保数据资源的分类和内容描述,便于各业务单位对数据需求的快速检索和定位。标签模块的价值在于数据的语义化,将用户难以理解的数据意义翻译为容易理解的业务语言,建立数据分类,快速圈定业务所需要的数据。

整体标签体系以轨道交通主题库为基础,中心所有的标签生产都基于轨道交通主题库,支持用户进行自定义标签,将各类关系型数据表直接通过平台注册到标签平台中进行管理,同时用户自定义的标签可以选择共享,建立标签从生产、发布到投入应用的一整套管理体系,共享后可实现轨道交通所有用户共同使用。

(2)数据模型推演中心

数据模型推演中心基于数据治理的成果,提供基于各类数据资源与数据标准体系之上的数据推演计算,为轨道交通业务提供一步数据模型生成的便捷式开发服务。

(3)智能关系

智能关系作为数据治理完成后对数据进行应用展现的关键平台和工具,通过关系模块完成轨道交通对关系人计算模型的具体需求,并且能够按照轨道交通业务需求,动态调整关系计算策略。关系模块支持6层以上的关系挖掘,支持人、案、物等多种实体的关系关联和在线关系计算。

四、应用成效

本文设计的轨道交通安保大数据平台已初步在某市轨交安保工程落地应用。平台具备处理PB级别的数据能力,共接入280多张镜像表共81亿数据量的原始数据,梳理出148张标准表,提供结构化、半结构化和非结构化大数据管理与处理能力,通过数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术的应用,实现了数据对象的数据连接、相似性连接等轨道交通行业数据的融合。对原始数据质量进行自动评估,剔除出30%的重复或者错误数据,并通过数据接口连接市局大数据平台、轨道指挥中心、交通运行协调指挥中心、地铁集团、公交集团等多家轨交业务单位的相关数据资源。

通过研究交集、并集、差集、统计、去重、排序等多种算法组合、编排和流程化,构建了同站进出、同行人员、异常出行、人员轨迹、长期逗留、重点人关系等25种融合公安业务场景的模型算法,利用自动感知与人工判断相结合,提升轨道交通安全指数。对50余种轨交警情数据关键要素进行自动提取和特性标注,2亿条数据记录的精确查询返回时间不超过3秒,实现案事件聚类和智能串并。通过研究基于关键要素和标注信息的自动关联和推理技术,关联出人(乘客票卡信息、身份信息、生物特征信息、手机信息等)、地(车站、站厅、出入口等)、物(安检物品)、事(事件)、组织(业务单位、安保单位、安保指导单位等)等情报信息和历史警情信息,主动预警,提升要素情报的自动感知能力。

五、结语

基于大数据技术,实现了轨道交通安保大数据平台,为轨道交通警务创新数据智慧建设提供了一种思路。通过平台的建设和应用,应对了轨道交通数据复杂、场景多样的现实需求,依托轨道交通不同类型的数据资源,进行数据的统一融合治理与服务,将原有死寂的数据价值挖掘,将智能化数据分析的性能提高,大大提高了公安工作效率和警务效能。

猜你喜欢

限定词轨道交通标准
轨道交通产品CE认证论述
2022 年3 月实施的工程建设标准
高速轨道交通发展趋势
忠诚的标准
美还是丑?
限定词之功能视角研究
——以英汉为例
关系限定词which用法初探
基于焦点信息量化讨论的存现句类型分析
一家之言:新标准将解决快递业“成长中的烦恼”
基于CAN的冗余控制及其在轨道交通门禁环网中的应用