省级交通大数据平台中数据资源规划设计
2023-03-13马继骏肖瑞洁王子昂董佳兵
张 震 马继骏 肖瑞洁 王子昂 董佳兵
(1.郑州大学电气与信息工程学院,河南 郑州 450001;2.河南省交通运输调度指挥中心,河南 郑州 450000;3.郑州大学计算机与人工智能学院,河南 郑州 450001)
0 引言
目前,我国信息化建设总体上处于由网络应用向集约化整合与协同应用过渡的阶段,按照“统一建设、统一管理、资源共享、弹性扩展”的总体要求,统筹交通运输行业业务及其发展趋势,对交通运输行业的数据资源体系进行统一规划,从而确保各业务单位的数据资源有序归集,形成“一数一源、一源多用”的数据管控体系,并打造数据资源中心[1-2]。同时,依托大数据平台来建设交通运输行业的数据交换平台,形成数据服务中心。建设大数据平台数据资源体系[3],加强各类信息间的分析及服务,从而解决交通运输行业信息资源缺乏整合共享的问题。
1 问题分析
1.1 难以及时全面地掌握交通运输行业的运行动态
目前,各省对交通运输行业的业务管理工作,如对企业、车辆、场站、从业人员、运营服务、客运量等的管理,主要采用传统的方式定期开展。数据统计主要以人工的方式下达通知,并以月、季、年为周期进行统计,难以获得每日或实时的统计数据,对异常运力、交通量变化的预警分析能力差,难以准确全面地掌握交通运输行业的总体运行状况。
1.2 交通运输行业信息资源缺乏整合共享,难以有效支撑跨业务、跨行业、跨区域的协同和综合应用
大多数应用系统在建设时只是为了解决领域内某些具体或局部问题,各系统基本上是相互独立的,运政、维修、公路、执法等信息资源分散在省厅及市交委的相关业务局(处)内部,条块分割明显,“信息孤岛”现象严重。由于交通运输的各类信息资源未能进行有效整合和共享,导致相关数据无法协同应用于业务管理工作中,从而造成业务管理工作存在一定的漏洞,导致业务办理效率低下。
1.3 交通运输行业缺乏统一的综合出行信息服务平台
目前,虽然建成了部分信息服务系统,但同一服务信息是由多个APP提供的,造成信息不统一、动态信息服务覆盖范围窄等问题。要加强信息资源的整合利用和数据挖掘分析,在交通信息资源互联互通的基础上,大力建设公众综合出行信息服务系统,为广大乘客提供及时、准确、一站式、全方位的综合交通信息服务。
2 需求分析及建设目标
2.1 需求分析
2.1.1 行业管理部门的需求。①资源整合与行业监管需求。要整合并及时获取运管、执法、维修、公路、城市公交、出租等交通信息资源,为开展相应的统计分析提供数据支撑,从而能及时掌握省内交通行业的宏观运行态势,为行业的监管决策提供依据。②业务协同需求。要实现与省级运政、信用、综合执法等系统的互联互通和道路运输户、车、线、人等数据的共享交换。③政务信息服务的需求。要将掌握的各类交通政务信息资源进行梳理分析,并及时向社会公众发布。
2.1.2 交通运输企业的需求。①业务办理需求。方便办理各类行政许可事项,并通过电话、网站等方式及时了解办理状态和行政许可结果。②场站运营需求。要能便捷地查验到进入客运站的客运车辆、驾驶员及线路牌信息,为客车的安全进站管理提供数据支撑。③客运企业。要能实时获取公路的路况信息、客流信息,以及铁路、航空等运输方式的班次和运输量信息。④地铁运营企业。要及时发布突发事件信息,从而获取应急调度资源的支持。
2.1.3 社会公众的需求。①出行需求。要使公众能够便捷地获取到公交运行信息、航班信息、铁路信息等,便于公众合理地安排出行。②行车需求。能实时显示路况,并发出行车提示信息,优化驾驶者的出行路线,并实时进行路径引导提示。
2.2 建设目标
2.2.1 建成交通运输行业基础性、规范性和战略性的数据资源中心。要全方位掌握交通运输行业数据资源的构成,建设交通运输数据资源的目录体系,从而形成交通数据资源“地图”。采集整合基础性和全行业共享的基础数据,用于构建交通运输行业的规范性基础数据库[4]。实现业务系统数据的按需存取、快速应用,形成行业战略性数据资源的汇聚及治理,建成数据资源中心。
2.2.2 建成交通运输行业数据交换共享与综合分析的服务中心。依托政务大数据平台及行业数据交换整合平台,建成省级全行业统一、权威的数据交换中心,为各厅直单位之间、厅与各厅直单位之间、厅与政府相关部门之间、部省之间的数据交换提供可靠、安全的通道。根据数据管理要求,确保各相关单位按需、有序地依授权进行数据交换。应用大数据技术来分析信息资源,建设大数据应用服务中心,建设综合信息查询服务系统和业务综合分析系统这两个典型大数据应用系统[5]。
3 交通运输行业数据体系设计
交通运输行业数据体系设计包括数据资源规划、数据资源体系设计、数据治理和数据交换等。其中,数据资源规划主要用于识别支撑交通运输行业业务管理所需的数据,并按照数据的实体属性、用途和关联关系,对数据实体进行分析、筛选、聚类、归并[6]。数据资源体系设计是根据数据资源规划的结果,以及数据资源的属性和用途,归纳形成各业务领域的基础数据库、业务数据库、主题数据库和共享数据库,从而实现对数据资源的有序组织和管理。数据治理主要是对数据的获取、处理和使用进行监管,从而确保数据资源的唯一性、准确性、完整性、连贯性和及时性[7]。数据交换主要满足行业内外部门对不同时效(实时和非实时)数据的交换需要。
3.1 数据资源规划
参考交通运输行业“十三五”规划发展要求,以战略思维、全局视野对交通运输信息化的各方面、各层次、各要素进行顶层设计,同时参考银行、通信公司、国家电网等成熟的行业信息化统筹设计方法,对交通运输行业信息化建设进行自上而下的统一信息资源规划,在此基础上将行业数据按照业务本质特征进行组织和优化,从而形成全行业分类清晰、互为支撑、框架稳定、保障有力、适应性当前和未来信息化发展的数据资源框架。
数据资源规划是从公路水路交通运输全行业业务管理和对外服务的角度出发,梳理各条业务线信息化管理和对外服务所需的数据,明确数据组织、采集和管理方式。
业务需求是信息化建设的直接驱动力,公路水路交通运输信息化数据资源规划是基于业务需求分析来展开的,主要体现在以下三个方面。①站在全行业角度,分析全行业所涉及的各条业务线管理流程及业务管理过程中所需的及产生的数据资源。②分析各条业务线在哪些节点与其他业务存在相互关联关系,需要与其他业务线共享哪些数据。③判断当前业务的未来变革趋势,分析变革后的业务需要哪些数据资源。
3.2 数据资源体系设计
数据资源体系是在数据资源规划的基础上,根据数据属性和用途的不同,将其归纳形成服务于各业务应用系统的基础数据库、业务数据库、主题数据库和共享数据库,明确不同数据资源间的组织和管理方式。数据资源体系的设计是为了搭建交通运输数据资源体系框架,制定数据组织、管理、交换的技术路线,为部署在大数据平台上的各业务应用数据资源制定管理规则,不负责具体的数据资源采集、入库和整合。该部分工作在搭建的数据资源框架体系中,由各业务应用系统在建设时按需采集、整合。数据资源体系建设的内容包括数据库设计和数据资源形成。
根据数据特点和应用特点的不同,将支撑当前交通运输行业业务管理和对外服务的数据资源分为行业基础数据库、业务数据库、主题数据库和共享数据库。交通运输行业数据资源体系的总体框架如图1所示。
图1 公路水路交通运输行业数据资源体系总体框架
基础数据库是以各业务局掌握的管理对象属性数据为主,必要时可获取其他部门的相关信息,从而形成关于同一管理对象权威、完整的数据链。例如,驾驶员的基础数据包括驾驶员姓名、身份证号码、从业资格证号、性别、照片、住址、联系电话、经营范围、准驾车型、初领驾证日期等。业务数据是在管理对象基础数据的基础上,随着管理过程的叠加而形成的过程数据。以驾驶员为例,其业务数据包括所属的企业信息、年审信息、稽查信息、信用评价信息、超限或超载处罚信息。根据主题分析维度,通过对基础数据库、业务数据库和行业内外数据的采集、整合,形成主题数据库。主题数据库主要用于对历史数据进行统计分析。共享数据库是为了满足非实时数据交换而建立的数据库,包括行业内共享数据库和行业外共享数据库两部分。
3.3 数据治理
数据治理域是通过对公路、水路交通运输行业的数据资源进行综合管控,从而保证数据的准确性、一致性、完整性、可用性和安全性。数据治理是为了规范数据标准、提高数据质量和保证数据安全而建立的政策、组织、流程、技术保障体系,同时负责大数据平台数据资源运维及大数据分析平台的运维[8]。交通运输行业数据治理域的总体框架如图2所示。
由图2可知,交通运输数据治理的主要内容包括三部分。①治理对象。包括各业务领域形成的基础数据库、主题数据库、业务数据库、共享数据库。②治理支撑。在公路、水路交通运输行业的信息化建设过程中,为保证数据的可靠性和一致性,实现对数据资源的有效管控,要从管控组织、管控流程、管控工具和评价考核出发进行建设,四项工作内容相互作用、相互支撑。③治理任务。主要是实现数据治理的具体途径(方法),包括数据资源目录与数据管理系统、数据标准符合性检测系统、数据质量审计系统、数据交换管理系统、数据共享管理系统、数据开放管理系统。
图2 交通运输行业数据治理总体框架示意图
3.4 数据交换
数据交换负责行业内不同层级部门间跨部门的数据交换,解决跨部门、跨业务的数据共享,包括实时数据交换、非实时数据交换[9]。为了满足大数据平台建设中所涉及的跨区域、跨行业、跨部门间的互有共享交换信息资源的需求,通过建立数据交换共享机制,形成系统间的数据共享[10]。交通服务大数据平台对内、对外的数据交换共享服务从实现逻辑上来说,主要分为非实时数据交换,如人、车、户等基础信息的交换,以及实时数据交换,如车辆的位置、速度信息等业务数据。非实时数据交换采用数据交换与整合系统,实现数据的自动提取与转换。实时数据交换采用ESB(Enterprise Service Bus)企业服务总线技术来实现,通过消息服务的方式来实现不同应用间的通信与实时数据建设的整合[11]。
3.4.1 数据采集。①数据采集要求。应用系统数据采集时要遵循谁的业务管理范畴谁采集,谁采集的数据谁负责审核和录入,以及一数一源、一源多用的原则。应用系统数据采集要符合《交通信息基础数据元》及相关应用系统的标准规范。应用系统主要依托智能设备、移动终端等载体,并以信息化的方式对交通数据资源进行采集。②数据更新要求。应用系统数据更新要遵循“谁采集、谁更新”和“增量更新”的原则,按照相关技术标准将更新或新增的数据进行数字化和结构化处理后,同步更新和共享。
3.4.2 数据交换技术实现流程。交通运输行业应用系统的数据交换包括数据推送或拉取、数据传输、数据清洗(第一次)、数据入库、数据共享、数据清洗(第二次)、数据建设等环节。交通运输行业应用系统数据交换的总体框架如图3所示。
图3 交通运输行业应用系统数据交换总体技术实现流程
①数据推送。原则上,数据提供单位要按需抽取可共享的数据资源,并主动推送给数据交换前置机。也可按数据使用单位的数据使用需求,将源数据库按需镜像成数据子集或定制成用户视图,由数据使用单位推送到交换前置机。交通运输行业数据提供单位要共享交换的数据资源目录。数据提供单位要提供数据交换信息表,并配合大数据平台运维单位,通过比对数据交换信息表和实际数据交换情况,来验证数据的完整性和正确性。②数据传输。大数据平台运维单位依托全省交通运输行业统一的数据交换与整合系统,将前置机上可共享的数据资源传输到大数据平台原始库中。大数据平台原始库作为数据提供单位,可提供共享数据资源的副本,其数据结构与数据提供单位的源数据结构一致。在数据交换过程中采用HTTP传输协议。③数据清洗(第一次)。大数据平台运维单位负责对原始库中的数据进行初清洗,包括去重、去脏数据,并基于交通信息基础数据元标准和应用系统相关数据资源标准规范,对共享数据进行标准化处理。④数据入库。大数据平台运维单位负责对初清洗的数据进行入库,从而形成省级层面的标准化、“一数一源”的基础数据库和业务数据库。⑤数据共享。大数据平台运维单位按照数据使用单位授权的数据共享需求,负责将清洗后的基础和业务数据按需抽取到数据共享区。⑥数据清洗(第二次)。主要对没有相关数据元标准,且各相关单位有共同需求的数据资源,由系统开发商按需抽取共享区数据,按照业务应用系统的使用要求进行第二次数据清洗,从而形成各自业务应用系统业务数据库。⑦数据建设。对变化频繁、时效性较强的交换共享数据,由应用系统开发商按照ESB企业服务总线要求将数据以服务的方式定义成接口,以便数据使用单位按需调用。通过网络传输连接认证、传输过程数据加密处理等方式来实现数据建设安全。
4 结语
通过建设大数据平台数据资源体系,能有效解决交通运输行业各系统间的“信息孤岛”问题。交通运输行业数据体系设计包括数据资源规划、数据资源体系设计、数据治理和数据交换。数据资源体系是在数据资源规划的基础上,根据数据的属性和用途的不同,将其归纳形成服务于各业务应用系统的基础数据库、业务数据库、主题数据库和共享数据库,明确不同数据资源间的组织和管理方式。数据治理域是通过对公路、水路交通运输行业数据资源进行综合管控,保障数据准确性、一致性、完整性、可用性和安全性。数据交换负责行业内的不同层级部门间跨部门的数据交换,解决跨部门跨业务的数据共享问题。