面向TOCC的交通数据元标准化研究
——以长沙市为例
2023-02-18陈谏滔
刘 宏,郭 芊,2,陈谏滔,2,张 锦,3
(1.湖南师范大学 信息科学与工程学院,湖南 长沙 410081;2.长沙市智慧交通发展中心智慧交通关键技术研究联合实验室,湖南 长沙 410023;3.长沙理工大学 计算机与通信工程学院,湖南 长沙 410114)
0 引言
信息技术的发展促使数据总量呈指数级增长,数据的市场要素地位越来越凸显。Google 董事会主席埃里克·施密特(Eric Schmidt)指出,人类社会在2003 年通过书面记录共创建了5EB(1 018 字节)数据,到2013 年,仅用10min即创建了5EB 数据。随着数据规模的快速增长,数据的重要性已经发生了根本性变化。因此,对海量数据的深度挖掘与有效利用将促进不同行业生产效率的提高。
长沙市交通综合运行协调和应急指挥中心(Transportation Operations Coordination Center,TOCC)是交通信息化建设的基础工程,也是市级综合交通运输协调体系的重要组成部分。随着TOCC 项目的建设,长沙市交通行业数据实现了大汇聚、大集中,并借助局级二级部门和局本级信息化建设,形成了长沙市市级交通大数据。交通数据的运用不仅能为优化运输结构、提高运输效率提供参考,而且能为行业管理与决策提供辅助分析功能,具有很高的经济价值和显著的社会效益。但是,目前由于各级交通信息系统建设时间先后不一、标准不同、数据多而散乱、数据多源异构现象明显,且“信息孤岛”问题严重,海量交通数据一直未得到有效利用。长沙市作为湖南省省会,在交通复杂度更高的同时,也面临上述问题,这些问题的存在致使TOCC 系统无法全面、有效地分析各类交通数据。
数据标准化是信息资源整合的基础,标准化交通数据不仅有利于交通行业内数据交换与共享,而且通过统一的数据管理可减少数据冗余、降低维护成本,并能更好地利用交通大数据。数据元是数据的基本单元,科学、规范地建立数据元标准可以从根本上实现数据规范与统一。如何获取数据元是关键的一环,数据元提取方法有多种,常见的4 种分别是:通过已有信息系统直接提取数据元、通过自顶向下的业务分析分解提取数据元、通过自底向上的业务流程整合提取数据元、通过用户视图提取数据元。
交通部出台了交通行业标准[1](JT/T 697 交通信息基础数据元),该标准是一个国家层面上的标准,但由于我国幅员辽阔,不同地区针对交通不同领域的侧重点不同,往往存在一些特殊情况。例如,有些城市水域不发达,水路相关数据元则不属于重点探讨范畴。因此,对长沙市交通数据元标准化的研究,不仅要以国家行业规范、标准为基础,而且需考虑城市实际情况,制定具有本市特色的交通信息数据元体系。
1 相关工作
数据标准化的重要性不言而喻,但在实际应用中,重建设、轻实施的情况屡见不鲜,其原因主要是数据标准化的收益是长期性、系统性的。例如,在项目建设期间,项目建设方可以通过硬编码方式实现数据转换,保证系统对数据访问的一致性,但随着系统建设完成进入运维期,由于系统之间互联互通、数据层面各种数据类型增加、数据库表更新迭代等原因,会导致数据不标准的现象频繁发生。
国际上发达国家开展数据元标准建设较早,从20 世纪60 年代末开始,国际上一些学者对基础数据元理论方面进行了探讨,具体研究大致可分为3 个阶段:①1965-1970 年,起步阶段。1965 年,国际标准化组织(International Organization for Standardization,ISO)成立了“数据元及其编码表示”工作组(TC97/WG-K);②1970-1988 年,发展阶段。1970 年,在柏林会议上将“数据元及其编码表示”工作组更名为“数据元表示法”工作组(TC97/SC14),TC97/SC14通过全面调研制定出相关数据元表示法的国际标准;③1988 年至今,推广应用阶段。随着信息产业的迅速发展,越来越多组织开始进行数据元标准化研究,ISO 和国际电工委员会(International Electro technical Commission,IEC)成立了信息技术标准化联合技术委员会,编号为JTC1,“数据元表示法”工作组的代码随之更改为JTC1/SC14。JTC1/SC14 制定并发布了相关标准,例如ISO/IEC 11179《数据元协调标准》、ISO/IEC TR 9789《信息技术——数据交换数据元素的组织和表示指南——编码方法和原则》。
我国数据元建设工作相对于国外起步较晚,但是发展迅速,整体成就较为可观。1983 年,我国正式成立计算机与信息处理标准化技术委员会数据元表示分技术委员会。除国际上已有的ICS 分类标准外,中国也有了自己的CCS分类标准。我国标准化委员会发布了多项数据元标准,例如GB/T 18391 系列的关于数据元的标准、GB/T 7027 信息分类和编码基本原则与方法等。针对交通行业也制定了相关标准,例如GB/T 18731 干线公路定位规则、GB/T 919-2002 公路等级代码、JT/T 697 交通信息基础数据元、GB 11708桥梁命名编号与编码规则等。
在数据元标准化以及数据元提取方面,Shepherd 等[2]对英国4 个公共部门进行案例分析,发现了数据冗余、数据不一致、数据不规范等问题,相关数据缺乏共同的数据元标准;欧阳毅等[3]对面向信息系统需求的数据元提取方法进行研究,对其进行总结与归纳,并对几类常用抽取方法的特点进行对比;杨喆等[4]参照信息模型(Reference Information Model,RIM),依据我国相关数据集以及数据元标准内容构建卫生数据概念模型,并依照模型中的类、属性和数据类型元素提炼通用数据元;陈军[5]结合“自上而下”的业务建模和“自下而上”的既有线路数据分析提取城轨线,并围绕数据元描述规则,规范数据元属性以及属性的表示规则,最终建立城轨线网数据标准网;严菁等[6]首先介绍了数据元结构与基本属性,然后在此基础上说明数据元的提取方法,从表单数据及业务流程两方面分析数据元的结构与属性,并提取数据元;周俊烨[7]为了构建图书馆、档案馆和 博物馆(Libraries Archives and Museums,LAM)数字资源整合模式,提出在实施时需要注意用户交互模式、开放许可标准、关联数据维护、现有数据转换等问题;傅昊阳等[8]介绍了中医治未病信息数据元的相关概念,阐述并实施中医治未病信息元标准编制,包括信息数据项收集、概念数据模型研究、数据元提取方法以及数据元规范化、编码等。
在交通领域数据标准化方面,张绍阳等[9]为了改进现有交通信息基础数据元基于业务领域的分类组织造成的冗余问题,提出并建立了交通信息基础数据元层次结构模型,该模型将交通信息基础数据元划分为基础数据元、抽象数据元及标准规定数据类型3个层次,并对中国交通运输数据标准编制与管理现状进行分析,将交通运输数据标准分为管理标准、数据定义标准、交换标准和接口实现标准4类,分析了数据在产生、存储、交换以及应用环节的标准化需求,并与编制现状进行对比[10];邹岩鹏[11]针对云南省交通数据提出数据元标准化编制方法、数据元命名与分类方法,通过基于业务流程和基于用户视图的两种数据元提取方法,结合省级交通运输行业信息资源数据中心应用框架研究,提出交通运输数据标准的两种分类以及4 种规范标准的编制方法,用于规范和指导交通运输数据标准研究与开发;陈伟[12]对新疆交通运输行业内数据治理现状进行梳理与分析,从数据标准入手,研究基础数据元分类方法,并建立3 层数据元结构,以解决基础数据元存在的重复、冗余问题,同时设计并实现数据管理平台,达到数据标准统一化、数据规范化以及数据质量可控化的目的。除交通领域外,其他行业的数据标准化问题也非常明显,许多学者针对不同领域开展了相关标准化工作。刘丽等[13]针对国土资源数据库命名缺乏整体协调统一的问题,结合国土资源数据的重要特征,推荐了两类命名规则,使不同时间、不同业务、不同空间上的数据命名达到标准上的统一;许潇文等[14]从政务数据共享政策部署出发,深入研究政务数据共享的总体现状,探讨推进政务数据共享标准化的必要性,为政务数据共享工作提供新思路;高婷等[15]设计并实现了气象相关行业间共享数据的标准化处理流程,建立行业间共享数据的标准化数据集。
从目前研究现状不难发现,数据元标准化是各行各业都需要进行的一项工作,有利于保证数据传输与数据交换的规范性,从而保证数据质量和数据利用的高效性。本文的数据元标准化工作建立在长沙市TOCC 平台上,采用更全面的方法提取数据元。由于数据元之间是互联互通的,故基于数据元之间具有网状结构这一特点,本文针对业务流程数据元采用深度优先算法[16-18],针对用户视图数据元采用广度优先算法[19-21],以更好地获取数据元。
2 长沙市交通行业现状
长沙市交通运输局通过交通专网实现了长沙市辖区内重要车站、港口、码头、公路等交通场所的视频监控信号接入,基本实现了对重点场所、设施的实时监控。全市所有公交车都已实现了视频监控100%覆盖,所有在营运出租汽车也已安装了GPS 卫星定位设备,设备的完善从某方面来说代表着数据类型增多以及数据量增大。现从以下几个方面分析长沙市交通行业现状:
(1)公路现状。长沙市是湖南省公路网络最密集的地区之一,目前已形成以长沙为中心,通达全省各地市的干线公路网络。随着道路通行能力提高,运输市场呈快速发展态势。到2021 年,公路旅客运输量平均每月可达100 万人,旅客周转率平均每月可达7 000 万人;公路货物每月平均运输量约1亿吨,每月平均周转量可达68亿吨。
(2)水路现状。长沙市位于湘江干流下游,长沙港是我国中部地区重要的水陆交通枢纽,已与长江沿岸各大城市通航,是全国28 个内河的主要港口之一。现码头主要分布在霞凝港区、暮云港区等10 个港区,除霞凝港区以集装箱、件杂货运输为主外,其余港区主要为当地城镇及周边地区发展服务,以矿建材料运输为主。2021,长沙水路货物每月运输量约为200 万吨,旅客每月运输量约1 万人,长沙的港口货物总吞吐量每月平均约为280 万吨,其中外贸货物月吞吐量约为10万吨。
(3)城市公共交通现状。截至目前,长沙市公交车运营车辆共有7 575 台,其中纯电动车辆5 256 台,油电混合车辆2 319 台。市内公交线路共计291 条,线路总长度为5 584.09km;共有出租车8 370台,日客运量最高可达50多万人次;针对网约车已建设了长沙市网络预约出租汽车监管信息交互平台,对经营者、车辆、司机人员等进行全面监管;共享代步车行业发展迅速,成为仅次于公交、地铁的第3 大城市出行方式,其具备实时定位和精确查找功能,加装带有车载卫星定位与智能通讯控制模块的智能锁。长沙城市轨道运营线路现共有6 条,其中包括5 条地铁线和1条磁浮线,总里程为161km,轨道站点总数102个。2021年4 月29 日,长沙地铁开通载客运营7 周年,运营线路长度突破至161.02km,运营车站增加至114 个,累计安全运营2 557 天,运行4 800 余万km,准点率99.9%,运行图兑现率99.9%,且运营以来创下单日285.12万人次客流的纪录。
3 数据元属性
数据元(Data Element)是指用一组属性描述其定义、标识、表示和允许值的数据单元,在特定语义环境中被认为是不可再分的最小数据单元。数据元规范是指一个对各行业数据进行规范的方法或理论,可使用该规范对行业数据的名、型、值定义及分类进行统一。数据标准是指在一定语境内对数据进行规范化地定义与解释,使相关人员都能对数据信息形成一致的认识和理解。数据元属性包括数据元名称、英文名称、中文全拼、数据元分类编号、数据元类型、数据元格式、版本、注册机构、定义、值域、计量单位、备注等。本文着重探究其中4 个重要属性,分别是数据元名称、数据元分类编号、数据元类型、数据元格式。
3.1 数据元名称
数据元名称是单个或多个中文字词的指称,其命名应该遵循3 个规则:①唯一性原则。在一定语义下的数据元名称应该是唯一的;②语义规则。数据元名称中一般包括对象类词、特性词、表示词或限定词。对象类词表示数据元所属的事物或概念,表示某一语境下的活动或对象。特性词是数据元对象类明显、有区别的特征。表示词指数据的表现形式。这3 类词在数据元名称表示中应该有且只有一个。而限定词是对这3 类词进行限定的,是可选择的;③语法规则。对象类词、特性词和表示词在数据元名称中的位置依次排列且顺序是固定的,而限定词可以分别附加到这3 类中。当表示词与特性词有重复时,在不会出现歧义的情况下可以删除重复部分。
3.2 数据元分类编号
数据元的表达形式需要通过一套标准化的表述来完成,而每个数据元都应有其对应编号。数据元分类编号是数据元的特征号,本文采用长沙市交通数据元编码规则引用标准性文件《交通信息基础数据元第一部分:总则》(JT/T672)中的编码规则,其数据元分类编号结构如图1所示。
Fig.1 Data element classification numbering structure图1 数据元分类编号结构
第一、二位为字母,代表所属业务领域,由业务领域或简称的汉语拼音第一个字母缩写组成。《交通信息基础数据元第一部分:总则》(JT/T672)中将业务领域分为13 类,而本文根据长沙市实际情况,以及为了服务TOCC 系统这个立足点,将交通数据按照业务领域分为以下4 个类别:公路、水路、城市客运及城市货运,其代码表示如表1 所示。其中,第三、四位为数字,代表数据元所属一级分类顺序号;第五、六位为数字,代表数据元所属二级分类顺序号;第七、八位为数字,代表数据元所属三级分类顺序号;第九、十、十一位为数字,代表某一级分类下的数据元序号,从001 开始按顺序编码。一、二、三级分类顺序号按从左到右顺序排列,每级分类顺序号从01 开始。当某级无分类时,则该级编号为00,该级分类名称为空。
Table 1 Classification of business areas and their codes表1 业务领域分类及其代码
3.3 数据元类型
数据元类型包括字符型、日期时间型、布尔型、数字型、二进制型等。字符型是由汉字、字母、符号等组成的字符串,以文本形式进行存储;日期时间型以YYYYMMDDhhmmss 形式表示“年月日时分秒”;布尔型是通过有且只有两个具体值来表示数据元值的类型,如True、False;数字型是通过一位或多位阿拉伯数字表示值的类型,其存储形式可以是整型、浮点型、货币型等;二进制型是通过计算机二进制语言表示值的类型,可以用来表示图片、视频等。5种数据类型及其可能的取值如表2所示。
Table 2 A list of possible values for the data type表2 数据类型可能的取值列表
3.4 数据元格式
数据元格式是从业务需求角度规定的数据元值的表示格式。数据元格式与数据元数据类型联系紧密,但是无论数据元值的类型是什么,只要其有不同的组成和长度,就有不同的数据格式。其数据格式采用字母+数字分类序号的方式表示,标识规则如表3所示。
Table 3 Data format identification rules for data elements表3 数据元的数据格式标识规则
3.5 数据元其他属性
数据元属性除上述4 种属性外,还包括其他类别属性,其他属性含义如表4 所示。数据元属性约束条件如表5所示。
Table 4 Data element attributes and their meanings表4 数据元属性及其含义
Table 5 Data element attribute constraints表5 数据元属性约束条件
4 数据元提取
提取数据元的方法有多种,要做到灵活使用,选择一种或多种数据元分析方法提取数据元。首先,从已有信息系统出发直接提取数据元。其次,以长沙市交通运输管理局数据收集为例,其数据收集是3 级架构:市交通局一级平台、行业二级平台(直属单位例如公交事务中心)、企业三级平台。如图2 所示,对于长沙市的公交车数据来说,公交事务中心属于行业二级平台,对接企业与市交通局。而公交数据收集过程中又会出现许多不同的业务流程,例如公交车司机信息收集、公交线路情况收集等,虽然收集过程不尽相同,但是其中也会有与其相关的业务连接。因此,各业务流程之间并不是独立存在的,而是相互联系、相互依存的关系。与业务流程相关的数据元为网状结构,对于此部分数据信息,可以从某一个业务流程入手展开深入调研,挖掘与之相关的其他业务及其业务相关的数据元,通过自底向上的业务流程法提取数据元。
Fig.2 Three-level architectural pattern for data collection图2 数据收集3级架构模式
最后,考虑到现阶段仍有很多工作需要依靠手工或者半手工进行操作,会保留许多纸质档案、纸质表格等。鉴于该情况,本文还将使用用户视图提取法提取数据元。当然,不同的用户视图会存在相同数据元的情况,例如多份信息表格都存在与申请人信息相关的数据元。因此,用户视图之间的数据元也不是孤立的,同样属于网状结构。
网状结构不同于链状结构与树形结构,无法找到首结点或根节点,也不能从某个点出发达到获取数据元的目的,因此需要一种适合网状结构的数据元提取方法。现假定所有数据元构成集合D,根据某种规则R将集合D分成不同的子集Di,其中i∈[1,N]。在集合D上定义函数Ai,该函数用于判定集合D中的数据元d在集合Di中是否存在。
假设每个子集Di的权重为wi,则在D上定义函数W。对于d∈D,W(d)表示数据元d在规则R 下的权重。
由于不同数据元子集中可能会存在相同数据元,基于此,可在集合D上定义一个函数S,对于d∈D,S(d)表示数据元d在所有子集下的多重性。
此外,还可构建一个关系集合P,用于记录数据元d在规则R下的所有关系。
4.1 基于自底向上的业务流程法获取数据元
对业务流程进行分析,发现不同业务环节之间联系紧密,图3 列举了部分业务环节包含的数据元信息建模。其中,公交车刷卡数据和刷卡POS 机信息中同时包含数据元“刷卡POS 机编号”,刷卡POS 机信息和公交车车辆信息中同时包含数据元“车辆编号”,公交车车辆信息和企业信息中同时包含数据元“企业名称”。
Fig.3 Data information modeling of different bussiness phases图3 不同业务环节数据信息建模
采用深度优先算法提取业务流程数据的数据元,从某一业务出发逐个挖掘该业务中数据元与其他业务之间的关系,进而找到其他业务链及其相关数据元集合,再进行多次循环、更新与挖掘。算法流程如图4所示。
Fig.4 Depth-first algorithm flow图4 深度优先算法流程
4.2 利用用户视图提取法获取数据元
利用用户视图提取法获取数据元可操作性强,分析方法也比较简便。具体步骤如下:
(1)收集用户视图。应优先收集具有权威性、版本最新的用户视图。
(2)分解/规范用户视图。将复杂的表格层层拆解成多个简单的表格。图5 为道路旅客运输班线经营申请表,可将该表拆解成申请人基本信息子表、现有营运客车情况子表、申请许可客运班线情况子表、拟投入营运客车情况子表。
(3)提取数据元。从上述化简后的用户视图中可提取数据元如下:申请人名称、法定代表人姓名、经办人姓名、通信地址、邮编、联系电话、电子邮箱、经营许可证编号、营运客车总数、高级营运客车数量、中级营运客车数量、客运班线起点地、客运班线讫点地、中途停靠客运站点、营运里程、日发班次下限、申请经营期限、客运班车类型、车辆类型、车辆等级、车辆技术等级、拟购车辆数量、现在车辆数量。
Fig.5 Application form for the operation of road passenger transport lines图5 道路旅客运输班线经营申请表
将多个用户视图中的数据元提取出来后发现有很多重复数据元,针对该数据元采用广度优先算法,算法流程如图6 所示。先选取任一用户视图中的数据元集合,然后遍历其他用户视图内容,对数据元集合不断更新,进而提取出全而不重的数据元,将利用用户视图中的数据进行分类的方法视为一种规则R。
4.3 数据元规范化
Fig.6 Breadth-first algorithm flow图6 广度优先算法流程
(1)数据元名称不规范。针对数据元名称不规范的情况,要解决3 个问题:首先需要检查数据元名称是否符合基本语法,是否按照对象类词、特性词和表示词的顺序进行命名;其次要检查是否有同构异义数据元,例如某个业务中会出现“名称”“时间”等数据元,但是不同业务中对应的“名称”“时间”等含义不同,例如“企业名称”“部门名称”“上车时间”“下车时间”等。这些数据元的真实含义不同,但是往往被赋予相同名称,此种情况往往是因为缺少对象类词来约束数据元,因此需要在原有名称基础上加上对象类词进行限定;最后还需要检查是否有异构同义数据元,例如数据元中可能会出现“编号”“代号”“序号”等,其含义相同,但表达方式不同,此时需要对这类数据元进行统一命名,保持其一致性。
(2)数据类型选择不正确。一些数据元的含义精确到特定的“时、分、秒”,但是数据类型选择了“日期型”,就只能精确到“年、月、日”,因此需要选择“时间日期型”。而数据元“身份证号”的数据类型虽然是一串数字,但是数据类型不应该选择“数值型”,而应该选择“字符型”。数据类型需要基于数据元定义中表达的特定含义来确定与选择。
(3)表示格式选择不适用。许多数据元的表示都是整数位数,例如“人数”不会出现半个人,如果选择小数,不仅不会显得精确,反而会消耗更多存储空间。还有关于文字类描述的数据元,由于文字表达不确定,字数可长可短,表示格式若使用“定长”,就会限制字数,此时应该选择“变长”。
对所在交通行业的具体工作进行了解,并对基层单位进行调研。参考有关标准规范,梳理每个业务领域下的业务重点与中心要素,构建如表6 所示的数据元框架表。该表中只列举了一级分类下的对象名称,例如现有基础数据元公交车车辆编码,该基础数据元的业务领域为城市客运代码CK;一级分类为公路运输,其分类顺序号为04;二级分类为公交车,其分类顺序号为01;三级分类为车辆基本信息,其分类顺序号为01。基础数据元为公交车车辆编码的分类顺序号为001,基础数据元IC 卡编号的编码为CK040101001,该数据元的表示如表7所示。
5 结语
本文针对长沙市交通数据元数据不规范、数据难以融合、利用率不高的问题,展开面向TOCC 的交通数据元标准化研究,确定了适用于TOCC 平台数据元的业务领域以及数据元编码规则。针对数据的网状结构,本文在业务流程中采用深度优先算法,在数据视图中采用广度优先算法,能够实现全而不重地提取数据元,进而降低系统冗余度,提高系统存储能力,并针对数据元规范化过程中出现的一些不规范情况进行说明。最后根据4 个业务领域下的业务重点与中心要素构建了数据元框架表,以提高数据利用率。
Table 6 Data element frame table表6 数据元框架表
本文通过对交通数据元的标准化进行研究,可以丰富TOCC 系统的可视化展示能力,为决策者提供决策依据。同时该标准化研究具有普适性,可推广到其他地级市,对于实现城市交通数据的规范与统一具有重要意义。