一种基于本体的交通大数据分析框架
2016-03-22闫俊伟凌卫青王坚
闫俊伟++凌卫青++王坚
摘要:随着城市交通数据信息的日益增多,对交通数据的分析变得越加困难。现有的交通大数据分析面临对大量分散且异构的数据信息进行过滤、筛选以及整合等难题。因此,该文通过在路网拓扑、道路交通对象和道路交通信息三个层次对交通数据相互关系进行描述,并使之关联交通大数据存储信息,构建面向交通大数据的城市道路交通本体模型,提出了一种基于本体的交通大数据分析框架。该框架中以城市道路交通本体为语义规范制定映射文件,利用Jena开发工具构建城市道路交通本体库,为大数据分析的多源多维数据关联分析及知识挖掘提供语义查询支持。该框架能够根据交通分析需求快速有效地找到目标数据,在大数据分析与大数据存储之间起到了逻辑关联的作用,对现有交通数据分析具有重要意义。
关键词:道路交通;大数据;本体
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)01-0025-03
A Kind of Traffic Data Analysis Framework Based on Ontology
YAN Jun-wei, LING Qing-wei, WANG Jian
(CIMS,Research Center,Tongji University, Shanghai 201804, China)
Abstract: With the increasing of urban traffic data information, the analysis of traffic data becomes more difficult. Existing traffic data analysis faces problems of filtering, screening and integration of a large number of dispersed and heterogeneous data information. Therefore, this paper proposes a traffic data analysis framework based on ontology by building ontology model for traffic data of urban road traffic .The ontology model describe the relationship between data through network topology, the object of road traffic and road traffic information and related storage information of transport large data.The framework uses urban road traffic ontology as mapping file for semantic specification, and uses Jena development tools make an ontology construction of urban road traffic, for big data analysis of multi-source multi-dimension data correlation analysis and knowledge discovery with semantic query support. The scheme can find the target data based on the analysis of traffic demand quickly and efficiently , and have played an important role in logic between big data analysis and data storage.It is of great significance to the existing traffic data analysis.
Key words: road traffic; Big data; ontology
1 概述
随着城市规模的不断扩大以及城市聚集效应的加强,一方面城市交通数据日益增长,数据种类和数量高速增长;另一方面市民的密集出行以及物流压力使城市交通面临着严峻的挑战。针对上述现象,如何快速有效地对交通数据进行分析是目前亟待解决的重要问题。
由于交通信息源的多样性和交通信息量的不断增加等原因,信息交互共享的实现以及如何对有价值地信息的进行检索变得日趋复杂,传统的基于关键字的搜索几乎不能实现语义[1],很难满足大数据分析多源多维数据关联分析及知识挖掘的查询要求。而本体作为一种可以在语义以及知识层次上描述信息系统的概念模型,提供了资源描述和查询所必需的元语、可以为信息源提供必要的语义标注。同时由于交通数据具有多维多量的特性,通过构建本体模型对交通数据进行关联描述,可以为原有的交通信息数据建立统一的数据模型,为实现智能交通领域信息的语义交互和知识共享提供了关键技术[2],从而支撑有效快速的交通大数据分析。
本体自提出就在交通领域得到了广泛的研究和应用。得克萨斯大学的Peterclark建立了Boeing交通本体[3],对本体进行分层同时引入一个基本交通本体,使用图节点代表交通地点,使用图弧线代表交通路线;欧洲Mnasser等针对出行者的信息服务,使用Protege工具构建了一套公共交通领域本体[4],同时根据应用案例对本体推理的相关性以及一致性进行了分析。在国内,黄坷萍等针对公交系统领域知识进行分析,提取并定义了类和类内公理以及实例的基本规则,从而构建了城市交通本体[5]。郭军杰等针对中国高速公路网内交通地理信息系统(GIS—T)提出了基于本体的GIs—T信息共享方案,以层次结构的交通信息组织模式构建高速公路网本体模型[6]。李文雄等开发了一套交通本体作为交通系统共享数据的标准化定义,利用数据集成技术实现针对性、具体化的智能交通系统信息服务组件,从而实现交通数据的交互与共享[7]。
然而,随着交通领域信息资源的快速增长与更新,大数据处理面临着如何对这些信息进行过滤、筛选以及如何对大量分散且异构的数据信息进行数据整合等难题[8]。但是,现有交通本体基本上是从语义化的层次对交通领域知识进行本体建模,并没有具体考虑交通本体与大数据分析等应用的关联;国内外对本体的研究仍主要集中于描述本体的构建、推理与查询、信息集成解决方案等一些本体关键技术,缺乏对实际本体应用的研究;现有交通本体基本上从路网拓扑、GIS信息等相关数据组织进行本体建模,但缺乏对交通信息数据的层次划分,不利于本体的扩展。
为此,本文通过在路网拓扑、道路交通对象和道路交通信息三个层次对交通数据相互关系进行描述,并关联交通大数据存储信息,构建面向交通大数据的城市道路交通本体模型,提出了一种基于本体的交通大数据分析框架。该框架中以城市道路交通本体为语义规范制定映射文件,利用Jena开发工具构建城市道路交通本体库,为大数据分析的多源多维数据关联分析及知识挖掘提供语义查询支持。该框架能够根据交通分析需求快速有效地找到目标数据,在大数据分析与大数据存储之间起到了逻辑关联的作用,对现有交通数据分析具有重要意义。
2 城市道路交通本体建模
2.1 城市道路交通数据分析
通过分析中国城市道路交通信息分类、道路交通信息服务信息分类和智能交通系统组成以及交通数据采集、传输和信息发布过程中的数据元素及其组织模式,将道路交通数据划分为三个层次,分别为路网拓扑数据、道路交通对象数据、道路交通信息数据三类,层次结构如图1所示。其中,路网拓扑描述主要描述城市道路的宏观拓扑特征,道路交通对象从属于道路,道路交通信息主要来自路网和道路交通对象。
图1 道路交通数据层次结构图
路网拓扑数据主要包括道路、路段、节点、断面等拓扑构件信息;道路交通对象主要分为固定交通类和移动交通类两大类,固定交通类主要指地理位置一般不会变更的交通对象,比如道路设施,移动交通体主要指地理位置经常改变的交通体,主要指车辆和行人;道路交通信息主要有两类,一类为静态信息,包括交通网络基础信息、车辆信息、交通管制信息、地理信息等;一类为动态信息,包括交通流状态特征信息、交通紧急事故信息、环境状况信息、交通动态管理信息。
2.2城市道路交通本体模型
根据道路交通数据的分析,本文在路网拓扑、道路交通对象和道路交通信息三个层次对交通数据相互关系进行描述。根据语义完备性的描述,道路交通数据可以分为静态交通数据和动态交通数据两大类。静态交通数据主要包括路网拓扑数据、道路交通对象数据和静态交通信息数据,动态交通数据主要为动态交通信息数据,其中大数据主要是动态交通信息数据。考虑到大数据的存储问题,如图2所示,城市道路交通本体库主要包括静态交通数据和动态交通信息数据的存储信息,同时根据交通信息采集的方式将依据道路设备进行存储信息关联,构建面向交通大数据的城市道路交通本体模型。
图2 城市道路交通本体模型构建示意图
城市道路交通本体模型主要有四大类:路网拓扑、道路交通对象、道路交通信息和存储信息。道路交通对象从属于路网拓扑,交通信息描述路网和道路交通对象的相关信息,存储信息描述道路设备采集的交通大数据(动态交通数据)的存储信息。
其中,存储信息描述交通信息的采集信息及存储信息,根据道路设备进行存储信息描述。例如,针对某一线圈采集交通数据的存储情况,关联特定的配置文件。配置文件中可将交通数据表存储的名称和采集数据种类等进行描述,通过制定配置文件将交通大数据与道路本体关联,对其进行语义标识,为后续查询及大数据分析提供语义支持。
具体城市道路交通本体模型如图3所示。
图3 城市道路交通本体模型示意图
3 基于本体的交通大数据分析框架
随着城市交通数据的种类和数量迅速增长,如何快速有效地对交通数据进行分析是目前亟待解决的重要问题。
如何对大量分散且异构的交通数据信息进行数据整合并搜索是交通大数据处理面临的重要问题。为解决这一问题,本文通过构建本体模型对交通数据进行关联描述并关联交通大数据存储信息,为大数据分析的数据整合和数据搜索提供语义支持。基于上述城市道路交通本体模型,本文提出一种基于本体的交通大数据分析框架,如图4所示。
首先,分析交通数据,构建城市道路交通本体模型实现交通语义共享;针对动态交通信息数据存储信息制定配置文件,包括交通数据表存储的位置、名称和采集数据种类等存储信息。其次,根据本体模型和静态交通数据进行关联分析,以城市道路交通本体为语义规范制定映射文件;通过D2RQ[9]引擎实现关系型数据到本体数据的语义映射,采用Jena API工具构建城市道路交通本体库;最后,通过语义网对本体库进行语义搜索,根据搜索结果对大数据进行快速检索,同时返回数据和语义关系检索结果,实现大数据对多源多维数据的关联分析及知识挖掘。
图4 基于本体的交通大数据分析框架
4 基于本体的交通大数据分析框架的实现
根据上述的基于本体的交通大数据分析框架,以上海市南北高架道路交通数据为数据源,通过D2RQ引擎以城市道路交通本体为语义规范对多源数据进行信息融合,利用Jena开发工具构建上海市南北高架道路交通本体库,形成道路交通语义网,实现对南北高架道路交通大数据的语义查询。
图5 南北高架本体模型实例
针对南北高架道路数据的本体建模如图5所示。其中,路段NBBJX-DO是地理对象实例,路段NBBJX-DO在地图上的位置描述是几何对象实例,路段NBBJX-DO上的线圈NBBJX-DO-1-1是道路设备实例,线圈NBBJX-DO-1-1采集的数据类型FINT_LV是道路交通信息实例,线圈NBBJX-DO-1-1采集的数据类型FINT_LV描述的大型车是道路交通对象实例,线圈NBBJX-DO-1-1具有的存储信息coil2是存储信息实例,coil2描述线圈NBBJX-DO-1-1采集的数据类型FINT_LV在大数据平台的存储地址。
根据上述以南北高架数据为源数据的道路交通语义网,针对线圈信息进行语义搜索,结果如图6所示。图中对线圈NBBJX-DO-1-1进行语义搜索,可以得到线圈位置、拥有信息、采集信息、ID、车道类型、类型等数值属性信息。根据线圈拥有信息即5min的存储名称coil2,可以查找到对应的交通大数据表名,将此信息作为搜索条件,即可快速对大数据进行查找,同时也获得了线圈的路网位置。为交通大数据分析提供了有力的语义查询支撑。
图6 线圈NBBJX-DO-1-1语义搜索结果示例
5 结束语
本文从面向大数据分析的本体建模的角度出发,对道路交通数据进行层次分析并关联大数据存储信息,构建了较为完善的面向大数据分析的城市道路交通本体模型。同时,提出了一种基于本体的交通大数据分析框架。最后,采用Jena开发工具和D2RQ映射引擎构建城市道路交通本体库,并实现了交通大数据的语义搜索,从而解决了对大量分散且异构的交通数据信息进行数据整合并搜索的难题。考虑到道路交通是种类众多、关系复杂且更新迅速的知识领域,下一步我们将对城市道路交通本体的更新和维护进行研究,并创建公理库以支持对知识的推理与知识的完备性和一致性。同时,我们将进一步深入研究语义网在大数据分析中的应用,重点研究语义查询解析和模型定义方面,使城市道路交通本体在交通服务系统中发挥更好的作用。
参考文献:
[1] CAO Yan, CHEN Yan. Research on ITS Knowledge Integration Technology Based on Ontology, Proceedings of the Eighth International Conference of Chinese Logistics and Transportation Professionals, 2008:p2066-2075.
[2] 曹妍.本体理论在城市智能交通系统语义集成中的应用研究[D].大连:大连海事大学,2010.
[3]Clark,P.http://www.5.utexas.edu/users/pelark/kr-web/other/passenger-vehiele/transportation.km,Transportationontology,1998.
[4] Mnasser H, Maha K,Kathia O, etal. A public transportation ontology to support user travel planning [C] //IEEE. Proceedings of the 4th International Conference on Research Challenges in Information Science (RCIS-2010). Nice: IEEE Press,2010:127-136. (下转第34页)
(上接第27页)
[5] 黄坷萍,蒋昌俊.基于本体的城市交通的知识分析和推理[J].计算机科学,2007,34(3):192-196.
[6] 郭军杰,闫茂德,陈荫三.高速公路网异构GIS-T信息共享的本体模型[J].交通运输工程学报,2011,11(1):24-29.
[7] 李文雄,闫茂德,王建伟.智能交通系统本体数据集成[J]. 中南大学学报:自然科学版,2013,44(7):3038-3045.
[8] Alexandres H V. Jagadish, Challenges and Opportunities with Big Data[J].Proceedings of the VLDB Endowment, 2012,5 (12):2032-2033.
[9] Namyoun Choi,Hyoil Hart.A Survey on Ontology Mapping. SIGMOD Record,2006,35(9):34-41.