铁路大数据可视化技术研究及应用
2019-01-03戚小玉岳应宁刘宁宁杨连报刘彦军
戚小玉,李 平,岳应宁,刘宁宁,杨连报,刘彦军
(1.中国铁道科学研究院集团有限公司 铁路大数据研究与应用创新中心,北京 100081;2. 东软集团股份有限公司 通信与企业互联事业部,北京 100193)
随着大数据技术的发展,海量多元数据不断积累和涌现,数据已成为最具潜力的资源,现代数据可视化技术综合运用计算机图形学、数据挖掘、可视化、人机交互等技术,将海量、高维复杂数据变换为容易区分和理解的图形符号、图像、视频或动画,并以此挖掘对用户有价值的信息,洞察数据内部的规律,以直观、生动、交互性强等特点,成为大数据时代不可或缺的视觉表达形式[1],也同样适用于铁路行业。2016年7月,国家发展改革委、交通运输部、中国铁路总公司联合发布了《中长期铁路网规划》[2],勾画了新时期“八纵八横”高速铁路网宏大蓝图,如图1所示。随着我国铁路网日益完善,中国铁路信息化技术不断升级与改进,在其长期发展过程中积累了海量数据,这些数据中蕴含着多维度的旅客出行信息。利用数据可视化技术可让这些数据得以形象生动地展现,进而为铁路出行信息播报提供更加丰富的形式,为旅客提供便利,为铁路客运组织提供有效的决策支持,近年来,可视化技术也被应用于铁路各专业的数据分析和展现中。
图1 “八纵八横”高速铁路网中长期规划示意图
1 数据可视化定义
数据可视化是关于数据视觉表现形式的科学技术研究[3]。数据可视化技术借助于图形化手段,充分利用人的视觉感知能力对数据进行呈现,清晰有效地传达与表现数据中所蕴含的信息。数据可视化起源于计算机图形学、人工智能、科学可视化以及用户界面等领域的相互促进和发展,是大数据生命周期管理的最后一步,也是最重要的一步[4],能最大化地帮助用户挖掘数据背后的信息,让数据“开口”说话。
数据可视化设计有4个基本原则:(1)优秀的数据可视化应该完成对多个关联数据集的展现,而不仅仅是完成对某一个数据集的可视化;(2)可视化展现应具有精准性,在围绕数据进行可视化展现时,确保数据精准;(3)可视化应具有直观性,并满足不同受众的需求;(4)可视化设计应完成解释数据、探索数据和发现知识3个核心功能。
2 数据可视化展现
数据可视化要根据数据的特性,找到适合的可视化方式,将数据直观地展现出来,以帮助用户理解数据,同时找出包含在海量数据中的规律或信息。可视化方式包括柱图、饼图、折线图、气泡图、树图等,可根据可视化分析需求不同选择不同的可视化形式,如图2所示。
图2 基本图表可视化方法及适用规则
将可视化目标分为比较、分布、组合、关系4类,再根据各分类中的维度数量、相关变量、关注重点等对可视化目标进行细化区分,并与不同的图表适配,以对数据进行有效展现。可视化展现的具体步骤根据数据集和项目的不同而有所差别,但可视化展现的基本组件不变,即:视觉暗示、坐标系、标尺及背景信息。
2.1 视觉暗示
视觉暗示是指将数据通过视觉编码,映射为可视化元素。可视化元素包括点、方形、圆形、扇形等。视觉编码即映射方式包括尺度映射、颜色映射、位置映射及地理投影等。对于不同的数据类别,应用映射方式的效果不尽相同。例如分类数据,位置或颜色映射比尺度映射的视觉暗示效果更强,视觉暗示效果越强,数据展示的生动性和有效性往往就越强。
2.2 坐标系
对数据进行编码映射时,需要将其放在一个结构化空间中,形成数据展现视角,常用坐标系为直角坐标系、极坐标系和地理坐标系。其中,在使用地理坐标系对数据进行可视化时,通常需将地理坐标转换为二维屏幕坐标,常用投影算法有墨卡托投影、亚尔勃斯投影和方位角投影。互联网地图大多使用墨卡托投影,例如,百度地图、谷歌地图等。在对铁路出行数据的可视化中,常用地理坐标来展现OD客流、旅客发送量等与地理位置相关联的数据。
2.3 标尺
坐标系定义了可视化空间及维度,而标尺指定了在每一个空间维度中数据映射的物理空间范围大小。常用标尺有数字标尺、分类标尺(包括顺序标尺)和时间标尺,在实际可视化实现过程中,也可根据不同需求定制特定标尺[5],通过对不同标尺的选择可以突出展示需要重点说明的数据信息。
2.4 背景信息
背景信息是指能够帮助用户理解数据相关信息,使可视化数据更加清晰,能够正确引导用户。这些背景信息有时需要单独标明,有时则隐含在所选择的视觉暗示、坐标系和标尺中。例如,直角坐标中,每个坐标轴所表示的项目内容就属于背景信息。
3 铁路大数据可视化技术
3.1 铁路大数据可视化技术特征
由于铁路大数据具有空间性、时间性、多专业性、高维性等特点,铁路大数据可视化技术既有可视化技术的普遍特征,也有其专业属性。铁路大数据可视化主要有如下技术特点。
3.1.1 直观性
可视化分析综合运用计算机图形学、数据挖掘和人机交互等技术,将数据直观展现给用户,使用户更加容易发现数据特征及其中隐含问题。铁路大数据专业繁多,数据专业性强,业务人员需要通过较为复杂的分析挖掘才能发现问题,可视化有助于业务人员直观、高效地发现和定位问题,将“死数据”变为“活信息”[6]。
3.1.2 时空性
铁路专业数据的产生跨越全国不同地理空间,设备沿线分布,具有天然的空间属性,要求可视化技术能表达空间分布特征。铁路运输夜以继日,每时每刻都在产生数据,对可视化技术在时间维度的展示也提出了要求。
3.1.3 关联性
可视化技术可将铁路领域不同专业数据之间,或专业数据与其它维度数据之间的关系较为突出地展现。例如,结合时间、空间等维度信息,将铁路出行数据进行可视化展现,使客流数据与时间、空间维度的关系更加一目了然。
3.1.4 交互性
用户可在可视化案例中对数据进行交互式操作,方便用户筛选其关注的数据维度,满足不同用户的需求。可视化技术的交互性特征为用户提供有效、快捷、透明的数据分析过程,以支持不同用户的分析、挖掘、推理、研判和探索式数据研究。
3.1.5 艺术性
借助不同配色与图形,进行静态或动态数据可视化展现,使较为枯燥的数据更加生动美观地呈现,可给人以较强的视觉冲击力和较为深刻的印象,使数据中的信息更好地描述和表达。
3.2 可视化技术分类
依据应用场景、实现方式及定制化程度的不同,数据可视化技术可分为商业智能(BI)及敏捷BI工具、可视化编程相关绘图标准、图形库以及可视化组件,这些技术可被用于铁路专业不同场景的数据分析与展示中。
3.2.1 BI及敏捷BI工具
BI及敏捷BI工具支持与多种数据源的接口,通过操作快速完成数据展现,如Pentaho、Tableau、Qlik、PowerBI、Oracle DV等,可供用户根据具体应用场景完成快速建模、自助分析及数据可视化,几乎不要求用户有编程能力,可为铁路各专业用户提供报表展示、即时分析等服务。
3.2.2 可视化编程相关绘图标准及图形库
可视化编程相关绘图标准及图形库等前端技术,用于实现较为复杂的定制化可视案例,对用户的前端编程能力要求较高,如HTML5 Canvas、SVG、WebGL等基础库,D3、p5、zrender、pixi v4、three.js、processing.js等可视化工具库,可视化设计网站awwwards中给出的可视化相关绘图标准及图形库分类,如图3所示[7]。
图3 可视化绘图标准及图形库分类
图3中列出几类主要的前端技术,基于CSS3、JavaScript、HTML5原生开发方式,通过HTML5 Canvas、SVG、WebGL基础库分支中的不同工具库来实现可视化效果。其中,HTML5 Canvas适用于2D平面绘图应用场景;SVG基于矢量图实现可视化,当图形大小改变时能够确保图像清晰度,在进行大数据量可视化展现时,其性能略低于HTML5 Canvas,但不同浏览器中其具体性能可能略有差别,随着浏览器的不断升级更新,其性能得到不断提升;WebGL支持交互式3D可视化展现,需要显卡等硬件支持。此类技术可被应用于大屏展示、页面展示等场景,针对铁路行业特点提供更加个性化、专业化的动态多维展示。
3.2.3 可视化组件
可视化组件,如echarts、highcharts、dataV等,是使用可视化编程相关绘图标准及图形库实现的、封装好的并可直接使用的可视化图标库,也就是可视化组件。其优点是支持快捷“托拉拽”式布局,对用户的编程能力要求较低;缺点是定制化程度较差,一些参数是以配置项形式固化在组件中,可修改的空间不大。在铁路行业实际应用中,可视化组件通常作为独立单元被集成在信息化系统中。
4 数据可视化的应用场景
数据可视化可用于数据大屏、数据产品、数据新闻、数据分析、决策支持等多种场景,根据用户人群和展示目的不同,可分为3类基本应用场景:数据大屏展示、数据信息传播和数据分析展现。
4.1 数据大屏展示
数据可视化大屏通常应用于实时监控、监测、调度、指挥等场景,选用动态可视化组件,结合可视编程技术对实时数据进行展现。其特点是可视化效果随实时数据变化而动态变化,有较强的视觉冲击效果。
4.2 数据信息传播
数据信息传播通常应用于信息宣传或播报等场景,可如同数据大屏展示,结合可视编程技术将数据通过动态可视化组件展现,也可选用无需编程的图形设计工具进行实现,生成图片或视频。其特点是数据展现角度需具有话题性、生动性、时效性,受众面较广。
4.3 数据分析展现
数据大屏展示和数据信息传播两个场景偏重于数据展现,而数据分析展现应用场景更偏重于数据分析,可通过可视编程或选用BI分析工具来实现数据多维展现。其特点是交互性强,可供用户通过数据下钻、维度关联等操作实现自助式数据探索,通常用于汇报展示、分析研判和决策支持。
5 铁路出行数据可视化应用
5.1 铁路出行OD客流可视化
客流是指单位时间内轨道交通线路上乘客流动人数和流动方向的综合[8]。铁路出行OD客流可视化是一种用轨迹数据描述空间变化特性的可视化方式。近年来,国内外学者就轨迹数据可视化分析研究已开展大量研究工作,研究内容的划分根据研究对象不同而不同。其中,根据移动个体是否多元,可将移动轨迹可视化划分为个体移动轨迹可视化及群体移动轨迹可视化两类。根据移动区域空间属性特征是否为热点区域,可将轨迹可视化划分为一般空间轨迹可视化及热点区域轨迹可视化。节假日期间,铁路出行客流具有群体性特征,故可对其进行群体移动轨迹可视化。
5.1.1 铁路出行十大热门区间可视化
根据铁路出行OD数据,可统计出某一天客流量最大的区间,图4是某一节假日前夕铁路出行十大热门区间可视化展现,是一种较为基本的移动轨迹直接可视化方式,方法简单直接,易于编程实现。
图4 铁路出行十大热门区间可视化展现
此案例中,地图选用行政边界的方式,以突出OD客流方向动态显示,同时客流动态飞线采用多条渐变颜色组成飞线组,使飞线轨迹配色层次更加丰富。通过未来某段时间购票存根数据,将客流最大的区间进行预估和可视化展示,将有助于铁路相关部门进行合理调度,并对重点的线路和区段客流运输进行重点保障。
5.1.2 北上广铁路出行可视化展现
图5是对热点区域移动轨迹可视化的一个案例,展现的是某一节假日前夕北京、上海、广州返乡客流量最多的10个方向。由于节前铁路出行客流有着从一线城市向周边地区扩散的特征,特对北京、上海、广州3个城市进行热点区域分析。
图5 北上广铁路出行可视化展现
从可视化展示中不难看出,从北京出发客流目的地主要位于东北地区、京津冀城市群和中原城市群;从上海出发客流目的地主要位于长三角城市群、长江中游城市群和中原城市群;从广州出发客流目的地主要位于珠三角城市群、长江中游城市群和成渝城市群。侧面反映出在北上广等一线城市务工人员主要来源,是以吸引相邻省份人员为主。由于地理位置距离相对较近,相邻省份人口与一线城市人口交流较频繁,带动务工人口流动。同时,由于地域文化与方言相似性等原因,使二三线城市的人口更倾向于到临近一线城市务工。对节假日返乡客流进行可视化分析,可以为铁路相关部门加开临时列车等提供决策辅助信息,以达到对运力运能精准调配。
5.2 铁路出行热点数据可视化
铁路出行OD客流可视化属于对线数据的可视化,相应地,还有热点数据可视化,热点数据描述对象是地理空间中的点,具有经纬度坐标,是地理数据可视化中一种基本可视化形式。客票售票数据记为存根,是铁路客票系统每个席位出售的原始凭证[9]。根据这些原始凭证,可以得到某一时间段内不同城市出发客流数据,可对其进行铁路出行热点数据可视化。图6、图7是节假日期间铁路出发客流十大热门城市可视化展现,分别采用二维和三维地理可视化方式。
图6 铁路出行热门城市数据可视化展现(二维)
图7 铁路出行热点城市数据可视化展现(三维)
图6二维地理可视化案例中,用动态呼吸气泡来定位热点城市,城市出发客流量越大,气泡直径范围越大,呼吸最大值越大。图7三维地理可视化展示中,用柱体来定位热点城市,城市出发客流量越大,柱体底部涟漪范围越大,高度越高。对未来一段时间内出发热点城市进行可视化展现,直观定位出行客流较为集中的城市和车站,可根据客流增加及时加强车站内服务与安全保障,确保旅客便利乘车,安全出行。
5.3 铁路客运量分析可视化
对年度铁路出行数据进行可视化分析,将不同城市年度客运量[10]用热力图来展现,如图8所示,每个数据位置点对应一个缓冲范围,也就是热力点影响半径,这个影响半径内的区域采用渐变效果。位置点数值越大,色阶越高,影响半径越大。
图8 城市年度客运量热力图
通过对城市年度客运量的可视化分析,可以直观定位出年度客运量较高的城市和区域,结合现有的铁路网现状,更加合理地安排既有铁路线的运力运能,并为新线的建设与新站的设置提供参考依据。
6 结束语
铁路出行海量数据中蕴含着铁路客运及其他相关领域丰富信息,本文中的案例综合利用了可视化组件、可视化编程相关绘图标准及图形库等前端技术将各种类型数据集合,多维数据之间关系,以及蕴含于数据中的信息以动态、三维、可交互的形式直观生动地呈现给用户,使铁路行业在辅助决策、运营调度、信息播报、主题宣传等方面的数据展现方式得到创新升级,在铁路信息化技术发展中发挥不可替代的作用。