社会交通中的社会信号分析与感知

2021-07-25陈虹宇吕宜生陈圆圆王飞跃

自动化学报 2021年6期

陈虹宇艾红王晓吕宜生陈圆圆王飞跃

交通作为城市建设的重要领域,其发展高度标志着城市的现代化程度.20 世纪第二次世界大战后,各国交通随经济不断增长而迅速发展,其中以道路交通为代表的城市交通发展尤为显著.然而随着城市化进程加快、城市人口和车辆数量激增,我国各大中城市道路交通逐渐出现了拥堵、事故以及污染等诸多问题,各类公共交通的积极探索和大力推广未能有效缓解普遍存在的不良交通状况,引起了交通领域研究人员的广泛关注.为逐渐改善交通污染情况、完善交通安全保障、提升交通运行效率,各国专家学者从20 世纪60、70 年代便开始积极寻找解决方法,在通讯、传感、控制及计算机等领域的发展推动下,最终在上世纪末就“智能交通”这一整体发展目标达成共识,提出构建智能交通系统以整合交通数据信息,并进行了许多积极的探索与实践.智能交通系统(Intelligent transportation systems,ITS)是未来交通系统的发展方向,它是将先进的信息技术、数据通讯传输技术、电子传感技术、控制技术及计算机技术等有效地集成运用于整个地面交通管理系统而建立的一种在大范围内、全方位发挥作用的,实时、准确、高效的综合交通运输管理系统.在智能交通研究的早期阶段,受限于采集设备、技术条件和经费资金等因素,研究数据多来源于现实世界的物理检测设备.目前,相关研究技术已发展成熟并得到广泛应用,但物理检测设备存在的时空覆盖范围有限、运营维护成本较高且更新速度较慢等特点,使其所得数据无法全面实时地反映实际交通状况以及突发性交通事件信息.

进入21 世纪以来,软硬件系统和设备的快速发展完善和算法技术的持续更新优化,为智能交通的进一步研究和发展带来了新的机遇.一方面,智能手机等便携移动设备的广泛普及以及移动互联网和通信技术的快速发展,使得普罗大众群体成为遍布于城市各个角落的无数“社会传感器”[1−3].相比于传统人为布设的物理传感器,其能够在一定程度上突破客观因素的限制,通过人类自发的日常活动为各领域研究提供日渐丰富且多种多样的数据[4].另一方面,系统设备的更新为数据处理和应用技术的优化提供了良好的发展基础,进而促进了数学、计算机科学、交通学、语言学乃至社会学等学科领域的交叉融合.同时,大数据时代为数据挖掘、自然语言处理、深度学习等新兴技术的研究创造了前所未有的海量信息资源.因此,总体来看,智能交通研究的数据来源已从固定的物理空间逐步拓展到广阔的网络空间乃至复杂的社会空间,数据类型也由准确的结构化数据向模糊的非结构化数据转变.近十年来,作为与城市生活息息相关的用户共享信息载体,Twitter、微博、滴滴出行和高德地图等在线平台的涌现也积累了大量交通相关的模糊非结构化数据,例如用户对交通事故的描述和交通系统的看法等文字或图片.这类数据对交通系统管控、交通决策制定等交通服务的提升优化具有重要研究价值,能够补充、完善甚至替代物理检测设备所采集的结构化数据.因此,丰富的社会信号[5]为社会交通领域的出现和发展创造了良好的研究环境.

目前,针对社会交通领域的综述文献并不多.Zheng 等[6]在社会交通领域发展的初期,针对近年来交通相关研究数据在类型和结构的巨大变化,对该领域应用与研究方向的影响进行分析阐述.Lv 等[7]以图形和文字的形式分别展示了领域内研究人员、机构和国家层面的合作模式,并分析与概述了近年来的研究方向及成果.经过对国内外现有的丰富研究成果的调研发现,数据来源的多样性、内容的复杂性及结构的多变性能够在极大程度上决定相关研究的方向、内容及方法.因此,本文选择在当前社会交通领域研究发展较为成熟的情况下,以该领域的研究数据为核心,对相关研究方法与应用进行更加详细的分析与总结,并明确指出该领域在下一阶段的发展方向.

本文主要分析与归纳了社会交通领域内针对城市交通的已有研究工作,并对该领域的研究发展趋势进行展望.全文内容安排如下:第1 节总述社会交通的发展背景、作用意义和研究现状;第2 节分类介绍社会交通主要研究数据的来源、类型、所含信息及发展趋势;第3 节分阶段阐述数据处理过程所涉及的技术方法;第4 节分层说明社会交通研究与应用的主要内容和方向;第5 节分析与归纳当前研究的不足与挑战并展望未来的发展趋势.

1 社会交通

“社会交通”这一概念由王飞跃于2014 年在文献[5]中首次明确提出,用于描述在线交互式社会信号推动下涌现的智能交通新形态及其研究范式.文中,他指出了五个潜在的研究方向,包括:1)使用数据挖掘、机器学习和自然语言处理等方法进行大数据和社交信号的交通分析;2)基于社交媒体、社交网络、物联网乃至万物联网的交通众包机制;3)除基于位置服务(Location-based services,LBS)外的新服务,如交通知识自动化.特别是基于决策的服务(Decision-based services,DBS)、基于任务的服务(Task-based services,TBS)、基于信息或智能的服务(Information or intelligence-based services,IBS)及基于知识的服务(Knowledge-based services,KBS);4)用于交通控制和管理的基于互联网的代理技术;5)更多其他研究和发展的实际应用和反馈.与以社会学为研究重心的交通社会学不同,社会交通更侧重于交通方面的研究.其隶属于交通(工程)科学,在以往仅考虑工程因素的研究基础上增加对社会因素的分析,同时结合交通社会学与交通工程学的原理与研究方法,强调在交通系统中利用在线和交互式大数据进行实时计算或嵌入式应用等研究与应用.因此,应将社会交通定义为基于交通工程学与交通社会学的交叉学科.

基于且不限于上述研究方向,社会交通能够利用驾驶员、乘客、行人等群体在交通出行时相互作用的社会属性,为其提供包括道路交通管制、交通资源调度和交通出行规划等服务.根据相关文献调研,当前社会交通的研究目标可大致概括为:利用海量在线交互的社会信号进一步提高智能交通系统的运行效率.并且,其主要研究范围为受复杂社会因素显著影响的城市交通.然而,随着研究范围的不断扩大及程度的逐步深入,现有真实数据因公开数量有限、信息缺失严重以及数据融合困难等问题,已无法满足社会交通领域内日益丰富多样的研究需求,这使得研究人员萌生了人工完善、补全甚至生成数据的研究思路,这一研究思路逐渐成为引导社会交通发展的新兴研究趋势.

2 数据

大量、准确、可靠的数据是高效开展研究工作的基础.由于城市交通状况的变化受各方面复杂因素的影响(见表1),因此相关研究对数据的要求较多.然而,传统交通研究所用数据主要来自现实物理空间中的硬件检测设备,其存在时空覆盖范围有限、实时更新速度慢、运营维护成本高以及数据信息有限或缺失等问题,导致可利用有效数据不足.同时,数据壁垒广泛存在于不同数据源之间,阻碍数据利用率的进一步提升.在当今大数据时代背景下,网络空间不断涌现出各类多样的开源跨媒体异构数据,使得研究数据的来源由物理空间逐步拓展到网络空间,为不同问题的解决提供丰富且充足的信息知识以作为研究依据.且更进一步地,便携移动设备的普及和网络通讯技术的发展将用户关系等复杂的社会信息引入社会交通对网络空间的研究范畴,进而推动了社会交通这一新兴研究领域的产生与发展[5−6].因此,本文将首先按照由“实”到“虚”的发展变化趋势对社会交通领域的研究数据来源进行阐述.

表1 影响城市交通状况变化的因素Table 1 Factors affecting the change of urban traffic conditions

2.1 真实数据来源

由于智能交通的研究逐步突破了物理和网络空间,并在复杂交互式社会信号的推动下形成社会交通这一热点领域,故本文将按照对应所属空间将现有应用频度较高的数据源划分为物理空间数据源和网络空间数据源.并根据数据来源的变化过程,分别简要介绍各自所含数据的类型、信息、特点、应用、挑战或研究趋势等内容.

2.1.1 物理空间数据源

物理空间数据主要来源于现实物理世界中传统的传感设备[8−12]、配备GPS 和无线通讯设备的浮动车[13−15]以及移动通讯终端[16−18]等媒介,以及近年来迅速发展的共享单车[19−20]、公共巴士[10,21−22]、地铁[22−35]等交通基础设施系统和移动通信系统.其中,作为相对完善的交通基础设施智能系统,城市地铁系统是应用于社会交通研究的典型及主要数据源之一.其基于地铁系统的智能卡片记录,主要包含进出站信息及对应时间记录等描述移动轨迹和状态的数据.这类结构化数据虽然相对准确可靠,但由于所含信息内容较少,难以精准描述乘客的具体移动路线和过程.

目前,大部分相关研究将其作为用于数据真实性对比验证的辅助数据源,以进一步确保研究结果的可靠性.Zhang 等[12]基于社交媒体数据和遥感数据进行探究,提出一种多视图学习方法来识别城市中的危险交通位置,并通过真实数据证明了提出方法的准确有效性.同时,领域内的专家学者们也在积极探索新兴的物理空间数据来源,例如城市中随处可见共享单车和日渐普及的轻轨、地铁.基于北京市路网数据信息以及摩拜单车轨迹数据.He 等[20]提出构建一个违法停车检测系统,并以案例研究证明其效果优于所有基准方法.Lu 等[22]对新加坡公共交通系统数据进行探究,提出一个用于游客出行识别与偏好分析的框架TourSense,并通过真实数据验证了所提出框架的有效性.其他应用可参考表2中所引相关文献.

2.1.2 网络空间数据源

人类的实体活动及社会关系是影响交通变化的关键因素.因此,社交属性是以智能交通系统为代表的复杂社会系统所用研究数据的重要特性.本文以数据信息内容的生产与交换是否基于用户关系为依据,将网络空间数据源进一步划分为非社交类数据源和社交类数据源.

1)非社交类数据源

网络空间中的非社交类数据源通常为在线地图服务提供商[26−32]、签到网站[33−37]、政府部门和公共场所或科研组织机构等官方机构或组织的公开信息发布网站[11,21,38−50],主要提供包括路网信息、交通事件报告、天气预报或公共场所活动预告等在内的文本信息,主要为单向发布的客观信息而非用户间的双向交互信息.其所含信息能够在确保真实可靠的前提下包含相对较多类别的内容,但局限在于可用开放数据集相对较少、数据来源较分散且区域性较强.

依据这类信息与交通状态变化的相关关系,可将其作为处理和分析的补充数据源以用于提高研究结果的精确度,这已成为近年来的一种研究趋势.例如Rodrigues 等[21]提出了一种贝叶斯加法模型,其结合了智能公交卡记录数据和公共场所官网的信息内容,用以预测公共特殊活动下公共交通的需求总量.Cui 等[32]通过匹配来自Google Places 的兴趣点(Point of interest,POI)数据和Twitter 的历史数据以获知每个POI 的对应流行度,并使用贝叶斯神经网络(Bayesian neural network,BNN)模拟个体的日常出行线路并推断出行目的.其他应用可参考表2 中所引相关文献.

表2 可用真实数据的类别、来源、类型、信息及研究实例Table 2 The categories,sources,data types,information and examples of available data

2)社交类数据源

网络空间中包括Twitter、微博、贴吧、论坛和出行服务等在线应用程序、平台或网站在内的社交媒体(Social media)即为主要的社交类数据源.作为一种主要由广大用户产生内容的新型数据来源,其数据具有大量、实时、易获得等特点.近年来,多元化社交媒体的涌现与蓬勃发展,将交通相关数据涉及的复杂社会因素引入智能交通的研究范畴.同时,数据收集、存储、处理技术的快速更新为大量开放且可用数据资源的研究带来可能,极大丰富了交通相关的各类信息内容,尤其是公众对交通事件、出行方式和交通系统的看法、分析、评价甚至舆情等非结构化数据[62−63].目前,相关研究将社交类数据源用于挖掘丰富多样、全面且有价值的交通相关信息,以改善交通运行状况、提高交通资源利用率.

因涉及文本、图像等多种数据类型,社交类数据的应用场景相对较广.Hasnat 等[51]探究了Twitter 中基于位置的社交媒体数据并提出一种用于理解游客出行目的地选择的方法,应用条件随机场(Conditional random field,CRF)模型分析并预测游客的目的地选择模式类型.Giancristofaro 等[79]利用Instagram 社交网络中的图片、标题及评论数据,探究图像和文本数据特征的结合以预测社交媒体中的交通情绪,最终实验预测效果接近于人工分类.其他应用可参考表2 中所引相关文献,具体的应用情况将在第4 节中进行详细介绍与分析.相应地,由于复杂社会因素的影响,所用数据的可靠性是相关研究需解决的首要问题.此外,用户产生的非规范化、模糊、错误或缺失的数据对当前的算法模型同样提出挑战.

除上述数据源外,调查问卷[30,32,80−83]、电台广播等媒介也能够提供有效的相关数据,但研究和应用相对较少,在此不做详细介绍.

2.2 人工数据来源

目前,针对单一数据源或数据类型的研究已经相对成熟,但由于数据规模有限或真实性存疑等问题导致研究结果的准确性和实时性存在一定局限.随着可靠开放数据源的逐步扩增和数据处理算法技术的不断优化,社会交通研究趋向于对多源异构的跨媒体数据进行融合、处理与分析[84],以实现各类信息的相互补充和验证,从而逐步提高研究结果的准确有效性.即便如此,现有真实有效数据的稀疏与缺失以及广泛存在于不同数据源间的数据壁垒等研究难点仍然限制着社会交通深入且多样化的发展.针对这些问题,近年来先进技术算法的优化与提出促使研究人员的解决思路由寻找高质量数据源转变为补充与完善已有数据源,甚至人工生成虚拟的特定所需数据.即从实际研究需要出发,积极发挥主观能动性,利用先进算法或模型探究人工数据的研究与应用潜力.

人工数据的来源不局限于单一物理或网络空间,可以是虚拟的软件算法模型或实际的复杂工程系统.其所含信息内容由研究需求决定,相关数据类型包括且不限于数值、文本和图像,故具有灵活、丰富、多样等特点.但同时,对人工数据研究与应用的发展一直受信息真实合理性的制约.因此,人工数据的研究目前主要基于最新的算法或模型,提升已有数据的质量或生成大规模可用数据.其中,以生成式对抗网络(Generative adversarial networks,GAN)为代表的相关研究与应用已在图像生成[85]与修复[86−87]、图像翻译[88]和风格迁移[89]等研究领域获得了远超以往模型的效果.其中,在图像视频领域的应用最为广泛.典型研究实例包括:Ledig 等[86]提出利用GAN 将一张低分辨率模糊的图片变换成高分辨率清晰的图片.Wang 等[90]利用合成图像和真实图像数据用于训练人眼检测模型.另外,其还用于图像数据补充、图像风格转换及语音语言生成等领域[91].而对于涉及复杂社会学因素的社会交通而言,相关人工数据的研究需考虑社会系统的特征规律或知识经验等信息.且基于此,后续应进一步探究特定的跨媒体、多模态或异构人工数据的研究与应用,包括数据信息的统一表征、关联、理解、挖掘乃至生成等方面内容,以突破数据壁垒、数据稀疏与缺失等难题.具体研究技术方法等相关内容将在第3 节详细介绍.

3 典型技术方法

社会交通研究所用具体技术主要由数据决定,因此,本章节将根据常规的数据研究流程按序对典型技术方法进行总结归纳,具体分类及举例见图1.

图1 常规数据研究流程及相应典型技术方法Fig.1 Routine data research process and corresponding typical technical methods

3.1 数据生成与获取

数据是科学研究的基础,准确、充足和适宜的研究数据对高效开展研究具有重要帮助作用.因此,有效的数据生成与获取技术或方法一直是领域内专家学者研究关注的热点.针对当前社会交通的研究情况,本文将按照用户生成数据的目的将数据生成分为被动式和主动式,并介绍对应的数据获取方法.

3.1.1 被动式生成

被动式数据生成是指用户被动无目的地产生数据,数据所含信息与研究关注内容非直接相关.一般来说,用户在这一过程中多为自愿且无意识地提供信息.数据的来源包括上一节所介绍的全部物理空间数据源、网络空间中全部非社交类数据源和部分社交类数据源.

首先,对于物理空间数据源,其主要由行人、乘客或驾驶员的交通行为与自身携带或车辆装配的传感设备(例如GPS、监控摄像头等)以及公共基础设施(如移动通信系统和公交卡系统)交互生成与获取.举例来说,公共交通刷卡系统能够获取并记录市民出行时通过交通卡刷卡行为生成的移动轨迹数据和出行方式信息[21−25].

其次,对于网络空间中的非社交类数据,其主要由官方组织、机构通过互联网单向发布生成,可通过相关应用程序编程接口(Application programming interface,API)或网络爬虫等途径获取所需数据.例如,利用网络爬虫可以从气象网站或演出信息网站中抓取由气象局或演出场馆发布的天气情况或演出信息等[29].而对于被动式生成的社交类数据,其由官方或个人用户自行无目的发布提供,同样可通过相应的API 或网络爬虫获取,例如大部分研究均通过API 从Twitter 中获取交通部门或私人账号发布的交通事故信息等.

3.1.2 主动式生成

主动式数据生成主要指用户主动有目的地共享数据,数据所含信息由研究关注内容直接决定.具体来说,官方组织、机构或研究人员将间接引导或直接激励用户主动提供更具针对性和准确性的真实数据,用户按照数据收集要求自愿生成相关信息,如发布道路状况报告、反馈产品或服务评价.数据的来源主要为各类社交类数据源,即社交媒体.

1)众包.众包(Crowdsourcing)[92]是典型的主动式数据生成方式.在智能交通领域中,众包一般指利用大规模移动群体的感知能力完成无法由单一或小规模个体及计算机实现的交通相关复杂信息收集任务,例如共享单车的车辆故障报告、移动出行服务的行程评价以及在线地图的标注信息报错[93−94].Zimmerman 等[93]提出构建信息转换系统Tiramisu,其由用户共享GPS 轨迹与提交问题报告,能够处理用户上传的轨迹并预测公交实时到达时间.这些信息收集任务大多由社交媒体运营商根据自身优化发展目标设置发布,而用户则通过社交媒体不断提供数据.这些数据逐渐积累形成规模可观的数据集,其同样可通过相应的API 或网络爬虫进行获取.

但就目前来说,这类众包数据大部分并未对外开放使用且难以利用现有技术进行获取,而相对易得的数据却又普遍存在内容质量参差不齐或有效数量无法满足研究需要等难题.

2)人工生成.随着数据挖掘、深度学习等领域技术手段的革新和发展,研究人员创造性地提出人工生成大量可用数据,这也属于主动式数据生成方式.生成人工或虚拟数据的研究思路为:通过算法拟合、模型构建等方式对现有小规模真实数据集的关键信息或特征进行挖掘、分析和学习,进而将获得的知识经验拓展应用于大规模人工数据的生成,或直接利用已知规则、知识等方式产生数据.人工生成数据的数量、内容和表达形式均由研究需要决定,具有灵活多变的特点.王飞跃教授于2004 年提出基于ACP 理论与方法体系的平行系统的概念和方法,其为一种以人工系统(Artificial systems)、计算实验(Computing experiments)和平行执行(Parallel execution)为核心的复杂系统计算理论与方法的基本框架.其中,软件定义的人工系统可通过计算实验生成大规模数据,为人工或虚拟数据的研究提供了一种新的思路[95−99].此后,王飞跃教授及其团队还陆续发表了一系列关于人工交通系统的研究成果[96,100−107].另外,研究人员还尝试通过PARAMICS (Parallel microscopic simulator)[108]、VISSIM[109]、Transworld[105]以及SUMO (Simulation of urban mobility)[47]等交通仿真软件和生成式对抗网络(Generative adversarial network,GAN)等前沿方法[110−112]生成交通数据,图2 所示为一种用于交通预测的GAN 框架示例[111].尽管相关技术方法的研究还不够成熟完善,且所生成数据的真实可靠性仍待提高,对各领域数据的探究均具有重要意义.

图2 一种用于交通预测的GAN 架构示例[111]Fig.2 An example framework of the conditional GAN for traffic prediction[111]

总体而言,被动式生成的数据目前来源较广且数量相对较大,相应数据的获取技术手段或方法也较为成熟.然而,可用的有效真实数据数量仍然相对较少,数据所含信息的内容较为局限且无法完全与研究需要相对应,研究人员往往需要融合来自多类别数据源的数据进行数据扩充或信息交叉验证,但又往往还需面对普遍的数据壁垒问题.而数据的主动式生成方法虽已得到广泛应用,其仍存在可获得的有效数据规模较小这一研究难点.

依靠大量用户生成大规模真实数据仍是目前主要的数据生成研究思路,但数据生成过程所需的时间、资金或其他资源成本较大,且由大部分信息数据表达形式的差异而形成的数据壁垒会阻碍多源异构数据的融合.未来的数据生成方式会更趋向于由小规模真实样本数据生成大规模人工或虚拟数据,重点研究内容则将集中于多源异构数据的融合技术和有效且多样人工数据的生成技术.

3.2 数据处理与分析

数据准确、快速且有效的处理与分析是进行高效研究与应用的关键.由于当前应用于社会交通领域研究的数据类型较多,因此所涉及的数据处理与分析技术算法也相对广泛.其中,除由数据所决定的对应基本研究技术方法外,还包括针对不同研究对象、内容和目的所衍生出的一系列基本技术方法的变体形式.受篇幅所限,本文将主要从研究发展趋势这一角度对相应技术方法进行简要划分和整体概述.

3.2.1 统计分析

在社会交通的早期研究中,可用研究数据规模相对较小,数据的处理与分析主要为采用统计学方法对研究对象进行数学建模或量化分析,从而得出数据在时间、空间或其他方面的分布特征或规律性信息,能够辅助后续实验测试过程中参数的选择、设定和调整.并且进一步地,可将所得信息以图表的形式进行简明直观地展示和描述[25,39,73,83].目前,社会交通领域内仅单独采用数据统计分析的研究与应用相对较少,但仍存在部分研究将其作为数据的初步处理与分析过程,主要为其他相关行业领域内非专业研究人员的探究使用.

3.2.2 数据挖掘

随着计算机性能的大幅提升以及技术手段的更新优化,可用数据呈指数型爆炸式增长.这促使专家学者对数据所含信息进行深入探究、提取及知识转化,数据挖掘、深度学习等前沿学科随之应运而生.

广义的数据挖掘[113],是指在大规模数据集中进行知识发现的处理分析过程,或称为KDD.其步骤组成包括数据选择、数据预处理、数据变换、数据挖掘和模式评估或解释.各步骤过程均可使用包括k最近邻法(K-nearest neighbor,K-NN)[114−115]、卡尔曼滤波(Kalman filtering)[47,116]、贝叶斯网络(Bayesian network)[11,21,30,32]、支持向量机(Support vector machine,SVM)[72,117]、深度学习(Deep learning)[118−123]、自然语言处理(Natural language processing,NLP)[49,52−53,63,72,74,77−78]、仿真模型[47,105,108−109,124]等各类先进技术算法[22,36−37,43−44,51,57,76]进行研究.

在社会交通领域的研究中,数据挖掘的研究发展呈现由单向多、由实向虚的趋势.在研究初期,研究数据主要来自单一数据源,例如GPS 等物理空间或网络空间的非社交类数据源或Twitter 等网络空间的社交类数据源.其处理思路简明直接,即根据数据类型特点、所含信息以及对应研究技术的发展选择相应常规或改进优化的技术算法直接对原始数据的直观信息进行处理分析.这一阶段的研究主要集中于技术算法的优化,以期逐步提高结果质量或加快运算速度.而随着研究的不断深入,这种研究思路的局限性逐渐显现,原因主要在于:1)作为复杂的社会行为之一,交通行为的产生受多方面因素影响,例如节假日、音乐会、体育赛事等既定事件和不利天气、交通事故等非既定事件,使得相关数据隐含某些特定规律性特征.而直接单一的研究思路可能会导致对研究对象特征或重要信息的挖掘与分析片面化.2)在数据规模不足的情况下,由于人为误差、设备偏差、数据稀疏等主观或客观原因,单一数据源不能确保数据及研究所得结果的真实有效性.因此,后续的研究转为尝试探索新的思路,以期进一步提升运算速度和结果精度.鉴于现代交通行为的复杂特性,研究数据的来源逐步从单一数据源扩展到多源异构数据,即对多个不同类型或不同类别数据源进行综合处理与分析,从而推动相关新兴技术的研发与应用.同时,相关研究在根据数据类型、内容类别等直观信息进行挖掘分析的基础上,综合考虑多类有关影响因素以深入探究研究对象的时间、空间及其他规律性特征,并据此填补和完善缺失数据甚至生成人工或虚拟数据以解决数据壁垒问题,为深度数据挖掘提供新的可能.

在单一数据源有效数据量受限的情况下,多个具有相同类型和结构数据源的融合能够对可用数据进行补足或扩充,以更好地满足实验需要并增强所用算法技术的泛化能力.而对于多源异构数据的挖掘应用,主要依据不同类别数据源的可信度或重要性区分侧重地进行融合补充或交叉验证应用.常见的多数据源结合形式分别为:社交类与非社交类数据源的融合、网络空间与物理空间数据源的融合.参照文献[125]可将综合利用多源异构数据的现有思路分为三类:1)在研究过程中先将多模态数据源融合,提取及分析相关数据的综合特征或信息后进行进一步具体的处理、分析与应用,例如文献[11,19,42−43,50].2)在研究过程中先按照数据类型或内容类别分别提取、处理与分析多模态数据源的特征或信息,对初步所得结果进行融合后总结得出结论或进行进一步探究应用,例如文献[12,30,32,39,79,82].3)在研究过程中分别处理与分析多模态数据源的特征或信息后,按照数据结构或信息内容对初步所得结果分别进行同一研究目标的具体不同探究与应用,例如文献[21,23−24,54,117].

对应的研究应用目的目前主要分为两类:

1)数据内容或结果的交叉验证.相关研究大多数以新兴数据源的使用为主要探究内容,通过其他多模态异构数据源的可靠信息验证所探究数据的内容或所得研究结果的可靠性.例如,将新兴多变的社交类数据源与传统稳定的非社交类数据源交叉验证[39,41,79,82].

2)数据特征或信息的相互补充.相关研究大多数以内容可信度或重要性较强的数据源为主要挖掘对象,辅以其他多模态异构数据进行特征或信息的补充,从而更加全面深入地挖掘与探究相关研究内容,并提升与完善研究结果的可信性和可行性.例如,将较真实可靠的物理空间数据源与丰富复杂的网络空间数据源融合互补[15,19−20,23−24,30,32,42−43,50,54,117].对于跨媒体信息的分析与推理,Peng 等[84]从跨媒体统一表征理论与模型、跨媒体关联理解与深度挖掘和跨媒体知识图谱构建与学习方法等7 个方面进行综述,归纳总结了现有研究方法、进展、挑战及发展方向.

进一步地,可在多源异构数据融合研究的基础上进行探究,即在综合分析影响交通行为或状况变化的多方面因素的同时,将现实世界的真实数据及由人工系统或仿真模型所产生的人工或虚拟数据相结合,以扩大可用研究数据的规模,从而突破以往研究思路的两大局限,并实现研究效果的提升以及技术算法的优化[126].但相应地,数据的真实可靠性仍是目前研究一大挑战.刘昕等[127]在平行系统的基础上进一步探究并提出平行数据,其中的虚拟数据由实际数据经计算实验产生.所提出平行数据的概念和框架,为数据处理、表示、挖掘和应用提供了一个新的范式.

同时,研究人员在不断发掘有效且可用的新兴数据源的基础上,也积极探索数据处理和分析的新思路.Yao 等[60]提出一种用于预测出租车需求的深度多视图时空网络(Deep multi-view spatial-temporal network,DMVST-Net),同时对时空相关性进行模拟,其结合了卷积神经网络(Convolutional neural network,CNN)、长短时记忆网络(Long short term memory,LSTM)以及谱嵌入(Structural embedding)三种技术对数据进行处理与分析,并构建了对应的时间、空间和语义视图.Chen 等[128]突破以往交通拥堵预测研究中常用的一维时间序列结构,提出使用二维矩阵结构对原始数据进行建模重构,以进一步突出体现研究对象的隐含特征.

3.2.3 数据可视化处理

在社会交通领域的研究中,可视化处理作为数据处理与分析中一项重要但非必要的研究环节,其应用常与上述前两类关键必要过程相结合,根据实际需要对数据信息进行拓展探究或知识转化.

1)可视化处理与统计分析相结合,即以统计学图表等简明直观的形式对统计分析结果进行具体描述和展示.其通常仅针对单一数据源,由人为观察初步归纳得出有助于研究开展的变化特征、影响关系或其他重要信息,从而为高效的数据挖掘指明探究切入点[19,25,35−36,39,62,68,73,83].图3 展示了文献[35]为探究出租车需求量的空间特性所用数据统计结果.

图3 已完成出租车需求量统计结果[35]Fig.3 The statistical result of fulfilled taxi demands[35]

2)可视化处理与数据挖掘相结合,即以热点图、动态带状图、关键字云图等更多样的形式对数据挖掘所得结果进行转换表达,更直接地从多方面揭示数据的变化趋势与规律、影响关系以及知识经验.这类可视化处理涉及多种数据类型,相对于统计分析结果的直接输出展示,其有助于多模态异构数据中隐含信息内容的协同表达与阐述及多领域的研究与应用[13,23−24,40,59,65,72,129].图4 为文献[24]在分析智能公交卡和社交媒体数据后可视化生成的多视角图.

图4 特大城市大数据的可视化融合[24]Fig.4 Visual fusion of mega-city big data[24]

特别地,若将算法模型、仿真交通环境、人工交通系统或平行交通系统等方法生成的仿真模拟或计算实验数据可视化,则可对确定已知交通场景进行整体、全面、具体且直观地描绘,实现特定环境中交通情况的重现与分析.另外,还可对随机未知环境中的交通状态进行预测,例如交通意外事故、大型自然灾害等不可预知事件发生时的交通状态,这对于以重大交通事故防范及应急预案的制定、完善与实施为代表的城市交通安全的研究与应用具有重要意义.

此外,由于应用场景和用户群体的不断变化与扩增,为满足多元化研究及应用需要,相关研究进一步提出探究性可视化.其与数据挖掘可视化相似,具体形式与内容由研究目的决定,主要以交互的方式不断获得所需要的特定类型数据,从而结合社会群体的力量与智慧探究“以人为本”的智能交通应用形式,例如利用手机应用软件交互式收集用户共享的实时路况信息.因此其目前主要应用于相关软件平台的开发或智能交通系统,为用户提供所需交通信息[22,54,56,75,130].

根据相关数据、内容和技术的研究发展趋势,当前社会交通的技术研究热点集中于包括交通工程学、数学、物理学、计算机科学、信息学、社会学等学科领域的现有研究技术、方法或思路的集成与融合,以及新技术算法、模型或框架的提出、优化与结合,从而进行人工或虚拟数据与跨媒体异构数据的生成、分析与推理,解决多元知识信息的融合问题.

4 研究与应用

由于社会交通领域的研究与应用内容主要取决于可用数据源及相关数据处理技术,故本文根据数据的研究发展趋势分类介绍研究与应用的思路,具体将按照数据处理及分析的过程由浅入深进行分析阐述.社会交通的早期应用主要依赖于物理空间数据,初步探究交通现象的典型基本特征或变化规律,从而指导交通相关交叉学科的研究或应用,例如城市交通规划和城市交通系统优化.近年来,跨媒体异构数据的全方位扩增、人工数据研究的提出以及前沿算法技术的优化革新都为交通问题的探究思路和方法带来新的灵感和启发.目前,社会交通的现有应用探究主要集中于图5 所示的三类内容,具体内容及大致发展趋势分别如下.

图5 社会交通研究与应用的发展趋势及分类Fig.5 The development trend and classification of social transportation research and application

4.1 交通场景中客观对象或既定事实的性质

新兴领域的探究往往从典型研究情景中的单一基本点入手.对应于社会交通领域的研究与应用,通常表现为对常见交通场景中存在于物理或网络空间的交通主体(人或车)[20,22−24,40,65]、行为[25,36−37,58,65,117]、事件[52−54,68−70,72,131−133]乃至舆情[23−24,39,49,57,63,73−75,77,134]等基本组成元素信息的检测与识别,或对基本组成元素所属类别或特征属性的判定.Maghrebi等[58]通过分析墨尔本市区内所发布的Twitter 数据内容来检测用户的交通出行方式,结果表明社交媒体数据可作为信息的有效补充来源用以帮助出行需求的确定等相关研究.

4.2 交通状态或现象的潜在成因、影响或经验知识

作为典型的复杂系统,现代交通系统并非仅由独立存在的客观对象所构成,还包括客体对象彼此之间的关系.因此,将交通场景中客观对象或既定事实等成分视为独立散点的研究与应用具有一定的局限性,难以在宏观层面准确描述由多方面因素影响的交通状态或现象.深入的探究需要依照特定的内在联系将多个点串联成线,并逐渐形成复杂的关系网络,从而在空间尺度上对相关研究及应用进行拓展,从整体上揭示交通状态或现象的本质.现有研究主要集中于交通状态或现象的变化规律[25]、隐含关系[11,41,60,135]或成因影响[15,19,81]等信息的归纳分析,以及普适性知识经验的挖掘.Zhao 等[25]对深圳市的智能交通卡数据进行探究,提出一个有效获取个体乘客公共出行模式的数据挖掘过程,并使用基于统计学和无监督聚类的方法理解出行模式的隐含规律和异常现象.

4.3 特定情况下的未知交通行为、状况或需求变化

进一步地,综合利用所掌握的各方面确定性数据信息、相关关系或知识经验,能够推进对交通基本对象、常见事件以及正常或异常状态的变化情况或其他相关未知信息的探究,即在扩大空间研究范围的基础上为突破时间尺度局限的深入研究与应用起重要辅助作用.其作为社会交通领域当前的热点研究问题,所涉及的典型实际应用为交通行为[11,30,32,61]、交通事件[39,44,128,133]、交通状况[11,21,38,42−43,48,136−138]、交通需求[19,35,60,139]及其他信息的预测[79,116,140].Lin 等[43]提出构建一个主题增强高斯过程聚合模型(Topic-enhanced Gaussian process aggregation model,TEGPAM)的概率框架,对传统速度传感数据与社交媒体数据进行融合,以改善道路交通速度预测结果.

结合跨媒体数据的检测与识别能够显著提高感知和获取信息的全面性和实时性,而大规模人工或虚拟数据的生成与使用则能够增强技术方法和所得结果的泛化性和普适性.同时,综合利用处理与分析跨媒体数据或人工数据所得特征规律或知识经验等信息,有利于整体全面感知与理解交通场景及其成分的变化和内在联动关系,为后续研究与应用提供合理有效的依据,从而提高研究结果的准确性和可靠性.

4.4 城市交通的统筹协调、管理控制或优化提升

在此基础之上,上述数据的融合研究可应用于城市交通的统筹、管控与优化,包括信息的双向传播、交通状态的管控、交通服务的优化及交通资源的规划,乃至突发或特殊公共事件的信息上传、资讯发布及相关应急预案的制定等应用,例如交通信号灯的智能调控、大规模人群状态变化的预测与应对乃至重大传染病患者移动轨迹的确定、引导与管控等[141−142],这些都对城市的快速且平衡发展具有重大意义,因而该研究方向将逐渐成为未来研究与应用的重心.目前,已有许多集成上述单项或多项研究应用的应用程序、网络平台或智能交通系统,为多类用户群体提供全面的服务[11,20,50,52,66,69−70,74−75,130,133,136−139,143−149].郑治豪等[75]开发了一套基于社交媒体大数据的交通感知分析与可视化系统,分别利用支持向量机算法、条件随机场算法和事件提取模型实现微博的分类、命名实体识别与交通事件提取等任务,系统可视化模块见图6.

图6 基于社交媒体大数据的交通感知分析与可视化系统[75]Fig.6 A traffic sensing and analyzing system using social media data[75]

鉴于当前研究应用的发展主要受限于可用数据的数量和质量,上述应用程序、平台或系统趋于尝试根据研究对象的自身性质、变化特征以挖掘与利用多源跨媒体数据,或由相对较少的数据中提取有价值的深层隐含信息后通过多种技术方法的使用与结合逐步实现知识自动化,又或利用平行系统的ACP方法人工生成大规模可用有效数据以解决这类研究困难,具体可参照文献[96,100−101,106,150].

而进一步地,由于依据平行理论在实际系统的基础上构建的人工系统,能够设计模拟受各类复杂因素变化影响的交通系统,突破了一般应用场景的实践研究局限.因此,通过平行系统进行大量的计算实验能够明确各类社会交通数据的适用场景,并验证相关研究成果实际应用的有效性,进而实现多种复杂社会场景下的智能决策.

5 总结与展望

目前,社会交通在研究数据、方法思路、算法技术以及实际应用等方面均仍存在诸多问题与挑战,领域内基本要素如图7 所示.相关研究方向和内容还较为局限和分散,尚未形成完整且成熟的研究体系.

图7 社会交通领域研究的基本要素Fig.7 Basic elements of research in the field of social transportation

从当前来看,充足的可用有效数据是社会交通领域研究所需面对的首要挑战,其在数量和质量两个方面均亟需扩增和提升.首先,数据的覆盖范围和数量有待扩增,主要表现在物理空间中实际数据覆盖范围有限、数据缺失和稀疏问题严重以及网络空间中相关可用社交类数据量较少等方面.其次,数据的微观准确性有待提升,主要表现在物理空间与网络空间中数据信息可信性难以保证,且跨媒体数据间的融合存在壁垒阻碍.针对上述问题,研究人员提出利用仿真软件及生成式对抗网络生成大规模人工数据的思路,以及对跨媒体异构数据进行融合、互补及验证等方法.相应地,对数据的探究间接引发了对用于数据处理与分析的算法技术的挑战,其中包括应对同数据类型多源数据的普适算法或模型的泛化能力、人工数据生成模型搭建思路的逻辑合理性,以及融合分析多模态数据的技术方法的综合性能.克服上述挑战的关键在于深入探究前沿技术算法,对其进行优化、集成或融合.

作为交通工程学与社会学的交叉学科,社会交通与城市整体的规划、建设及发展具有密切的联系.然而,社会交通领域内的研究与应用还未充分发挥其在推动城市发展方面的作用.在具体实际应用方面,不足之处包括:广泛且有效的探究并利用社会舆情、人际关系和群体智慧不足;充分挖掘数据信息得出有效知识经验或可行智能决策不足;与城市交通系统较好地融合并形成合理的体系结构不足;与城市的规划、调控及发展深入结合不足.为克服上述问题,研究应结合与交通不可分割的社会因素,从而进一步推动智能交通系统的未来发展.Xiong等[151]结合人类因素和社会因素提出的基于CPSS(Cyber-physical-social systems,CPSS)的交通系统,恰好符合王飞跃所指出的下一代以社会为中心的智能交通系统(又称交通5.0[152])的典型特征,即基于CPSS.同时,作为交通5.0 的基本解决方案,包括ACP 理论等结构框架或理论方法在内相关研究的推广与应用[153]则是未来交通系统发展的必经过程[154],而这一过程需要由大量来自信息、物理和社会空间的数据推动.

大规模的跨媒体数据能够驱动社会交通研究的发展,尤其是需要依靠丰富多样的数据信息来支撑的平行交通系统.构建实际城市交通系统对应的人工交通系统,根据真实数据信息利用计算实验生成虚拟或人工数据,可对多种具体或特定场景下的交通状态变化进行模拟与分析,从而为引导城市交通综合管理走向智能化提供可靠的实验基础和指导,进而逐步实现平行智能交通.此外,为进一步扩大社会交通的影响效应,研究人员应尝试拓宽研究思路和范围,并结合技术算法的发展趋势[155],发掘社会交通领域研究与应用的更多可能性,例如多人工交通系统的构建及协同运行.