大数据环境下地理空间数据交换中心的升级与改造
2022-10-08张立
张 立
(深圳职业技术学院 人工智能学院,广东 深圳 518055)
1 地理空间数据交换中心面临的挑战
地理空间数据交换中心(以下简称“数据交换中心”)面临最直接的挑战是时空数据采集方式的变化,特别是互联网技术的成熟以及智能手机的普及有力地促成了时空大数据服务体系的功能角色专业划分态势,时空数据的采集者可以不再是时空数据的保存者和运营服务者;时空数据的采集也不再需要全程的专业设备,对一些实景照片的分析也能实现对地理景物的识别,再结合众多来源的新型时空大数据(如个体时空定位数据、网络消费数据、社交应用网络数据)并进行融合分析与深入挖掘即可满足时空大数据服务的要求[1-2].
数据交换中心现有处理数据的方式难以应对时空数据多元化趋势.传统的时空数据主要包括基础地理数据、台站观测数据、人文统计数据,多呈更新周期长、采集成本高、数据结构化程度高等特征.其中基础地理数据通常是由专业的测绘部门来测量与采集,台站观测数据主要来自各部门和机构建立的观测台站,人文统计数据则主要包括土地普查、经济统计、地质水文、城市交通等调查数据[3].这些数据的特点主要体现在专业化程度比较高,存储形式也多为结构化数据,应用范围主要集中在专业化的地理信息系统(GIS).与传统的空间数据相比,时空大数据作为现实世界中的地理实体在信息世界中的多维度映射,其数量级已经逐步达到TB、PB级,例如个人位置信息的数据在2009年就已经达到了PB级[4].而这些海量时空数据产生方式也发生了很大变化,涵盖了互联网、物联网、全球定位系统、智能移动设备、各类传感器与摄像头等众多数据采集途径.换句话说,其数据来源不再仅仅限于专业测绘设备,而且非专业测绘设备采集的数据量的占比也正在逐渐扩大.新型时空大数据的类别见表1.
表1 常用新型时空大数据的类别
时空大数据不仅在数量上增加,而且其外延也在扩大.人类生活中所产生的数据有80%和空间位置有关,目前我国卫星遥感数据已超过美国已达600PB,每个大城市的城市视频数据量大约为3000~4000PB,超过600个城市拥有城市实景地图[5],这些涉及现实地物或对象的照片和视频都可被纳入时空大数据的范畴,这些多源异构的数据没有特定的结构形式,数据语义丰富,蕴含了大量可挖掘信息和巨大潜在价值.从感知对象角度,时空大数据可以划分为感知地理环境的时空大数据与感知人类社会活动的时空大数据,前者依托于遥感云平台发布的各类遥感数据服务与处理服务,而后者则依托于互联网与物联网技术、社交媒体平台的发展,并正以惊人的速度快速增长[6].在数据体量上呈现出海量性、采集时间呈现出连续性、数据关系呈现出内在关联性,这正是新型时空大数据的特征.
从应用前景来看,个体时空定位数据、网络消费数据、社交应用网络数据通过与遥感数据产品、电子地图数据、智能交通数据、物联网传感数据等新型时空数据的组合叠加、融合分析、深入挖掘正为人们生产生活的方方面面提供高效的智慧服务,从而实现真正意义上的地理信息社会化应用.数据交换中心只有引入大数据技术,更新自身的处理思维模式才能应对时空数据多元化的变革.
大数据环境下的时空数据外延不断扩大,单个部门或机构的数据或单个来源的数据也无法满足时空大数据分析的需要,换言之,数据交换中心需要整合多源时空大数据才能提供时空大数据分析服务.例如,满足一体化出行的智慧交通可能涉及到的时空大数据包括手机信令数据及其衍生的出行出发地点-目的地(OD)数据、兴趣点(POI)数据、公交 IC卡/自动售检票系统(AFC)数据、浮动车GPS数据、网约车订单数据,这些数据来源不同,获取方式也存在差异.其中手机信令数据主要用于合理推算城市人口分布情况、城市空间布局,兴趣点(POI)数据可以用于分析得出目标区域的职业分布、出行分布等信息,实现更为精确的交通需求预测.公交IC卡/AFC数据、浮动车GPS数据、网约车订单数据可通过分类计算与融合分析用于推算各交通方式的需求量以及运行现状.为了提升城市智慧化程度,数据交换中心需要充分整合这些多源时空大数据,对居民出行需求的差异性、随机性进行精细化剖析,在增加交通设施满足交通流运行的基础上实现通过动态调控交通网络满足一体化出行的需求[7].
数据交换中心面对的数据用户也正在发生改变,时空数据的需求者不仅仅局限在测绘专业相关企业和部门,普通大众都可以成为时空大数据服务的对象,最典型的时空数据应用案例是用于居民出行的车辆智能导航,出行者只要利用安装在智能手机上的导航APP即可实现傻瓜式的实时道路导航服务.
随着时空大数据正逐步取代传统的静态空间数据成为地理信息社会化应用的主要数据载体,时空数据服务模式正经历着重组和变异.以车辆的运动轨迹分析为例,在过去往往是由应用开发商自行购买电子地图(静态地理空间数据),并自行编写程序来根据车辆与地物的拓扑关系来解析车辆运动轨迹;而现在则可以直接向时空数据分析服务提供者购买车辆运动轨迹的数据分析服务,购买方得到的是一系列的API接口程序或软件开发包,只要在自行开发的程序中调用这些API或解析时空大数据服务网站上下载得到的数据流即可实现特定的时空数据分析功能.换句话说传统的数据服务主要是指提供时空数据本身,而大数据环境下的数据服务演变为提供数据分析服务的途径或结果,形式可以是Web服务、API接口程序等等.
2 地理空间数据交换中心转型与升级
在传统的数据服务体系中,数据交换中心主要有两大职能,其一是地理空间元数据标准的制定,其二是构建空间数据的生产者、管理者及数据用户之间沟通的网络发布平台.目前大数据环境下的时空数据服务需求与模式均发生了很大变化,时空数据的应用范围也在不断拓展,时空数据的潜在价值也有待于被不同领域不同行业进行更多的深入挖掘,这就要求作为时空大数据服务体系中核心成员的数据交换中心通过转型与升级来适应这种新变化[8].
作为沟通载体的地理空间元数据,其收集、维护和发布在数据交换中心传统意义上的职能中占有相当大的比重,这是因为其提供的数据服务模式主要是以地理空间元数据作为载体、为数据用户提供方便查找适用于其应用的时空数据产品的途径;而大数据环境下,数据交换中心的数据服务需要调整为一系列时空大数据分析服务或提供数据清洗后的时空大数据资源.
要实现这种时空数据服务新模式,数据交换中心需要自行建设以时空大数据分析资源池(以下简称“大数据资源池”)为核心的新体系架构,有针对性地购买、下载、提取多源时空大数据,并进行融合分析与深入挖掘以便对外提供通用时空大数据分析服务.当然数据交换中心还可以对已有的时空数据进行数据清洗,同时对外提供访问这些时空大数据的接口.大数据时代的到来还意味着思维方式的变革,大数据时代的特征之一就是——不再是带着问题找数据,而是根据数据来寻找和定义问题和需求.大数据资源池中保存的时空大数据可以催生各种新的数据分析需求,从而进一步提升基于时空大数据分析的智能服务质量.
如前所述,大数据环境下单个部门或机构的数据也无法满足时空大数据分析的需要,分散在不同机构的数据都可能被作为时空大数据分析的素材.这也就促成了数据交换中心内数据存储方案的变革.具体来说,地理空间元数据由于其数量以及特殊性仍然可以被集中地保存在数据交换中心的关系型数据库中,这对于提供时空元数据查询至关重要;而其他的时空大数据则由数据交换中心通过购买、商业合作等方式获得,这些数据原本保存在云端(即分属于不同机构的分布式存储系统中),不可能也没有必要全部归属于数据交换中心存储与维护的范围内.特别是新型时空大数据,例如网络消费数据产生于诸如淘宝、京东、拼多多等网购平台,智能交通数据则来源于智能公交、交通视频监控等等,社交应用网络数据存在于微信、微博、QQ等社交网络平台.这些新型时空大数据的获取只能通过购买和合作两种途径,数据交换中心本身无法生成这些数据.
尽管时空大数据的来源、类型、获取方法存在差异,但为了提供某些通用时空数据分析服务,提高时空数据分析的效率,数据交换中心需要通过构建大数据资源池来保存从云端时空大数据清洗后的结果,这些数据主要被用来作为数据交换中心进行时空数据分析与挖掘的素材,其中保存的时空数据格式和存储方式都可以根据需要重新规划和设计.这是因为云端分布式数据存储方案通常不是针对某种时空数据分析需要的,它的目标旨在解决数据存储的形式多样化要求、数据存储体量扩展要求、数据存储速度与性能的要求.这种数据存储方式并不一定适用于旨在实现各种通用时空大数据分析功能的大数据资源池.
3 时空大数据分析资源池的建设
大数据环境下,数据交换中心的转型与升级的工作重点就是构建大数据资源池,其功能是以大数据资源池保存的数据为基础对外提供一系列时空大数据分析服务,或提供数据分析二次开发组件和接口以便用户自行定制面向个性化需求的时空大数据分析.大数据资源池的逻辑框架结构图如图1所示.
图1 时空大数据分析资源池逻辑框架结构图
3.1 数据资源池的数据获取
根据数据交换中心服务目标的定位,构建大数据资源池的初衷是针对预测与规划需求提供高效的时空大数据分析服务,其数据来源主要是外部数据,即第三方云端存储的时空数据及其元数据,这些数据需要根据数据分析的需要来确定是否要载入大数据资源池.当然大数据资源池中也可以包含数据交换中心的内部数据,内部数据主要是指数据交换中心自行采集、下载、购买、加工的时空数据及其元数据.
在理想情况下由既定的时空大数据分析任务来确定需要哪些时空数据作为数据分析的素材和对象,但现实中数据交换中心因为数据归属、隐私限制、购买价格等因素并不能获取所有想要的时空大数据.因此,在大数据资源池建设初期通常需要以现有能得到的时空数据为出发点,面向大数据资源池潜在的应用有针对性地进行时空数据合理的筛选,并通过数据清洗和挖掘逐步构建大数据资源池.
数据清洗对于有效缩减大数据资源池中脏数据规模、提高数据分析效率而言尤为重要,数据清洗的对象主要包括缺失值、重复值、异常值等.其中,重复值的处理主要包括去重(删除数据值完全相同的多条数据记录)、去除(删除数据主体相同但匹配到的唯一属性值不同的数据记录).异常值的设置标准不同得出的判定结论也会大相径庭,因此需要结合潜在大数据分析应用的特点来制定异常阈值.缺失值就是数据中由于缺少信息导致某个或者某些数据不是完整的,这对数据分析有一定的影响,但由于大数据资源池中时空数据样本数量较大,所以缺失值可以被直接删除或通过估算进行清理.
从数据存储特性上划分,大数据资源池的数据可以分为存储在关系型数据库中的结构化数据以及形式相对不固定的非结构化数据两大类.从体量上来说,非结构化数据的体量更为庞大,它主要是城市视频、实景地图、地物图片等数据.大数据资源池的数据除了从相关机构或部门获取之外还可以通过软感知的方式获得,即通过网络爬虫、事件追踪(俗称“埋点”)等方式来生成相关数据,其数据生成方式以离线方式为主,其数据可用于对时效性要求不高的规划类时空大数据分析与挖掘.
从数据生成方式来划分,大数据资源池的数据可分为两类:一类是经过数据清洗后的时空大数据,这一部分的数据是原始时空大数据的子集,另一类则是以前者为基础经过数据筛选与分析处理后生成的新的时空大数据,这些数据都可以直接对外提供给数据用户作为时空大数据分析挖掘的素材.大数据资源池的数据生成还需要对数据源进行认证,明确时空数据的归属,确定时空数据密级标准(通常包括对外公开、内部公开、秘密、机密、绝密等信息密级维度),制定数据质量方案,并在数据入库后注册完成元数据.
其中,对于数据质量的考量涉及以下几个方面:数据完整性是数据质量最基础的一项,例如地物编号不可为空,否则在数据入库时在数据清理阶段该数据记录将被清除;数据的准确有效性是指真实、准确地记录原始数据,减少非法值数据的存在;数据一致性主要体现在数据记录是否反映现实事物或符合逻辑,例如同一编号对应的不同系统中的地物应该是同一个实体,哪怕在不同系统中地物表达的类型可能不同,这种情况是允许存在的,主要缘于分析任务的不同以及对地物或对象理解上的差异.另外,数据交付滞后的时间过长可能导致分析结论失去参考意义,这就对数据的及时性提出了要求,即只有满足业务对信息获取的时间要求的数据记录和传递才是有意义的.
3.2 时空数据的表达与拓扑关系的处理
在时空大数据分析中,某些规划或预测的分析推断对数据精度要求不高,其需要的可能只是时空数据分析判断的结论作为统计分析素材.例如对某路段的车辆拥堵的分析判定时,只要车辆位置在马路中轴线扩展一定范围内即可判定这辆车在该路段上,“车辆是否在该路段上”这个结论才是大数据分析所关心的内容.当然判定是否成为拥堵或标识拥堵程度还需要结合车辆在该路段的数量以及车辆移动速度的阈值等因素进行判断.但无论如何设计判定规则,最终保存的判定结果可以变得很简单(甚至可以是一个布尔量),这样有利于提高大体量的时空数据分析和挖掘效率,毕竟基于时空大数据分析的规划或预测需要考量的更多是统计意义上的族群分布或变化趋势.
时空大数据分析过程中很大程度上需要对分析对象之间的拓扑关系进行分析和处理,大数据资源池的建设有相当一部分工作就是建立便于快速准确查询的拓扑关系数据,这种拓扑关系的表达可以是对原始时空大数据的分析处理结果,它们将作为用于对其他时空大数据分析挖掘的素材.鉴于结构化数据查询遍历的效率,时空对象的拓扑关系在大数据资源池中可被保存在关系型数据库中.
为了提高时空数据分析效率,对于时空数据中精确的坐标位置、对象间的拓扑关系也会做一些近似处理.例如公交车是否到站的判定主要依托表达公交车(点对象)与车站(可以是点对象也可以是面对象)的拓扑关系.具体来说,如果把车站作为点对象来考量,当作为点对象的公交车与同为点对象的车站的距离小于某个阈值即可判定公交车已经到站;而如果把车站作为面对象来考量,公交车需要进入面对象内部才能判定为公交车已经到站,此时可以把车站近似为其外切矩形的地物对象,并通过判别公交车坐标值是否进入这个近似的矩形范围内来判定公交车是否到站.显然这种近似往往是不精确的,但这种近似减少了精确计算所带来的计算强度,同时因为时空数据分析往往依托拓扑关系聚类分析的结果(而不是研究对象之间的精确拓扑关系),所以个别的拓扑表达错误不会影响最终的数据分析和统计结论,特别在大体量的时空数据分析和挖掘中这种近似处理不会影响其分析结论和判断.
另外,在大数据资源池的拓扑数据表中为了某种数据分析任务的需要往往会增加时间特征的字段.例如为商业区域(如购物城等)店铺的合理规划提供改进决策支持需要对客户分析进行人群画像,此时根据客户(个人)的手机信令数据把客户作为点对象被记录下其移动的轨迹,商铺作为静态地物被视为面对象,除了判断客户是否进入某商铺还要记录客户在其中停留的时长,因此在点与面对象拓扑关系表达与判断的同时需要增加时间字段以便记录客户在该商铺停留的时间长短.
3.3 时空大数据云服务平台建设
大数据资源池保存的数据一般不会让外部用户直接访问,外部用户实际上是通过数据交换中心的时空大数据云服务平台来间接访问其数据的.时空大数据云服务平台的建设目标是针对不同类型的用户需求提供时空大数据的规范化访问途径,将各类数据分析或访问服务整合成服务库的形式,为客户提供通用时空大数据服务的同时还提供大数据资源池的二次开发组件和接口.
具体来说,时空大数据云服务平台依托云计算技术,根据用户不同的需求提供不同种类的时空信息服务,由此构建服务库以便基于大数据资源池中各类数据实现不同层次的时空数据分析服务与能力支持.云计算技术实现的基础是将大量的服务器按统一逻辑架构组合在一起,由此才能提供针对大数据资源池中海量数据的计算与存储[9-11].
时空大数据云服务平台的构建旨在提供通用时空大数据服务,主要包括地名匹配服务、影像推送服务、通用空间分析服务等.其中,地名匹配服务主要是利用时空数据之间的关联性实现空间定位与地物属性的智能匹配与查找;影像推送服务则通过对卫星影像数据自动解析并按场景与区域范围的变化推送分发到相应的程序或设备上;通用空间分析服务主要是利用高性能空间分析引擎实现空间对象坐标位置的计算、多源信息的叠加、聚类分析处理[12].
为了让外部用户更好地利用大数据资源池的时空大数据,数据交换中心还需要提供了多层次的二次开发组件和接口,以便用户使用这些组件或接口完成个性化的时空大数据分析功能拓展,在形式上可以是利用软件开发工具包(SDK)在现有的业务应用系统中开发访问大数据资源池数据服务库的功能模块,也可以编写个性化的时空大数据分析应用,即直接通过访问接口 API读取大数据资源池的时空大数据.大数据资源池相关的开发组件和接口通常包括基于浏览器的二次开发包与基于移动设备的二次开发包两种类型,以满足不同途径、不同形式的访问需要[12].
4 结束语
为进一步深入整合现有数据资源,国务院相继印发了《促进大数据发展行动纲要(2015年8月)》、《政务资源共享管理暂行办法(2016年9月)》,其目标就是解决“数据孤岛”问题实现信息化资源大融合大共享,从而实现时空大数据的社会化应用.大数据环境下数据交换中心的转型与升级就是顺应实施大数据战略、推进数据资源开放共享这一重大国家战略方向.
数据交换中心在转型升级过程中需要着眼于如何应对大数据环境下时空大数据的特点以及数据服务模式的变化,其核心内容是融合多源时空数据构建大数据资源池,并以此为基础搭建时空大数据云服务平台,对外提供个性化时空大数据分析与服务.在时空大数据服务体系中,数据交换中心只有运用大数据的解决方案和技术手段才能实现对大量的时空数据进行有效的利用、挖掘其内在的潜在信息和价值,以便提供适合大数据时代的时空数据服务支持,在社会管理与日常应用诸多领域中实现时空大数据本来应有的价值.