面向复杂来源的大数据分析架构研究
2021-12-02熊燕
摘要:大数据时代数据的大不仅仅在于数据量的多少,更为复杂的是数据结构的多样性。本文首先介绍了研究背景和研究目的。然后分析了大数据可能的来源,从这些来源初步可以判断出数据形式的复杂。紧接着对不同类型数据进行了特征分析,重点在于地理数据及人类反馈信息。基于对复杂数据的特征分析,随后给出深度数据分析的工作流程,提出基于聚类算法模块的全局架构设计方案。
关键词:聚类分析,GIS,人类,时空,维度
前言
对于一个社会来说,信息获取由三大部分组成,一个是物理,一个是人类本身,一个是信息。当今大数据趋势呈不断上升趋势,除了物理传感以外,时空数据的感知渠道新增了许多。首先是互联网,像Facebook、微博、微信等有大量的信息每天都在网上,这些信息大量反映社会发展的现状,也包括人文的一些理解和信息,以及包括人的相关观点模型。
数据很“大”不仅仅是数据很“多”。事实是,大数据的类别、数据间关联的复杂才是真正的“大”。处理海量的复杂的数据,首先要弄清楚这些数据的来源。来源不同的数据造成了数据的积累、数据结构复杂度的提升。
1.大数据来源分析
1.1现实社会大数据的产生
首先当今许多行业的日常工作几乎都是在互联网上进行,关键词搜索、各官网平台数据交互、数据通信等。
第二是智能手机,智能手机更多地反应了个人在社会经济中的行为,如在线申报、及时通信、各种APP等。
第三是导航设备,包括实时的交通、路况各种信息,都是由导航设备得到的。
第四是视频监控,城市、企事业单位里现在有大量的视频,每个城市都有几十万、上百万甚至更多,这些视频从原理上说既是感知物理世界的视频,同时也是感知人类社会的视频。对人流量感知,对突发事件的感知,都会有大量信息获取。
最后,现在很多人戴的手环、电子表,这些可穿戴设备本身提供很多的信息,包括个人、群体的信息等。
1.2量化与感知数据
针对这些来源,一些可由物理感知获取较量化的数据,较复杂的是社会感知产生的数据。那么,现在对于一个应用,越来越多地需要同时获取来自物理感知和社会感知的多方数据,并能为这个应用同时服务。
首先,我们就需要识别有哪些数据来源,并分析这些不同来源数据的特征。其次,这些来源经常会涉及不同领域、不同物理设备以及人类自身,因此必然造成从这些复杂来源获取数据的复杂多样化。这些数据有些本身在结构性、动态化等方面就已经非常复杂,如何统一收集、管理、分析这些数据的任务复杂度则是呈级数增加。如何融合复杂来源的大数据高效地为同一应用所服务,我们需要分析来自复杂来源大数据的个性及共性特征。进而,清理出不必要的冗余,找出不同来源数据的关联性。
在《面向复杂来源的大数据分析架构及算法模型研究》项目实施中,发现用户在网络和数字地图上的活动数据具有GIS数据的时空特性,还具有人类本身感知反馈产生的数据。这些数据造成了多种应用系统大数据处理的复杂度。
2.多种数据特征分析
2.1GIS数据特征分析
如今,社会上许多行业和部门都在使用GIS(Geographic Information System)。在研究项目中,某职能部门的预警系统时时刻刻都在收集地理数据。
地理数据是与空间相关的。它可以被分配坐标或任何空间引用。数据在地球表面,包括位置和组织。地理数据的规模可以从一般到具体,从简单到复杂。一颗卫星每天可以产生几百万兆的数据。地理数据是动态的,包括空间动态(空间变化)和时间动态(时间变化)。地理数据既具有空间特征,又具有属性特征,并随时间变化。因此,数据量非常大。
空间数据是指用来表示空间实体的位置、形状、大小和分布的数据。它可以用来描述现实世界的目标。它具有区位性、质量性、时间性和空间性的特点。空间物体在已知坐标系中具有独特的空间位置。质量是指空间目标的性质,伴随着目标的地理位置。空间目标会随时间改变。空间关系通常用拓扑关系来表示,如图1所示。空间数据是人类赖以生存的自然世界的数据。空间数据由基本的空间数据结构(如点、线、面和实体)表示。
2.2人类反馈数据特征分析
在研究项目中,某职能部门的预警系统不仅定时收集固定時刻的地理数据。同时,在有临时事件触发预警系统时,可能会收集触发系统的民众信息。这些信息包括:民众的地理位置、反馈时间、反馈事件、预警等级、民众个人信息、意见等。
相对较量化的地理数据而言,人类反馈信息的准确性、清晰度都是不定的。也就是说相对而言,数据“噪音”较多。那么在大数据分析架构中需要考虑“噪音”的处理。
首先,原始数据不准确性是产生不确定性数据最直接的因素。物理仪器所采集数据的准确度受仪器的精度制约;在网络传输过程(特别是无线网络传输)中,数据的准确性受到带宽、传输延时、能量等因素影响;在传感器网络应用与RFID应用中,周围环境也会影响原始数据的准确度。
第二,从粗粒度数据集合转换到细粒度数据集合的过程会引入不确定性。例如,假设预警系统以行政区为单位统计预警人数,而需要精确到街道时,则预警人数存在不确定性。
第三,缺失值产生。装备故障、无法获取信息、与其他字段不一致、历史原因等都可能产生缺失值。无论是用插值还是删除的方法,都有可能变动原始数据的分布特征。
第四,不同数据源的数据信息可能存在不一致,在数据集成过程中就会引入不确定性。例如,应用前端中含很多信息,但是由于页面更新等因素,许多页面的内容并不一致。
还有一点,也是较常出现的问题。人类在移动过程中产生的地理数据很容易出现不确定性。LBS(Location-Based Service)是移动计算领域的核心问题,在军事、通信、交通、服务业等领域有着广泛的应用。LBS应用获取各移动对象的位置,为用户提供定制服务,该过程存在若干不确定性。首先,受技术手段(例如GPS技术)限制,移动对象的位置信息存在一定误差。其次,移动对象可能暂时不在服务区,导致LBS应用采集的数据存在缺失值情况。
3.深度数据分析的工作流程
首先,必须确定系统需要哪些数据。数据资源可以通过访问公众、收集地理信息等方式获得。可以先把所有的数据进行分类、去噪、初步筛选。其次,只有遵循正确的程序,我们才能有效地应用深度数据分析挖掘技术。
图2给出了深度数据分析的工作流程。从这个流程中,可以直接确定每个阶段的任务。工作流包括四个阶段: 挖掘对象确定(Miningobjects determination)、数据准备(Data preparation)、模式提取(Pattern extraction)、模式评价(Pattern assessment)。
在此工作流程中,从问题域直接获取的业务数据库,依据应用需求经过数据“清洗”提取获得目标数据库。然后针对目标数据库,对数据进行预处理,当然是基于模式提取需求的。模式提取使用一些科学的计算方法,得到可用模式集。最后根据用户意愿评价模式,用户意愿可以使用一些评估值或阈值设定提取范围,评价出的模式用以辅助用户决策。
4.基于聚类算法模块的全局架构设计
在确定了数据来源之后,应用科学的流程对不同类型特征的复杂来源数据进行预处理后,即可构建数据挖掘的算法架构。
如图3所示,基于聚类算法的体系架构由四个部分组成: 数据维的划分、切片、聚类、识别。
聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。
广泛获取不同来源的大数据后,首先设别出不同类型的数据,对这些数据进行分类,有些数据存在多种维度。在Data preparation modules阶段,对数据的维度进行划分,根据应用需求切片。本阶段,可根据应用需求的变化,重新设定维度划分的大小、切片的标准。以此尽量获得应用需求所需粒度的维度数据。一个数据库或者数据仓库可能包含若干维或者属性。人类的眼睛在最多三维的情况下能够很好地判断聚类的质量。在高维空间中聚类数据对象是非常有挑战性的,特别是考虑到这样的数据可能分布非常稀疏,而且高度偏斜。
在Pattern assessment modules阶段,应用合适的聚类算法,计算出相关模式,然后根据人类自定义的阈值选取结论,产生数据深度挖掘后的结论。很难对聚类方法提出一个简洁的分类,因为这些类别可能重叠,从而使得一种方法具有几类的特征。本研究主要用到的聚类分析计算方法有:划分法、层次法、基于密度的方法等。
大部分划分方法是基于距离的。给定要构建的分区数k,划分方法首先创建一個初始化划分。然后,它采用一种迭代的重定位技术,通过把对象从一个组移动到另一个组来进行划分。一个好的划分一般准备是:同一个簇中的对象尽可能相互接近或相关,而不同簇中的对象尽可能远离或不同。
系统关注的是地理数据的维度,这些数据被信息需求分割。然后高密度区域被划分为集群。在对数字地图进行聚类之后,用户可以进一步识别地图上的深度信息。
结语:空间数据已广泛应用于社会各行业、各部门,如公安系统、城市规划、交通、银行、航空航天等。随着科学和社会的发展,人们已经越来越认识到空间数据对于社会经济的发展、人们生活水平提高的重要性,这也加快了人们获取和应用空间数据的步伐。空间数据及人类反馈的不确定性数据的综合分析处理,对各种应用系统产生决策信息的有效性起着至关重要的作用。
参考文献:
[1]Arabameri Alireza, Pal Subodh Chandra, Rezaie Fatemeh et al. Modeling groundwater potential using novel GIS-based machine-learning ensemble techniques[J]. Journal of Hydrology: Regional Studies. 2021, 36
[2]张晓东.基于复杂系统理论的平行城市模型架构与计算方法[J].指挥与控制学报. 2021,7(01)
[3]Venkat Rayala. Big Data Clustering Using Improvised Fuzzy C-Means Clustering[J].Revue d’Intelligence Artificielle. 2020,34
项目来源:面向复杂来源的大数据分析架构及算法模型研究,湖北省教育厅2019年度科研计划项目,项目编号B2019285
作者简介:熊燕,女,副教授,湖北省武汉市武昌理工学院,人工智能学院