可视化交互空间数据挖掘技术的探讨
2018-04-24赵文博王曙燕
赵文博 王曙燕
摘 要:文章主要围绕可视化交互空间数据挖掘技术,阐述了可视化与空间数据挖掘之间的关系、交互可视化的关键方式。进而对数据挖掘中的两种常用技术做出了进一步探究,以供相关人员参考。
关键词:可视化;交互;空间数据挖掘
目前,在地理信息获取技术的快速发展中,存储在空间数据库中空间数据的深度与广度也获得了进一步发展,传统的空间统计与分析方式已很难对此进行快速且有效的处理与分析。因此,为了让这些数据能够得到更为有效的处理与分析,空间数据挖掘技术便随之产生。
1 可视化与空间数据挖掘之间的关系
空间数据挖掘的知识发现,主要是针对有一定可视化需求的地理空间数据,对于广大用户来讲,地理可视化可以为其提供符合空间目标心理认知过程的相关信息呈现与实际分析环境,因此可考虑把空间数据挖掘过程放置在地理可视化的环境下实行。针对知识发现与构造而言,可视化具有以下比较突出的两点优势:(1)提供较强的交互功能,使用户可以将自身的能动性自由发挥出来,并对数据挖掘过程进行较好的控制。(2)提供较为丰富的可视化表现能力,根据空间数据的各个维度与角度一起进行分析,这对于用户进一步理解问题与选择更加适宜的数据挖掘模型算法非常有利。根据空间数据知识发现的整个过程来讲,差不多所有过程均能与可视化相结合,其中包含数据选择过程与数据预处理阶段等,可视化方式对知识的整合、提取与传输具有非常重要的作用[1]。总而言之,针对空间知识发现来讲,其必须经历一个循环过程,即数据挖掘算法运用、结果检测与可视化、将挖掘方式加以改善。在此整个过程当中,针对有关用户将自身视觉观察能力与专家知识的合理融入,可视化环境对此具有重大意义。
2 交互可视化的关键方式
经常使用的可视化技术主要有以下几个方面。
2.1 基本查询观察技术
包含地图平移、放缩、视点选取与其他不同图形,比如,空间查询与选取技术等。
2.2 色彩的运用
人们对于色彩非常敏感,因而在可视化中,色彩有着很关键的地位,通常情况下,可利用色彩将数据的实际变化趋势、部分分布规律等方面清楚表示出来。在交互可视化中,应当让用户自由对不同色彩形式的数据描述进行选择,色相、亮度与饱和度等,用户可任意将此加以调整,同时系统环境也应当为其提供部分较为有效的色彩形式,从而让用户有更多选择。
2.3 自动专题制图技术
在时空数据分析与数据挖掘过程中,会有很多不同的专题地图。不过,怎样才能将一些专题信息更好地体现出来,也变成了用户对数据进行深入分析的一种负担。而自动专题制图技术,则能够利用系统内置的地图制图知识,将数据信息在地图上自动体现出来。这种方式不仅能够使用户对于这一方面的负担得到有效降低,并且还能较好地防止因为没有足够的地图知识而致使不适宜的表示,从而让用户可以投入更多精力对数据做出进一步分析。
2.4 不确定数据与缺失数据可视化
在空间数据库当中,数据的不确定与缺失现象普遍存在,怎样利用可视化方式让用户真正意识到数据的质量问题,同时在之后的数据分析中采用与之对应的方法进行有效处理,这也变成需要进行深入探究的关键问题。针对数据的不確定性,在一般情况下,都会通过色彩尤其是饱和度与色调之间的调配,同时与其他数据视图并列或是叠置进行表达,也可利用符号的模糊化将此类信息呈现出来。而针对数据的缺失现象,通常可使用固定值代替同时在图形中体现出来,这种方式能够较好地发现缺失数据的实际分布情况[2]。
3 数据挖掘中的两种常用技术
3.1 贝叶斯网络和决策树
贝叶斯网络主要是对一组数据变量之间概率的有关关系进行表示的图形模型,如图1所示是一个典型的贝叶斯网络结构,主要体现了4个变量之间的相互关系。其来源于人工智能领域,最初是在专家系统当中加以应用,关键是对不确定信息进行有效处理。其呈现出的形式属于一个网状模型,而在这之中的概率模型则是根据贝叶斯理论而获得。贝叶斯网络在可视化空间数据挖掘中的应用,主要可以从用户界面交互、地理信息学当中的空间决策支持与环境制图方面体现出来[3]。
决策树主要是一种树状结构,通常是对一组数据训练以后所获得的结果,依照某一属性将数据集合进行的实际测试便是其内结点,进而根据各个数据记录,将此不一样的属性值分成较多分支,而针对最后的叶结点而言,则是将最终类型或类型的分布体现出来。决策树图形很容易可视化,并且对于其原理与实际形式的理解也并不是非常困难,因此在空间数据挖掘中经过把决策树可视化,同时和地图进行动态连接,便能够将空间数据结构更好地体现出来。这对于用户进一步分析空间数据有很大帮助,并且还能够使人们的分析决策能力得到一定提升。
3.2 在数据挖掘应用中,决策树与贝叶斯网络的有机结合
针对两者的有机结合,根据紧密程度可将此分为以下几个层次
3.2.1 结果校验比较
其主要是指针对某项实际任务(通常为监督分类),可各自经过决策树方式与贝叶斯网络分析数据,进而比较两者所获得的最终结果,以此使结果校验的根本目的得以实现,并且还能够让某种模型对于目前也许会出现问题的情况得到避免。
3.2.2 线性结合
主要是指先利用某种方式的预处理,之后再把中间结果导入另外一种方式,从而获得最终结果。因为决策树计算相对较为简单,已有的决策树算法通常具备了对数据“噪声”或者缺失数据进行有效处理的能力。而贝叶斯网络则相反,其学习非常繁杂,特别是在数据量比较大等有关状态下更加显著。因此,可先采用决策树方式将一些数据加以处理,之后再对运用贝叶斯网络开展进一步数据挖掘工作进行考虑。此外,因为决策树方式能够获得相应规则,所以此类规则便可当作用户的先验知识,进而将其引进贝叶斯网络的学习当中。反之,贝叶斯网络因为自身能够较好地考虑到先验知识的优势,所以可先将其当作一种知识表达的图形模型,以此在一定程度上制约决策树方式的假设空间,让计算量得到大幅降低。此外,贝叶斯网络还能够将多源数据融入统一的模型当中,从而在统一的图形模型中,更好地采用其他数据挖掘方式,将多源数据的可靠性问题加以处理[4]。
3.2.3 完全结合
两者的完全结合必须具有高度交互可视化的界面,用户可在任意时间对知识发现的整个过程进行干预或监控,可在任意时间通过某种方式分析与处理中间結果,同时也可将目前的分析进程中止,实行回溯分析。此种方式是最为理想且很难实现的知识发现形式,用户在处理有关问题时,可根据多个模型与不同角度做出深入分析,进而使结果更加可靠,并让用户参与度得到进一步提升。用户的先验知识不单只是在数据挖掘的初期才会将其作用发挥出来,同时还能在后期帮助用户将处理进程进行有效调整,并及时发现也许会产生的错误。这样不但能够获得新知识,而且又能将此当作新的先验知识而融入以后的知识发现当中。实际上就是把整个数据挖掘过程转换成一个循环交替、逐渐上升的过程,进而使其可靠性与透明度得到一定提升[5]。
具体而言,先经过决策树方式对数据进行预处理,使某种数据减量目的得以实现,其次则可利用贝叶斯网路分析变量之间的关系,把有关变量经过决策树算法获得多个决策树模型,因为贝叶斯网络与贝叶斯统计方式能够较好地防止数据过配,而针对此类多个决策树模型,则需要重新经过贝叶斯网络验证,此外还可利用不一样的决策树剪裁算法进行比较,这样不但在选择决策树模型时更加方便,并且也能够将不同剪裁方式的性能做出进一步分析与比较。反之,决策树模型同样也可对贝叶斯网络中学习获得的因果关系与局部概率的具体分布进行验证。整个过程不管是贝叶斯网络,或者决策树,均是以可视化方式来表现出来,不同视图之间可进行连接,这样在做比较与分析时则会更加容易。
4 结语
在空间数据探究分析过程中,把可视化技术与空间数据挖掘这两种方式进行有机结合,使其成为一种可视化交互空间数据挖掘技术,这对于大量空间分析与空间决策具有很大帮助。针对可视化交互空间数据挖掘技术而言,应当将地图的优势充分发挥出来,尤其是动态交互地图,其对空间信息传输与引导用户思维具有重大意义。
[参考文献]
[1]王玲.基于GIS空间数据挖掘技术的应用研究[J].测绘与空间地理信息,2013(6):121-123.
[2]南丽丽.基于云模型的数据挖掘技术研究[J].数字技术与应用,2013(7):65.
[3]朱亚琼.可视化驱动的交互式数据挖掘方法研究[J].电脑知识与技术,2016(36):4-5.
[4]贾泽露,张彤.基于GIS与SDM技术的可视化空间数据分类研究[J].测绘科学,2012(1):115-118,165.
[5]刘耀林,张彤.可视化交互空间数据挖掘原型系统设计与实现[J].武汉大学学报(信息科学版),2016(10):916-919.