基于平行坐标的高维数据可视化算法研究
2018-05-28徐旸
徐旸
摘要:由于大数据时代的多维数据的普及,多维数据的可视化和可视化分析对于数据模式的发现至关重要。平行坐标图主要用于对同一组的不同属性进行可视化分析。可视化多维高维数据的常用方法是使用平行坐标图。但是,这些方法由于边的重叠导致视觉混淆从而无法有效地表达数据信息和检测模式。该文设计了一个高维数据可视化算法,基于边捆绑的平行坐标图,并对其进行重新排列,有效地提高了高维数据的理解和视觉分析能力。
关键词:高维;平行坐标图;视觉混淆;可视化
中图分类号:TP31 文献标识码:A 文章编号:1009-3044(2018)09-0017-03
Abstract: Due to the popularity of multidimensional data in the era of big data, the visualization and visual analysis of multidimensional data is crucial for the discovery of data patterns. The parallel coordinates are mainly used to visualize the different attributes of the same group. A common way to visualize multidimensional high-dimensional data is to use parallel coordinates. However, these methods cant effectively express the data information and the detection mode due to the visual confusion caused by the overlap of the edges. In this paper, a high-dimensional data visualization algorithm is designed, which is based on the side-bound parallel coordinates and rearranges them. It effectively improves the ability of high-dimensional data understanding and visual analysis.
Key words: High-dimensional;parallel coordinates plot;visual clutter;visualization
近些年來,随着科学信息技术的发展,系统的存储容量和运算能力都有了突破性的提高,数据的采集和存储变得越来越方便,在包括工业,金融业,制造业互联网等各个领域产生了大量的数据。这些数据往往拥有很多个属性,被称为多维数据。这些多维数据需要数据展示分析方法将其进行数据可视化,普通情况下,多维数据的分析是在二维的屏幕空间内进行的,因此,大量的多维数据如何映射到普通的二维屏幕空间是研究的重点。
在20世纪80年代中期和90年代初期,Insellber等[1]提出了一种多维数据可视化技术,称为平行坐标技术,该技术也是后来研究和应用最为广泛的多维数据可视化技术。在该方法中,每个高维数据对象被映射为相互平行的属性轴上,并根据每条属性的属性值将相邻2个属性轴建立连接关系,边是连接N个数据点的折线。
该项技术存在几个缺陷。例如,当数据规模较大时,平行坐标中的边的数量增多,各边之间形成大量的重叠,这会造成视觉上的混淆,而这种混乱将会进一步造成数据分析人员对数据判断的干扰,使完成集合内部和集合之间的任务分析变得困难。为了解决这个问题,在基于平行坐标技术的基础上,提出一种新的多维数据可视化算法,去改进缺陷。
1 相关工作
平行坐标技术是高维数据可视化的常用方法。但是,当数据实例的数量很大时,平行坐标技术可能由于重叠绘制而变得混乱。现在有很多研究来减少视觉混乱。Heinrichetal[2]等使用平行坐标图的捆绑技术。他们的研究目的是比较捆绑平行坐标和原始平行坐标图之间数据集线性相关的识别效率。有些方法需要通过操纵轴来重新排序。这些方法可以揭示隐藏的模式。有些方法通过渲染曲线来增强平行坐标图。这种方法有效地减少了由于绘图造成的混乱。Edward J. Wegman等[3]使用数据集的聚类。McDonell[4]等将传统的边捆绑算法用于平行坐标,使用贝塞尔曲线来代替原有的折线,并通过调整控制点的位置来调整曲线弯度,进而调整边捆绑强度。Heinrich B J,Stasko J和Weiskopf D[5]评估了用于捆绑识别的平行坐标图。这也是减少视觉混淆的常用技术。Palmas[6]等首先使用高斯核密度估计来对平行坐标每个属性轴上的数据点单独聚类,在边捆绑之前为每个属性轴添加虚拟绑定轴;然后结合原始数据集将相邻2个属性轴上的群集连接,在渲染时使用多边形来代替相邻2个虚拟绑定轴之间的连接关系。Telea A和Ersoy O[7]使用基于图像的边缘捆绑算法。虽然这些边缘捆绑算法以不同方式计算曲线边缘,但是它们使得一些边缘图案更明显,从而减少了视觉混淆。Wang J[8]使用平行坐标图中嵌入的多分辨率气象数据集分析数据参数,有效地分析了多分辨率多属性之间的相关性,但在多维高维可视化时可能存在不必要的遮挡数据。Zhou等[9]将平行坐标假设为一个物理能量系统,边与边之间有相互作用力,并且边在其他边的作用力下可弯曲,边的弯曲程度由其在能量系统中所受其他边的合力决定。该算法在最大限度地减少边的曲率的同时,最大化边与相邻边之间的平行度, 最终达到边捆绑的效果,从而缓解视觉混淆。在本文中,我们使用一种基于中值的重排算法,用于绑定平行坐标图,以减少高维数据中多个集合中的视觉杂波。
2 算法实现研究
2.1捆绑平行坐标图的设计
在平行坐标图中,每个高维数据都被绘制成一条多段线并被映射为相互平行的属性轴上,并根据每条属性的属性值将相邻2个属性轴建立连接关系,这样形成连接N个数据点的折线,称为边。通常,所有边都在相邻的轴之间交叉。边的整体分布特征可以反应数据集相邻属性之间的关系。为了进一步比较组件关系,在原始的平行坐标图的相邻属性轴之间添加束点。从而反映了组件分配。从水平,垂直和弯曲程度三个方面来构造边捆绑的平行坐标图。
在水平方向上:定义轴[Xi]和[ Xi+1 ]为原始平行坐标的相邻属性轴,轴的高度为h和宽度w。对于一个集合,点[Mx0,y0],其中[x0]是相邻轴的中线的横坐标,[y0]是垂直方向中线的[n+1]平分线,其中n是集。
在垂直方向上:组间束点沿着两个相邻轴的中心线分布,束点的数量取决于组的数量。例如:如果组数为6,则两个相邻轴之间将出现6个束点。
在弯曲程度上:用[γ]表示曲线,用来描述两个三次贝塞尔曲线的失真尺度。三次贝塞尔曲线的几何形状由四个控制点决定。开始(结束)控制点由数据集的相应属性值确定,结束(开始)控制点由束点确定。中间的另外两个控制点由[γ]决定,其中[w1=W/2*γ] ,[0≤γ≤1]。假设节点[Px1,y1],第二控制点坐标为[x1+w1,y1],第三控制点坐标为[x0-w1,y0]。
使用上述设计,可以绘制捆绑的平行坐标图。数据在一维中的集合间分布可能是倾斜的,所以直接的捆绑平行坐标图在不同集合之间产生遮挡。
2.2重新排列集合顺序
当数据规模较小时,可以进行手动过滤,但是当存在多个集合或者多个属性时,考虑到多个属性之间的关系,手动过滤可能会遇到很多麻烦。如何重新排列集合的顺序,从而有效地减少视觉冗余,成为亟待解决的问题。在本文中,使用一个基于中值的重排算法来解决这个问题。
为了更好地理解同一维度的集合分布,使用中心趋势来衡量数据分布的中心。由于大部分数据是非对称数据,因此更好的方法是使用中位数。中值是与最大值或最小值无关的序数的中间值,它将高一半的数据与下半部分分开,并有效地反映了集合在属性中的集中趋势。
为了更全面地了解整个数据集中不同集合属性的集中趋势,建立了一个中值矩阵M。假设数据集中有n*d个属性,则第i个属性的j属性的中位数为[mij],这反映了数据分布的中心趋势。计算整个数据集以获得中值矩M.
由于不同属性的范围不同,为避免影响数据分析,数据应标准化。Min-max标准化是数据标准化的常用方法。对方差的倍数进行缩放,不会消除方差的影响,能够有效反映数据的原始分布。本文采用Min–max标准化方法对各属性的中值矩阵进行标准化处理。假设 [minA]和[maxa]分别是属性A上整个数据集的最小值和最大值。 计算Min-max标准化
A的值[vi]被映射到区域[0,10]中的[v'i]。中值矩阵根据每个属性进行标准化化。 然后得到標准化化的中值矩阵Q.
矩阵Q可以有效地反映不同集合中相同属性的分布差异。通过观察发现,当一个集合中所有属性的中值波动相对较大时,集合间的遮挡比较严重,但当波动相对较小时,集合间的遮挡效果较好。因此,有必要分析所有属性的集合的波动性,然后考虑最少量的视觉混淆。 在本文中,标准化中位数用于每个属性集合的总和,以定量描述集合在所有属性上的分布。矩阵S是通过对矩阵Q求和得到的。
其中[si]的相对大小反映了集合i在所有属性上的总体分布。S中的元素被分类以获得集合的优先级。然后,根据新的顺序绘制一个新的捆绑平行坐标图。新的捆绑平行坐标绘图有效地减少了视觉冗余和套间遮挡。
3 实验结果
为了验证多维可视化算法的有效性,本文进行了实验验证,选取了标准的多维数据集。绘制了重排之后的边捆绑的平行坐标图。重排前后的对比图(上图为重排前,下图为重排之后)如图1所示:
并计算其平均路径长度,平均路径长度可以用来衡量平行坐标图中的混淆程度。 计算公式如下:
重排后的平行坐标图之前和之后的平均路径长度的比较如下图2所示。从平均路径长度的比较来看,重排后的结果要好于非重新排列的平行坐标图。
4 总结和展望
在本文中,我们设计了新的高维可视化算法,基于平行坐标图技术,将基于中值的重排算法应用于边捆绑的平行坐标图,用于多集高维数据的可视化和分析。使用该算法,可以更容易地看到多维数据的所有属性的总体分布。通过将该算法应用于仿真数据和现实世界数据集,证明了该方法的有效性。今后,我们希望为视察增加视觉增强元素,以增强视觉表现力,同时我们也尝试在其他领域应用视听增强成果。
参考文献:
[1] Inselberg A. Theplane with parallel coordinates[J]. The Visual Computer, 1985, 1(2):69-91.
[2] Heinrich J, Luo Y, Kirkpatrick A E, et al. Evaluation of a Bundling Technique for Parallel Coordinates[J]. Energy Conversion & Management, 2011, 88(5):259-266.
[3] Wegman E J, Luo Q. High Dimensional Clustering Using Parallel Coordinates and the Grand Tour[J]. Studies in Classification Data Analysis & Knowledge Organization, 1996, 28:361--368.
[4] Mcdonnell K T, Mueller K. Illustrative parallel coordinates[J]. Computer Graphics Form, 2008, 27(3): 1031-1038.
[5] Heinrich B J, Stasko J, Weiskopf D. Eurographics Conference on Visualization (EuroVis) (2012) M. Meyer and T. Weinkauf (Editors) Short Papers The Parallel Coordinates Matrix[J]. 2010.
[6] Palmas G, Bachynskyi M, Oulasvirta A, et al. An edge-bundling layout for interactive parallel coordinates[C] //Proceedings of IEEE Pacific Visualization Symposium. Los Alamitos: IEEE Computer Society Press, 2014: 57-64.
[7] Telea A, Ersoy O. Image-Based Edge Bundles: Simplified Visualization of Large Graphs[J]. Computer Graphics Forum, 2010, 29(3):843-852.
[8] Wang J, Liu X, Shen H W, et al. Multi-Resolution Climate Ensemble Parameter Analysis with Nested Parallel Coordinates Plots[J]. 2017:81-90.
[9] Zhou H, Yuan X R, Qu H M, et al. Visual clustering in parallel coordinates[J]. Computer Graphics Forum, 2008, 27(3): 1047-1054.