大数据背景下数据可视化方法研究
2016-07-23黄堰程晓荣
黄堰++程晓荣
摘要:大数据时代数据飞速增长,高维数据越来越多迫切需要新的数据可视化方法对高维数据进行处理。本文在传统的Radviz数据可视化方法基础上,结合弹簧模型,给出了一种改进的Radviz数据可视化方法,并通过两种模型之间的比较,证明了改进的Radviz可视化方法增强了属性间的合力,降低了数据遮盖度,更好地保持了原有数据集的特征。
关键词:大数据;数据可视化;Radviz;弹簧模型
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)17-0231-03
随着大数据时代的到来,数据产生的速度呈直线上升,数据海量化已成为不可避免的发展趋势。数据急剧增加对数据处理、数据挖掘以及数据可视化等都是一个极大的挑战。目前,数据可视化面临高维数据越来越多,数据量越来越大,数据种类越来越多等多种挑战。针对这些问题,提出了一种Radviz数据可视化方法,将高维数据样本非线性的投影到二维目标空间,能够快速找到容易被领域专家认可的可视化模型。但是传统的Radviz可视化方法将属性值均匀分布在圆周上造成属性间的值相互抵消,从而导致数据遮盖度较大及可视化图形有内缩趋势等问题。本文提出了一种新的改进的Radviz可视化方法,改进的方法增强属性了间的合力,降低了数据遮盖度,使得原始数据集的特征能够更好地保持。
1 数据可视化
数据可视化技术诞生于二十世纪八十年代,是运用计算机图形学和图像处理等技术,以图表、地图、动画或其他使内容更容易理解的图形方式来表示数据,使数据所表达的内容更加容易被处理。数据可视化技术与虚拟现实技术、数据挖掘、人工智能,甚至与人类基因组计划等前沿学科领域都有着密切的联系[1]。目前数据可视化技术大体可以分为5类:基于几何投影可视化技术、面向像素可视化技术、基于图标可视化技术、基于层次可视化技术以及基于图形可视化技术[2]。
数据可视化的简易工作图如图1所示:
2 传统的Radviz可视化方法分析
Radviz(Radial Coordinate Visualization)是一种基于弹簧模型的可视化方法,Radviz是将一系列多维空间的点通过非线性方法映射到二维空间,实现在平面中对多维数据可视化的一种数据分析方法。自从Ankerst于1996年提出Radviz技术以来,Radviz技术取得了很大的发展,被广泛应用于可视化分析和数据挖掘等领域。近年来更是把Radviz技术运用到基因表达数据的分类上,且取得了良好的分类效果[3]。
2.1 传统Radviz模型
经典的Radviz方法通常运用在平行坐标系上,将一系列具有多维度属性的点通过非线性方法映射到二维空间,使人们得以用肉眼观察。如图2所示,设n个特征变量随机均匀地分布在单位圆周上(如n= 6),记为
其中,
根据胡克定律,对一个弹簧而言,小球所受到的弹力取决于弹簧拉伸的长度(矢量)和弹簧的弹性系数(标量) ,当小球静止不动时,则表明其受到所有弹簧的合力为零。对此可得到如下公式:
其中xj表示第j个变量在二维空间的圆周上的坐标,pi表示第i个观测点在圆内二维空间平衡位置的坐标。公式(2-2)表示第i个观测的平衡位置,式(2-3)表示观测平衡位置向量pi为各变量的坐标位置的加权平均。为了避免负值的出现,常常采用归一化的方法,即将最大值和最小值归为1和0,归一化后的所有得数值都位于[0,1]之间[4]。归一化公式为:
从上述公式分析,我们可以得出如下结论:
(1)维度值越大,那么该投影位置将更靠近该维度在圆周上的位置;
(2)改变圆周上的属性,将影响投影的位置;
传统的Radviz可视化方法计算复杂度低;可显示维度大;相似多维对象的投影点十分接近,容易发现聚类信息;直观便于理解。但是传统的Radviz方法也存在一些不足,该方法受数据本身及数据集的类型影响,当相似的数据集或成比例的数据集较多时,数据遮盖度会很大,将会影响对原始数据集的特征保持[5.6]。
3 改进的Radviz可视化方法分析
传统的Radviz可视化方法受数据本身和数据集类型的影响,一旦相似数据集或成比例的数据集较多,数据遮盖度就会很大,那么原始数据集的特征将会被影响,造成这种现象的原因是传统Radviz模型属性间的相互作用增加了数据密集度,使数据覆盖和重复概率增大,从而影响原始数据集的特征。对此,本文提出了一种改进的Radviz模型,新的模型减少了属性间的相互作用,从而使可视化结果更加接近数据集的原有特征。
3.1 改进的Radviz模型
改进模型采取1/4圆来对应n维空间,对于一个n维数据集,那么就将1/4圆n等分,即每一个点表示一个维度,然后通过弹簧模型来将数据集投影到二维平面的1/4圆中。但是每个点都在1/4圆弧上,则有可能最后的平衡点不在1/4圆内,那么就需要一个固定点来使得平衡点一定落在1/4内,这里把原点设为固定点。如四维数据集,原理图如下:
在图3中,X、Y轴分别表示投影点的横、纵坐标;原点表示用来使平衡点一定落在1/4圆内的固定点;Mi表示数据集的每一个维度;O表示数据集在1/4圆周上的平衡点;h(x,y)表示平衡点O的坐标函数。
3.2 改进Radviz可视化方法的实现
3.2.1 数据预处理
首先要对数据集进行预处理,把非数字转化为数字,然后对数据集进行归一化处理,使得数据集中的所有数据都在[0,1]之间。本文采用的归一化公式为:
3.2.2 固定点弹性系数
传统的Radviz模型没有固定点,当然也就不用设定固定点弹性系数。但是,在改进的Radviz模型中所有的属性都在1/4圆上,他们所受到的弹力都在一侧,无法使得平衡点落在1/4圆内,所以需要提供一个固定点,来提供一个弹力来使得平衡点落在1/4圆内。本文提出了一种全局均值的固定点弹性系数算法,全距均值就是所有属性中最大值和最小值的均值之和,它可以使数据可视化投影点处于居中的位置,方便进一步的数据处理。全距均值的计算公式:
3.2.3 新的平衡点坐标计算
其中,圆的半径为1,p表示弹簧弹性系数,k表示第i个数据中第t个属性的值,两个三角函数表示第t个属性沿坐标轴的分量[7.8]。再由合力为零,得到投影坐标的公式为:
3.3 改进Radviz模型与传统Radviz模型比较
传统的Radviz模型是把所有属性随机均匀分布在一个圆周上,那么属性之间的夹角都是钝角,那就使得属性的投影值小于它的初始值,这就导致属性值的落点更靠近圆点,增加了数据遮盖度,最终导致得到的数据可视化效果较差。而改进的Radviz模型是把所有的属性均匀分布在1/4圆周上,属性间的夹角就是一个锐角,也就是说属性的投影值不小于初始值,这就使得属性值的落点比初始值更远离原点,这就降低了数据遮盖度,最终得到的数据可视化效果就更好。
综上所述,改进的Radviz数据可视化方法更好,即更好地保持了数据集的原始特征,又能得到更好的可视化效果;为数据可视化的研究提出了一种更好的方法,使得数据可视化更加容易,得到的结果更加可靠。
4 总结
本文在研究传统的Radviz数据可视化方法的基础上,结合传统方法的优点,给出了一种改进的Radviz数据可视化方法,并对改进可视化方法进行了分析与比较。解决了传统方法不能很好保持原始数据集特征和数据遮盖度高的问题,使得数据可视化的效果更好,为数据可视化提出了一种新的参考方法。
参考文献:
[1] 任磊,杜一,马帅,张小龙,戴国忠.大数据可视分析综述[J],软件学报,2014(9):1909-1936.
[2] 陈建军,于志强,朱昀.数据可视化技术及其应用[J].红外激光工程,2001,30(5):339-343.
[3] 张涛,赵发林,武振宇,李康.Radviz可视化方法在基因表达数据分析中的应用[J].中国卫生统计,2011(1):2-4+8.
[4] 徐永红,洪文学,陈铭明.基于Radviz及其优化的可视化故障诊断方[J].计算机应用研究,2009(3):840-842.
[5] 陈琰.基于Radviz算法的金融数据可视化分析技术研究[D].浙江大学,2014.
[6] 曾晶.Radviz可视化技术度量模型的研究[D].北京交通大学,2011.
[7] 胡健,李济龙,曹丹阳.一种改进的Radviz数据可视化方法[J].北方工业大学学报,2015(3):30-35.
[8] John Sharko,Georges Grinstein.Visualizing Fuzzy Clusters Using Radviz[J].IEEE,2009(6):307-316.