基于交互式聚焦的多维网络流量可视化方法
2023-12-04周璨
周 璨
(长沙商贸旅游职业技术学院软件学院 湖南 长沙 410006)
0 引言
随着互联网技术的不断发展,网络流量的数据量也在不断增加。 如何有效地处理和分析网络流量数据,以提高网络安全性能和用户体验,成为当前亟待解决的问题[1-2]。 因此,研究如何将多维网络流量数据可视化,以便用户更直观地理解和处理数据,具有重要的实际意义[3-5]。
多维网络流量数据可视化是将网络流量数据以图形化形式展现出来,以便用户能够直观地理解和分析数据。目前,常见的多维数据可视化方法包括散点图、直方图、热力图等。 然而,这些方法只能展示少量的数据,难以处理大规模的网络流量数据。 交互式聚焦技术是一种将大规模数据以可视化的方式展现出来,并通过用户的交互操作,让用户能够深入了解数据的方法。 通过交互式聚焦技术,用户能够选择感兴趣的数据点,并对其进行聚焦和缩放操作,以便更深入地了解数据。
为了对基于交互式聚焦的多维网络流量可视化方法进一步研究,本文介绍了基于交互式聚焦的多维网络流量可视化方法,包括多维网络流量可视化方法、交互式聚焦技术实现、实验与结果分析等部分。 通过该研究,能够让用户更直观地理解和处理网络流量数据,提高网络安全性能和用户体验。
1 多维网络数据可视化框架
本研究提出了一种多维网络数据可视化框架,包括数据预处理、多维数据降维、聚类分析、可视化设计等4 个方面,如图1 所示。
图1 针对多维网络数据可视化框架
1.1 预处理
在预处理中,原始的多维vbv 网络流量数据首先经过数据预处理,清洗掉无效数据和噪声数据。 数据清洗的目的是去除无效数据和噪声数据,以便于后续的数据分析和建模。 常见的数据清洗方法包括删除重复数据、填充缺失数据、删除异常值等,然后还要有数据变换和降噪处理。在删除异常值时,要计算数据的异常程度如式(1)所示:
式(1)中,xi表示数据中的第i个观测值,μ表示数据的平均值,σ表示数据的标准差。 当Zi的值超过某个阈值时,可以将其视为异常值,并将其删除。
数据变换是将数据转化为相同的尺度,便于进行数据分析和比较。 常见的数据变换方法包括最小-最大缩放、标准差标准化等。 最小-最大缩放可以将数据缩放到[0,1]的范围内:
式(2)中,Xnew表示缩放后的数据,X表示原始数据,Xmin和Xmax分别表示原始数据的最小值和最大值。
数据降噪是通过滤波、平滑等方法,去除数据中的噪声和干扰,以减少数据的不确定性。 常见的数据降噪方法包括中值滤波、均值滤波等。 中值滤波为式(3)所示:
式(3)中,Xnew表示滤波后的数据,Xi表示原始数据中的第i个观测值,k表示滤波器的大小,median 表示取中值的运算符。 中值滤波可以有效地去除数据中的噪声和干扰,提高数据的质量和可靠性。
1.2 多维数据降维
多维数据降维是指将高维数据转化为低维数据的过程,以便于可视化展示和分析。 在实际应用中,高维数据往往具有冗余和噪声,降维可以去除这些冗余和噪声,提高数据的可解释性和可靠性。 常见的降维方法包括主成分分析、线性判别分析等。
假设有一个m个样本、n个特征的数据集X =[x1,x2,…,xm] ,其中每个样本xi是一个n维向量,表示数据集中的一个样本。 目标是将这个高维数据集映射到一个低维空间上,使得映射后的数据具有最大的方差。 具体来说:
(1)计算每个特征的平均值,以便于进行数据中心化。 即,对于每个特征j =1,2,3,…,n,计算其平均值:
然后,将每个特征的值减去其平均值,从而得到中心化后的数据矩阵如式(5)所示:
(2)计算数据的协方差矩阵,以评估不同特征之间的相关性。 协方差矩阵的定义为式(6):
(3)对协方差矩阵进行特征值分解,得到特征值和特征向量。 特征值是一个标量,表示对应特征向量的重要性程度;特征向量是一个n维向量,表示数据映射的方向。具体来说,可以通过式(7)来计算协方差矩阵的特征值和特征向量:
式(7)中,v表示协方差矩阵的特征向量,λ表示对应的特征值。 以通过特征值的大小来判断每个特征向量的重要性程度。
(4)选择前k个最大的特征值对应的特征向量,将原始数据映射到低维空间上。 具体来说,可以将原始数据X映射到新的低维空间Y,其中每个样本yi是一个k维向量:
式(8)中,Vk表示前k个最大的特征值对应的特征向量构成的矩阵。 映射后的数据Y具有最大的方差,且不同特征之间没有相关性,可以用来解释原始数据的方差和协方差结构。
1.3 聚类分析
聚类分析是一种无监督学习方法,其目标是将相似的数据点划分到同一个簇中,不同簇之间的数据点差异性最大。 K-means 是一种常用的聚类算法:
(1)随机选择k个数据点作为初始的簇中心。
(2)对于每个数据点,计算其与每个簇中心的距离,将其划分到距离最近的簇中。
(3)对于每个簇,重新计算其簇中心。
(4)重复步骤(2)~(3),直到簇中心不再发生变化或达到预设的最大迭代次数。
1.4 可视化设计
可视化设计在基于交互式聚焦的多维网络流量可视化方法中起着至关重要的作用。 该方法主要通过可视化技术将多维网络流量数据转化为图像或图表,以便于用户更好地理解和分析数据。
将数据进行上述处理后,需要根据数据的特点和需求,选择合适的图表类型和可视化技术,以便于用户更好地理解和分析数据。 例如可以选择柱状图、饼图、散点图、热力图等不同类型的图表,通过直观的图像展示数据的分布、趋势和关联性。 在可视化过程中,用户可以通过交互式聚焦的方式,选择特定的数据子集进行分析和比较。 例如可以通过鼠标滚轮、拖拽等操作,对数据进行放大、缩小、平移等操作,以便于更好地观察和分析数据。
2 实验与评估
表1是一个简单的多维网络流量的模拟数据表,本实验通过上述方法对该表格包含的数据进行实验和可视化处理。
表1 多维网络流量数据
表1包含了10 个数据点,每个数据点包含了时间戳、源IP 地址、目的IP 地址、协议类型、源端口、目的端口和数据大小等多个维度的数据。 根据可视化设计的基本方法,需要先对原始的网络流量数据进行预处理,包括数据清洗、数据转换、数据归一化等步骤,以便于后续的可视化处理。 表2 为对表1 的数据进行预处理后得到的结果。在表2 中,将源IP 地址和目的IP 地址分别转换为数字表示,同时将时间戳和数据大小进行了归一化处理,以便更好地进行多维数据分析和可视化处理。
表2 预处理后的网络数据
将源端口和目的端口合并为一个端口特征,使用“/”符号分隔;将源端口和目的端口合并为一个端口特征,使用“/”符号分隔;将源IP 地址和目的IP 地址合并为一个IP 特征,最后将所有特征都合并为一个“数据包信息”特征,使用“-”符号分隔。 这样可以将原来的多个特征降维为1 个特征,方便后续的多维数据分析和可视化处理,如表3 所示。
表3 降维之后的数据
在聚类分析时,需要先对数据进行处理,将每个数据包的信息拆分成多个特征,将每个数据包的协议、端口、数据大小等特征单独列出来,随后使用K-means 算法对数据包的协议、端口和数据大小进行了聚类分析,得到了如表4 所示聚类结果。 在该聚类结果中,使用了K-means 算法,将数据分成了3 个类别。
表4 聚类结果
在可视化阶段,本实验对表4 的数据采用了散点图形式的交互式聚焦可视化操作,如图2 所示。
图2 交互式聚焦可视化的散点图
3 结语
综上所述,本文探究了网络数据包的特征提取和聚类分析方法,提出了一种基于降维和聚类的数据分析方法。 该方法可以将网络数据包中的多维度特征信息转化为低维度的特征向量,并使用K-means 算法对特征向量进行聚类分析,将网络数据包分成不同的类别。 同时,使用可视化工具对聚类结果进行可视化处理,帮助用户更加直观地分析和探索数据包的特征信息。 实验结果表明,该方法可以有效地提取网络数据包的特征信息,实现网络数据包的聚类分析和可视化处理,为网络安全监测和数据分析提供了有力的支持。 未来,将进一步优化该方法,加强其对网络数据包的特征提取和分析能力,为网络安全监测和数据分析提供更加精准和可靠的支持。