APP下载

大数据背景下链路网络敏感数据防窃取方法

2019-05-07孟小冬

西安工程大学学报 2019年2期
关键词:敏感数据字符串结点

孟小冬

(呼伦贝尔学院 计算机学院,内蒙古 呼伦贝尔 021000)

0 引 言

在大数据背景下,信息能够通过网络正确传递到用户的同时,也会造成信息泄露,无法保障个人信息安全,因此,及时做好网络安全防范,防止敏感数据被窃取[1]。敏感数据是一种容易丢失、具有一定价值的数据,而链路网络安全不仅包括组网软硬件,还包括共享的资源,保护敏感数据,能够使链路网络连续可靠性运行,保障网络服务正常运行[2]。文献[3]提出一种链路层光纤网络被动数据存储方法,对链路层光纤网络数据进行访问控制,采用信息共享技术,将访问控制方案改成加密过程单独发送的执行方案,可有效减少计算复杂程度,具有较高的计算效率,但防窃取效果较差;文献[4]提出一种面向数据中心网络的链路数据实时检测方法,通过网络检测方法对网络中链路数据进行获取,在用户受到攻击后获取网络之间散落的数据,该方法能够较好防止网络数据的窃取,但计算量较大,实现过程极为复杂;文献[5]提出一种分布式网络监控系统中网链路数据防窃取方法,采用有向信息流技术进行敏感数据防窃取,利用反编译对数据密码进行解析,根据权限应用创造有向信息流,并标识隐私数据点,利用隐私点跟踪敏感数据,该方法具有良好防窃取效果,但内存消耗较大。

为了解决传统方法检测结论不准确,防窃取效果差等问题,在大数据背景下提出了基于图自同构的链路网络敏感数据防窃取方法。针对不同隐私攻击,采用图自同构防窃取方法能够有效防止结点敏感数据被窃取,保证社会网络数据高可用性。通过实验验证了基于图自同构的链路网络敏感数据防窃取方法的防窃取效果,能够有效防止用户信息泄露,保护用户隐私。

1 敏感数据防窃取方法

链路网络中各个组成结构都可能出现隐私信息泄露的现象,需要对各个结构进行保护。敏感数据需要保护[6]的信息主要包括4个方面,分别是数据属性值、存在性、再识别性、图结构。在大数据背景下,数据敏感属性值通常在传送过程中被匿名处理,但敏感属性信息依然存在安全隐患的,因此,这4个信息需要被保护[7]。

1.1敏感数据被攻击过程分析

用户在参与过程中,攻击者往往通过个人信息对目标对象进行敏感数据攻击。一旦攻击者通过某种途径获取目标对象信息后,那么攻击者会收集许多信息作为背景知识,进而得到目标对象隐私信息[8-10],根据敏感数据被攻击过程分析结果,进行攻击后敏感数据被窃取初步检测。

1.2敏感数据被窃取初步检测

使用E描述遭受攻击后的敏感数据库,其中主要包括f个二元字符串F1,F2,…,Ff,字符串i长度用l(Fi)来表示,使用Fi[n]描述字符串i前n个比特组成的字符串,使用j[n]描述字符串j前n个比特组成的字符串。

在大数据背景下,如果存在Fi∈E,那么约束条件可设置为j[n]与Fi[n]相等。输入字符串j的不可行点,也就是可行字符串首位置n,字符串j的不可行点和所有字符串Fi∈E都是不相匹配的首个点。如果字符串对某些非首位置不可行,则说明该字符串也是不可行的;如果字符串都是可行字符串,则说明该字符串不可行点将被无限放大,也由此说明字符串j是可行的。通过一个检测机制能够实现对字符串的周期检测,以此判断该位置字符串是否可行[11-13]。

由于字符串检查是采用周期性检查机制,因此在不可行点与不可行检测点之间是存在一定延时[14]。字符串检测延时通常使用Δ(j)来描述,用来表示字符串不可行点与检测点之间的实际距离,以此确定所有数据中是否出现被攻击的数据,完成敏感数据被窃取初步检测[15-17]。

1.3敏感数据特征提取

根据初步检测结果,通过被动响应方式,在敏感数据被攻击过程中,获取被攻击敏感数据的全部特征[18]。特征提取流程为:在敏感数据特征发生改变之前,响应函数会随之改变,根据该情况,能够获取敏感数据信息构成的集合,获取数据特征分解矩阵[19]。在对敏感数据特征矩阵进行转化处理后,需计算敏感数据特征平均值,根据特征值,可对其进行整合。通过建立图自同构模型,使数据能够被描述,以此实现链路网络敏感数据防窃取。

1.4图自同构模型建立

图自同构模型是一个自同构图,能够满足图中所有点的对称性,但不能满足图中所有边对称性,对于任意一个数据,都存在与之相对应数据形成同结构点。而对于任意一边,都存在另外一边与之相对应,形成同构边,如图1所示为3-自同构图。

由图1可知,任何一个数据都存在与之相对应的2个数据形成一个同构结点。一旦出现攻击者攻击目标结点时,其所在的子图是以背景知识为基础进行查询的,与目标结点相配合,形成至少包括3个结点。因此,一旦攻击者选择超过大于1/3置信度的候选结点进行攻击时,用户能及时发现异常现象并制止。

图 13-自同构图Fig.1 Three-Automorphism

数据查询子图,可获取目标端A所包含的候选结点集合和目标端B所包含的候选结点集合,假设A结点集合为{1,7,13},B结点集合为{2,8,14},这2个结点集合之间存在边数量为6,由此可获取A端和B端之间存在的识别概率是大于1/3的,因此,该部分存在边泄露问题。

根据该原理,在大数据背景下构建自同构图模型,以保证数据可用性。将图分割成若干个数据块,选择其中K个数据块组成若干个数据组,将每个数据组中的K个数据块加入伪造边中形成K个同构小图。从每组数据块中选择1个模块进行组建,形成1个子图,添加边形成自同构图。具体实现步骤如下:

(1) 分割 根据自同构图的同构参数将图随机分割成M个数据块,选择图中较为稀疏部分作为切割点进行数据分割,保证数据可用性。统计图中边数量,选择一定概率计算每次迭代边的删除数量,虽然在该过程中,不断删边,但由于掌握每块结点不同,可根据原始图,将边添加到数据块之中,由此获取M块子图;

(2) 成组 从数据块中依次选取K个数据组,进行组建;

(3)处理同构小图 对于不同数据组中的K个数据块,分别选取一个结点,保证相同度数中含有相同结点数量,根据度数对应关系,成为同构结点;

(4) 添边 根据结点依次对应关系,添加伪造边,形成自同构图。

图自同构模型建立过程是获取原始图→得到M块子图→选取K个子图组建一组→K个互不相连同构子图→图自同构模型根据上述建立步骤,可获取图自同构模型。

1.5实现链路网络敏感数据防窃取

将提取的特征数据全部输入到图自同构模型之中,并使用RDTP协议,网络节点通信方式为单信道通信方式,在大数据背景下,将可靠信息数据转发阶段视为RDTP协议的一个周期,以网络维护更新阶段和网络节点睡眠调度阶段为另一个周期。

(1) 网络维护更新阶段 该阶段主要是对大数据背景下链路网络中时钟、能量和连通性进行实时更新,为数据转发做好准备。

(2) 网络睡眠调度阶段 如果链路网络中没有数据需要传输时,整个链路网络是处于睡眠状态的;如果链路网络中有数据传输时,应及时唤醒链路网络开始工作[20],为节省网络能源消耗,采用调度法,侦查并监视网络连通度以及链路中区域性事件所发生的概率。

(3) 数据转发阶段 充分考虑到信息数据优先级,在链路网络中设计不同数据发送队列。假设在网络中,某个数据A在发送过程中获取的传输通道使用权,可自由向数据B端发送与B相关的A信息数据;当B端接收到A端数据发送的相关信息,那么将以自身剩余能量为依据,计算转发价值,并计算网络中A、B汇聚到节点C的距离,由此可获取数据转发价值,如式(1)所示:

(1)

式中:dA表示链路网络数据A端到汇聚节点C的距离;dB表示链路网络数据B端到汇聚节点C的距离;D为A端到B端距离;eB为链路网络数据B端无数据传输时的能量;e为链路网络数据B周围节点的能量。

满足式(1)的全部数据为备用数据,不满足的则在传输后进入睡眠状态,选择备用数据,可以提高敏感数据传输可靠性,保证传输过程中链路敏感数据的安全,防止数据被窃取。

2 实验调试结果与分析

实验是从安全性、有效性以及数据可靠性这3个方面对提出的基于密文访问控制方法、网络技术检测方法、有向信息流技术和大数据背景下链路网络敏感数据防窃取方法的正确性进行验证。

2.1实验条件设置

为了验证方便,需设置实验所用到的硬件和软件环境如下:Pentium(R)Dual-Core CPUE5200@2.5 GHz的CPU,5GB内存,35GB硬盘,采用Windows 系统,采用Visual studio2016 作为编程工具。

根据实验条件选取真实数据集进行实验分析,选择UCI数据库中的数据集,该数据集中各个元组都代表了用户信息,选择其中8个属性进行描述,如表1所示。

表 1实验数据集描述Table 1 Description of experimental data set

其中表1中的最后一个收入属性为敏感数据。

实验参数配置如下所示:① 链路网络数据传输量1 000 Mbit/s;② 数据分布特征数量6 Mbit/s;③ 单个数据传输载荷30 Mbit/s;④ 存储执行时间延迟15 ms。根据上述实验条件,获取实验结果并对结果展开分析。

2.2实验数据分析

在上述实验条件设置基础上,对链路网络被动数据存储性能展开分析,归一化投影值时域波形如图2所示。

图 2数据采样时域波形Fig.2 Time-domain waveform of data sampling

在大数据背景下,当时间中心为20 s时,归一化投影值在[0.5,0.8]之间;当时间中心为30 s时,归一化投影值在[0.45,0.55]之间;当时间中心为60 s时,归一化投影值在[0.4,0.5]之间。分析数据采样时域波形图,可以归一化投影值与看出时间中心增加而变化,存在波峰与波谷,在20~30 s之间第一次出现波峰,最大值接近0.8,30 s附近存现波谷,最小值为0.45左右。

采用数据结构分布重组,结合自适应匹配方法进行数据滤除,可获取冗余后的数据时域波形,如图3所示。

经过冗余数据滤除,当时间中心为20 s时,归一化投影值在[0.2,0.6]之间;当时间中心为30 s时,归一化投影值在[0.25,0.35]之间;当时间中心为60 s时,归一化投影值在[0.2,0.35]之间。分析图3可知,经过冗余数据过滤后的波形发生改变,能够发现波峰波谷出现时间不变,但值发生改变,归一化投影值最大值由原来的0.8变成0.6,最小值有原来的0.45变成0.22左右。经过数据时域波形,能够有效降低存储成本,避免冗余数据给实验带来的干扰,实现数据存储优化分配。

图 3冗余数据滤除Fig.3 Redundant data filtering

2.3实验结果与分析

分别在1万和10万条网络数据下,验证基于密文访问控制方法、网络技术检测方法、有向信息流技术和大数据背景下链路网络敏感数据防窃取方法的正确性。

(1) 1万条网络数据 在链路网络数量比较小的条件下,使用不同方法进行数据防盗窃检测,对比结果如图4所示。

图 41万条网络数据下不同方法 检测正确率Fig.4 Ten thousand network data with different detection methods

当数据量为2 000个时,基于密文访问控制方法检测率为67%,网络技术检测方法检测率为75%,有向信息流技术检测率为69%,大数据背景下链路网络敏感数据防窃取方法检测率为88%。当数据量为10 000个时,基于密文访问控制方法检测率为70%,网络技术检测方法检测率为91%,有向信息流技术检测率为88%,大数据背景下链路网络敏感数据防窃取方法检测率为98%。分析图4可知,随着数据量的增加,检测准确率随之增加,当数据量个数到达6 000时,4种方法检测准确率保持平稳,传统方法检测准确率始终低于本文方法,说明本文方法具有较高的准确率。由此可知,在1万条网络数据下,这4种方法检测率都相对较高,也说明使用这4种方法对链路网络敏感数据防窃取研究是合适的。

(2) 10万条网络数据 在链路网络数量较大的情况下,使用这4种方法进行数据防盗窃检测,对比结果如图5所示。

图 510万条网络数据下不同方法检测 正确率Fig.5 One million network data with different methods to detect the correct rate

在10万条网络数据条件下,大数据背景下链路网络敏感数据防窃取方法检测率与1万条网络数据条件下检测率相差不大,都在80%以上。而其他3种检测率却下降很多,当数据量为2 000个时,基于密文访问控制方法检测率为35%,网络技术检测方法检测率为35%,有向信息流技术检测率为36%。当数据量为10 000个时,基于密文访问控制方法检测率为21%,网络技术检测方法检测率为35%,有向信息流技术检测率为26%。分析图5可知,链路网络数量较大的情况下,使用这4种方法进行数据防盗窃检测准确率,传统方法准确检测率发生大幅度下降,准确率由原来的80%下降到不到40%,而本文方法的检测准确率仍保持在80%以上。由此可知,在10万条网络数据下,大数据背景下链路网络敏感数据防窃取方法检测率依然较高,而其他3种方法检测率大幅度降低,这也说明对于大数据条件下,使用大数据背景下链路网络敏感数据防窃取方法是合适的。

3 结 语

网络数据的产生是由各个用户数据参与而产生的,对于产生的数据会对其进行修改与查询,能够真实反映出对应个体行为,进而成为数据挖掘较好的数据集。为了提高链路网络敏感数据可靠性,提出了基于图自同构的防窃取方法,从而有效防止用户信息泄露,能够以最小化的数据损失构建符合隐私保护的匿名图。在实验部分,分别在1万和10万条网络数据下,验证防窃方法的具体效果,并对实验进行测试和分析,由此验证了图自同构防窃取方法的正确性。由于链路网络敏感数据的不断庞大,网络数据不断被修改,如果每次被修改的数据都重新采用防窃取方法进行处理,那么会增加工作者的工作强度。因此,在以后研究进程中,将针对如何实现增量数据防窃取方法展开深入研究,提高隐私保护的执行效率。

猜你喜欢

敏感数据字符串结点
干扰条件下可检索数字版权管理环境敏感数据的加密方法
LEACH 算法应用于矿井无线通信的路由算法研究
基于八数码问题的搜索算法的研究
基于大数据的智能数据脱敏系统
基于文本挖掘的语词典研究
实现虚拟机敏感数据识别
基于透明加密的水下通信网络敏感数据防泄露方法
SQL server 2008中的常见的字符串处理函数
最简单的排序算法(续)
高效的top-k相似字符串查询算法