大数据RSA公钥加密安全双向检测仿真
2023-03-29高丽杰薛丽香马照瑞李振峰
高丽杰,薛丽香,马照瑞,李振峰
(1. 郑州科技学院信息工程学院,河南 郑州 450064;2. 郑州轻工业大学,河南 郑州 450001;3. 郑州科技学院,河南 郑州 450064)
1 引言
互联网技术和网络技术的发展,导致网络安全隐患问题层出不穷。如何确保大数据的安全性成为当前研究的热点话题[1,2]。国内相关专家针对上述内容展开大量研究,例如刘文芬等人[3]将高维数据划分到多个不同的低维子空间内,对密集网格划分处理,经过处理得到各个网格尺度下的局部异常因子,同时输出全部异常数值,将其按照从大到小的顺序排列,获取异常数据,得到最终的检测结果。亢飞等人[4]在正常数据集的基础上,通过梯度上升策略对全部正常样本实行自我投毒处理,分析投毒数据对正常数据产生的负面影响,将分析结果作为判定依据最终实现数据检测。周伯阳等人[5]优先构建多尺度低秩模型,对安全特征归一化和维度缩减处理,同时将改进的递归特征选择算法和聚焦分类算法两者有效结合,最终达到检测的目的。以上已有方法虽已取得较高的应用效果,但是不适用于动态大数据的双向安全性检测,导致其应用受到限制。
在对大数据进行采集和挖掘时,大数据中心的数据泄露风险问题时有发生,考虑在分布式存储方式下确保大数据传输和交换不被非法泄露和使用是当前大数据安全检测的主要问题。以及以上几种典型大数据安全性检测方法,本研究提出一种基于RSA公钥加密的大数据安全性双向检测方法。经实验测试证明,所提方法能够获取更加满意的大数据安全性双向检测结果。
2 方法
2.1 RSA公钥加密机制设计
RSA公钥密码机制的安全性是以单向函数为基础实现的。分析密钥的特点,将密码系统划分为对称密码机制和非对称密钥机制。通常情况下,需要借助公钥完成大数据安全通信处理,详细的操作步骤如下所示:
1)通过1查找2的公钥,公开RSA公钥并不会影响数据的安全传输,可以确保数据的隐私性,同时密钥的公开还可以有效促进信息共享以及其他人的使用。
2)将2的RSA公钥加密处理,作为1的密钥,完成初始大数据的加密处理工作。
3)1需要采用非安全信道将密文传输至2。
4)当2在接收到密文之后,需要结合自身特性完成解密处理,同时将明文还原处理。
其中,公开RSA密钥算法[6,7]的详细操作步骤如图1所示。
图1 公开密钥算法的操作流程图
椭圆曲线并非椭圆,通常情况下,密码学主要使用有限域上的椭圆曲线,设定D(GF(p))代表GF(p)的椭圆曲线,D(GF(p))上的两个点均坐落在域GF(p)范围内。
椭圆曲线中已经存在的公钥密钥机制是得到对应椭圆曲线离散对数的核心,通过分析先验知识可知,需要将满足条件的椭圆曲线应用于公钥机制中。为了有效确保大数据的安全性,通过式(1)求解所需要的时间复杂度
(1)
式中,T(i,j)代表时间复杂度;O代表亚指数。
安全复杂度是由四个不同参数的加权值构建,具体的计算式如下
(2)
式中,B(t)代表安全复杂度;α代表环境权值;a(i)代表网络终端速度权值;β代表信息安全需求度;χ代表系统设定的安全度;φ代表安全度的权值系数。
当确保系统安全度不变的情况下,分别分析各个系统的具体请求,以此为依据选择对应的安全满足度。安全满足度是主要描述用户对系统安全性能的需求,由于不同用户需要传输的数据不同,所以保密等级也存在十分明显的差异,所以采取的传输方式也存在十分明显的差异。如果传输等级比较低的数据,则采用系统自带的传输机制即可;如果是保密等级比较高的数据,则需要引入安全需求度,以此为依据制定对应的数据传输方案。
在密码学中,需要多处使用数学理论,以下主要通过RSA公钥加密算法对大数据加密处理。RSA属于分组密码,其中明文和密文都是有明确数量的整数。针对随机一组明文而言,加密和解密可以表示为式(3)的形式
(3)
式中,C代表加密形式;M代表解密形式;d代表密文分组数量;e代表常数;modn代表明文分组数量。
在加密的过程中[8,9],若没有将需要加密的数据设定为一个整数,则需要设定对应的假设条件,假设满足假设条件,则可以采用上述方式完成加密解密处理。
RSA需要使用大量的质数建立密钥对,同时需要设定质数的数量。在网络数据传输过程中,由于不同类型数据的保密级别不同,所以对应的信息安全需求也存在十分明显的差异。分别计算不同类型数据的保密级别,选择与之对应的安全需求度,确保数据的安全传输。同时还可以将其数据划分为普通保密级别和高级保密级别两种形式,假设数据为普通保密级别,利用系统自带的安全度即可完成数据安全传输;反之,如果数据为高级保密级别,需要选择符合需求的安全传输参数,确保数据可以准确传输,同时完成大数据的RSA公钥加密[10,11]。
2.2 大数据安全性双向检测的实现
在大数据时代,数据的表现形式是多种多样的,大数据安全问题受到了广泛的关注。在2.1小节加密的基础上,需要检测经过加密处理后大数据的安全性。
利用图2给出大数据安全性双向检测流程图。
图2 大数据安全性检测流程图
首先,需要对加密处理后的数据预处理,清除不可以使用的数据项和重复项。由于数据集中包含数值特征和字符特征,为了让大数据得到十分广泛的应用,需要对全部数据展开格式化以及标准化处理,详细的操作步骤为:
1)数据清洗是展开数据预处理的首要步骤[12],同时需要将全部重复样本数据删除,最终达到重复数据删除的目的。
2)对数据中字符特征数值化处理,将字符特征映射为数值数据。
3)为了避免不同特征之间量纲产生的负面影响,需要对采集到的全部大数据实行标准化处理,具体的计算式为
(4)
上式中,n代表大数据标准化处理结果;θ代表标签编码。
当数据完成预处理之后,各个数据集中仍然包含大量不确定的特征属性,同时它们全部是分散且不固定的[13,14]。所以,需要借助主成分分析方法对大数据降维处理,详细的操作步骤如下所示:
1)通过列将原始数据划分为不同规格的矩阵;
2)计算矩阵的平均取值,通过采用行数减去计算所得平均值。
3)计算协方差矩阵特征值以及相关向量,以此为依据构建矩阵。
4)将各个矩阵相乘,即可需要所需要的需求数据。
然后,在动态选择部分则采用基础分类算法实行分类处理,进而计算得到不同的测试指标,以此为依据衡量分类算法的优劣。所以,根据混淆矩阵中各个评价指标的计算结果完成精确度动态选择[15]。
将聚类算法设定为无监督学习的代表算法,可以更好完成无标签大数据分类处理。所以,在大数据安全性检测过程中,需要引入层次聚类算法,通过聚类结果中各个簇内的基础集成算法中的不同评价指标完成聚类处理,在层次聚类中簇间相似度是通过举例指标来衡量的,详细的计算式为
(5)
式中,dist(x,y)代表距离函数;xi和yi分别代表x和y的第i个坐标。
利用动态选择算法,从本质上选择不同类型的数据集,为了描述大数据本身的特性,需要在检测过程中加入组合权值部分。将主观因子权值和客观因子权值有效结合处理,进而获取有效的组合权值。
将组合权值中取值最小值设定为基础评价等级,剩下部分则需要结束计算比值展开详细的分析和计算。
组合权值可以划分为两个部分,分别为:
1)客观权值:
主要代表基础分类算法自身的性能,将F1-Measure作为各项指标评价的标准,详细的计算式为
(6)
式中,TP代表数据自身标签为阳性,得到的结果也为阳性;FP代表数据自身标签为阴性,得到的结果为阳性;FN代表数据自身标签为阳性,得到的结果为阴性。
2)主观权值:
通过主观权值评价分类算法和数据集的适应性程度,针对不同的分类算法,由于自身结构不同,所以不同数据对应的数据集也存在十分明显的差异。
引入距离函数,将主观权值和客观权值有效结合,形成组合权值。其中,不同权值之间的对应的分配系数可以表示为式(7)的形式
(7)
式中,h(ci,mi)代表分配系数;ci代表主观权值对应的分配系数;mi代表客观权值对应的分配系数。
将组合权值代入到加权投票算法中展开集成处理,其中加权投票算法的详细操作步骤为:
1)计算不同分类算法的准确性;
2)通过数据特征计算多个分类算法对应的组合权值,进而获取权值等级;
3)将分类算法准确度和权值等级两者相乘,得到对应的加权准确度;
4)对分配算法采用加权投票的方式集成处理。
基于上述步骤完成大数据安全性双向检测结果。
3 仿真研究
为了验证所提基于RSA公钥加密的大数据安全性双向检测方法的有效性,需要展开仿真测试。实验调整训练数据和测试数据占总数的比例,利用多种类大数据为实验提供多变数据环境,全面综合测试大数据安全性双向检测效果,实验设置的各个种类的数据集如表1所示:
表1 多种数据集类型
从实验设定的12种数据集中,随机抽取4个数据集完成实验,并将这4个数据集编号为1#、2#、3#、4#。利用图3给出文献[3]提出的基于多分辨率网格的数据异常检测方法、文献[4]提出的基于数据复杂度的投毒数据检测方法以及研究方法的大数据安全性双向检测率对比结果如图3所示。
图3 不同方法的检测率对比
分析图3所得实验结果数据可知,由于测试类别不同,导致各个方法获取的大数据安全性双向检测率存在较为明显的差异。相比另外两种文献方法,研究方法可以的大数据安全检测率更高,对不同类别数据集的检测率均可达98%。
为了进一步检验所提方法的优越性,实验将误报率、约登指数作为测试指标。误报率是大数据安全检测的错误几率。误报率越低,说明该方法的应用准确率越高。约登指数(Youden index):也称正确指数,是评价筛查实验真实性的方法,指数越大说明筛查实验的效果越好,真实性越大。对比文献[3]提出的基于多分辨率网格的数据异常检测方法、文献[4]提出的基于数据复杂度的投毒数据检测方法以及研究方法的测试结果,所得数据如图4和图5所示。
图4 不同方法的误报率对比
图5 不同方法的约登指数对比
分析图4和图5的实验结果可知,由于测试类别的不同各个测试指标之间存在明显的差异。其中,基于多分辨率网格的数据异常检测方法和基于数据复杂度的投毒数据检测方法的误报率更高,在检测3#大数据集时最高误报率已经达到1.4%,且约登指数也更低,大数据的安全性检测性能明显不如所提方法。研究方法误报率低于0.4%,约登指数接近0.9。本次实验有效验证了所研究方法的优越性。
4 结束语
为解决当前大数据安全检测方法方法存在的应用性能的不足,设计并提出一种基于RSA公钥加密的大数据安全性双向检测方法。实验测试结果表明,所提方法可以有效大数据安全性检测的误判率,大幅度提升大数据安全管理效率,该研究方法的实用价值较高,应用前景良好。