基于大数据技术的智慧后勤信息动态加密方法

2022-11-10刘育平杨尔欣于光宗顾冰凌

信息安全研究 2022年11期

刘育平杨尔欣高攀于光宗顾冰凌田琳

1(国网甘肃省电力公司兰州 730030) 2(国网思极飞天(兰州)云数科技有限公司兰州 730030)

智慧后勤是指以完善的后勤服务信息化平台为基础[1]，采用监测、分析、融合、智能响应等手段，构建高效、便捷的服务以及绿色和谐的信息生态环境，提高用户满意度[2].后勤信息的动态加密可实现后勤数据安全和隐私保护[3-4].大数据处理技术包括大数据收集、预处理以及挖掘等过程，Apache基金会成功研制了可以进行大数据开发及处理的软件平台Hadoop，其作为大数据技术的代名词被广泛运用在不同研究领域.

吕佳玉等人[5]研究的双通道动态加密方法可以得到Hadoop平台的传输数据加密结果，但加密过程需要同时采用2个通道完成，且缺乏数据结构重组过程，存在加密复杂度高以及加密时间长的弊端；李孟天等人[6]研究的RLWE(ring learning with errors)全同态加密方法，加密密钥敏感性低，且加密加速比低.

为解决上述问题，需要采用密码设计原理及技术进行加密处理.本文提出一种基于大数据技术的智慧后勤信息动态加密方法，利用Logistics超混沌序列重组大数据结构，提取大数据的模糊关联性属性量，利用Rossle实现大数据的混沌映射分组动态加密；应用Hadoop中的MapReduce并行编程模型加密和存储数据.实验结果表明，本文方法能够提高加密信息的密钥敏感性和平均加密加速比，实现信息动态安全加密，保证信息安全.

1 智慧后勤信息化系统

1.1 智慧后勤信息化系统结构

基于分层规划理念构建智慧后勤信息化系统，该系统由基础设施层、采集层、数据层、应用支撑层和应用层构成，如图1所示[7-8].该系统通过物联网、大数据技术实现不同类型后勤信息的结构化和非结构化采集、处理以及后勤信息模型化应用，通过关联分析后勤全部业务领域数据，实现后勤信息的智能化管理.

基础设施层为后勤信息化系统提供基础数据源，并且提供服务器、网络、存储设备等支撑系统运行的硬件设施，以及智能水电表、环境传感器、视频监控设备等硬件设备.

采集层采集海量智慧后勤信息，并通过不同标准协议以及设备软件开发工具包(software development kit, SDK)统一接入门禁、报警设备以及视频设备.采集层在接入设备前要先分析设备型号以及通信协议，分析是否可以接入相应的设备.采集层采集的海量智慧后勤信息主要包括：

1) 设备管控信息.后勤设备管控信息是指空调设备、电梯设备、照明设备、给排水设备、供配电设备、消防设备等后勤设备报修过程中涉及的报修通知信息、派工信息、日常检修运维信息、设备保养维修信息、安全管理信息等.

2) 后勤运营信息.包括设备台账信息、视频监控信息、防盗报警信息、电子巡更信息等.对后勤运营信息进行全生命周期管理，实现信息应用的持久化.

数据层对采集层采集的数据进行清洗、映射以及授权等处理，通过数据资源目录为应用支撑层提供数据接口.数据层处理数据采用大数据技术以及人工智能技术，大数据技术包括大数据分析、大数据计算以及大数据加密等.本文重点研究大数据加密技术，主要采用Hadoop大数据平台实现海量后勤信息数据的加密，提高后勤信息的安全性，进而为应用层的不同业务提供安全可靠的数据需求服务.

应用支撑层用于为应用层实现后勤信息查询、报表生成、展示等功能提供驱动服务.应用层实现后勤运营管理以及设备智能管控2种业务服务.

1.2 Hadoop大数据平台简介

Hadoop大数据平台是Apache基金会研发的排列式系统框架[9]，包括Hadoop分布式文件系统(Hadoop distributed file system, HDFS)及MapReduce两个重要组件.HDFS负责保存输入、输出的数据集以及中间处理结果；MapReduce负责基于并行编程模型处理计算数据，利用Reduce(归并)函数将HDFS内的数据集合理划分为数据块，同时采用Map(映射)函数完成不同数据节点键值对之间的映射计算，并对数据块进行排序，保存在HDFS中.

2 智慧后勤信息动态加密方法

2.1 智慧后勤信息大数据的结构重组及混合加密

智慧后勤信息大数据的结构重组及混合加密主要分为3个步骤：

1) 数据结构的Logistics超混沌序列重组[10].

通过大数据统计终端获取密钥协议Cn，Cn包括n种差异字符，描述为

(1)

其中，g1,g2,g3,…,gn为不同密文对应的密钥协议字符，uj为信道j转移概率，X为门限参数，t0,t1,…,ti为时间序列.(X,ti)表示门限函数序列，其与后勤数据关键词密文param={G,gn,h,H}有关.其中，G为回归函数，h为加密前后勤数据关键词，H为加密后后勤数据关键词.利用Logistics超混沌序列重组后勤数据结构，得到重组后的Logistics序列V为

V=σCn(X,ti)uj+|σCn-gnti|，

(2)

其中，σ为混沌区域内的分支参数.

2) 确定重新编码参数.

通过算数密码体制对重组后的Logistics序列V重新编码，重新编码参数k根据密钥协议Cn获取，即

(3)

其中，e为算数密码体制系数，s为算数密码体制主密钥.

3)V和明文序列混合加密.

将V和明文序列I进行动态混合加密，s与I的关联程度将影响混合加密的有效性.由于明文序列中包括的明文数据量较大且不同明文数据之间具有相似性，因此在混合加密之前需要考虑不同明文数据之间的相似性β.β的取值为0或1，取值为0时表示明文数据之间不相似或几乎不相似，取值为1时表示明文数据之间相似度较高.在此条件下计算s与I的关联程度f，即

(4)

其中，p为安全模糊相关性系数[11]，p的取值范围为[0,1].

明确s与I的相关性后，结合V和k，得到混合加密结果V′：

(5)

其中，γ为非线性度.

通过对智慧后勤信息大数据的结构重组及编码，增强了后勤信息大数据的动态加密能力，为下一步的混沌映射分组加密优化提供了支持.

2.2 智慧后勤信息大数据的混沌映射分组加密优化

智慧后勤信息大数据的混沌映射分组加密优化主要分为2个步骤：

1) 获得I和s的关联规则属性量.

根据s和β，可得算数密码体制的关联规则项集η=Decrypt(β,s).其中，Decrypt为s和β的监控密码函数.结合η，可得I和s的关联规则属性量为

(6)

2) 混沌映射分组加密优化.

确定I和s的关联规则属性量后，通过Rossle混沌映射对V′进行分组加密，得到Rossle混沌映射初步加密结果为

(7)

其中，zi为混沌序列的扰动控制参数.zi和R与I的关系可用下述多项式表示：

(8)

其中，I1,I2,…,Im为I中的不同明文数据，m为明文数据个数，xi为经过比特位扩散的s中的密码字符串，B为后勤信息大数据的私钥.

在由式(7)获取混沌映射初步加密结果的基础上，优化处理该结果，以避免混沌系统进入短周期轨道而影响加密结果的安全性.本文扩散处理F以实现优化，具体方法如下：

① 对I1,I2,…,Im进行分组，以o表示分组的轮数，产生轮分组私钥，记作SubKey.

② 获取经过Rossle混沌映射扩散处理的动态加密结果：

(9)

其中，mod代表求余运算；q代表Rossle混沌映射的混沌数，q的取值范围为[0,1]；⊕代表异或运算.

③ 根据以往研究，当xi在扩散过程中的比特位达到128时，将出现密钥敏感性较低的情况，甚至将影响最终加密效果.因此，如果比特位大于等于128，则返回步骤②，重新扩散处理；如果比特位小于128，则直接输出Y[12-13].

由此采用Rossle混沌映射加密实现了海量智慧后勤信息大数据的分组动态优化加密.

2.3 Hadoop超混沌加密与解密

智慧后勤信息动态加密的最后一个过程为Hadoop超混沌加密与解密，以下是具体步骤：

1) 将Y存储于HDFS中[14]，利用MapReduce并行编程模型重排Y，得到重排结果Y′.

2) 利用Map函数超混沌加密Y和Y′：

(10)

其中，E为利用Map函数的超混沌加密结果，a为Y中第1个字节的偏移量.

3) 采用Reduce函数归并E，将归并结果Reduce(E)存储至HDFS中[15].

至此完成了智慧后勤信息动态加密过程.超混沌系统对初始值和参数敏感性较高，因此可以通过求解局部密文序列D提高智慧后勤信息数据解密精确度，解密公式为

(11)

其中，A为单向哈希函数安全素数，N0为初始迭代次数，ω为生成的随机数.

3 实例分析

某后勤管理系统采用ColdFusion进行主体结构设计，可以实现后勤信息查询、统计、报表生成等功能.在高性能服务器上配置多个虚拟机，随机导出4 GB和6 GB的后勤系统数据集.实验采用的2种对比方法分别是双通道加密方法[5]和RLWE同态加密方法[6].

3.1 加密时间

图2为3种方法的加密时间对比情况.由图2可知，随着数据量的增加，3种方法的加密时间均上升，但本文方法加密时间低于其他2种方法.3种方法的加密时间均随着集群计算节点数量的增加而降低，即加密效率随着集群计算节点数量的增加而增高，但本文方法加密时间低于其他2种方法，证明了本文方法加密并行效率高的特点.

3.2 密钥敏感性分析

本文方法使用密钥参数解密的数据直方图如图3所示，其中横坐标为字节数据值，纵坐标为抵抗已知明文攻击下数据的分布情况，以分布频率表示.实验证明，密钥全面匹配产生的结果可以抵抗已知明文攻击，精准还原原始明文数据.而密钥参数一旦产生极小误差，会造成密钥失配，生成断崖式效应.由图3可知，本文方法使用具有极小误差的密钥参数解密的密钥字节数据值在180～200时，数据分布频率产生断崖式效应；密钥字节数据值在200～240时，密钥完全失配，此时不能精准还原原始明文数据，说明本文方法具有极好的密钥敏感性.

3.3 加密性能

1) MapReduce加密处理时间.

采用本文方法对4 GB文件加密，并测试应用MapReduce的加密时间，结果如图4所示:

由图4可知，当Map函数的数量小于3时，Map函数加密时间处于220 s左右；当Map函数的数量在3～6时，Map函数加密时间大幅度下降，下降到50 s左右；当Map函数的数量在6～33时，Map函数加密时间仍呈下降趋势但速度有所延缓，达到18 s左右；当Map函数的数量在33～51时，Map函数加密时间趋于稳定，达到约为10 s.实验表明，Map函数的数量越多，本文方法的Map函数加密时间越短.当Map函数的数量小于18时，Reduce函数归并时间从130 s降到约78 s；当Map函数的数量在18～24时，Reduce函数归并时间大幅度上升，达到约178 s；当Map函数的数量在24～51时，Reduce函数归并时间趋于稳定，达到180 s左右.综上可知，Map函数的数量越多，本文方法利用MapReduce框架的收敛性越强，方法越具有稳定性.由于稳定性可保证算法在运行过程中具有良好的加密精准性，从而表明本文方法对海量大数据具有较好的加密效果.

2) 加密时间对比.

对比分析3种方法加密海量智慧后勤信息过程中不同项目的时间和速度，如表1所示.

表1 3种方法加密时间对比结果

由表1可知，相较其他2种方法，本文方法加密海量智慧后勤信息过程中，身份认证、证书及私钥产生时间最短，数字签名速度最快，证明本文方法加密效率最高.

3) 加密加速比对比.

加密加速比是文件加密任务在单处理器系统和并行处理器系统中运行消耗的时间比率，用来衡量并行系统或程序并行化的性能和效果，具体公式为

(12)

其中，T1为单处理器系统执行算法的时间，Tb为当具有b个处理器时并行执行算法的时间.加密加速比越大，说明加密性能的并行化效果越好.对比分析3种方法在不同数据量下加密海量智慧后勤信息过程中的加密加速比，如图5和图6所示：

由图5可知，当文件为4 GB、Map函数的数量小于5时，3种方法的加密加速比呈现上升趋势；Map函数的数量大于5时，随着Map函数的数量增加，3种方法的加密加速比逐渐下降，说明在Map函数的数量为5时，4 GB文件的加密加速比达到最优.由图6可知，当文件为6 GB时，随着Map函数的数量增加，3种方法的加密加速比逐渐上升.实验结果表明，不同数据量下，本文方法加密加速比高于其他2种方法，且文件内存越大，本文方法的平均加密加速比越高，平均加密加速比达5.5.可见，本文方法更适合海量数据的加密处理.

4 结束语

针对智慧后勤信息安全问题，本文在Hadoop大数据平台上，依据MapReduce排列式并行编程模型，构建了基于大数据技术的智慧后勤信息动态加密方法.该方法具有加密时间短、密钥敏感性良好等特点，可以更好地加密、保存智慧后勤信息数据，提高对数据的保护力度.然而，实验过程中选择的文件大小及数量有限，下一步将扩大研究范围，探寻更优的实验条件和进一步优化参数配置，以个性化设计加密传输方案.