基于大数据分析的隐私信息保护系统设计与实现
2023-09-06盛丹丹
盛丹丹
(中国地震局地质研究所 北京 100029)
(sdd@ies.ac.cn)
随着计算机和互联网的快速发展,信息已经成为个人、企业以及国家的重要资产,这些信息中包含大量隐私和保密信息,如何保护这些隐私信息[1-2],防止信息泄露,则成为信息安全管理的核心.这些信息分散在各处的公有云、私有云、数据中心.如何保护这些分散性隐私信息的安全,则成为隐私信息安全管理的核心.Kubernetes已经成为公有云、私有云、数据中心共有的、一致性的基础设施技术,因此基于Kubernetes之上构建隐私信息安全框架是一种必然的选择.
隐私保护是信息安全管理的一种常用方法,其主要是利用相关的隐私保护方法、保护价值或者相关保护技术[3],完成隐私信息的人性化加密处理,提升信息的安全性.但是,隐私信息在保护过程中,信息的存储方式、信息的调用、信息的处理等均会直接影响信息的隐私安全程度[4].因此,如何可靠完成隐私信息保护尤为重要.
晏燕等人[5]为实现隐私信息保护,提出基于深度学习相关隐私保护方法.该方法主要依据信息位置的判断和划分,完成信息安全隐私保护;但是,当信息量较大时,该方法的加密效果受到一定影响.田华等人[6]针对隐私信息保护需求,提出基于二分关联图的相关隐私保护方法,该方法主要依据信息的敏感度完成隐私信息保护;但是该方法在进行信息加密过程中,对于信息并行处理效果较差.
通常情况下,定义能够完成海量数据处理的技术为大数据技术,常见的相关技术包括并行处理、分布式数据库等.本文利用大数据技术的优势,设计基于大数据分析的隐私信息保护系统,实现信息安全隐私保护.
1 硬件设计
1.1 隐私信息保护系统架构
本文为实现隐私信息保护,设计一种基于大数据分析的隐私信息保护系统.该系统以大数据技术为核心,结合隐私保护算法实现隐私信息保护,该系统的整体架构如图1所示:
图1 基于大数据分析的隐私信息保护系统架构
该系统共包含3层,分别为云设施层、大数据处理层、信息保护层.
1) 云设施层:该层是系统的支撑层,其主要作用为系统的运行和功能实现,提供基础硬件支撑.以Kubernetes集群技术为核心,由服务总线、配置管理、接口、验证引擎、虚拟机等共同组成,该层的主要作用是为系统功能提供基础设施保障,确保系统正常运行以及功能实现.
2) 大数据处理层:该层的作用是对信息进行处理,通过信息解析实现信息特征标注、信息的筛选、去重、分组等处理,完成信息类别划分,为信息安全隐私保护提供依据.将处理后的信息传送至信息存储层,该传送主要由文件传输协议完成.
3) 信息保护层:该层以TBS架构为基础,引入MapReduce编程模型,完成海量信息的并行存储,为保证信息的存储安全,将MySQL数据库、Hadoop集群以及InfluxDB数据库三者结合,实现不同类别信息的分类存储.MySQL数据库用于存储满足日常所需信息,Hadoop集群存储海量的历史信息,InfluxDB数据库存储实时产生信息,最大程度保证信息的存储安全.该层在应用过程中,基于属性分类的信息安全隐私保护模型,实现数据库中信息安全隐私保护.并且该层具有身份验证功能,可在信息访问时,进行身份权限验证,进一步确保信息的隐私保护效果.
1.2 Kubernetes集群技术
云设施层作为系统支撑层,具有重要作用,Kubernetes集群技术作为该层的核心,其结构如图2所示:
图2 Kubernetes集群技术结构
Kubernetes集群技术用容器代替传统的虚拟化技术,把集群运行在容器里,既节省了资源,又增加灵活度,使其均位于相同的集群内[7],为系统功能的应用和实现提供更简单、高效的服务支撑.
1.3 信息保护层
1.3.1 TBS架构
信息存储层是系统的核心层,文中结合隐私信息保护需求,为实现更佳的保护效果[8],以TBS架构为基础,引入MapReduce编程完成信息保护层设计以及保护功能实现.
TBS架构由私有和公有2种云组成,能够实现信息存储和管理[9],在管理过程中,该架构结合MapReduce编程保证海量信息的并行处理;与此同时,该架构引入隐私数据安全多级加密模型,保证隐私信息安全.该架构详情如图3所示:
图3 TBS架构详情
依据TBS架构构建信息保护层后,经过大数据处理层处理后的信息传送至信息保护层,通过身份认证后,获取信息的类别属性[10-12],依据不同属性将信息存储至不同的数据库.完成存储后,利用隐私数据安全多级加密模型完成信息加密处理[13-15].当用户需要查看信息时,通过公有云平台入口进行允许权限内的信息查看.
1.3.2 独立监控模块
独立监控模块的虚拟机监视器直接在裸机上运行,并具有最高的权限级别.它负责管理底层硬件资源,必须通过VMM完成对客户端操作系统真实硬件的所有访问.当用户获得个性化推荐时,可以匿名使用系统,而不需要他们的真实身份,也可以获得个性化信息.独立监控模块的实现需要确保每个元组无法与其他元组区分开来,攻击者无法判断隐私信息的所有者,从而确保用户个人隐私的安全.通常,系统允许用户使用多个身份进入,可以在不同的活动中保护用户的身份.该模块分为2类:隐藏和泛化.隐藏是通过切断隐私属性和非隐私属性之间的关系保护用户的隐私属性.要求其自身数据表中的有序值不低于规定的发生率.有些学者提出一种基于添加、删除和增加噪声节点的匿名方案.通过调整节点的度实现节点度的匿名性.通过向噪声节点分配不同的敏感属性值调整敏感属性的出现次数,以实现属性匿名性.泛化是指将本地用户属性划分为几个等价类,并发布不同等价类的泛化属性.
1.3.3 混合模块
混合模块基于相似用户组的兴趣,生成对目标用户的推荐.其对各种特定应用具有良好的适应性,可以提高个性化系统的可扩展性和推荐质量.混合模块主要分为2类:数据加密和数据转换.其中,数据加密是一种常见的安全措施.基于密码学原理,实现原始数据的不可见性和无损性,达到隐私保护和准确推荐的目的.数据转换的主要思想是在不影响原始数据使用的情况下,伪装或稍微改变用户的真实隐私数据.常见的数据转换包括随机扰动法和数据几何变换法.混合模块可以很好地保护数据中的隐私信息,但由于社交关系的作用,具有未标记属性的用户也可能被推断为具有某些隐私属性.这些属性不能直接用于保护个性化推荐中用户的隐私安全.在属性社交网络中,必须考虑社会结构信息对属性分布的影响及属性分布本身的特征,以便更好地实现属性隐私保护的目标.
2 软件设计
在海量信息的环境下信息具有多维度和多样性等特点,为保证隐私信息保护效果,本文提出基于属性分类的隐私信息保护模型,结构如图4所示:
图4 基于属性分类的隐私信息保护模型结构
该模型主要以大数据处理层的信息处理结果为基础对信息进行隐私保护,保证信息的可用性和隐私性.
信息标识敏感属性指的是如年龄、性别、住址等用户敏感信息.信息隐私属性指的是用户不希望被人知晓的数据属性.该模型主要由2个模块组成,分别是信息特征分类和隐私信息保护,前者主要依据最大信息系数,后者主要依据数据匿名化与差分隐私算法完成.两者详情如下所述.
2.1 信息特征分类模块
该模块基于最大信息系数实现,以信息隐私等级为基础,对大数据处理层处理后的信息集进行分类,获取具有敏感属性部分作为特征集;基于最大信息系数,对信息集中剩余的属性和获取的特征集进行处理,获取相关系数结果较高的信息作为输出信息集,以此,仅对具有隐私属性的信息进行保护,提升信息处理效率.处理流程如图5所示.
图5 信息特征分类模块处理流程
(1)
在式(1)的基础上,采用贪心算法进行处理,当选择的信息特征数量满足最大信息特征数量P时,输出Y,且Y中包含选定变量.
2.2 隐私信息保护模块
该模块是以Y的结果为基础进行协同隐私保护.该模块的详细步骤如下:
输入:信息集Y、最小簇大小k.
步骤1. 对Y进行划分处理,形成互不相交的子信息集Yid1∪Yid2∪…∪Yidq=Y,其中q表示子信息集数量;
(2)
其中yr表示信息记录;
步骤3. 依据信息的敏感属性对Yidj进行再次划分,形成数量为s的簇Cs,且各簇之间不存在相交情况;
步骤5. 获取Cr中和yr之间距离最小的信息记录,数量为k-1,将这些信息划分为1组,形成固定大小的信息组,并将获取的信息从Cr中删除;
步骤6. 获取Cr中和yr之间距离最小的k个信息,将这些信息划分为1组,形成固定大小的信息组,并将获取的信息从Cr中删除;
步骤7. 计算剩余信息和各个簇质心之间的距离,按照最小距离进行分配,划分至对应的簇中;
步骤8. 计算各个簇的质心结果,并采用该结果描述各个信息属性值;
步骤9. 计算各簇在删除信息记录后的查询敏感度Δf;
步骤10. 将噪声添加至各条信息记录中,实现所有信息集的差分隐私保护;
3 测试分析
为验证本文系统的应用效果,本文以某单位作为实例研究对象,该单位运营3年的全部数据信息作为测试信息,其中包含单位运行收益、支出、员工信息、资金流动、企业核心生产机密、税务信息等,信息类别共24种,信息数量为2462万条,信息量总大小为346.2GB.
3.1 信息存储效果测试
为验证本文系统对于海量信息的存储效果,获取系统在进行信息并发存储时的存储结果,信息存储详情如图6所示.
图6 信息存储效果测试结果
由图6可知:本文系统在进行海量信息并发存储时,能够对并行串口进行调整,通过串口将信息输入存储窗口进行并行存储,并在窗口内呈现信息的存储进行情况.因此,本文系统具有良好的信息存储效果,能够完成海量信息的并行存储.
3.2 隐私信息安全保护的效果性能测试
为验证本文系统对于隐私信息安全保护性能,采用隐私性进行相关评价,隐私性指的是信息进行保护后,在受到非权限访问时,隐私信息的泄露风险.为可靠衡量本文系统的隐私性,采用信息记录链接ξ作为隐私性的描述指标,其能够从隐私攻击的角度衡量信息的实际隐私性,该指标的取值在0~1之间,其值越小,表示隐私的泄露概率越低,信息的隐私性越好,ξ的计算式为
(3)
依据式(3)计算本文系统应用后,将上文所提数据输入本文系统中,在间断攻击和连续攻击的2种攻击下,随着信息集大小的变化,ξ测试结果如表1所示:
表1 隐私信息安全保护的效果性能测试结果
从表1测试结果可知:在2种程度的攻击下,随着信息集大小的逐渐增加,本文系统应用后,指标ξ的结果均在0.22以内,因此,本文系统可在不同程度攻击下具有良好的隐私保护性能.
3.3 隐私信息保护测试
为验证本文系统对于隐私信息保护的应用效果,获取本文系统应用后,在权限和非权限2种情况下,以敏感信息“税务”相关的信息查询为例,进行信息访问时,系统隐私保护结果如图7所示:
图7 系统隐私保护结果
由图7可知:本文系统应用后,当发生非权限访问时,系统依据访问的信息关键词,对访问的相关信息进行隐私保护处理,避免隐私信息泄露;如果满足权限访问标准,则会呈现“税务”相关信息结果.本文系统在隐私保护过程中,能够对访问的信息进行特征分类,更清晰地区分信息内容,并以敏感信息质心确保信息呈现时的隐私性.
3.4 隐私信息的可用性测试
为进一步验证本文系统的隐私保护应用效果,采用本文系统、文献[5-6]方法对信息进行隐私保护后,在权限访问情况下,访问信息的可用性.该可用性通过对称KL(Kullback-Leible)散度指标进行度量,该指标能够描述信息的失真程度,其取值范围在0~1之间,结果越小,表示信息失真程度越低,反之则越大.该指标的计算式为
(4)
式(4)中:R表示原始信息集;O表示输出信息集;二者的KL散度用DKL(R,O)表示;b表示信息样本空间;l表示信息样本长度;i表示第i个信息.
由表2~4测试结果可知:本文系统在不同信息量下,随着访问信息长度的逐渐增加,成功访问信息的KL散度均在0.18以内,较为接近0,访问的信息失真程度较低.而对比的2种方法成功访问信息的KL散度最高达到0.36和0.40,因此,本文系统的隐私信息保护效果较好,对加密信息进行访问后,依旧能够较好地保证信息的可用性.
表2 本文系统在不同信息量下隐私信息的可用性测试结果
表3 文献[5]方法在不同信息量下隐私信息的可用性测试结果
表4 文献[6]方法在不同信息量下隐私信息的可用性测试结果
4 结 语
信息安全管理面临诸多的风险和挑战,为实现隐私信息的安全管理,本文设计基于大数据的隐私信息保护系统,并对系统的应用展开测试.结果显示,本文系统能够满足海量信息的并行存储需求,可极大程度保证信息的隐私性,避免信息泄露.除此之外,可保证经过隐私保护后信息的可用性.