APP下载

基于核熵成分分析的电力用户核心大数据匿名化研究

2022-12-06李磊贺易周正陈璞詹鹏杜旭光

微型电脑应用 2022年11期
关键词:维空间标识符核心

李磊,贺易,周正,陈璞,詹鹏,杜旭光

(1.国网湖北省电力有限公司 信息通信公司,湖北,武汉 430077;2.北京国网信通埃森哲信息技术有限公司,北京 100031)

0 引言

随着智能电网的快速发展,以大数据技术为基础的电力系统已成为电力行业发展的关键,其运行产生的海量异构数据已成为数据分析和挖掘的关键[1-2]。其中,电力用户的核心大数据由于实时性高、数据敏感度强等特点[3],迫切需要对其进行安全隐私保护。数据匿名化[4]通过对数据敏感部分特别处理,达到隐私保护的目的,现已成为大数据隐私保护的重要方式。目前常用的匿名化手段包括加密、模糊泛化、消去等,其中分组匿名化是最常用的数据匿名化技术[5-6]。

常用的分组匿名化有k-匿名化和l-多元化匿名化框架。这些匿名化算法均使用在小规模数据。针对这一问题,卞超轶等[7]基于分布式内存计算引擎Spark实现大数据匿名化,处理效率和匿名化隐蔽性得到极大提升,但存在数据丢失现象。为进一步提升电力用户核心大数据匿名化的隐蔽性,本文在此基础上,利用核熵成分分析的降维作用[8],提出一种新的分组数据匿名化算法,并通过具体事例分析,对其进行研究。

1 大数据匿名化算法设计与实现

1.1 算法描述

本文采用算法以分组匿名化为基础。分组匿名化核心思想是构造匿名记录组,使得在同一记录组内,多条数据难以区分。采用的核熵成分分析方法通过核函数学习方法和信息熵结合,特征分解核矩阵,选择对信息熵贡献最大的特征向量的投影方法投影。

基于核熵成分分析方法的电力用户核心大数据匿名化是通过核熵成分分析方法将用于识别个体身份的准标识符映射到高维空间,具体映射方法为设电力用户核心大数据的准标识符为[x1,x2,…,xM]T,其中,M代表准标识符的个数。经非线性映射φ:xi→φ(xi),将数据映射到高维特征空间,即:

Φ(x)=[φ(x1),…,φ(xM)]

(1)

首先,选择对二次Renyi熵贡献值较大的l个特征值与特征向量,通过式(2)获得新的高维空间准标识符数据,

(2)

其中,Dl为特征值,El为特征向量。

然后,在高维空间,将所涉及的准标识符数据的属性全部模糊化,确保全部数据条目完全统一。接着依次选择属于准标识符的属性提升公开信息循环,不断划分数据,保证k-匿名化需求,直至迭代不能满足k-匿名化需求停止。准标识符属性有2种,即数值属性和类别属性。其中,数值属性是通过选择中位数二分数据,类别属性则依据具体类别数划分。

1.2 算法运行方式

本文选择Hadoop平台对电力用户核心大数据进行匿名化管理。Hadoop是基于一种分布式系统基础架构设计的数据管理平台。在Hadoop集群中,其中一个主控节点管理着集群的运行,并协调从结点来实现数据计算功能。Hadoop系统初始核心组件主要为MapReduce并行框架和HDFS分布式文件系统,经过发展,目前已经集成了HBase分布式数据管理系统、Sqoop关系数据交换工具以及各类数据处理工具,成为一个大型数据处理生态群[13-15],如图1所示。

图1 Hadoop生态系统

本文数值属性划分采用中位数的方式进行,为避免快速排序在确定中位数的时间复杂度,本文通过统计每种取值出现的次数定位中位数的方式。实现方法为采用一个队列机理,然后继续划分子数据集,接着依照顺序从队列中取出迭代进行。

2 大数据匿名化系统实现

为验证基于核熵成分分析的电力用户核心大数据匿名化算法的有效性,通过具体事例进行分析。

2.1 事例概述

本事例选择某省2018年9~10月的部分电力用户核心数据作为实验样本,涉及年龄、邮编、婚姻状态、性别和用电量。其中,核心数据的敏感信息为用电量,非敏感信息为年龄、邮编、婚姻状态、性别。其中,非敏感信息泄露会导致电力用户核心数据用电量泄露。事例中,2个为数值属性,其余3个为类别属性。在实验过程中,数据集通过文本文件形式放在HDFS中。系统采用常用的数据集Adult进行。具体如表1所示。

表1 某省部分电力用户核心数据

2.2 具体算法处理

通过核熵成分分析方式,将数值信息映射到高维空间,然后进行处理。处理方式如图2所示,以邮编、年龄作为数值属性数据集,采用核熵成分分析方法,达到2-匿名化要求。其中,(a)为数据分布情况,“☆”为数据条目,模糊化后用“*”表示。依照邮编属性进行数据划分,左侧初始的“*”变化为“≤30K”,右侧为“>30K”。然后再对数据子集选择年龄属性再次进行划分,得到左下方数据初始“*”为“≤50”,左上方侧为“>50”。对其右侧数据子集依据年龄属性再次进行划分,如图(b)。其中,右下方年龄属性变化为“≤54”,右上方数据年龄属性变化为“>54”。此时不能再进行任何划分,获得年龄属性“>50”,邮编属性为“≤30K”。

2.3 效果分析

(1) 隐蔽性分析

为了验证电力用户核心大数据的隐蔽性,本文通过隐私泄露进行分析,具体结果如图3所示。对比数据为基于Spark的电力用户核心大数据匿名化所得的结果。

对比图3可知,相对于基于Spark的电力用户大数据匿名化系统,基于核熵成分分析的电力用户核心数据隐蔽性更佳,隐私泄露比例更少。这主要是由于核熵成分分析将信息量较大的主元数据映射到高维空间,在高维空间进行主元分析,可以有效规避对所有信息进行隐蔽产生的数据丢失现象,提高核心大数据的隐蔽性。

(2) 处理效率分析

为了分析电力用户核心大数据匿名化系统进行处理的效率,体现大数据处理优势,对原有的数据集进行复制3 000倍,并对复制数目的数值随机修改。本文采用本算法系统和基于Spark的系统进行相同处理,并记录其用时,每次数据集重复进行10次,具体结果如图4所示。

(a)

图3 隐蔽性对比分析

根据图4可知,采用基于核熵成分分析的电力用户核心大数据匿名化算法具有更高的处理效率。

3 总结

针对电力用户核心大数据,本文引入了基于核熵成分分析的匿名化算法进行处理,结果显示:

图4 处理效率对比图

(1) 将信息量较大的主元数据映射到高维空间,在高维空间进行主元分析的降维方法,可以很好地应用在电力用户核心大数据匿名化研究中;

(2) 基于核熵成分分析的电力用户核心大数据匿名化,具有更高的隐蔽性和更快的数据处理效率。

猜你喜欢

维空间标识符核心
我是如何拍摄天和核心舱的
近观天和核心舱
基于底层虚拟机的标识符混淆方法
你好!我是“天和”核心舱
Update on Fengyun Meteorological Satellite Program and Development*
基于区块链的持久标识符系统①
从零维到十维的空间之旅
十维空间的来访者
科研人员唯一标识符的理论研究现状剖析
数字图书馆推广工程唯一标识符体系构建研究*