APP下载

基于差分隐私保护的电力线损数据共享研究

2023-08-10项胤兴陈伯建李国才

计算机应用与软件 2023年7期
关键词:数据源合约差分

项胤兴 杨 里 陈伯建 李国才

1(国网福建省电力有限公司电力科学研究院 福建 福州 350007) 2(国网福建省电力有限公司 福建 福州 350001) 3(四川大学电气工程学院 四川 成都 610065)

0 引 言

在对线损的分析和降损措施方法的研究中,针对用电信息的大数据挖掘将发挥非常大的作用[1]。但由于电力营销、用电等数据涉及用户隐私、商业秘密,对该数据的开放应用面临着较大的隐私泄露风险。同时线损和降损措施分析需要对多个区域、多个层次的线损数据进行挖掘,需要各层次数据源的协调数据发布共享。这亦是电力企业众多业务场景下电力数据开放和大规模商业应用亟待解决的问题。一方面,电力企业各个业务与部门积累了海量数据,数据种类与数量持续增加;另一方面,由于数据源分布式分布、数据异构产生的孤岛现象使企业无暇进行针对性的数据挖掘与利用,无法更好地为企业创造巨大的社会和经济效益。

近年来,为了促进电力数据创新应用和数据商业化的同时有效保护隐私和商业秘密,涌现出了大量研究成果和信息保护方案:

(1) 标志信息移除替换,分析数据中个体的标志变量信息,利用对原始隐私数据进行去标志处理,将标志隐藏在信息中或者利用人工假名进行标志变量替换。

(2) 降低数据精度,该方法通过控制标识数据精度的方式进行调控。

(3) 数据聚合,该方法利用群组或者总体信息进行聚合以减少隐私信息泄露。

(4) 匿名化,该方法通过加密技术处理数据以实现信息匿名化。

(5) 差分隐私算法[2],该算法其本质是一种利用随机添加噪声数据来实现隐私保护的方案,并且添加的噪声数据不会妨碍此后的数据挖掘[3]。差分隐私保护技术对数据记录的保护能够无视攻击者拥有的知识背景,是最具有应用前景的脱敏保护方法。

这些方法能够将隐私数据发布的泄露风险降低到可以控制的范围[4]。但在面临区域电网级别的数据综合应用时,由于数据的分布式分布,数据发布分享系统还须考虑对隐私模型、隐私保护参数协商和存储、应用商识别数据追溯等安全问题。

目前解决协商、存储和追溯等安全领域的前沿是区块链技术。区块链是按照时间顺序的数据块的链式结构,数据都组织在树型的数据结构中,节点间通过下一级节点的散列值进行标记。区块链通过去中心化的密码学实现安全防篡改的分布式数据库,它的特点是安全、智能、公开可验证、可溯源、开放和透明。构成区块链的技术包括密码技术、分布式存储、共识机制和智能合约。智能合约是运行于区块链中用户自定义的程序,合同参与方以自执行的方式高效地构建其间关系。区块链技术在共享经济[5]和电力系统交易中已多有应用。黄虹等[6]针对电力自由双边交易,提出基于联盟链技术的电力交易方法以解决中心化电力交易模式中市场主体互信度不够、数据安全性不高的问题。Kellaris等[7]针对隐私数据在连续发布或者监测场景的需求提出了解决方案。Zhang等[8]通过引入贝叶斯网络来解决高维隐私数据发布上的低效率问题。

对此,本文针对线损综合业务系统的线损和用户用电数据挖掘的应用,在高维隐私数据联合共享发布且隐私数据连续发布的应用的场景下,提出一种基于区块链技术与隐私保护技术相结合、满足多层次隐私需求的差分隐私数据集发布方案。即在区块链中存储共享数据块的差分隐私技术参数、属性加密数据、数据应用模型及状态、数据的处理结果和处理交易的信息。通过对区块链中的智能合约的设计,完成数据源协商数据脱敏数据交易的全过程。原始数据块经过差分隐私脱敏后和数据应用模型及状态打包通过可信任执行环境交由第三方进行数据挖掘计算,计算结果通过智能合约记录到链中。该数据分发共享系统具有极高的安全性,解决了电力数据发布共享应用中分布式数据源和数据应用商群体之间协调工作的问题,并且通过区块链的可追溯性可以进行正确的数据访问责任。

1 基于区块链的电力线损大数据分析应用构架

基于区块链的电力线损数据分析架构如图1所示。

图1 基于区块链的电力数据应用架构

图1中业务数据源是各个地市的线损业务管理系统,部署在企业内网。业务数据源分布在企业内网各个地区,以数据流的方式提供电网结构特征、设备物理参数、电网运行特征、用电结构特征等各种因素构成的多元指标体系,这些指标/属性中大量包括用户ID、地址等需要匿名处理的信息。大数据应用系统是各个独立的具有针对性的数据模型挖掘应用,可以是企业内部不同地区的应用系统,也可以是承接数据处理和分析的第三方子系统。这些应用系统对业务系统有着不同的数据需求,系统以离线批处理方式或者是在线方式通过授权系统与区块链发生交互,交互流程如图2所示。

图2 基于区块链的电力线损数据应用流程

该方案与现有数据共享和发布机制不同的是区块链建设在企业内部,在智能合约协助下,业务系统方流程为:(1) 公布数据定义及算法等模型上链。(2) 智能合约作为可信任的第三方将脱敏规则上链保存。(3) 智能合约将处理模型和状态上链,并触发应用方获得数据下载模型和状态,通过授权的通道获得数据集,进行处理后,报告信息上链完成。(4) 数据源(业务)系统通过处理报告进行分析获得线损因素,进一步进行线损管理。

在线损大数据挖掘分析中,各个地区的电网结构特征、设备物理参数、电网运行特征、用电结构特征等各种因素构成的多元指标体系具有相同的属性和较高维度,并且每组数据包含不同的个体,多个业务系统数据源分别拥有一组局部关系数据集。在智能合约辅助下,需要对常见的数据包括名称、地址、用户ID等敏感数据进行脱敏操作,另外由于数据会进行修改,需要在数据安全的前提下尽可能减少数据的信息损失。由于线损数据是基于时间序列数据流,数据量非常大。因此本文的数据发布方案采用多种方案相结合,一方面采用数据匿名化技术对名称、地址、用户ID等信息进行处理;另一方面采用数据脱敏技术对时间戳格式进行处理。该处理流程能够成功阻止身份被公开,又不会显著影响数据分析挖掘的效果,如图3所示。

图3 基于差分隐私数据发布结构

2 基于差分隐私的线损数据动态发布技术

2.1 算法设计

假设有N个业务系统分别是S1,S2,…,SN,其所有的局部地区数据集为Dk,这些数据集具有相同的属性:

χ=(X1,X2,…,Xd,t)

(1)

显然Dk∩Dl=∅,k≠l,其中t为时间戳。业务系统对隐私的保护水平可以被分割为m个层级,记为:

参考文献[8]业务系统与智能合约在差分隐私条件下构建贝叶斯网络Ν,然后分成以下5个阶段。

(3) 智能合约利用收到的各个业务系统的边际分布Pk(Xi,Πi)进行统计,计算每个候选属性-父节点集合对中属性与其候选父节点集合的互信息I(Xi,Πi)。并选取其中最大值为该属性的父节点集合,这样就确定了贝叶斯网络Ν的结构。

(4) 业务系统在智能合约辅助下,先对时间戳进行第一层自适应概化,并且计算每个数学技巧父节点结合的带噪声的边际分布Pk(Xi,Πi),并利用该边际分布,计算属性Xi在给定父节点集合Πi时的条件分布Pk(Xi,Πi),i=1,2,…,d。这个阶段使用拉普拉斯机制在边际分布中加入εu预算的噪声,这样在联合发布阶段,数据满足了εu-差分隐私保护。

(5) 基于Pk(Xi,Πi),i=1,2,…,d,智能合约辅助计算数据集Dk近似的联合分布:

2.2 技术分析

基于差分隐私的组合性质,在智能合约计算属性分组的边际分布时,通过对原始数据引入多方拉普拉斯机制在属性分组的边际分布中加入噪声,从而保证该阶段的δ-差分隐私保护。在贝叶斯网络N的结构初始化和更新阶段,业务系统利用局部数据集合通过迭代为属性的学习过程,满足δ-差分隐私保护。

该过程对应用系统是透明的,这样可以降低隐私泄露的风险。在本文应用场景中,区块链智能合约作为可信的第三方,在应用程序的调用下操作账本将涉及的隐私信息以安全的方式保留在链中,同时可以协调多个业务系统和应用商协同完成线损数据挖掘应用。

3 系统实现及验证

实验验证环境在实验室中实现,运行平台是Intel至强E5-1603,主频2.8 GHz,内存16 GB。本文以联盟链Hyper ledger Fabric为区块链平台以Docker方式进行部署,实现数据源系统和大数据应用系统的双边模拟交易保证去中心化。数据处理平台采用Spark,配置为本地方式。实验数据为带时间戳的用电消费数据。为了测试隐私处理性能,实验采用一个机器学习任务K-means分类,在整体生成数据集上训练分类器。实验中衡量分类数据的准确率,对每个任务多次重复运行,并记录结果的平均值。

图4给出了不同数目数据源业务系统提供数据对算法的影响。其中隐私预算为,推荐的差分隐私保护方案和没有隐私保护下生成的数据训练的二分类器的分类错误率。可见加入差分隐私保护后,分类器性能比未进行隐私保护的方案有一定程度下降,同时可以看出随着业务系统数目的增加,性能比较稳定。

图4 不同数目业务系统下的分类差错率曲线

图5给出了方案在不同隐私预算要求情况下的推荐方案的分类错误率,可见随着隐私保护要求的加强,分类器性能逐渐变差。业务系统对隐私数据的分层处理也会影响最后分类器的错误率,图中给出了分别为High和Low两种情况下对系统分类错误率的影响。

图5 不同隐私预算下系统方案性能曲线

实验环境中区块链合约设置能够完成双边交易的协商功能,基本满足系统响应要求。通过隐私保护和分类训练结果表明该方案可以满足差分隐私保护要求,对业务系统关键数据进行保护,同时也能够保证应用系统数据挖掘和机器学习的要求。

4 结 语

本文提出一种基于区块链技术与差分隐私保护技术相结合的非信任多方数据共享模型。实验系统测试表明,通过对隐私数据共享策略和智能合约设计,该方案可以实现业务系统关键数据的分层隐私保护,满足差分隐私保护要求,整个数据交易都将在区块链中可追溯,达到了预期设计目标。该实验方案验证了该数据共享保护方案的可行性,下一步还将继续优化和项目方协调进行生成环境试运行。本文提出的方法有助于实现企业隐私数据的共享利用,为隐私保护下的大数据挖掘提供新的技术解决思路。

猜你喜欢

数据源合约差分
数列与差分
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
基于真值发现的冲突数据源质量评价算法
基于差分隐私的大数据隐私保护
相对差分单项测距△DOR
差分放大器在生理学中的应用
分布式异构数据源标准化查询设计与实现
合约必守,谁能例外!——对“情势变更”制度不可寄于过高期望