智慧家庭隐私泄露风险评估方法及系统
2021-06-28张颖袁海张继东
张颖 袁海 张继东
摘 要:如何在智慧家庭应用发展、推广和应用的同时保护家庭信息不被泄露是当前智慧家庭应用研究的热点之一。针对当前隐私数据保护存在的主要问题,在考虑家庭个体因密切联系群组特殊性的基础上,提出一种适合家庭群组的隐私泄露风险评估方法,并重点对利用智慧家庭的隐私泄露风险评估系统进行家庭隐私泄露风险评估的流程进行了阐述,从而为评估智慧家庭应用中潜在的隐私泄露风险水平提供客观参考依据。
关键词:智慧家庭;隐私泄露;风险评估
中图分类号:TP309 文献标识码:A 文章编号:2096-4706(2021)01-0143-03
Smart Home Privacy Disclosure Risk Assessment Method and System
ZHANG Ying,YUAN Hai,ZHANG Jidong
(Department of Information and Technology,Tianyi Smart Home Technology Co.,Ltd.,Nanjing 210012,China)
Abstract:How to protect the family information from being leaked while developing,promoting and applying the smart home application is one of the hot topics in the current smart home application research. In view of the main problems of privacy data protection,this paper proposes a privacy leakage risk assessment method suitable for family groups based on the consideration of the particularity of family individuals because of their close contact with groups,and focuses on the process of family privacy leakage risk assessment using the privacy leakage risk assessment system of smart family,so as to provide an objective reference for the assessment of potential privacy leakage risk level in smart home applications.
Keywords:smart home;privacy disclosure;risk assessment
0 引 言
随着智慧家庭业务的发展,越来越多的智能设备终端通过家庭网关连接到网络上,通过家庭内外部网络流动和共享,为用户提供了更多的智能管理、控制、多媒体和语音、数据等便捷服务。智慧家庭4.0时代更是进一步提升了业务的智能性,朝着人机交互、深度学习等方向演进。但与此同时也带来了用户对数据隐私泄露的担心和忧虑,特别是在智慧家庭业务过程中存在的智能数据挖掘和应用往往容易导致个人甚至其关联个体的隐私泄露,对个人和社会造成不良后果。笔者所在单位在实际业务发展的过程中,根据实际市场调查和用户反馈发现,部分用户往往会担心隐私泄露从而拒绝相关业务的体验和使用,某种程度上对智慧家庭业务的发展产生了阻碍。因此我们急需一种针对智慧家庭应用隐私泄露的评估方法和系统,能够客观公正的对实际业务应用过程中以家庭为单位的群体潜在隐私泄露风险进行评估。本文主要是基于此背景对家庭群组的隐私泄露风险评估进行研究。
1 现状分析
当前针对隐私数据保护的研究主要集中在如何通过一系列脱敏算法或者隐私数据发布保护方法来降低隐私泄露的可能性,如常见的PATE或者差分隐私保护方法,对于隐私泄露风险评估的模型或算法研究相对较少。即使有部分这方面的研究,也存在以下两个方面的问题:
(1)隱私泄露评估时未考虑数据与数据之间存在的关联,但实际应用中数据与数据之间往往存在潜在的隐形关联,某一条数据记录中的部分字段与其他数据能通过某种方式关联起来,从而可以推断出更多的隐私信息,导致隐私泄露;
(2)未考虑不同群体或个人隐私保护的差异性需求。不同的人在隐私保护的诉求上存在一定的差异,对隐私泄露的界定标准也不一致,在以群体(特别是家庭为单位的用户群体)为单位对隐私泄露风险评估时,更需要一种综合、客观、可量化的评价方法和系统。
2 智慧家庭隐私泄露风险评估系统设计
家庭隐私泄露风险评估系统其系统功能架构如图1所示。
下文为各功能模块的具体描述:
(1)隐私数据集预处理模块:识别家庭场景中各类应用和服务涉及的隐私数据,在进行数据清洗、格式统一化、无用数据过滤、重复数据归一化以及标准化之后生成隐私数据特征向量。
(2)隐私数据库:其存储的隐私数据包括但不限于:家庭成员的个人信息(如年龄、身份证号、职业、兴趣爱好、工作单位等),APP访问信息和日志信息、上网特征信息和流量信息、家庭智能设备基本信息、家庭智能设备使用日志信息、其他信息等。每一条隐私数据记录由以下元组构成:{[隐私标签元数据MetaDi];[隐私标签元数据描述MetaDSpec-i,可用正则表达式或巴科斯范式描述];(关键词列表(关键词1,关键词2,关键词3,…,关键词n,该元素为可选));特征值}。
(3)用户组信息预处理模块:根据家庭中不同成员对隐私保护的个性化需求,结合隐私数据集预处理模块的输出,评估每一个用户对该类数据的开放程度并形成家庭用户成员和隐私数据集之间的隐私开放矩阵。
(4)隐私数据集计算模块:根据隐私数据集合的特征向量和用户隐私开放矩阵,按照给定的算法计算隐私数据集的风险泄露向量值。
(5)隐私泄露风险评估模块:根据隐私数集的特征结合隐私数据集的风险泄露向量值进行计算,并综合评估隐私泄露风险。
3 智慧家庭隐私泄露风险评估流程
以家庭为单位对隐私泄露风险进行评估,需要经过六个步骤,其流程如图2所示。
步骤一:定义智慧家庭场景中的隐私数据集。通过梳理家庭各种应用和服务中涉及的业务数据和日志数据等,经过清洗、分析和整理之后采用分词器对其进行分词,得到具体的数据项集。根据每个数据项集的每一项数据,利用其关键词检索隐私数据库进行特征匹配,如果能够匹配成功,则该数据为隐私数据,将其对应的特征值加入元组,否则丢弃。
定义X={i1,i2,…,im}为包含m个不同隐私数据项i的集合,称为隐私数据项集,其中i为该隐私数据项对应的特征向量。假定经过整理所有的应用和业务,最终得到p个数隐私数据项集,p为业务和应用数之和,则该隐私数据项集可表示为{i1,i2,…,ip}。取t=Max{m|其中m为X1,X2,
…,Xp中数据项的个数},则p个隐私数据项集可用矩阵Pr表示:
步骤二:确定隐私数据集的关联程度并生成相关性系数矩阵R。根据矩阵Pr计算相关性系数矩阵R的公式如式(1)所示:
R=(rij)t×t (1)
其中每一个rij的计算公式如式(2)所示:
(2)
步骤三:评估家庭用户群u对某一类隐私数据集的开放程度ai。根据实际需要将用户对每一类隐私数据的开放程度划分为A,B,C,D,E,F…,n个等级,其中A等级所代表最低开放等级,n代表最高开放等级,但最大值不超过1,表示可以完全公开。该等级可用不同的数字表示{n1,n2,…,nm}。其中n满足条件:{nk<1,k=1,2,3,…,m,当i 假定家庭中有m个成员,每一个成员对数据集{X1,X2,…,Xp}中数据项的开发程度用特征向量ui(a1,a2,a3,…,ap)表示,则家庭成员隐私开放性和数据集P之间的关系可表示为: 最终数据集Xi在家庭用户群体中最小允许开放程度用Fp表示,则Fp=F(min{uk(a1)},min{uk(a2),min{uk(ap)}})其中k={1,…,z}),z为家庭成员个数。 步骤四:对于每一类隐私数据集的数据项确认其三元组信息{泄露严重性Si,泄露难易程度Bi,用户群u的开放程度min{ai}}。 对于某一类隐私数据集对其从三个维度进行评价:泄露严重性Si、泄露难易程度Bi、数据开放程度Fpi,从而形成隐私数据集三元组(泄露严重性Si、泄露难易程度Bi、数据开放程度Fpi)。其中Si≥1,Si值越高表示该数据泄露之后其对用户造成的损失越大,后果越严重;Bi≥1,Bi值越高表示该数据越难泄露;Fpi≤1,其值越小表示用户越不容易开放。 步骤五:计算每一类隐私数据集隐私泄露程度。针对某一数据集Xp,定义其隐私泄露危险系数为: θ=(Si·Fpi)/Bi (3) 针对隐私数据集{X1,X2,…,Xp},创建隐私泄露向量 T[θ1,θ1,θ2,…θp];定义数据集{X1,X2,…,Xp}隐私泄露风险值向量为RVALUE,其中RVALUE用{Risk1,Risk2, …,Riskp}表示,则: RVALUE=R·T (4) 其中R為相关性系数矩阵,T为隐私泄露向量。 步骤六:计算整体家庭隐私泄露风险量化值。结合实际具体应用或服务中数据产生或采集的频率,定义某一隐私数据项imn在某一时间段出现的次数为rmn,计算每一个数据项出现的频率FREmn,则: (5) 定义数据集XP的隐私权重为Weightk=max{FREmk},根据式(6)计算家庭数据隐私评估风险: (6) 4 家庭隐私泄露风险评估案例 以一个有四位成员的普通家庭为例,假设其日常家庭业务场景相对简单,通过对其家庭各类应用中产生的数据、日志进行整理之后得到以下三个方面的记录集合: 集合一:{APP使用情况;{APP打开时间,APP动作,使用者,搜索关键词},{1,4,3,2}}; 集合二:{上网情况:{访问时间,访问网站,停留时长,关键词主题},{1/2,1/2,3,2}}; 集合三:{设备信息:{设备名称,设备动作,时间},{2,4,1,0}}; 集合四:{个人信息:{身份证,姓名,性别,年龄},{2,3,4,1}}。
因此可以得到隐私数据项集Pr:
步骤二:确定隐私数据集的关联程度并生成关联矩阵rij。通过式(1)计算关联矩阵rij如下:
步骤三:评估家庭用户群u对某一类隐私数据集的开放程度ai,假设家庭中每一个成员对上述三个数据集的开放程度用矩阵表示:
步骤四:对于数据集一、二、三、四分别确认其三元組信息{泄露严重性Si、泄露难易程度Bi、用户群u的开放程度min{ai}},则这四个数据集三元组信息计算结果如下:
数据集一:{Si=5,Bi=2,Fpi=1/6};
数据集二:{Si=3,Bi=6,Fpi=1/4};
数据集三:{Si=2,Bi=6,Fpi=1/5};
数据集四:{Si=8,Bi=6,Fpi=1/8}。
步骤五:计算每一类隐私数据集的隐私泄露程度,各数据集的隐私泄露危险系数通过式(2)计算,计算结果为:
数据集一X1,其隐私泄露危险系数计算为:5/12;
数据集二X2,其隐私泄露危险系数计算为:3/24;
数据集三X3,其隐私泄露危险系数计算为:1/15;
数据集三X4,其隐私泄露危险系数计算为:1/6。
针对数据集{X1,X2,X3,X4},创建隐私泄露向量T[θ1,θ2,θ3,θ4]={5/12,1/8,1/15,1/6};定义数据集{X1,X2,X3,X4}隐私泄露风险值向量为RVALUE,则RVALUE根据公式(3)计算结果为:
步骤六:计算整体家庭隐私泄露风险量化值。假定30天内数据集{X1,X2,X3,X4}采取的次数最大值为{210,120,30,10},则根据公式四数据集{X1,X2,X3,X4}的频率Weightk分别为{7,4,1,0.33}。
根据公式五计算家庭数据隐私评估风险其计算结果为4.49。
5 结 论
本文在分析当前个人隐私保护的基础上,针对智慧家庭群体之间的密切关联性,提出的智慧家庭业务中基于群组进行隐私泄露风险评估的方法和系统,该方法在考虑隐私数据之间的关联性基础上,同时考虑了不同个体个性化隐私保护需要,同时具有强扩展性和推广性,可以推广应用到物联网场景下对群体隐私泄露的评估。本方法也存在一些不足,即对智慧家庭每一项应用的业务数据评估需要依赖于人工进行整理和分析,未来可结合人工智能针对智慧家庭业务数据自动进行分析,从而提升智慧家庭应用中的隐私泄露评估效率。
参考文献:
[1] 李晖,李凤华,曹进,等.移动互联服务与隐私保护的研究进展 [J].通信学报,2014,35(11):1-11.
[2] 刘向宇,王斌,杨晓春.社会网络数据发布隐私保护技术综述 [J].软件学报,2014,25(3):576-590.
[3] 兰丽辉,鞠时光.基于差分隐私的权重社会网络隐私保护 [J].通信学报,2015,36(9):145-159.
[4] 孟小峰,张啸剑.大数据隐私管理 [J].计算机研究与发展,2015,52(2):265-281.
[5] 李晖,李凤华,曹进,等.移动互联服务与隐私保护的研究进展 [J].通信学报,2014,35(11):1-11.
[6] 彭飞,曾学文,邓浩江,等.一种基于群组推荐的用户隐私保护方法 [J].计算机应用研究,2015,32(3):869-872.
作者简介:张颖(1984—),女,汉族,湖南岳阳人,高级工程师,硕士,研究方向:大数据、人工智能、智能控制、边缘计算。