面向大数据基于信息熵的隐私成本定价系统
2018-08-11任翠萍张俊丽
任翠萍,张俊丽
(西安欧亚学院 通识教育学院,陕西 西安 710065)
1 背景介绍
随着电子通信和社交媒体的普及,大量的信息数据给人带来了前所未有的机遇和挑战.一方面,基于大数据的分析研究可以提高企业的经济效益.另一方面,隐私也成为大数据应用领域急需解决的重要问题.恶意分子得到了个人或组织不愿他人知道的信息进行买卖、敲诈等行为,从而给个人或组织带来不必要的经济损失.大数据具有数据量巨大、生成快、类型多、动态影响因素众多等特点,随之带来的隐私保护难度加大.
在大数据环境下,隐取保护技术面临着新的挑战:(1)大数据环境下的隐私保护利用传统的隐私保护技术难以解决,同时数据生成者没有主动地参与隐秘保护.(2)大数据的多样性、关联性使得隐私泄露风险增加.(3)针对隐私泄露造成的巨大损失的相关规定缺失.近年来出现了许多基于k-匿名和划分隐私保护方法(例如l-diversity[1]、t-closeness[2])尽管这些方法能够保护数据的更多细节,但是均需要特殊的攻击假设和背景知识.张啸剑在《面向数据发布和分析的差分隐私保护》中阐述了基于直方图的发布技术.史武超等在《一种基于VCG机制的差分式隐私服务定价机制》研究了各级隐私保护服务制定合理的价格.但是关于个人隐私成本定价方面的研究文献并不多.
研究过程中本文做以下假设:(1)对于所有的用户而言,他们对自身的敏感信息都是极其关注的.数据收集者并不会主动泄露用户的隐私数据.(2)用户是理性的,当用户选择是否出售自己的隐私数据时,用户会衡量收益和风险,成本和风险都可以用数值来衡量.(3)用户由于隐私泄露所造成的损失都是可以用金钱来衡量.
本文从用户个人行为的敏感性出发,建立隐私成本模型并且得到隐私价格构成系统;以个人行为数据为指标,利用层次分析法建立以个人隐私价格为目标,隐私估值函数和市场供需为约束条件的个人隐私定价模型;最后,对隐私数据风险的收益和损失进行分析建立隐私优势比模型,给出隐私信息数据的应用、保护措施及建议.
2 隐私成本定价模型
从个人行为数据、应用领域、隐私程度价格方面进行分析.用户个人行为包括个人数据、个人私事、个人领域.个人行为的数据,存在个人的部分隐私,在大多数国家已经对隐私已经加入法律法规中.
世界上大多数国家和地区对敏感信息定义可概括为两种基本模型:“欧盟标准”和“欧盟标准加犯罪记录”.在法律上对72个国家和地区的相关敏感信息、数据进行归类、统计.针对个人的风险和价值的不同,对隐私信息的不同风险级进行水平划分,而对不同隐私信息进行一定力度的保护.对隐私信息在应用中的保护价格进行设定,考虑从风险等级、风险领域、个人隐私三个方面进行分析,以此得出价格点对隐私信息进行保护.将风险等级用Li表示,设Li(1≤i≤k)的值在[0,1]之间,其中Li共有k个隐私风险级别,L1为最低级别,存在零风险;Lk为最高级别,即一定有风险.个人的隐私信息用Ak表示,如A1表示个人隐私中的姓名;不同的风险领域用Vm表示,如V1表示社交媒体领域.对个人隐私、风险领域、风险等级在三个方面的价格点Pijk可以表示为:Pijk=Li×Vj×Ak.
数据的基本信息在不同的信息领域下的作用不同,将使得隐私数据的价值增加.隐私数据价值增加,隐私的需求量增加.设用户的总隐私成本为W,用户需要保护的隐私有个人基本信息和各领域里的用户相关信息.用户要保护自己的总隐私需要付出成本为:
其中Ai表示个人基本信息中的相关指标,Bi表示网络技术的相关指标,Ci表示医疗健康的相关指标……Ki表示新闻媒体的相关指标,Ii表示交通运输的相关指标.α、β……κ和λ分别为Ai、Bi……Ki和Li中各项指标的影响因子.
3 个人隐私定价模型
定价模型采用层次分析法,构造成对比较矩阵,并通过一致性检验,得到个人在各领域的权向量,得到个人定价模型:
其中Ai表示个人基本信息中的相关指标,Mi表示领域的相关指标.有两个主要的因素会影隐私的估值:隐私参数和每个参与人i对数据隐私价值的定义.假设对于每个参与人i,而隐私的估值Li(εi)与隐私的参数 ui成正比例关系,即:Li(εi)=εi×ui.其中 ui≥0 是参与个人隐私个数i隐私价值的定义.根据私密信息数据的情况,借助模型得出不同的隐私价值,从而对隐私进行评对个人意愿和市场供需,结合得出定价模型
假设其他变量保持不变时,当个人隐私信息意愿出售增加时,价格减少.控制其他变量不变时,对个人隐私信息需求数量增加时,隐私信息的成本增加.
4 隐私售卖优势比模型
以网络信息领域进行分析,假设某用户在网络内有n条轨迹.使用信息熵的概念来评估用户的隐私程度,即获得隐私保护程度的一种量化标准.当没有用户使用隐私保护机制来保护位置隐私的时候,用户的隐私程度为
其中隐私程度值越大,位置隐私保护效果越好,相应需要支付的费用将更高.
当然,隐私数据的价值还会受到政府干预和时间的影响,对问题三中的个人隐私信息价格模型做进一步修正,可以预测出每一年的个人隐私信息价格为:
其中P3为当年个人隐私价格,t为当年平均每周上网时长,Q为需求量,ε为个人意愿,G为强度因子受到政府干预影响.干预事件对将的波动具有影响.其中干预越强,价格波动越大.干预事件产生的用途越广,干预的影响程度越低,隐私力度越小,价格越小.
当个人出售自己的隐私数据时,会给自己带来收益,也有可能会带来风险.假设用户是理性的,可以预测出自己售卖隐私数据所带来的收入和风险,那么影响他决定是否售卖隐私数据的关键就是,售卖隐私数据所带来的收入是否大于风险,如果带来的收入大于风险,那么用户就会选择售卖自己的隐私数据,反之用户不会选择售卖自己的隐私数据.结合隐私成本模型和风险评估方案,建立隐私售卖的优势比模型:
当m大于1时,表示出售隐私带来的收入大于隐私泄露的成本,所以此时用户可选择售卖自己的隐私数据.
5 隐私保护建议
5.1 法律保护方面
应加强对个人数据的获取、记录、组织、保存、修改、修复、咨询、使用、公开、传播、组合、封锁、删除或销毁等行为的法律的规制措施.例如,对监控等的隐私信息数据制定保存的最高年限,到期后要求删除,违者追究法律责任.
(1)所有监控、侦听、黑客入侵保存数据的行为都应法律严惩,建立在司法秩序的基础之上,并尊重和保护个体的隐私权.
(2)在法律上对个人隐私数据和敏感信息数据进行定义.例如,对直接或间接的信息数据,涉及有种族、国籍、政治观点、宗教、哲学信仰、健康状况、性行为和生物特征相关的数据.
(3)关于个人隐私数据的搜集和使用,需要遵守相关的法律,遵循法律原则和协议.例如,对个人响应隐私信息等搜集的知情权进行保护和限制监控等重要信息设备的出口.
(4)对隐私信息需要签订保密法律.如果组织没有通知,记录数据泄露,将会构成刑事犯罪或进行罚款.
5.2 行业保护方面
(1)对电信数据的使用在从事商业应用上进行特殊规则限定、遵循一定的原则.例如电信数据用于本行业信息的扩展,对个人或行业没有造成损失,尊重隐私.对特定员工允许进入个人电脑等设备进行授权.
(2)建立关于隐私信息数据库,对数据库进行严格特有人员信息的保护.例如,设立行业信息数据部门,对信息进行整合,在行业的应用上在尊重人格基础上进行应用.
(3)隐私漏洞的通知.对行业中信息存在的漏洞进行规避和通知,确保隐私信息的合理化保护.例如,互联网应用程序中的软件有需要获取隐私信息,需要对隐私信息进行特有的说明和强调,以确保用户周知.同时,在未经得用户许可下,禁止以网络形式散发隐私信息,例如应用相册中的照片、通话记录的外传.
(4)制定服务商践行的行为准则和专业标准,实施“最低安全措施”标准,加强行业信息数据的保护.例如,对金融行业对隐私信息损失后,竞争行业涉及后对行业造成损失,金融行业需要主动赔偿,严重者接受法律惩处.
5.3 个人保护方案
(1)允许情报机构的搜集.例如,情报机构可以使用监控的所有设备来进行情报信息的搜集.
(2)关于机构收集、存储和处理个人数据自己有权了解.例如,使用隐私信息通话记录用作政务工作的统计.
(3)个人信息的使用和公开有所限制,需要个人隐私信息,对部分隐私信息不得泄露.例如,军人不得泄露在军队的因素信息.
(4)不得发布他人的隐私信息,给他人造成后果.造成后果后,主动承担责任,逃避责任的将受到严惩.例如,发布他人裸照信息,给对方带来信息的泄露和人格的伤害.