医疗隐私大数据泄露风险容忍度计量仿真
2022-01-22李韶阳佘富娇
张 根,唐 忠,李韶阳,佘富娇*
(1.广西医科大学信息与管理学院,广西 南宁 530021;2.广西医科大学人文与社会科学学院,广西 南宁 530021;3.浙江大学工程师学院,浙江 杭州 310000)
1 引言
医疗隐私大数据是表示和人体健康有关的数据[1]。目前信息化不断发展,全国大型医院已经开始对医疗隐私大数据实时管理。近几年,医疗隐私大数据的增长速度快,数据信息量较大[2-4]。医疗隐私大数据对科学研发起到积极的推动作用,但因利益链的关系,一些不法人员将医疗隐私大数据泄露出去,以牟取高额的利润[5]。另外,医疗数据在管理过程中,由于数据采集、存储、应用、传输等环节方法众多,导致医疗隐私大数据发生泄露的风险,严重侵犯患者的合法权益,因此对医疗隐私大数据泄露风险的研究意义重大。
医疗隐私大数据泄露风险的研究需分析医疗隐私泄露行为与风险容忍度计量。医疗隐私泄露行为是个体通过互联网平台存储的数据信息。风险容忍度属于个人特征,与人口统计学相关因素有关。风险容忍度已广泛应用于食品安全、金融等领域,因此将风险容忍度应用在医疗隐私大数据泄露的计量方面。
但以往医疗隐私大数据泄露风险容忍度研究中,通常使用条件价值法,利用问卷调查方法,调查结果会有假设性偏差,导致用户心理真实值与实际差距很大[6-7]。本文对医疗隐私大数据泄露行为分析,通过BDM机制,分析在不同情境下的价值认知,减少假设性偏差,实现医疗隐私大数据泄露风险容忍度计量。
2 医疗隐私大数据泄露风险容忍度计量
2.1 医疗隐私大数据泄露行为分析及计算规则
为了对医疗隐私大数据泄露风险容忍度计量,需分析医疗隐私大数据泄露行为。根据分解结果将全部医疗隐私大数据泄露行为实施分类并构建PNN医疗隐私大数据泄露行为模型,具体包括γc表示应用模块、γt表示传输模块、γa表示采集模块、γb表示存储模块。医疗大数据生命周期的流程,如图1所示。
图1 医疗大数据生命周期的流程
PNN模型的一个完整全局隐私泄露路径形式,用式(1)描述
H1=(γa∪γb∪γc)∩γt
(1)
医疗隐私大数据泄露行为计算规则如下:
严重性计算规则,通过将权重导入各个子路径里,求解医疗隐私大数据泄露行为路径严重性。子路径归属模块有关联的泄露行为用wφi1≤i≤m描述,此行为会导致后续影响的严重程度[8]。为了求解各个行为路径独立的严重性指标,需设置一个行为路径用φpath1描述,且φpath1=inst1·proc=p1t1p2…pn-1tn-1pn,该路径经过m个PNN模块,则求解该路径严重性的过程,用式(2)描述
(2)
其中:权重用w描述。
隐私泄露路径计算规则,通过路径移动的实例属性值求解隐私泄露路径。设置一个隐私泄露路径且path1=p1t1p2…pn-1tn-1pn,该路径判决位置、原位置有n-1变迁。若inst1表示一个隐私实例在该隐私泄露路径上实现移动,则隐私泄露路径的求解过程,用式(3)描述
PLpath1=(inst1·Ctg,ins1·Cont,inst1·Proc,inst1·Dest)
(3)
全局隐私泄露计算规则,秘密数据传输模块内的一个泄露路径与未授权数据访问模块内的一个泄露路径组成全局PPN[9]。求解全局隐私泄露,用式(4)描述:
PLglobal=(PLda1∨PLda2∨…∨PLdaN)
∧(PLct1∨PLct2∨…∨PLctM)
(4)
其中:各个属性值的元素合并,元素内个属性的联合用符号“∨”描述,其中一样的内容记载次数,但内容仅能保留一回[10]。
可能性计算规则,路径集用BPS描述,设置其中的一条路径用path1描述,包含n1+1个位置、n1个变迁,变迁的权重用wti描述,其中1≤i≤ni,则给路径泄露的可能性用式(5)描述
(5)
其中:变迁的ti权重为wti∈(0,1),1≤i≤n-1,若BPS有N条行为路径,该行为路径集的隐私泄露可能性通过全部路径的平均可能性得出,用式(6)描述
(6)
2.2 泄露风险容忍度计量
2.2.1 计量方案
在医疗隐私大数据泄露行为分析及计算规则的基础上,进一步分析医疗数据隐私泄露容忍度的计量维度,如图2所示。
图2 医疗数据隐私泄露容忍度的计量维度
根据图2中可知,医疗数据隐私泄露容忍度的计量维度包括数据类型敏感度、使用目的敏感性、以及泄露途径敏感性。其中,数据类型敏感度包括精神类疾病、恶性肿瘤类疾病和传染类疾病(除艾滋病),使用目的敏感性包括科学研究和商业用途,泄露途径敏感性包括非法途径等。设计3*2=6个计量方案,具体如表1所示。
表1 计量方案
计量流程如图3所示。
图3 医疗数据隐私泄露容忍度的计量流程
Step 1:对患者的医疗数据实施采集,主要是获取患者的电子病例;
Step 2:将医疗数据的使用者情况通知患者,科研使用者一般是医药科学研究院、商用使用者一般是保险公司,无论是科研还是商用都与患者签协议并支付医疗数据价款;
Step 3:计量流程是在改进BDM机制下实现设计。为全面实施数据分析作准备,计量过程中需要患者填写BDM价格表。患者BDM价格表包括20种医疗数据价格及价格区间、患者决策各种医疗数据的价格、价格步长是5元[11]。患者的最低出售价格是受尝意愿(Willing to Accept,WTA),患者可选择拒绝出售其医疗数据的原因。将患者无条件出售其医疗数据用WTA=0描述,患者拒绝出售其医疗数据的患者用WTA=105描述。再预备K张价格卡片且卡片的价格、数量与BDM价格表一样。患者随机抽一张与患者BDM价格表内该种价格的决策实施对比。使用者无法获得医疗数据是当患者保留其医疗数据,同时决策显示为“否”时,则患者无报酬;使用者获得医疗数据是当决策显示“是”时,向患者支付该价格的报酬。
2.2.2 数据处理
通过分析患者的隐私容忍行为,使用改造BDM机制,实现隐私泄露风险容忍度和患者对其医疗数据的价值认知的转换。隐私泄露风险容忍度计算,用式(7)描述
(7)
其中:隐私泄露风险容忍度用PLT描述,最低出售价格用WTA描述。
按照式(7)可知,当PLT=1时,表示完全能容忍;当PLT=0时,表示完全不能容忍。
使用表格的形式呈现各个实验方案内无条件出售的患者比例、患者的隐私泄露容忍度平均值、拒绝出售的患者比例的计量结果[12]。
通过数据分析各类医疗数据的2种实验方案中患者隐私泄露容忍度影响因素包括人口统计学变量、隐私泄露容忍度差异的显著性、2种实验方案中拒绝出售的患者比例。数据分析方法如下:
Step 1:通过独立样本t检验,分析数据类型变量;
Step 2:“使用目的”的变量分析是通过配对卡方检验拒接出售比例,经配对样本t检验患者对不同使用目的的隐私泄露容忍度差异。
Step 3:通过多元线性回归分析人口统计学因素。通过上述步骤,由此实现医疗隐私大数据泄露风险容忍度计量。
3 仿真结果与分析
为了验证医疗隐私大数据泄露风险容忍度计量的有效性,在MATLAB软件的环境下进行仿真,实验员为10人,随机选取某医院有关科室住院的255名患者参与实验。
依据医疗隐私大数据泄露的行为计算规则,因传输模块仅负责信息传输,故不考虑此模块,计算医疗隐私大数据行为泄露的可能性、严重性结果如图4所示。
图4 医疗隐私大数据泄露的行为风险结果
在PNN全局模型下,其隐私泄露行为的计算需全面考虑四大模块的严重性、可能性,结果如图5描述。
图5 医疗大数据全局隐私泄露行为风险结果
通过图4、图5可知,采集模块医疗大数据隐私泄露风险发生的概率低,医疗大数据隐私泄露发生的重灾区为应用模块和存储模块。通过这两个模块,60%以上的医疗大数据隐私风险泄露均是由此发出,但应用模块医疗大数据隐私泄露导致的后果严重性最高。
数据调查实验结果如表2所示。
表2 数据调查实验结果
由表2可知,患者在使用目的方面侧重于科研,拒绝出售比例明显低于商用;依据患者拒绝出售比例,医疗数据类型的排序为传染类疾病(艾滋病除外)大于恶性肿瘤类疾病、精神类疾病。
使用目的分析:患者在同一类型的医疗数据下,对不同使用目的容忍度计量差异的显著性检验,结果如表3所示。
表3 不同使用目的的显著性检验结果
由表3中配对样本t检验结果表明,患者隐私泄露风险容忍度计量商用使用目的明显低于科研使用目的;配对卡方检验结果表明,在各类医疗数据类型,患者拒绝出售比例明显低于商用。经分析可知,使用目的的拒绝出售比例与医疗数据的隐私泄露风险容忍度计量成反相关。
实验对象的描述性统计结果如表4所示。
表4 描述性统计结果
人口统计学分析:实验数据中学历、性别、年龄都是自变量,因为医疗隐私大数据泄露风险容忍度计量受人口统计学的影响,随机选取传染类(艾滋病除外)的方案6,通过多元线性回归分析,得出结果如表5所示。
表5 多元线性回归结果
通过表5中数据分析可知,患者医疗隐私大数据泄露风险容忍度计量与年龄变量成不显著相关;患者医疗隐私大数据泄露风险容忍度计量与学历变量成显著负相关,或许因为患者的学历越高,注意保护个人隐私,对其医疗隐私大数据风险容忍度计量越低;患者医疗隐私大数据泄露风险容忍度计量与性别变量成正比,男性患者的医疗隐私大数据泄露风险容忍度计量明显高于女性患者,因在医疗数据隐私敏感度方面女性患者大于男性患者。
4 结论
为了对医疗隐私大数据泄露风险容忍度计量,加强医疗数据的保护,本文通过在分析医疗大数据隐私泄露行为的基础上,通过使用改造BDM机制,实现隐私泄露风险容忍度和患者对其医疗数据的价值认知的转换后,对医疗隐私大数据泄露风险容忍度计量实施实验,通过对医疗大数据在四个模块中的隐私泄露程度、使用目的、人口统计学方面实施数据分析,实验结果表明,在储存、应用模块的医疗隐私大数据泄露风险度高,其中,应用模块医疗隐私大数据泄露风险导致的后果严重性最高;患者在使用目的方面侧重于科研,拒绝出售比例明显低于商用,科研目的隐私泄露风险容忍度高;患者医疗隐私大数据泄露风险容忍度与年龄变量成不显著相关;患者医疗隐私大数据泄露风险容忍度与学历变量成显著负相关,患者医疗隐私大数据泄露风险容忍度与性别变量成正比。因多种因素的影响,患者对医疗数据的隐私泄露容忍度总体偏低。因此,本文研究医疗隐私大数据泄露风险容忍度计量,可引起对医疗隐私大数据重视,适当地采取措施,提升医疗隐私大数据的安全性。