基于HISPAC医疗数据隐私保护模型
2022-09-24姚征
姚 征
(河南省周口市中医院微机中心,河南 周口 466000)
0 引 言
常规三甲医院的管理系统为用户划分了具体的角色,每种角色有不同的定位和工作目标。正常情况下,不同的用户角色有不同的权限,以保证隐私隔离,但仍然存在非法用户利用特殊渠道访问自己工作目标权限之外的数据而带来了隐私数据的泄露问题[1-2]。本文使用2种机制来解决这一问题:1)使用医院信息系统隐私控制模型(Hospital Information System Privacy Access Control Model, HISPAC),采用目的管理思路,在现有访问控制级别进行细化权限划分和监控;2)使用自适应混合神经网络算法来对潜在系统用户的隐私风险性进行推测,使用用户访问行为和用户信任值这2个风险量化指标作为评判依据,进行模型构建和实验,最终进行算法层次的隐私违法用户的鉴别和筛选。经过实验和初期临床时间发现,引入该机制的医疗管理系统在隐私保护效果上得到了进一步提升。
1 常用的隐私保护模型与技术选型依据
1.1 常用的隐私访问控制模型
在阐述访问模型时需要明确几个核心概念:1)主体(Subject),指主动对其它实体施加动作的实体;2)客体(Object),是被动接受其他实体访问的实体;3)控制策略(Policy),为主体对客体的操作行为和约束条件。
1)自主访问控制模型。
自主访问控制模型以DAC为代表[3],其技术核心是加强访问控制的自主性,也就是说拥有资源的主体可以访问资源本身,还可以访问哪些资源以及可以进行哪些操作,这些都是根据资源所有者前期规定的访问策略来决定的。优缺点很明显:优点是授权访问可控,授权行为可管理、被授权访问人员查询和检索操作方便快捷;缺点是无法分辨授权者做出的授权行为是来自何方用户还是外界攻击,一旦资源所有者启动了木马病毒,系统将陷入混乱。
2)强制访问控制模型。
强制访问控制模型以BLP模型和Biba模型为代表。这类模型强调的是强制访问不允许主体干涉,即授权机构为主体和客体授予访问安全级别,主体不能修改访问者的安全级别,机密性相对较高,这是其优点,缺点是强制访问控制需要授权机构提前对所有主客体进行安全级别和访问级别标记,当主客体数量较大时,会给模型管理员带来较大的工作量。
3)基于角色的访问控制模型。
基于角色的访问控制又叫RBAC模型,本文设计的模型属于RBAC的改进型[4]。人们发现对用户进行授权工作非常繁琐,于是出现了基于角色访问的控制模型,标准的RBAC模型可以分为4个子模型,分别为RBAC0、RBAC1、RBAC2、RBAC3。其中RBAC0是核心模型,它定义了用户、角色、对象、操作、权限等一系列基本元素,同时还包括会话的概念。具体如图1所示。
图1 RBAC0模型
如图2所示,RBAC1模型是在 RBAC0 模型的基础上加入了角色继承的概念,即一个角色r1继承了另一个角色r2,则角色r1就继承了r2的所有权限。
图2 RBAC1模型
如图3所示,RBAC2模型是在RBAC1模型的基础上增加一条约束,用以调节角色之间权限冲突的问题[5]。该约束根据生效时间的不同可以分为2类:一类是在管理员为用户分配角色时,如果角色之间的权限存在冲突,则被定义为静态约束;一类是在用户激活角色时发现角色之间的权限存在冲突,则被定义为动态约束。不管静态还是动态的约束,如果角色r1和r2之间存在冲突,那么r1和r2将不能同时分配给同一用户,且r1和r2既不能存在继承关系,也不能在同一会话中被激活[6]。
图3 RBAC2模型
总之,RBAC模型已经相对成熟,能够根据角色类型的不同,个性化分配权限。由于它与强制访问控制模型类似,需要管理员分配权限,当角色数量多到一定程度时,管理员的角色划分和权限分配将会极其困难。
1.2 HISPAC技术选型
基于以上分析,可以总结得到常见的几类控制模型的缺点都极其明显,即授权工作由管理员人工操作,工作密度大且主观性强;授权策略过于苛刻无法适应复杂的大数据环境[7]。风险控制模型的优缺点如表1所示。具体来看,在现今数据量和人口激增的现状下,各大医院病例数据无论是从种类还是数量上都在持续增长,大多数患者要求对自己的病情进行保密。同时,随着病情类型增加,主治医生的类别也在增加,医院职称层级更加多样,所以强制访问控制模型和角色访问控制模型必然会导致管理员工作量急剧增加,不适用于当前环境。此外,医院大多数数据都集中存储在固定单个机器上,没有使用大规模的集群和权限的隔离,如果使用自主访问控制模型来说,主体权责更大,隐私保护的风险更大,不适用于当前医院场景。所以笔者本着在减少管理配置工作量和动态打分配置权限,从而保证灵活性兼顾安全性原则的基础上,提出HISPAC模型。该模型有2个核心点:
表1 风险控制模型选型
1)基于角色挖掘的访问控制。原有角色划分模式经过人工处理,规则单一。基于角色挖掘是从数据特征出发,量化用户访问行为和信任值,并对具体访问用户分别进行风险评估,根据风险等级划分权限,划分规则更加多样,省去了人工管理的繁杂性,更适应大数据环境。
2)基于风险自适应的访问控制。本文设计的模型使用了自适应神经网络算法。基于风险的访问控制是典型的自适应访问控制技术,该模型与其它模型最大的区别是,它可以在用户请求访问时对用户访问行为可能带来的风险和收益进行动态的评估,克服了传统访问控制技术中访问策略过于苛刻的问题。该技术主要包括风险量化和访问控制实施2个部分,而风险量化方法和访问控制框架要根据实际问题进行讨论。
2 模型设计方案
2.1 风险指标量化设计
正常情况下,医疗管理系统的常规用户为各个层级和主治类别的医生以及护士。而患者从进入医院录入信息开始,相关病例就体系化地保留在医疗管理系统的数据库表中,直至患者出院之后进行档案病例调出打印和封存[8]。封存病例初级医生无法获取,其现有权限仅仅能帮助其浏览到最近一个周期内的患者诊断信息。但一些高级别以上的主治医生和主任可以查询各个组别的患者信息以及同一个患者在该医院整个周期内的所有历史信息。然而,根据患者病情类别和严重程度的不同,相关病例的信息会设定为敏感数据,医生为了保证诊断的准确性需要浏览大量相关病例的诊疗方案,所以不能只靠访问量的多少来对具体用户进行信任度质疑[9]。所以,需要获取用户更细粒度的访问行为,并结合专家咨询和问卷等方案对合法和非法访问特征进行界定,将原有医疗管理系统中用户数据进行标记为合法用户和和非法用户。其中,合法用户,即好样本访问自己职责和工作目标范围内的数据,数据包括患者信息和病症诊断治疗历史。而一些伪造假数据和跨权限访问的用户设置为非法用户,即坏样本。但在实际使用过程中发现,存在一些特殊病例的诊断过程中,医生为了保证治疗的精准性,需要查询更多患者信息和历史病例,以及一些相关疾病[10],这样一来,访问行为更加容易被鉴定为非法行为。这里可以根据医生治疗疾病的特殊性引入信任值指标,帮助模型进行深层次推测,减少误判的可能性。
2.1.1 用户行为量化
不同用户在访问信息过程中访问行为存在一定程度上的差异,而这种差异反映在信息熵上,随着信息熵增加,访问行为存在不稳定状态。具体熵计算公式为:
H(x)= -∑xip(xi) ×logP(xi)
(1)
其中,p(xi)与P(xi)属于2个不同的概念,p(xi)为某个主治项目医生xi访问特定医疗数据的相关性指数,P(xi)为医生xi访问主治相关性较大的医疗数据次数。最终经过对相关性指数求和再乘实际访问的相关性数据次数得到访问行为信息熵。
用户行为在研究过程中进一步细化为选择工作目标类型的行为,以及访问医疗记录量层面的行为,这2种行为直接反映了用户访问的意图和核心想法,而对应熵的计算方式也有所区别[11]。其中,用户选择对应的访问目标工作类型过程,即医生针对患者选择某种病症的过程。医生确定患者为某种疾病类型的概率公式为:
(2)
其中,用户ui诊断患者在sj时段的目标工作用O(ui|sj)指代;目标工作即给患者诊断的疾病类型,用Ok来表征,而用户选择目标工作的次数,即医生推断该患者为某疾病的次数,用‖f(Ok)‖来表征。由此可以推导得到用户ui判断患者在sj时段的疾病类型的行为信息熵公式为:
(3)
此外,用户访问患者诊疗记录层面也需要行为信息熵计算。例如患者已确诊为玫瑰糠疹,那么紧接着需要访问治疗该疾病的方法、注意事项、忌口食物、发病人群等数据,这就需要判断用户选择访问该位患者对应疾病的那些诊疗记录,选择概率计算公式为:
(4)
其中,患者sj在确定具体疾病时,医生为了确定具体的治疗方案访问对应医疗数据集使用M(sj|Ok),医生访问医疗数据的次数用‖f(mi)‖表示,mi为医疗记录集编号。对此,用户ui在明确工作目标之后访问对应医疗数据的行为信息熵计算公式为:
(5)
2.1.2 用户信任值量化
用户信任可以量化为具体的数值。在此次研究中,将用户信任进行深层次的细分。参照常用的细分标准,比较典型的是围绕用户角色层级划分为代码信任、执行信任以及第三方信任[12]。此次研究依照该划分依据进行信任值细分,并基于医疗表征进行改进为直接信任度、推荐信任度、综合信任度,并对这3个层级的信任度进行量化计算,得出信任值。首先计算直接信任度,在评估用户ui信任度的过程中,如果具体结果或者工作目标来源于用户uj的经验,那两者之间的信任关系就是直接信任,如图4所示。
图4 直接信任关系
具体的直接信任2个用户关系公式为:
(6)
式(6)表征的是ui、uj的直接信任关系。其中,m表示2个用户之间交互成功的次数,而n为2个用户之间交互失败的次数。此外,δ系数取值范围在(0,1)之间,δ系数的增长随着成功次数的增加而增加,且交互数据要足够,这样在计算过程中才能保证准确性。之后笔者引入交互阈值π,该阈值保证交互次数低于阈值情况下对公式进行调整,经过调整之后的计算方法为:
(7)
根据将式(6)与式(7),得出用户ui与用户uj的信任度公式为:
(8)
推荐信任度属于间接信任度,从关系链的角度来看,在获取经验方和被获取经验方之间没有直接的联系,需借助中间人建立联系,因此,基于这种关系建立的信任度的不可靠性更大。具体结构如图5所示。
图5 信任路径结构
图5中存在2条信任路径,每条路径都有一个量化的信任值,路径长度越长信任度越低。计算每条路径的信任度公式为:
RTw(ui,uj)=
(9)
其中,w表示这条路径经过的结点数,γ表示每一条路径结点数不同所对应的信任系数。信任系数与结点数的关系是医院长期实践积累得到的,属于隐私数据,不予展示。根据医疗体系下的信任度叠加规律,运用可达性路径计算方法得到综合信任推荐度,公式为:
(10)
其中,ω表示最短信任长度所对应的路径编号,信任路径的最短长度用mindph表征,而最大长度用maxdph来表示。此外,信任路径长度为ω时的信任度权重用αω来表示。最后,计算综合信任度,该信任度由直接和推荐信任度组成,本质上就是按照权重来进行不同比例的乘积再加和。具体计算方法为:
CT(ui,uj)=αDT(ui,uj)+(1-α)RT(ui,uj)
(11)
其中,α参数的取值范围为(0,1),该参数用来表示直接信任度在间接信任度中的比重。α值的确定由专家经验得到[6]。
2.2 自适应神经网络风险量化推测
2.2.1 模糊理论与神经网络原理
1)神经网络原理。
本文选用神经网络来构建隐私保护模型,主要是该算法具有快速的学习能力,可以模仿人类大脑的思考模式学习新鲜事物,根据医疗环境的变化调整不同行为指标的信任度和风险权重[13]。具体来说,研究选用循环神经网络进行实验,重点是考虑该算法的时序性特点,每个阶段不同的节点的学习带有顺序,数据迭代符合时间逻辑,更加贴合医疗行为和诊断指标随时间而变化的情况,这样更加切合真实的思考场景。RNN结构示意图如图6所示。
图6 RNN结构
在这个RNN网络模型中,xt表示在t时间点输入层对应的输入数据,在数据传入隐藏层的权重矩阵之后,隐藏层的值为st。以此类推,对应输出层的值为ot。其中核心部分是st的值不光取决于xt,还取决于st-1。当然,经过推导可以转化为式(12)和式(13):
ot=g(V·st)
(12)
st=f(U·xt+W·st-1)
(13)
其中,st的值不仅取决于xt,还与st-1存在关联关系,f为层间关联度系数,g为对输出层数据进行去重求和取平均。U表示t层结点特征系数,W表示上一层层结点与当前结点的关联性系数。
2)模糊理论。
本文选用模糊理论是借助模拟人的感知和常规推理思维来弥补风险预测系统中边界不清晰和判断不明确的现象。作为隐私风险来说,预测本身就是不确定的,该理论解决了具体场景下数据缺失所带来的结果不可靠现象。在具体的医疗研究领域,基于模糊理论设计的模糊推测系统主要应用于医疗诊断和隐私保护领域,核心侧重于在不规律行为中寻找合理的思考方向,从而形成贴近实际的推断结果。实验在处理行为和信任度时,需要对相关指标进行量化,收集到的量化数据是明确的,模糊理论就是将现有明确数据映射到[0,1]的区间内。区间内值的分布可以是离散的,也可以是聚集为几个具体的子集合,映射过程称之为模糊化,所以映射过程需要确定已给映射函数,即隶属函数。模糊理论是在模糊集合中寻找隶属规律,存在主观性,主要依据专家经验来建立。模糊推理过程如图7所示。
图7 模糊推理结构
图7中,模糊化阶段上文有提及,而知识库是指常规的隶属度函数库,模糊推理是模仿人的推理能力,将人推理思维和角度公式化,去模糊化是对上一阶段形成的模糊集进行尺度变化。
2.2.2 模糊自适应神经网络模型建立
1)输入层设计。
(14)
(15)
2)隐藏层设计。
图8 自适应神经网络模型结构
(16)
式(16)由知识库得到,隶属度函数均值用cij表示,隶属度函数标准差为σij。其中i指代输入指标序号,j指代具体某个输入指标对应模糊集数目,所以该层的节点个数为每个输入指标对应模糊集个数的累加。第3阶段网络迭代训练模糊规则,计算方式如公式(12)和公式(13)。根据规则进行归一化处理,计算公式为:
(17)
后件网络结构中包含3个阶段。第1阶段输入变量。该阶段作为数据传输的中间层,将数据传输到下一阶段。第2阶段,计算模糊规则,计算公式为:
yk=ωk0+ωk1×x1+ωk2×x2+…+ωkn×xn
(18)
第3阶段进行模型层的表示输出,输出公式为:
(19)
3)输出层设计。
在输出阶段,首先设置神经网络损失函数为:
其中,Hl为理想输出,Yl为实际输出。
紧接着,计算各个参数学习结果。使用梯度下降算法计算minJ(ωki,cij,σij),对ωki、cij、σij求导,计算公式为:
(20)
(21)
(22)
基于梯度下降算法获取最终结果,计算公式为:
(23)
(24)
(25)
其中,l的取值范围为[1,r],i取值范围为[1,M],k取值范围为[1,n]。此外,α指学习速率。
2.3 基于HISPAC的隐私层级访问控制
在2.1节针对医疗行为风险进行了量化预测,本节将针对不同的风险等级设置不同层级的访问控制。HISPAC又叫医疗信息系统模型,本文引入该系统模型来解决访问控制,能够在个性化层面满足隐私保护的需要。
2.3.1 模型结构
正常情况下,过去医疗系统的访问控制所应用的是一种通用策略,重点针对具体用户的具体访问行为和访问数据对象进行严格的权限管理,不同医生类型、职级以及决策类型有严格且固定的划分[15]。而HISPAC由RBAC改进得到,可以支持个性化医疗数据的访问保护。具体来说,模型涉及身份主体、消费主体、角色主体和资源主体,具体含义如表2所示。
表2 HISPAC组成构成
具体的模型结构特征细化为以下3点:
1)正常情况下,访问机制的判决状态有2种,即允许状态和拒绝状态。此次构建HISPAC的过程中,首次引入目的机制,目的机制决定了最终的判决结果,而目的机制结合风险评估决定了最终访问级别。目的机制主要以树形结构为主来进行分层管理访问级别。目的机制结构如图9所示,根节点为PT。
图9 医疗场景化的目的机制结构
2)在目的机制的层级结构中存在多个从根节点到叶节点的链路结构,由此形成了一条访问链路。这种链路反映了医疗系统的目标使用群体通用的访问意图和目的,不同类别之间节点由于意图不明并结合模型推算的隐私风险,可以得出不能跨链路访问的情形[16]。
3)正常情况下基于目的机制的HIS医疗系统制定了2种类型的访问控制策略,分别是通用策略和个人策略。通用策略由经验得到用户群体访问数据层次结构,个人策略是根据经验策略得到的结构结合实际行为形成绘制下一层级的依据。正常的意图根据组织结构、医疗部门职责、医生职称来决定。通常在通用策略中通过操作者身份认证即可得到相应的系统权限并分配对应的数据资源,而个人策略随医疗组织架构变化而变化,根据模型获得用户行为偏好,并制定对应的信用层级,基于该策略下的系统可以根据实际访问行为来绑定一个或者多个目的和意图,目的是动态变化的。同时,HISPAC模型还可以借助个人策略进行反向授权,也就是说模型根据健康记录/病例拥有者的偏好来决定系统中哪些角色被授予什么样的权限。
2.3.2 分配策略
在2.3.1节中提到,访问存在“允许”和“拒绝”2种控制状态。但基于常规情况下的访问控制机制无法适应突发医疗场景下的需要,所以需要在这2种状态中设计一个弹性区间,根据自适应神经网络模糊推测模型最终得到的风险值大小来适当地调整访问权限。即设置不同的风险带,已经超过系统硬性边界的用户严格拒绝访问,而在2种状态范围内的可以适当获取权限,比如可以读写拷贝数据、只能读写数据、只能读数据、只能读部分数据等。具体结构如图10所示。
图10 边界划定的弹性标准示意图
3 实验与结果分析
3.1 实验环境与数据准备
3.1.1 实验环境
本文实验主要研究基于自适应神经网络的隐私保护算法模型的真实效果。实验所使用软件为Matlab。实验过程重点关注3块内容:1)模型网络结构设计效果;2)数据处理过程和最终输出效果;3)模型整体性能呈现效果。基础的实验环境配置如表3所示。
表3 基础实验环境配置
3.1.2 数据选型与前期准备
1)数据集选型依据和有效性评估。
①数据集选型依据。
实验过程中选取的数据集来源于某医院近10年的患者医疗和病例数据,属于非公开数据。选取依据有以下2个方面:
a)符合国内医疗数据集特征。国内外医疗数据和病例诊断参考习惯有所不同,而HISPAC模型设计出发点主要服务于国内医院隐私保护[17]。对此,该医院数据建设初期与国内某三甲医院合作,从其中心数据库中选取了近5年该医院的数据作为模板进行建设,从各类数据特征和字段种类上满足国内医生医疗诊断参考习惯,防控效果更加符合本国国情。
b)建设模板的准确性。建设初期所使用的某三甲医院数据属于公开数据集,数据地址为http://www.osirix-viewer.com/resources/dicom-image-library/,在数据特征质量上经过了考验,基于该数据模板衍生得到的数据集具备可信度,出于该医院隐私安全政策的限制无法将数据集公开。
②有效性和可信度评估。
为了验证该数据集的可信度,将该医院联合某三甲医院针对之前公开的数据集模板和当前数据集进行了联合实验,发现该数据集具备可信度和实用性,且最终算法训练效果良好。
a)数据对比和质量检测。
如表4所示,本文实验所使用的某医院非公开数据集在缺失值、异常值和集中异常值上都比公开数据集低,且数据特征更多,同时所涉及字段已经将某三甲医院公开数据集字段基本包含了,且更具时效性。
表4 数据对比
b)使用相同算法训练效果。
从数据本身来说,本文实验所使用的某医院非公开数据集数据都来源于该医院真实诊断样本,真实性较高,且特征更加多样。以下基于本文所使用的自适应神经网络算法进行实验,在选取特征一致,数据集训练集和测试集样本大致相同的情况下进行实验,数据集样本分配情况如表5所示,实验结果如表6所示。
表5 实验数据集样本分配情况
表6 实验效果
从表6和图11可以看到,本文实验所使用的数据在测试准确度和精确度上都具备良好的可用性和可信度。
图11 不同数据集实验效果
2)前期准备。
在实验的数据获取阶段,采集某医院HIS系统中部分数据资源。其中,80%数据存储在单位购买的Oracle数据库中,数据库中含盖了1360张表。根据本文实验需要,提取了其中8张表导入Excel中,具体包括登录日志、病情基础数据、患者基础信息数据、用户信息表、传输日志、药库处方日志、医嘱数据、运行日志。其中,患者信息表涉及字段包括患者id、主治医师、科室、职称、病房号、病例信息等。医嘱信息涉及字段包括:就诊记录、医疗方案、使用的医疗器械等。
3.1.3 数据处理
1)量化指标获取。
根据第2章模型研究工作,需要基于现有数据进行参数的标定。首先,需要计算风险量化关系中的O(ui|sj)和‖f(Ok)‖,这2个参数从用户信息表、医嘱信息表和登录日志3张表中数据计算得出,即获取具体用户ui针对患者sj诊断时访问工作目标集并选择具体目标的次数。参数M(sj|ok)的计算数据从用户信息、病况基础数据、医嘱信息以及日志信息等4张表关联得到,即获取患者sj在工作目标确定时访问医疗记录集的次数。
紧接着,计算输出数据的风险量级Risk参数,参照了相关文献[5,11]中使用的风险量化方法。具体来说,借助聚类的思路,计算过程主要衡量单个用户发生访问行为的熵与其他所有用户访问行为熵的偏离,这里可以成为异常偏离点,偏离程度越大风险越高。系统中单个用户存在一个信任值,这里用UT表示,选择目标工作造成的风险用risk1表示,而访问医疗记录带来的风险用risk2表示。数据的风险评级公式为:
Risk=min{1,(W1×risk1+W2×risk2+W3×(1-UT))}
(26)
其中,W1、W2、W3分别表示实验中取样的3类用户发生访问行为次数,1为职位高度相似性行为,2为职位高度普通相关性行为,3位不相关性行为。
2)参数设定。
接下来,对模型构建过程中涉及的参差σ、表征交互的阈值π以及信任权重α进行数值标定。
首先,标定参差σ。该参数作为用户交互成功次数和交互失败次数的平衡因子存在,进行了20组对照试验。实验发现,σ按照特定步长增长时,步长大小的设置会直接影响最终信任值的变化幅度,步长小于0.1,信任值不会产生显著变化。对此,使用步长为0.1来增加σ,交互成功的次数也会增加;增加步长为10,当σ从0增长到0.5时信任值到达峰值,所以取σ为0.5。实验结果如表7所示,其中m为试验次数,n为步长。
表7 增长与直接信任度DT的变化关系
接着标定交互的阈值π,设置初值为10,并随实验计算过程依次增加。其中,维持σ为0.5,m为60,n为11,同时保证交互次数不变。实验结果如表8所示。实验显示,当阈值设置增长到70时,信任值相对稳定,大于70发生了波动,呈现降低趋势,因此标定交互的阈值设置为70为最佳。
表8 标定交互阈值增长对DT变化影响
最后,获取信任权重。信任权重是直接信任程度在综合信任程度中的占比,是参考大量文献并进行相关医学和计算机专家的文献归纳整理得到的。正常实验情况下,直接信任度的真实值略大于推荐信任度,所以,设置信任度权重α为0.6符合客观规律。
3.2 实验过程
首先,对现有网络结构参数进行设定,构建一个基础的模糊网络,并基于现有数据进行学习,经过反向传递来调整参数,利用损失函数来标定结果误差,保证误差在可以接收的范围内。具体过程划分为4个阶段:1)将处理好的数据加载到Matlab中;2)基于聚类算法对输入数据进行处理形成初级矩阵;3)将数据矩阵输入到神经网络结构中,并经过损失函数来进行反复迭代,直至收敛;4)根据训练结构记录参数,并获取用户访问行为和信任标准。网络处理结构如图12所示。
图12 自适应神经网络隐私保护匹配过程
3.2.1 数据处理
1)数据加载。
加载训练集数据/测试集数据到工作空间,加载过程进行二维数据的矩阵表示。其中,矩阵的最后一列为默认数据。加载过程如图13和图14所示。这里数据类型设置为Training,加载方式设置为workshop,即工作空间的数据矩阵。
图13 数据加载选项
图14 训练/测试数据加载后的分布情况
2)模型初步构建。
实验过程中,首先使用模糊C均值聚类来提取特征并生成初始模型。使用聚类思路就是区分访问行为异常的客户,这里客户抽象为数据点。聚类结构中包括聚类中心点以及各个隶属点,保证每个数据点到聚类中心的加权和最小是反复修正实验的关键。使用该模型输出就是每个数据点到聚类中心的距离,即隶属度,当然在训练过程中,需要不断修正中心点,保证距离和最优。输入过程是将输入指标UT、EFCWO以及EATMR对应的用户子集划分为:VL(特别低)、L(低)、M(中等)以及H(高)。根据用户的风险指标分布所呈现的特征,大部分用户的表征指标UT、EFCWO以及EATMR为L或M,而只有少部分用户为VL或H,整体符合高斯分布。本文认为,输入指标对应的隶属度函数类型为高斯型,而输出指标的隶属度函数类型为线性型。神经网络结构和训练初期各个指标隶属度函数如图15和图16所示。
图15 自适应神经网络隐私保护模型结构
图16 变量UT、EFCWO以及EATMR初始隶属度函数分布
3.2.2 模型训练
模型训练过程中,使用以聚类和深度神经网络算法为主的混合算法[18],误差精度为1e-5,而训练计划次数为200~300次。训练过程中网络结构没有发生变化,仅对一些参数进行了适量调节。此外,用于表征用户的3个输入指标UT、EFCWO以及EATMR,其模糊子集根据分布情况做了优化,保证每个等级的数量符合高斯分布,且各个指标对应的隶属度函数的整体走势符合高斯分布,局部分布形状发生变化。根据图17的误差精度变化显示,整体训练效果达到了预期,没有发生过拟合,而训练次数达到188次时,训练精度达到了最优状态。图17中最上方曲线为测试状态,中间曲线为训练状态,最下方的曲线为校验状态,与x轴平行的直线为最佳状态。
图17 误差精度分布
3.2.3 基于训练结果进行函数参数标定
1)输入变量的隶属度函数。
基于隐私保护阶段的实验主要基于模糊理论,利用混合神经网络算法对医疗隐私风险发生的可能性进行推理,重点训练表征医疗用户信用的隶属度函数和规则库,借助模糊理论将学习后的数据与学习前的数据进行关联性分析,推断风险发生概率。
根据3.2.1节中3个输入指标训练前的隶属度函数和训练之后的隶属度函数的变化规律来标定函数的具体参数值,具体如表9所示。
表9 3个指标对应的隶属度函数参数
2)输出变量的隶属度函数。
已知,本文实验模型中输入指标(输入变量)存在3个。根据策略输入数据围绕每个指标划分为4个级别的模糊子集,因此所有的输入组合能够划分64条记录,输出指标u对应64个隶属度函数,根据隶属度函数参数,代入公式ui=p1×EFCWO+p2×EATMR+p3×UT+a中,得到输出函数ui对应的函数表达式,其中,p1、p2、p3分别乘以EFCWO、EATMR、UT并添加误差常数a获得加权分数,这次实验中64条记录如图16所示,而64个输出函数所对应的参数如图18和表10所示。
图18 训练输出函数
表10 标定交互阈值增长与DT具体数值
3.3 实验性能测试
3.3.1 评价指标
1)精确率。
该指标用于表征风险预测较高的用户中医疗隐私违法用户所占用的比例[19]。计算公式为:
(27)
其中,风险最高的用户有N个,而在该用户群中实际隐私违法的用户有n个。
2)召回率。
该指标用于表征预测风险最高的N个用户中实际隐私违法用户占总体样本S个用户中实际隐私违法用户的占比[20]。计算公式为:
(28)
其中,预测风险最高的N个用户中的实际隐私违法用户为n,总体样本S个用户中实际隐私违法用户为M。
3)F1值。
F1用于表征上述精确度和召回率之间存在的联系[21],而F1综合考虑了精确度和召回率得变化逻辑,保证上述2个指标取值达到动态平衡。F1计算公式为:
(29)
3.3.2 测试结果
验证模型性能需要分析模型实际输出与预期输出的偏差,本文使用误差平方和进行衡量。将训练好的自适应神经网络隐私保护推断模型处理为测试集数据。这其中存在3种输入变量variableInput和1个输出变量variableOutput。具体代码实现如下:
x=(1:1:300);
y=evalfis(variableInput,ANFIS);
y1=plot(x, variableOutput,′or′)
hold on;
y2=plot(x,y,′+k′)
legend([y1,y2],′实际输出′,′模型输出′)
经过测试集验证,模型输出结果与实际输出结果如图19所示。
图19 模型测试效果
如图19所示,在训练之后的模型中进行实验发现,原始输入样本和实际输出样本整体吻合,同时误差平方和能够基本保持在6.0e-06~7.9e-06,均值在7.1e-6左右。为了验证实验的有效性,增加了10组测试对照组,如表11所示。实验结果表明与预期结果高度一致。
表11 模型测试效果分析
如表11所示,最终误差在7.1e-6左右,符合预期。因此,本文的自适应神经网络模型隐私保护模型可以应用于医疗隐私泄露推测和诊断中,从而达到医疗隐私保护的要求[22]。
3.3.3 同类模型效果对比
如表12和图20所示,HISPAC在安全性方面与BLP、Biba模型基本持平,并且在访问者安全性评估上准确性和精确度较高。这里需要说明,本次安全性评估主要选择了来自计算机行业的10位资深人员进行数据入侵,采取各类病毒窃取、数据覆盖以及数据访问入侵等方式对模型打分。而准确度和精确度主要根据测试样本打分,以此衡量与预期结果的偏差[23]。
表12 不同访问控制模型性能比较
图20 不同访问控制模型性能比较
4 结束语
本文选取了医疗隐私保护这一课题进行研究,构建了一个医疗保护模型,其中包括2个部分:1)借助循环神经网络和模糊推理理论构建一个自适应神经网络隐私风险评估模型;2)围绕模型得到的用户行为风险建立一个个性化的隐私数据访问权限控制机制,即HISPAC。实验结果表明,该模型可以有效解决医疗数据隐私泄露的问题,并具有较好的应用前景。希望此次研究能为医疗大数据背景下的隐私数据保护提供思路。