浅谈医学计算机资料库的隐私权保护技术
2014-11-03孙剑华
孙剑华
摘 要:医疗记录具有隐私的特性,在计算机广泛应用的当今社会,有必要对这种隐私权的保护加以关注。在这种背景下,文章首先探讨了医学计算机资料库隐私权保护的意义,进而分析了医学计算机资料库隐私权保护的技术应用。
关键词:医学;计算机;资料库;隐私权;保护技术
1 医学计算机资料库隐私权保护的意义
医疗数据库纪录着个人基本数据及病历数据,具有极高的研究价值,可作为公共卫生与临床研究的素材,对整个社会有许多正面的贡献。由于医疗数据库纪录着个人基本数据及病历数据,数据敏感度高,若数据库外泄,因个人隐私受侵犯所带来的损失也会提高。因此,医院信息部门在公开医疗数据库时,往往针对使用者的需求采取不同程度的安全措施。目前学界使用医疗数据库所进行的研究主题,大多需要使用病患个人身份的基本数据,包括性别、出生日期、地理分布、就诊科别、就诊日期及费用等,然而,当资料可以更方便地被搜集与汇整时,使用者便可能因此推论出额外的信息,导致特定个体的隐私遭到损害,特别是医疗数据库内容大多包含了病患极为隐私且不愿被随意泄露的投保及就医纪录。目前世界各国大多制订医疗信息隐私及医疗信息安全保护的相关法规来规范医疗照护者的保密义务, 如美国国会在1996年8月通过了健康保险可移植性与责任法案,其中规范了信息安全性与机密性、符合保护个人隐私的需求,并明定信息系统应有的安全机制。
随着网络的普及,人们可以轻易取得公众人物的生日,而媒体详细的报道特定人物的健康及就医信息,包括:疾病名称、就诊日期及就医地点等,也可能被有心人士加以利用,成为从医疗数据库中辨识特定身份的信息来源。当特定身份人士的健康信息被泄漏,它可能成为政治立场相对立的一方攻击的焦点;当特定疾病的病患清单流入药厂时,它可能成为业务员推销药品的对象;当病患过去的健康纪录被保险业者取得时,保险公司可能重新评估被保险者的风险;有些病症可能是社会上的忌讳话题,例如:爱滋病、个人滥用药物、精神疾病等,医疗纪录若缺乏隐私将可能导致失业、受歧视、身份被盗用或发生其他令人难堪的情况。因此,应寻找一个平衡点,使得资料库中关于个人隐私或是对特定个体产生负面影响的信息得到合理的保护,在个人隐私不被侵犯的前提之下,尽量满足公众利益的所需,同时避免有心人士利用这些敏感信息,造成其他个体的伤害。相较于健保资料库,医院的电子病历属于第一手资料,其包含更详细且完整的病历资料,以自费身份就医的纪录亦保留在其中。因此,有必要针对医疗数据库的隐私权保护技术进行探讨,了解各字段相互间的安全属性,在不影响现有的信息处理流程下,制订一套匿名化分类系统以兼顾医疗信息质量及病患的隐私。
2 医学计算机资料库隐私权保护的技术应用
2.1 匿名化分类
匿名化分类(Anonymizing Classification)是指将识别个人身份的基本资料中特定字段(如生日、性别)模糊化后,再将该字段具有相同属性(attribute)的记录(record)连结成同一群组(cluster)。分类后的每一群组称为一个bin,每一个bin里至少需包含的纪录数量称为bin size,为避免资料因具独特性被辨识出来,bin size必需大于1。Bin size被广泛使用于衡量数据的安全性,bin size越高,具有相同属性的纪录越多,每笔数据都受到同一个bin 中其它数据的保护,数据模糊的程度也因此提高,所以bin size的设定需参照数据的精确度,避免一昧要求安全性而使数据失真。
依照字段属性可分成辨识码属性、类别属性、日期属性、数值属性、天数属性五类,分别包含的字段如下。一是辨识码属性(nom.):用以辨识个人身份的编码,不具有树状结构。这类属性包含的字段为数据库流水号、身份证编号、就医序号、慢性病连续处方笺号码、医师身份证号码、药师身份证号码、姓名、病历号、医师代号、门诊号、医院代码。二是类别属性(cat.):具有阶层树状结构的的类别属性字段。此类属性包含的字段包括门诊处方及治疗数据格式、申报类别、案件分类、特定治疗项目代号、就医科别、给付类别、部分负担代号、转入前之院所代号、是否转出、国际疾病分类码、主手术代码、调剂方式、诊察费项目代号、药事服务费项目代号、代办费用代码及本院科别。三是日期属性(date):为年、月、日格式的属性字段,包含的字段为费用年月、就医日期、治疗结束日期及出生日期。四是数值属性(cont.):医疗数据库中数值属性的字段以医疗费用为主,包含用药金额、诊疗金额、诊察费、药事服务费、合计金额、部分负担、申请金额、代办费用、检验费用及检验部分负担。五是天数属性(days):由于医疗数据库特有“用药日份”纪录,其本质不同于费用或其它数值变量,因此独立成另一属性,此类属性包含的字段为给药日份及慢性病处方日份。
2.2 系统设计与绩效评估
在评估医疗数据库字段特性的基础上,可为不同特性字段建立不同保护方法。一是“辨识码”属性字段:有关匿名化分类的文献中,对“辨识码”属性字段的处理方法大多以隐藏的方式进行保护,但在医疗数据库中,能够完全辨识个人身份的“身份证号码”经常是实践中进行数据库汇整时使用来串联两个数据库的关键字段,因此系统应仿效健保数据库以随机数编码对辨识码属性字段进行加密保护。二是非“辨识码”属性字段:受保护字段的树状结构是匿名化分类基础,除辨识码字段外,其余四种属性的字段皆具有不同特性,因而应将根据该四种属性字段特性设计适当的树状结构。
为了评估系统效能,应根据所建立的各字段树状结构与绩效评估指针,实作匿名化分类系统,这可以匿名化分类后的数据的“安全性”与“精确度”来评估系统的绩效。一是为评估建立的树状结构,使用者可与卫生部门原始资料分类进行比较,使用两者的树状结构进行相同的匿名化分类方法及设定相同的bin size后,以数据精确度指针评量匿名化分类后的信息质量;二是为评估设计的绩效指标,使用者可与Datafly算法进行比较,评量两者使用不同绩效指标所挑选的字段进行模糊化后,数据精确度及安全性的差异。
参考文献
[1]王苑菲.严格病案质量管理 确保病案的真实性[J].中国病案,2008(5).
[2]朱俊军,杨业发,潘春华.病历复印情况统计与分析[J].中国病案,2008(4).
[3]郑筠,欧利民,杨佩璇,等.病案社会化利用存在问题的现状调查[J].中国医院管理,2008(11).endprint