APP下载

面向半结构化医疗数据隐私保护关键技术研究

2018-01-09王换换吴响魏裕阳

科技视界 2017年28期
关键词:隐私保护

王换换 吴响 魏裕阳

【摘 要】隐私保护是实现大数据价值的首要步骤和关键环节。目前,结构化数据隐私保护方法丰富,而医疗数据中常见的半结构化数据缺乏可靠的隐私保护模型及完善的平台支撑。针对这一问题,本文将从数据结构转化的角度入手,深入探索半结构化医疗数据的隐私保护方法及平台构建。

【关键词】隐私保护;半结构化;信息抽取

1 研究意义

医疗数据被充分共享的前提是保证数据的隐私安全。半结构化医疗数据是医疗大数据的重要组成部分,占有举足轻重的地位。医疗过程中形成的半结构化信息隐私内容多样,从中折射、反映、蕴含的资讯及信息具有巨大的应用价值,对于医学研究、政府统计或是其他个人、机构的科研有重要意义。然而,由于半结构化数据的复杂性、灵活性以及其自描述形式,现存的隐私保护技术满足不了半结构化医疗数据的隐私保护需求。

目前,数据共享中的隐私保护技术主要基于三类模型:k-匿名模型[1-2]、l-多样性匿名模型[3-4]和t-closeness匿名模型。但大多数隐私保护技术都是针对结构化数据,对半结构化医疗数据共享的隐私保护并不理想。而综合考虑技术、成本等问题,对半结构化医疗数据的隐私保护,应首先考虑使用成熟的结构化数据隐私保护方法,其关键是将半结构化医疗数据转化结构化数据。半结构化医疗数据的隐私保护问题要综合考虑到数据的异构性、复杂性、高维性等问题,明确中文医学信息数据特点造成半结构化信息抽取困难的问题,充分利用国内外半结构化数据抽取技术及结构化数据集信息的指导作用,将结构特征与词法、语义、表现形式等其他特征相结合,建立专门针对中文半结构化医疗数据特点的智能化信息处理模型及系统。

此外,考虑到结构化后的医疗数据具有高维度、高复杂度的特点,需要更加高效的计算技术,自动并行化是解决这一问题的有效途径之一。Spark 是由伯克利大学开发的通用分布式内存计算平台,而弹性分布式数据集(Resilient Distributed Dataset,RDD)是Spark 的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式操作分布式数据集的抽象实现,适合优化需要多次迭代操作的机器学习类算法。因此,半结构化医疗数据的隐私保护过程完成能够使用spark并行计算,进行高效地资源分配。

2 研究内容

本文主要解决半结构化医疗数据共享中的信息抽取、隐私保护、并行化等关键技术问题,在保证半结构化医疗数据共享后隐私安全的情况下,提高半结构化数据的可用性,为临床决策、科研提供数据资源的支持,构建面向半结构化医疗数据共享的BaaS隐私保护平台。

(1)面向半結构化医疗数据的信息抽取技术及医学术语知识库的构建

建立服务于机器学习算法的中文医学术语知识库是信息抽取技术的基础,利用统计学方法学习标记好的语料库、获取规则、建立类似UMLS的中文医学术语知识库。标注少量医学病历作为统计学方法的训练集;探索适当的可用于医学问题识别的统计学算法;构建一个可以表明人物及其相应医学问题的信息表示方案;各部分研究间的关系可以构成一个信息抽取系统。

(2)隐私保护算法的自动并行化技术

引入Spark技术,Spark 使用基于内存计算的并行化计算模型——弹性分布式数据集(resilient distributed datasets,RDD),提供强大的分布式内存并行计算引擎,支持快速迭代计算,将机器学习应用到常规并行化策略上,能够进一步提升训练速度。首先采用合理智能算法以及不同训练集对各个k-匿名算法进行测试训练,检测不同算法较为费时部分;其次测试该部分能否进行分布式计算法;最后Spark平台进行分布式运算会涉及到通信开销,智能算法训练各k-匿名算法,给定各算法进行分布式所需要的数据集阈值。对k-匿名算法设计采用了并行化局部优化的迭代计算模式,有效提高匿名效率。

(3)构建面向半结构化医疗数据的分布式隐私保护BaaS平台

构建面向结构化医疗数据的分布式隐私保护BaaS平台,该平台应具备上载结构化数据集和半结构化数据集、连接数据库、医学数据信息抽取模块、隐私保护模块、提供k-匿名算法的Rest-API。平台内含自建中文临床子语言语法规则及医学术语知识库,为信息抽取的精确性提供知识储备及技术支持。隐私保护模块能够按需求进行全域k-匿名或局域k-匿名的选择、具体实现k-匿名算法的选择、隐私保护模型的选择,同时该模块具有是否使用分布式计算的选项。

3 研究方法

首先建立医学术语知识库及命名实体规则库,对半结构化医疗数据进行信息抽取,测试抽取信息的准确性。对抽取后的结构化数据匿名,测试k-匿名算法的功能及其使用范围。挖掘匿名前后数据所包含的信息,对比挖掘结果,对匿名后的数据集进行信息损失量的度量,给出k-匿名算法的评估标准。为节省处理数据的时间,准确找到各算法适合的分布式计算模块,在k-匿名算法功能测试后,使用训练集对各k-匿名算法的代码模块进行训练,分析每个程序段的运行时间,探寻各个方法的运行时间、次数等统计信息,并采用深度贪婪算法迭代统计含子程序的代码段的运行时间,找出算法最耗时模块,对该模块进行分布式处理,使其单线程计算变为并发式计算。

使用GATE程序对半结构化程序进行信息抽取,GATE的抽取信息的准确性高达97.58%,处理速度为31.5KB/s,完全可以满足现有情况下的信息抽取要求。选择匿名模型及匿名算法,利用匿名算法处理抽取后的结构化数据,完成匿名。如果选择的匿名算法匿名后的数据集不符合要求,则重新选择匿名算法进行匿名数据集,直到匿名后的数据集满足隐私保护和数据可用性的双重要求。同时,在匿名化之前,根据已训练出的参数进行分布式需求判断,如果分布式较为节省时间则采用分布式计算,如果因为分布式处理的通信开销造成时间浪费,则采用单线程处理数据。

4 实施方案与研究步骤

第一步:关键词提取,分词处理是识别半结构化医疗数据的第一步

(1)自主收集和制作中文词表;

(2)编写针对中文特性的规则。

该方法不但可以准确地抽取出个人信息,而且因其包含的ICD-10词库可以把半结构化数据中包含的疾病、诊断、健康状况信息转化为结构化数据,方便对半结构化数据的挖掘,进一步提高了半结构化数据的价值。

第二步:半结构化医疗数据隐私保护处理

针对提取出的个人信息,例如住址、年龄、提问等信息,本文将采用k-匿名模型对其进行匿名化處理。考虑到k-匿名是把精确数据模糊化,因此,该方法匿名的数据集会产生一定的信息损失,对此本文采用IL评估方法对匿名表进行信息损失量的判断。为了更好的进行隐私保护,在k-匿名模型的基础上引入l-diversity模型、t-closeness模型对其进行匿名化操作。

第三步:Spark分布式并行化算法处理技术

k-匿名算法是需要多次对数据操作即多次访问I/O端口,故可以通过减少k-匿名时的I/O操作较少匿名化时间,本文采用Spark平台,把数据存储在内存中,避免不断从硬盘读取数据,节省访问I/O端口的通讯时间。考虑到Spark计算本身具有通信开销,当数据量较小时,使用Spark分布式进行k-匿名算法可能会形成时间上的浪费。因此,本文使用不同大小的训练集、不同属性大小的训练集和不同泛化规则的训练集不断进行训练,找出来各k-匿名算法使用Spark平台可以减少时间阈值[5]。在阈值之内的数据集,将会建议采用单线程计算以节省时间和资源,大于此阈值的数据集,将会合理的给出分布式计算意见。

第四步:构建面向半结构化数据的分布式隐私保护BaaS平台

构建后端即服务BaaS平台,通过Web Service技术构建Rest API,为开发者提供接口。在服务器端提供对底层系统的抽象,以实现对底层通用数据处理引擎的支持,并提供上传结构化数据集和半结构化数据集、连接数据库、医学数据信息抽取模块、隐私保护模块、k-匿名算法等编程语言接口(API),从而满足开发者的需求。

【参考文献】

[1]Samarati P,Sweeney L.Protecting privacy when disclosing information:k-anonymity and its enforcement through generalization and suppression.SRI Computer Science Laboratory Technical Report SRI-CSL-98-04,1998.

[2]Samarati P.Protecting respondentsidentities in microdata release[J].IEEE Trans Knowl Data Eng,2001,13:1010-1027.

[3]Machanavajjhala A,Kifer D,Gehrke J,and Venkitasubramaniam M.1-diversity:Privacy beyond k-anonymity.ACM Trans KnowL Discov. Data 1.1.2007.

[4]Li N H,Li T C,Venkatasubramanian S.t-closeness:privacy beyond k-anonymity and 1-diversity[C] Proceedings of IEEE 23rd International Conference on Data Engineering, Istanbul,2007.106-1 15.

[5]李文,程华良,彭耀,等.基于Spark可视化大数据挖掘平台[C].系统仿真技术及其应用.

猜你喜欢

隐私保护
适用于社交网络的隐私保护兴趣度匹配方案
大数据时代中美保护个人隐私的对比研究