APP下载

基于区块链数据保护机制的电子病历设计

2021-07-19肖丽邓星月颜桢羿王金全罗掬月温川飙

电脑知识与技术 2021年14期
关键词:电子病历隐私数据

肖丽 邓星月 颜桢羿 王金全 罗掬月 温川飙

摘要:目的:旨在对电子病历不同隐私等级的数据进行保护,解决医院与患者双方身份认证的难点,达到对电子病历数据全方位防护的目的,并结合现状对电子病历信息的进行分类,论述数据的不同隐私等级;过程及方法:解析针对不同隐私等级电子病历数据的签名设计,深入剖析电子病历的转码方式,最终阐述利用区块链技术将用户双方(医院与患者)产生“交易”的每一个节点全部上链。结论:提出了基于区块链数据保护机制的电子病历设计,保与电子病历相关的每一个环节的安全,为用户的身份认证加上了一道防御锁。

关键词:隐私;区块链;信息上链;电子病历;数据

中图分类号:TP311       文献标识码:A

文章编号:1009-3044(2021)14-0245-04

Abstract :Objective:To protect the data of different privacy levels of electronic medical records, solve the difficulty of identity authentication between hospitals and patients, and achieve the purpose of all-round protection of electronic medical records data.This paper analyzes the signature design of electronic medical records data with different privacy levels,Process and Methods: deeply analyzes the transcoding mode of electronic medical records, and finally expounds the use of  Blockchain technology to connect all the nodes of the "transaction" between users (hospitals and patients).Conclusion: the design of electronic medical records based on Blockchain data protection mechanism is proposed, which guarantees the security of every link related to electronic medical records and adds a defensive lock for user's identity authentication.

Key words: privacy; block chain; information chain; electronic medical records; data

随着区块链技术的发展以及人们对个人隐私信息的重视,隐私数据保护显得尤为重要。数据的价值日益增长,各类数据的交易也层出不穷;例如某些研究机构或者公司需要对购买一些真实有效的数据信息投入到其研究的某一领域去時,其本身能够采集到的数据是远远不够的,所以购买数据成了一个必要之路。根据相关法律规定,如要实现科学研究,需要对其中的隐私信息进行隐匿。电子病历相较于其他数据记录了更多的多个人隐私数据,并且这类隐私往往牵涉甚多,对其隐私数据进行完全防护是十分有必要的,而在电子病历中可公开信息只要能保证其不可篡改便既可以使得数据买卖交易的正常进行,又能达到保护隐私的目的。

1 区块链的发展

随着区块链相关技术的不断成熟,区块链所蕴含的商业价值不断被发掘。习近平主席于2018年5月28日举行的中国科学院和中国工程院两院大会中明确指出:“以人工智能、量子信息、移动通信、物联网、区块链为代表的新一代信息技术加速突破应用……世界正在进入以信息产业为主导的经济发展时期。”[1]。根据中国知网显示,2017年区块链相关文献共计1630篇,2018年达到3870篇,2019年第一季度已有832篇相关文献。区块链技术去中心化和去信任化的特性,令以往医疗电子病历溯源与传输难题得以解决,目前深圳市卫健委与平安国际智慧城市科技股份有限公司就医疗卫生行业的数据管理服务(囊括区块链服务)达成合作协议,MIT研发的基于以太坊的电子病例的系统—MedRec业已成熟。然而,区块链数据储存不同于传统SQL数据库,医疗电子病历若储存于区块链中,需要就数据可读性、检索能力以及隐私保护进行改良,目前对于针对区块链储存设计的电子病历模型研究尚未普及,探讨和建设相关电子病历模型具有开拓性意义。

2区块链电子病历模型

电子病历与区块链隶属两个不同的技术方,两者的相互运用——电子病历在区块链上进行分布式储存,需满足一定的兼容条件,即可读性、匿名性、可检索性三大特性。

2.1 可读性

电子病历的可读性主要体现在其对十六进制的接受能力。区块链技术始于比特币,至今多数公有链延续比特币对十六进制数据的读写能力。一份电子病历若有上链需求,则需要对数据进行转码。而相对于计算机常用的二进制,十六进制更为简洁,则选择十六进制转码是必然的。SHANGPING WANG 等基于区块链技术,搭建了分布式存储系统中细粒度访问控制的数据共享框架[2-3]。针对图片数据转码经十六进制转码后数据量将会随图片质量及大小呈不同幅度增长的问题——这对网络带宽和验证节点具有较高要求,后文将提出基于分布式储存缩减实际数据的解决方案。

使用十六进制转码的大前提是电子病历对十六进制的可读性,除此以外,不同医院终端的电子病历格式不尽相同,文件修改成本较高,但统一医疗病历格式将有助于数据转码后阅读与自动审阅。

2.2 匿名性

在评价系统中,在其他方面成为评价者的被评价者,就有成为恶意攻击者的可能,从而使评价失去客观性[4],与评价系统相似,区块链的匿名也是将交易双方身份进行半匿名操作,并且每一次“交易地址”均为新地址——无法通过地址来追溯某一特定评价人,但区块链技术能够依靠密码学和分布式算法在不借助于任何可信第三方机构的情况下用数学方法使参与者达成共识[5]。再者,患者的病历信息属于隐私范畴,非医疗机构与医疗机构也需要在获得患者或相应政府机关许可才可进行查阅;为防止病毒或间谍软件利用医患对电子病历数据的调用过程获取患者的隐私信息,交易匿名也成为必然。由于区块链隶属于中心化网络,网络内节点拥有相似权力,为保证不必要的隐私泄露,有必要对其中数据进行加密——即数据进行伪装达到数据匿名的目的。加密方式有诸多选择,不论是使用非对称加密的ecdsa算法,或者对称加密的AES算法,均有良好的加密解密能力。根据实际情况常利用两种加密方式混用进行设计。

各类电子病历信息上链多以交易形式发送,对于网络而言,交易的匿名性最为重要——此项涉及用户的信息私有性问题,上文所提到的交易匿名设计隶属于区块链平台设计,本文暂不进行讨论。

2.3 可检索性

电子病历除了用作记录患者就诊信息外,也是流行病学研究与临床试验研究的重要数据来源。上链信息若单一强调匿名性将丧失研究助力作用。简单设计上,一份病历可带上数个标签,对于标签进行关键词检索将能迅速定位某一病历,既能方便患者院方定位就诊经历,也可对流行病学和临床试验提供良好的数据资料,当然在其发挥其可检索性时,也需利用上述两点对隐私数据进行适当隐匿。上述如图1:区块链电子病历模型。

3 区块链电子病历模型

电子病历数据在经过收集后,需要对其中的数据进行分类处理。由于区块链网络中的全节点有遍历所有区块数据的能力,病历数据不经分类处理直接上传到区块链网络中势必会引起诸多隐私问题。但如若将病历数据完全加密,加密后的数据将不能满足检索与统计的需求。为此将病历数据中隐私部分与公开部分进行分离,可以在不造成隐私泄露问题的同时,满足对病历数据的检索与分析需求。

3.1非隐私数据

根据《电子病历基本规范》第十一条规定电子病历系统应当建立个人信息库包括姓名、性别、出生日期、民族、婚姻状况、职业、工作单位、住址、有效身份证件号码、社会保障号码或医疗保险号码、联系电话等,其中姓氏、性别等属于非隐私数据,非隐私数据是指他人获取的信息从各个角度而言对信息拥有者無影响,信息获取者也无法从此类信息中得知特定的一人。举例来说,在不经过患者途径而由医疗机构直接通过合法数据买卖交易的情况下,电子病历中的病种、治疗方法、姓氏以及性别等可以同时提供给另一交易方,这些数据信息整合在一起是无法特指某一个人的,因此称此类信息为非隐私数据。从患者角度来看,上述数据依然能被称为隐私数据,但隐私数据会不同程度地受到公共利益的影响而成为非隐私数据。

3.2隐私数据

在某种程度上,未公开的电子病历信息均可称为隐私数据,此类数据是个人不愿公开,且不愿被他人知晓的信息。电子病历上的数据大多属于个人信息,而个人信息大多是隐私数据,是与公共利益无关的一类,并且当其死亡之时也不可随意泄露。《2018年政务公开工作要点》提出对于其他涉及个人隐私的政府信息公开时,要标识化处理,选择恰当的方式和范围[6],据此便可得到隐私信息需要标识化处理这一数据保护设计点。

4分类数据加密

电子病历数据隐私内容与公开内容各有不同的隐私需求,根据隐私需求的不同,需对电子病历数据进行差异化处理。

4.1 可公开文本数据处理

此类数据在信息泄露问题上基本可忽略,只需将其格式标准化再做简单处理即可。以太坊支持在交易中带入十六进制数据,并可以通过区块浏览器将十六进制信息转UTF-8格式来显示交易附属信息。以太坊的此种设计被诸多区块链产品所借鉴,如今支持智能合约的公有链均可通过此种方式将数据写入区块链中。对于病历数据的处理以以太坊为例,对记录的病历信息中非敏感信息(例如姓名、病种、治疗方法等)以UTF_8方式编码,对于不支持该编码方式编码的数据则进行十六进制转换。上述信息在删除冗余后,统一进行十六进制转换,并利用hash算法对数据进行操作,与斯坦福的pwdhash(即将用户的密码替换为密码和网站域结合在一起的散列,虽然用户只记住一个密钥,但每个站点收到的密钥都是唯一的[7])不同,我们以SHA-256算法(SHA256(SHA256(version+prev-hash+merkle-root+ntime+nbits+X))

4.2 隐私文本数据处理

与可公开文本数据不同的是,该类数据涉及个人隐私权限,其有必要先进行加密处理后再做其他处理。该类数据以UTF-8编码后转为二进制,进行一次AES加密(通过干流水段对轮函数进行划分,流水段不同选择的并行密码是不同的,将多个轮函数同时运行,可以使轮函数更加快速地执行)[11],其中分布式AES加密方式通过使用切片算法对大数据文件进行分割,得到能够独立执行AES加密算法的数据分片[12],且加密密钥由信息上传者所拥有。加密后的信息则在十六进制转码后做好上链准备。由于该信息已进行至少一次AES加密,则只需保证加密密钥不被泄露。数据上链后,其他用户想要窥得数据内容将具有很高难度。如需提高加密程度,可选用匿名性更高的零知识证明加密法。

4.3 图片数据处理

对于病历信息中的图片数据,由于目前公链中没有超文本传输协议相关设计,不支持对图片数据进行编码后传输。故现阶段可采用寻址储存方式作为替代选项。目前已有完善的开源寻址储存项目如IPFS、MaidSafe等。在上述技术的基础上,通过加入节点准入证明构建联盟链,构建分布式流媒体节点——通过一致性哈希重新设计了数据并行和模型分片方案,使系统能够适应数据流环境和集群计算能力的动态变化[13-15],如此便可简便地搭建一个受监管的寻址储存网络。将图片上传至寻址储存网络后将返还定位该文件的唯一哈希值,此哈希值可经过十六进制转码后发送至区块链中,如图片数据涉及敏感数据,可对上链哈希值进行一次加密计算,增强数据的匿名性。

5电子病历“交易”上链

通过对病历采集数据的三方面处理,所有的病历数据已转码为十六进制以符合以太坊数据格式。转码电子病历在保持原有内容结构的基础上,以交易附属信息形式附于交易中,当用户完成此笔交易,经过足够多的区块确认后,病历数据即完成上链。用户若需查询某一具体病历数据,可通过两种方式。一是以交易哈希进行定位,查询某一具体的病历数据;二是通过对全区块数据中某一关键词的十六进制进行检索。后者亦可在病历数据规范的前提下完成对含有某一关键词的病历数据的检索。对于上链数据如需进行下载,逆向进行转码与加密过程即可还原电子病历。

6 结束语

本文提出身份信息半匿名的电子病历以适应区块链分布式存储,且还需具有可读性以及可检索性的电子病历在区块链分布式存储上有实际价值。文中隐私数据保护机制针对不同层次的信息进行差异划分,并采用不同加密等级的方式加密,在对加密后数据十六进制转码后均进行上链准备,最终当足够数量的区块得以确认则将完成上链。最后,对于目前区块链在电子病历上的应用问题,还需从用户实际需求出发,以便寻找各类实际应用问题。

参考文献:

[1] 张银平.对区块链的几点认识[J].求知,2018(10):42-43.

[2] Wang S P, Zhang Y L. A blockchain-based framework for data sharing with fine-grained access control in decentralized storage systems[J].IEEE Access,2018,6:38437-38450.

[3] 琚春华,邹江波,傅小康.融入区块链技术的大数据征信平台的设计与应用研究[J].计算机科学,2018,45(S2):522-526,552.

[4] 郭瑶.区块链理念高职教学评价学徒制改革策略[J].中国管理信息化,2019,22(3):219-221.

[5] MORRIS D Z.Leaderless,blockchain-based venture capital  fund raises $100 Million,andcounting[J/OL].Fortune,2016(5):1-5.http://fortune.com/2016/05/15/leaderless-blockchain-vc-fund.

[6] 汤琪.国务院要求保护个人隐私指令下达后,多地政府网站仍有泄露[N].澎湃新闻,2018-05-06.

[7] Llewellyn-Jones, David Rymer, Graham Matthew.PwdHash:ABruteforce Attack on Client-side Password Hashing[J].Lecture Notes in Computer Science,2017.

[8] 高杰.SHA256加密算法在比特币中的关键作用研究[J].纳税,2017(28):142.

[9] 冷迪.一种基于哈希散列技术进行文件对象存储和检索的方法——海量文件系统数据访问和检索性能加速研究[J].中国新通信,2018,20(23):106-107.

[10] Bustio-Martínez L,Letras-Luna M,Cumplido R,et al.Using hashing and lexicographic order for Frequent Itemsets Mining on data streams[J].Journal of Parallel and Distributed Computing,2019,125:58-71.

[11] 張舜标.基于密码流处理器的AES算法软件流水实现[J].信息技术与信息化,2018(6):54-56.

[12] 廖建飞,莫太平,黄进财.数据分块并行优化的分布式AES加密算法[J].科技通报,2017,33(5):102-105.

[13] 丛义昊.基于数据流的分布式实时推荐算法的研究与实现[D].北京:北京邮电大学,2018.

[14] 戴卓臣,陆江东.面向数据加密的多核多线程并行研究[J].电子设计工程,2018,26(8):183-187.

[15] 汪曙光,苏亮亮,王琨,等.基于多比特量化的哈希方法[J].传感器与微系统,2018,37(12):5-8.

【通联编辑:王力】

猜你喜欢

电子病历隐私数据
数据安全事件频发 “隐私”何处安放?
浅谈计量自动化系统实现预购电管理应用