基于场景化的人口健康科学大数据安全治理体系构建
2020-01-06
“十三五”以来,国家积极布局大数据战略,数据安全问题得到前所未有的高度重视。2017年12月8日,在中共中央政治局就实施国家大数据战略的第二次集体学习会议上,习近平总书记强调要在推动实施国家大数据战略的同时保障数据安全。为进一步加强科学数据管理、保障科学数据安全和提高开放共享水平,国家在2018年正式出台的《国家科技资源共享服务平台管理办法》和《科学数据管理办法》[1]中指出,财政性资金形成的科学数据必须汇交到国家科学数据中心,并要求把数据安全放在首要位置,强调在安全可控的前提下促进开放共享。2019年6月,国务院办公厅发布的《中华人民共和国人类遗传资源管理条例》,提出加强我国人类遗传资源的有效保护和合理利用。
人口健康领域早已迈入大数据时代并涌现出一大批科学数据中心和仓储平台,如美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)、欧洲生物信息研究所(European Bioinformatics Institute,EBI)、日本DNA数据库(DNA Data Bank of Japan,DDBJ)和我国的国家人口健康科学数据中心。人口健康科学大数据涵盖临床诊疗、医药研发、公共卫生、生命组学、疾病监测、人口管理等多种来源渠道的数据,涉及大量的重要信息和隐私信息,具有较高的商业、学术和社会价值,需要比其他领域数据具有更高的安全性保证。然而,在大数据环境下,人口健康科学数据会在越来越多的机构、系统和业务环节中动态流转,在数据生命周期的不同场景面临不同的安全挑战,以系统为边界的传统安全管理方法不能满足数据的场景化安全需求。因此,科学数据中心需要结合业务场景开展人口健康科学大数据安全治理活动,保障人口健康科学大数据从采集、传输、存储到共享利用的全链条安全。
本文在研究国内外人口健康科学大数据安全治理政策及实践的基础上,分析人口健康科学大数据在生命周期各场景的安全风险,研究并构建基于场景化的人口健康科学大数据安全治理体系,以期为我国人口健康领域科学数据中心开展数据安全治理提供参考。
1 相关研究现状
1.1 数据安全治理基本理念
数据安全治理是数据安全和治理理论的融合,以数据分级分类为基础,以信息合理、安全流动为目标。国际研究机构Gartner[2]在2015年提出数据安全治理概念和框架(简称“DPG框架”),指出数据安全治理是从决策层到技术层、从管理制度到工具支撑、自上而下贯穿整个组织架构的完整链条,通过平衡业务需求与安全、确定数据优先级、制定数据安全策略、选择安全工具和同步策略配置5个步骤开展数据安全治理工作。Microsoft推出的专门强调隐私、保密与合规性的数据安全治理框架(简称“DGPC框架”)与组织现有的IT管理和控制框架、ISO/IEC 27001等安全标准协同工作,涵盖人员、流程和技术3个部分。我国数据安全治理委员会在2018年发布的《数据安全治理白皮书》[3]中,提出了数据安全治理的核心理念和实现框架,其中核心理念为分级分类、角色授权和场景化安全,实现框架包括数据安全人员组织、数据安全策略和流程、数据安全技术支撑三大部分。阿里巴巴于2016年推出的《数据安全能力成熟度模型》[4](Data Security Maturity Model,DSMM),围绕数据生命周期,结合大数据的业务需求,从组织建设、制度流程、技术工具、人员能力4个方面对组织机构的数据安全能力进行评估,并将其分为5个成熟度等级(图1)。王淳、马海群[5]从技术发展、政府决策、国家立法和数据安全宣传4个方面构建了我国数据安全治理体系,并提出了数据安全治理路径的协同模型。此外,政务领域和银行领域也有相关的大数据安全治理研究[6-7]。这些理论和框架是对数据安全治理进行的有益探索,为构建人口健康科学大数据安全治理体系提供了参考和借鉴。
图1 数据安全能力成熟度模型架构
1.2 国内外人口健康科学大数据安全工作
美国已经建立起具有可操作性的完备人口健康数据安全与隐私保护法律体系,如《隐私权法》、《病人权利典章》、《个人可识别健康信息电子共享的国家隐私与安全框架》、《医疗记录隐私法案》和《健康保险携带和责任法案》(HIPAA法案)[8]等。其中HIPPA法案中对基于场景的数据使用授权分级、基于角色的数据使用权限界定以及基于责任主体的数据使用边界等都有较为明确的规定,并给出了数据隐私安全的管理和技术保障要求。英国出台的《数据保护法》《网络要素计划》等政策法规已广泛应用于人口健康数据保护领域,英国卫生部门也专门提出了人口健康数据的安全保护措施。欧盟在2018年5月正式实施的《一般数据保护条例》(GDPR)[9],被称为“史上最严数据保护条例”,任何收集、传输、保留或处理涉及到欧盟所有成员国在内的个人信息的机构组织均受该条例的约束。美国国立卫生研究院、英国癌症研究中心、英国医学研究理事会等科研资助机构均在数据管理和共享政策中包含了数据安全与隐私保护的内容。如美国国立卫生研究院规定:涉及人类受试者的数据应遵循HIPPA隐私规则,受机构审查委员会监管,并且在数据共享前应进行数据匿名处理[10]。目前国外也出现有关人口健康大数据场景化安全的研究。如Hayat等[11]提出了健康医疗大数据生命周期的安全模型,分析了安全威胁并给出应对措施;Kobayashi等[12]利用健康医疗数据开放运动的5个场景,提出了开放共享与隐私安全的平衡策略。
2016年起,我国陆续出台了《网络安全法》《科学数据管理办法》《国家健康医疗大数据标准、安全和服务管理办法》《人类遗传资源管理条例》《数据安全管理办法》等一系列数据安全相关政策法规,规定数据采集、存储、挖掘、应用、运营、传输等多个环节中的安全和管理,强调人口健康科学大数据安全可控,维护公众健康、国家安全和社会公共利益。国内科学数据管理机构也意识到共享数据存在的安全问题,在科学数据共享管理办法中规定了涉密数据和隐私数据的安全措施。如原国家人口健康科学数据管理平台根据《GB/T 7156—1987文献保密等级代码》将数据划分为公开、国家内部、部门内部、秘密、机密和绝密6个保密级别,并进行了法律限制和安全限制分级[13]。人口健康科学数据伦理得到高度重视,如李晓洁、丛亚丽[14]强调解决人口健康大数据伦理问题需要加强各方合作。
与欧美发达国家相比,我国人口健康科学大数据的安全工作尚不完善,人口健康领域数据安全和隐私保护的立法相对比较滞后,数据安全政策起步晚、落地难,不能给行业实践提供可操作性的指导;科学数据管理平台对数据类型划分和限制共享数据识别的规定过于宽泛,缺乏分级分类评估标准和监管机构;科学数据安全管理多以信息系统为中心,没有上升到数据安全治理层面,缺乏针对数据生命周期各场景的安全保护,不能很好地满足科学数据管理与共享服务的需要。因此,建立一套适合我国国情的人口健康科学大数据安全治理体系具有重要意义。
2 人口健康科学大数据生命周期安全风险
人口健康科学大数据作为大数据的重要组成部分,除了具有体量巨大、类型繁多、处理速度快和价值密度低等共性特点外,还具有隐私性强、价值高、多维性、时空性、长期保存性等专业特殊性[15],并且数据会在采集、传输、存储、处理、交换、利用等过程的多个场景中流动,因此加大了数据安全保护的难度。在特定数据流的场景下识别安全风险是构建数据安全治理体系的基础。
2.1 人口健康科学大数据关键流程分析
围绕人口健康科学数据中心,基于众多的用户角色以及角色之间多类型、多模态的数据流动,人口健康科学大数据流动过程可以划分为数据创建、汇交、接收、存储、审核、加工、开发、运维、分析、访问等多个场景(图2)。人口健康科学大数据流动以数据创建者为起点,数据创建者包括人口健康领域科研项目负责人、拥有科学数据的行业机构或个人。他们通过基础研究、应用研究、试验开发等活动产生原始性观察及观测数据、检查检测数据、监测数据、诊断治疗数据、试验数据、实验数据、调查和考察数据、统计数据、按照某种需求系统加工的数据以及相关元数据等,并在创建过程中形成了不同的数据创建场景。数据创建者按照国家科学数据管理有关规定向科学数据中心汇交数据,构成数据汇交场景。人口健康数据中心管理员执行数据接收、检查和入库操作,并交由人口健康领域数据专家进行数据内容审核和评价。数据保存后,数据中心管理员对科学数据进行长期保存和全生命周期管理,数据中心开发人员对科学数据管理与服务系统进行开发测试,数据中心运维人员对科学数据存储与备份环境进行运行维护,数据中心加工人员对科学数据进行加工和处理。人口健康科学数据中心依据数据共享层级向政府部门、教育机构、科研机构、医疗卫生机构、数据创建者、社会公众等各种群体提供数据共享服务,共享方式包括全社会开放共享、协议开放共享、领地共享等多种方式,并与科技资源共享网及其他数据管理系统进行数据互联互通。
图2 基于场景化的人口健康科学大数据关键流程分析
2.2 人口健康科学大数据安全风险分析
在数据生命周期的不同场景,数据面临的安全威胁会有很大不同。本文围绕人口健康科学数据中心,分析不同角色与数据中心交互过程中的安全风险(表1),主要包括隐私伦理、外部威胁、内部泄密、大数据平台风险等。
表1 数据生命周期各场景的安全风险
在数据创建场景,人群队列、疾病队列等大量涉及个人隐私的数据被采集,若处理不当会造成隐私泄露和伦理问题。数据汇交场景主要涉及个人或机构向科学数据中心汇交数据,存在数据被攻击者直接窃取、个人生物特征数据泄露、数据非法跨境流动、线上/线下传输泄密、网络通信故障导致数据丢失等风险。在数据存储场景,可能存在存储系统被黑客入侵、数据库感染病毒/木马、存储设备损坏以及数据管理人员泄密等风险。数据处理场景包括数据检查、转换、加密、加工等多个方面,并且随着环境变化需要进行数据格式迁移、软件环境迁移等技术处理,这些技术手段在操作过程中有导致数据篡改、丢失或泄露的风险。数据使用场景包括数据创建者、数据管理者、系统开发测试人员、运维人员、第三方用户等各类人员对科学数据的访问和使用,存在非授权用户访问数据、敏感数据外传、数据被篡改等安全风险。
大数据平台环境包括系统运行的软件环境、硬件环境和外部环境,可能存在系统软件、支撑软件和应用软件被攻击、机房环境遭破坏、存储载体被干扰、服务器故障和过时、网络边界脆弱等安全风险。
另外,数据安全保密制度不健全、审核流程不规范等制度因素,以及科学数据管理人员安全意识不强、技术能力薄弱等人员因素,也会造成数据安全问题。
3 人口健康科学大数据安全治理体系构建
人口健康科学大数据安全治理是以治理的思维方式改进传统数据安全管理,综合运用数据安全管理法律制度、人员组织、技术方法以及流程标准等手段对数据的安全性进行全面管理,以确保人口健康科学大数据的安全流动和合理使用。
3.1 数据安全治理体系总体框架
针对人口健康科学大数据的特点和存在的安全风险,围绕数据生命周期过程的各个场景,初步考虑从制度规范、人员组织、技术支撑3个层面构建基于场景化的人口健康科学大数据安全治理体系框架(图3)。
图3 人口健康科学大数据安全治理体系框架
在制度规范层面,建立数据安全治理制度保障体系,制定安全治理工作总体方针,确定数据标识赋码、科学分类、风险分级、安全审查规则,建立系统运维、数据监控、角色授权、技术保障、组织管理等安全策略;在人员组织层面,建立数据安全治理组织保障体系,成立专门的数据安全治理团队,保证数据安全治理工作能够长期持续执行;在技术支撑层面,建立数据安全治理技术保障体系,强化人口健康科学数据工程技术能力,注重内容安全和技术安全,采用数据分级管控技术、数据多重加密技术、访问控制技术、去标识化技术、安全审计技术等多种关键技术和工具,通过数据活动流程控制,保障人口健康科学大数据全生命周期安全。
3.2 数据安全治理制度保障体系
针对大数据平台环境,建立《人口健康科学数据中心数据安全管理制度》,包括数据安全组织机构及职责、人员安全管理规定、机房安全管理规范、应用系统管理规定、网络安全管理规定、数据备份管理规定、应急预案管理规定等管理制度和操作规程,满足《网络安全等级保护基本要求》第三级的管理要求;建立《人口健康科学数据管理与使用制度》,对数据制作、审核、登记、复制、传输、销毁等环节进行严格管理,按照国家有关保密规定执行涉及国家秘密的科学数据的采集生产、加工整理、管理和使用,规范数据资源使用的申请、审批和监管流程。
针对人口健康科学数据中心数据流转场景,制定《人口健康科学大数据分类分级指南》和《角色分类授权规范》,指导数据分类分级和用户分类授权,综合考虑数据的来源、内容、价值、敏感度等多维要素对数据进行类别和密级划分,确定不同类别和级别的敏感数据的安全管控原则,确定不同角色在不同场景下对不同类别和密级数据的访问和使用规则;制定《人口健康科学数据汇交管理办法》,对数据汇交目的、范围、人员和流程等进行规范;制定《人口健康科学数据伦理审查制度》,由伦理委员会核查数据是否合乎道德,并为之提供公众保证,确保受试者的安全、健康和权益受到保护;制定《人口健康科学数据安全保密审查制度》,对数据的类别和范围、利用目的、用户资质、保密条件等进行审查,若数据涉及国家秘密则要按照保密管理规定程序报主管部门批准,并与用户签订保密协议;制定《人口健康科学数据监控管理制度》和《人口健康科学数据安全成熟度模型》,对数据进行全生命周期安全监控和安全风险评估。
3.3 数据安全治理组织保障体系
建立科学的数据安全组织保障体系,组建专门的数据安全治理团队,调用多部门协同参与数据安全治理工作。设立数据安全治理领导小组,负责指导数据安全治理工作;设立数据安全治理工作的职能部门,贯彻执行领导小组的决议,开展人口健康科学数据中心日常数据安全治理工作,其成员涵盖多个部门,包括网络管理员、系统管理员、安全管理员、安全审计员、机房管理员、应用管理员等。组织机构的所有成员职责、分工和技能要求明确,定岗定责,重要岗位配备双岗制轮换。工作人员应严格履行各自的安全角色和职责,对软硬件设施及科学数据生命周期进行监控,保障数据中心的正常运行。
工作人员录用时需要通过身份、安全背景和专业资格审查以及技术技能考核,并签署保密协议和岗位责任协议;离岗时应办理严格的调离手续,并承诺调离后的保密义务。数据安全职能部门定期对各类安全管理人员进行安全意识教育和岗位技能培训,并告知相关的安全责任和惩戒措施。数据中心各部门可针对不同岗位制定不同的培训计划,开展安全保密制度、安全技术策略、岗位操作规程等方面的教育培训,并定期对不同岗位的人员进行技能考核,以增强工作人员的安全意识、行为规范和业务水平,避免出现数据泄漏。
3.4 数据安全治理技术保障体系
人口健康科学数据中心依照等级保护三级建设,按照国家网络安全管理规定建立网络安全保障体系,采用安全可靠的产品和服务,完善数据管控、属性管理、身份识别、行为追溯、黑名单等管理措施,健全防篡改、防泄露、防攻击、防病毒等安全防护体系,实施安全物理环境、安全通信网络、安全区域边界、安全计算环境、安全管理中心五大类技术措施,从外部到内部对数据中心进行纵深防御。
构建大数据安全治理防护体系,提升对大数据的安全管控技术能力,实现对大数据安全情况摸底、数据使用管控以及数据治理稽核等。加强人口健康科学数据全生命周期安全管理,实时监控数据汇交、保存和访问过程,采用多种技术手段保障数据在采集、传输、处理、存储、利用等流转场景下的安全。在数据创建场景,采用数据梳理、质量评估等技术对数据进行分级分类,采用脱敏技术对数据进行去隐私化处理,采用校验技术和加密技术确保数据的真实性和完整性;在数据汇交场景,采用VPN技术构建数据传输网络通道,其中利用IP-Sec VPN构建批量数据上传的网络,利用SSL VPN系统作为外网访问的安全手段,并提供传输加密、服务端存储加密与数据自销毁功能,全面保护数据隐私;在数据存储场景,进行数据分级分类存储和多用户数据隔离,对敏感数据进行细粒度防护,采用数据备份技术和RAID技术,建立本地灾备中心和异地灾备中心,对重要数据提供异地实时备份;在数据处理场景,采用数据溯源、数据脱敏等技术确保数据分析挖掘过程中数据的安全性;在数据使用场景,采用访问控制技术并根据科学数据共享级别和用户角色权限控制用户对数据的访问,采用虚拟桌面技术提供数据的远程访问和在线分析。另外,对科学数据生命周期全过程进行行为监控、安全审计和日志管理。
4 结语
人口健康科学大数据涵盖人的全生命周期,在“健康中国”战略的疾病防控、健康管理等方面发挥着重要支撑作用,需要加强安全管控。本文针对我国当前人口健康科学大数据安全工作亟待完善的问题,通过调查分析人口健康科学大数据的特点和数据生命周期各场景的安全风险,从组织、制度、技术等多个角度构建的基于场景化的人口健康科学大数据安全治理体系,可为我国开展人口健康科学大数据安全治理工作提供理论思路和框架参考,有助于丰富和发展人口健康科学数据管理机制,推进人口健康科学大数据的规范管理和开放共享。
下一步将围绕人口健康科学大数据安全治理体系进行以下几方面的深入研究:细化人口健康科学大数据流动过程中各场景的安全风险研究,对安全风险进行分类分级;对人口健康科学大数据进行多角度分类分级,并设计分类分级的场景化保护方案,建立强调整体的协同安全治理能力;开展人口健康科学大数据安全治理体系实证研究,对人口健康科学大数据场景化安全治理体系进行评估和改进。