大数据时代政务大数据安全的研究与设计
2020-04-09朱春琴
朱春琴
随着技术的发展,数据存储与处理成本显著降低,人们有能力从支离破碎的看似毫无关系的数据中抽炼出真知灼见,这就意味着大数据时代的到来。它渗透到了我们衣食住行的方方面面,悄悄地改变着我们的生活方式,拉近了我们与现实的距离,我们可以轻松获取以前从未有过的各种信息,仿佛所有人所有事都触手可及,“地球村”变成了“地球屋”。在大数据时代,数据的价值不断凸显,被大家称为智能时代的“石油”,掌握了数据就相当于掌握了未来。利用数据,企业可以分析用户行为,可以定位潜在消费群体,精准的投放产品;利用数据,企业可以进行业务转型,成为数据驱动型企业;利用数据,企业可以更精确的改良产品,适应大众需求……
在大数据时代,我们每个人都被打上了各种各样的标签,數据带来了巨大价值的同时,也带来了用户隐私保护方面的难题,如何在不断挖掘数据中存在的价值的同时保护好隐私信息和敏感信息,正成为当下新的挑战。近年来,数据泄露事件频出,在发生数据滥用、内部偷窃、网络攻击等安全事件时,常常伴随着个人信息泄露,新闻中经常出现“泄露”、“漏洞”、“隐私”等名词。数据泄露事件越来越严重,轻则波及数千万人甚至影响几十亿人,相比以往,2018年数据泄漏事件远远超过往年,成为个人信息泄露的最高记录年。随着数据挖掘、机器学习、人工智能等技术的研究和应用,使得大数据分析的能力越来越强,由于海量数据本身就蕴藏着价值,在对大数据中多源数据进行综合分析时,通过关联分析可以挖掘出更多的个人信息,进一步加剧信息泄露的风险。数据安全事关重要信息和个人隐私,一旦泄露我们将无所遁形,成为广告营销的对象,防不胜防,甚至成为电信诈骗分子的目标。对于企业来讲,数据安全可能关乎生死存亡,所以说数据泄露已经成为企业和消费者的共同“心病”,一点不为过。在大数据时代,要对数据进行安全保护,既要注意防止因数据丢失而直接导致的个人信息泄露,也要注意防止因挖掘分析而间接导致的个人信息泄露,这种综合保护需求带来的安全挑战无疑是巨大的。
一、政务大数据存在的风险
随着江苏省大数据平台的建设,平台内部的各种业务和信息支撑系统不断增加,网络规模也迅速扩大。大数据平台作为数据存储、分析及共享的核心和基础,承载着越来越多的关键政务数据。大数据中心实现了数据大集中的同时,也导致了数据的风险大集中。而数据是江苏省大数据管理中心最重要的“隐形”资产,如何识别数据风险,进而采用有针对性的数据安全防护控制措施,来缓解、转移、规避数据安全风险,是江苏省大数据管理中心安全建设必须考虑的一环。
从数据安全的全生命周期角度来看,数据的采集、传输、存储、共享、使用、销毁等各个阶段,均伴随着不同程度的风险,例如:
采集和传输阶段:采集前端仿冒、伪造风险,使得数据交换共享平台存在被入侵的风险。同时,传输链路可能被监听、嗅探,导致数据被恶意篡改、窃取。
存储阶段:存在DBA 等特权用户越权访问、违规操作或者误操作,导致数据泄露;还会存在数据库或文件未加密导致数据直接泄露。
使用阶段:终端用户可能会通过截屏、拍照等方式窃取数据;内部人员通过应用系统违规窃取或滥用数据;BI分析人员越权、违规操作数据。
共享阶段,传输链路被监听、嗅探,导致数据被篡改、窃取;外部应用系统假冒数据接收对象获取数据;敏感数据分发给外部单位;通过无线、蓝牙等外设发送敏感数据。
销毁阶段,重要存储介质维修或报废前缺乏数据清除管控,没有做到安全删除,同样存在数据泄露风险。
二、解决数据安全问题的难点分析
综合分析不难得出,解决大数据安全问题主要存在以下几个难点:
(一)传统的安全措施难以适配
大数据技术先进,架构偏于复杂,为了满足海量数据分布式存储和高效计算服务,一般采用底层复杂、开放的分布式计算和存储架构。这些新的技术和架构使得大数据应用的系统边界变得模糊,传统那些基于边界的安全措施失去了保护效用。在大数据系统中,数据一般采取分布式存储方式,数据会动态分散在很多个不同的存储设备,甚至可能是不同的物理地点存储,这样导致难以准确划定传统意义上的每个数据集的“边界”,传统的基于网关模式的防护手段就失去了安全防护效果。
(二)平台安全机制严重不足
现有大数据应用大部分采用基于开源的大数据技术和管理平台,如基于 Hadoop生态架构的 HBase/Hive、Cassandra/Spark、MongoDB等。这些技术和平台在设计之初,由于绝大部分是部署在可信的内部网络中的,对于用户的身份鉴别、授权访问以及安全审计等安全方面的功能需求考虑的很少。近年来,随着更新发展,这些软件通过调用外部 Kerberos身份鉴别组件、扩展访问控制管理能力、允许使用存储加密以及增加安全审计功能等方式逐步增加了一些安全措施。即便如此,大部分大数据软件仍然是围绕大容量、高速率的数据处理功能开发,而缺乏原生的安全特性,在整体安全规划方面考虑严重不足,甚至没有提供良好的安全方面的可扩展性。
(三)应用访问控制更加困难
数据类型复杂、应用范围广泛是大数据应用的基本特点,它需要为来自不同部门或单位、不同身份、不同目的的用户提供数据服务。所以随着大数据应用场景的变化和发展,在应用访问控制方面正面临着巨大的挑战。
首先是用户身份的鉴别,大数据只有经过开放和流动才能创造出更大的价值,政府部门的数据也在逐步开放共享,数据的开放就会意味着有更多的用户来访问数据。大量的用户再加上复杂的共享应用环境,传统基于集中数据存储的用户身份鉴别已经难以满足安全需求,大数据系统需要更准确地识别用户身份。其次是用户访问控制,在大数据应用场景中,由于存在着大量的未知用户和数据,预先设置角色及权限十分困难,所以基于用户身份或角色进行访问控制很难。即使对用户权限分类,也难以细粒度、精细化地控制每个角色可以访问的数据范围。然后是用户数据安全审计和追踪溯源,当前常见的操作系统审计、网络审计、日志审计等软件在审计粒度上较粗,不能完全满足复杂大数据应用场景下审计多种数据源日志的需求,溯源效果不好,用户访问控制策略急需创新。
三、围绕数据生命周期的安全防护体系的设计与实现
国家、保密委、国家等级保护体系中都对数据安全情况做出了明确的要求,其中2017年6月1日施行的《中华人民共和国网络安全法》对网络安全等级保护制度、关键信息基础设施保护和用户个人信息保护制度等从法律层面上进行了规定。网络安全法特别强调了数据的安全问题,明确指出需要对数据的采集、使用、传输、存储等环节进行保护。因此,江苏省大数据管理中心需要构建以大数据为核心,覆盖大数据全生命周期的安全保障体系,在数据采集、数据传输、数据存储、数据共享与使用、数据销毁等环节采取相应的安全防护措施保障大数据全生命周期的数据安全。
针对数据安全需求,结合大数据平台安全建设现状及未来安全建设规划,建立一套数据全生命周期安全体系非常重要。再与基础安全设施结合,按照管理权、使用权、审计权的分立模式,设计统一大数据安全体系服务,全方位保障数据安全。
具体框架如下图1所示:
设计思路和方法如下:
在数据采集阶段,对结构化数据、非结构化数据进行识别,并依据敏感数据识别引擎及策略,自动识别出敏感数据。政务大数据可以分为敏感数据、可共享数据、禁止共享数据、公开数据四级,依据分类分级的结果对数据资产打标签,并且可以动态更新。同时可对数据库服务的分布以及数据库中的数据资产进行发现,并对数据的分布情况进行分析和展示。参照《网络数据安全管理办法(征求意见稿)》,落实对数据分类分级的要求。如果存在多个类别数据相互关联程度较高或多类型数据集合的情况,依据“等级就高”原则,与集合内最高级数据保持一致的安全等级,部署并执行一致的数据安全保护技术措施与安全管理机制。
数据传输安全主要保障数据的完整性和保密性,为防止数据在传输过程中被窃取、篡改,采取身份权限控制、传输加密等安全防护措施。通过统一身份管理中心对资源需求方进行身份认证;通过统一权限管理中心对资源需求方进行数据访问权限控制,避免非法请求。在数据跨网、跨域传输过程中,可在传输网络两端部署VPN对传输链路进行加密或者对数据进行加密再传输。为了防止因违规、误操作导致的数据泄漏,通过网络数据防泄漏系统对外发的数据进行敏感性識别,以便及时发现、拦截禁止共享开放的数据流出大数据中心。
为了保障落地存储数据的安全性,避免数据失窃后导致的敏感信息泄露,需要对重要敏感数据进行加密存储。利用敏感数据地图探针对大数据平台的数据库、大数据组件进行扫描,对敏感数据进行标签标注,并在数据安全管理平台进行敏感数据分布可视化呈现,识别展现数据驻留风险,提高数据梳理效率。通过调用统一密钥管理系统提供多种数据加密服务,同时通过数据加密网关实现数据库表文件或列、字段的加密。
数据使用安全主要保护通过应用程序和API访问数据,以及用户终端使用过程中的数据泄露防护,敏感数据保护的安全。采用数据泄露防护对外发的数据进行敏感性识别,以便及时发现、拦截禁止数据流流出大数据中心。主要技术包括终端数据防泄漏、数据脱敏、业务行为审计、数据操作审计和API业务安全监测等。同时,采用数据运维管控平台实现避免开发测试和运维过程中的数据泄露,增加开发测试和运维人员的身份认证、权限管控和操作审计,以及高危操作检测及防护。
在数据共享过程中,既要满足各委办厅局的数据使用需求,也要防止不该共享的数据泄漏出去,因此,需要对这些数据进行模糊化处理。可以通过脱敏算法管理、同义替换、混合屏蔽、确定性屏蔽、部分数据遮蔽等技术手段实现。对于业务操作人员查询、导出、修改数据时,如果操作的数据包含业务操作人员不应接触的核心数据或内部数据,通过数据动态脱敏系统对这些数据进行动态脱敏处理,可有效防止人为泄露数据。
大数据共享交换平台提供各委办厅局的数据订阅和数据传输,个人信息等敏感数据一旦经过大数据共享交换平台传输给委办厅局后,大数据中心将失去对这部分数据的安全保障和控制能力,所以在数据传输给委办厅局前可以对数据进行水印处理,实现数据在委办厅局泄露后的溯源能力。同时可以在共享交换时对敏感数据进行脱敏处理,防止个人信息等敏感数据泄露。数据水印支持将特定的标识信息嵌入到宿主数据中,并且不影响宿主数据的可用性,是目前实现数据溯源行之有效的方法。
当物理磁盘需要报废时,可以通过消磁、折弯或破碎等方式清除数据,并对数据清除操作保存完整记录,确保数据不泄露。介质销毁应当按照国家标准统一管理,集中实施,确保数据无法还原。销毁过程应当履行清点、登记、审批手续,自行销毁的应当选用符合标准的设备和方法,送交符合资质的承销单位销毁的,应保留销毁凭证。
建设数据安全分析平台,通过采集应用行为日志、数据库访问日志、大数据组件访问日志、网络流量、终端数据行为日志,采用用户行为分析、数据挖掘算法等技术,对敏感数据访问行为进行分析和挖掘,发现数据滥用、数据泄露、数据篡改等异常行为并进行告警,对事件或风险进行集中的日志搜索、查询、分析和溯源。
四、总结和展望
面对新的安全形势,数据安全防护需要在顶层规划设计环节就全面把握好安全体系的平衡,在强调重点的同时要做到内、外兼修。除做到对外部威胁防护外,更要加强对内部威胁的防范控制,防止堡垒从内部崩塌。通过大量的安全事件分析,我们发现有一大部分内部威胁都是在授权范围内就可以完成,说明在管理制度上还有很多不完善的地方。因此,内部威胁首先是内部安全管理问题,解决好内部安全管理、制定相关的安全管理制度,在此基础上通过技术手段完善支撑管理制度,将管理制度切实落地。所以应对内部威胁,必须双管齐下,做好管理手段和技术手段,两手都得抓,两手都得硬。保障数据安全是一项长期性、艰巨性、复杂性的工作,要做到警钟长鸣、持久发力、持之以恒,数据安全永远在路上。
作者单位:江苏省大数据管理中心