APP下载

数据脱敏技术现状与建议

2017-07-14黎俊延

商情 2017年18期

黎俊延

摘要:目前,大数据的应用广泛的同时,个人信息保护受到了前所未有的挑战。人民在享受数据分析给自己生活带来的贴切服务的同时,也深受个人信息泄露甚至被骚扰的困扰。相关报道指出,黑客所掌握的用户数据库数量超过了1亿条,信息黑市产业链的规模或高达上百亿元。个人敏感信息保护迫在眉睫。本文将从数据脱敏的角度分析我国信息保护现状以及问题,并给出相关解决办法和建议。

关键词:数据脱敏 脱敏系统 数据隐私

一、我国数据脱敏现状简述

数据脱敏就是对敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。“当大数据进行交易的时候,目前据不完全统计80%是个人信息。大数据交易的过程中最重要两个环节一是清洗和脱敏,脱敏又叫匿名化,但全球都尚未形成脱敏的具体标准。”这是2016年北京强国知识产权论坛“互联网安全与治理模式创新”分享会上,重庆大学法学院博士导师齐爱民教授指出的,我国信息脱敏日益受到重视,可是还处于一个不健全可靠的一个生长阶段。具体问题表现为:

(一)敏感数据标准不一

我国缺乏个人信息保护相关法律,个人敏感信息没有明确的划分,导致脱敏技术程序标准不统一。因为数据量庞大,数据处理一般通过程序执行。在明确划分后,如何通过程序识别敏感信息进行处理,敏感信息的字段名称、类型、长度、赋值范围的如何设定,也是一个难题。

(二)脱敏技术的可逆性和处理后数据的不可应用性

由于脱敏标准不一样,脱敏深度也没有具体标准。部分企业业务采用可恢复性脱敏的数据存在可逆化,比如数据加密,而部分企业业务采用不可恢复性脱敏。数据在脱敏之后,不应该提现出用户的敏感信息。数据脱敏不完整或不全面,在数据交叉到一起就存在识别出用户个人身份的情况发生。由脱敏标准不统一造成的信息泄露问题,在大数据应用的传输过程中可能被放大。同时,不可逆性脱敏后的数据在企业运营中会不会影响效率也是也是一个实际问题。一般来说,只要处理到无法推断原有个人信息,不会造成个人资料泄露。但如果修改过多,容易导致丢失原有特性。企业数据应用端对数据的提炼就会受到不可逆的影响。

(三)形式重视大于方式重视企业运营环节容易出现泄漏

信息黑市的信息来源有很大一部分是企业内部信息泄露引起的,这涉及到了企业管理规范问题,现阶段我国大部分企业对数据处理人员的工作监管缺乏力度。同时,企业日常运营也存在问题。

二、数据脱敏规范及建议

(一)敏感数据标准划定

首先,需要明确的是区分大数据与个人信息的区别。在当下大数据时代,许多人甚至企业把大数据与个人信息混为一谈,这使得企业数据运营中个人信息保护无从下手。英国颁布的《开放数据白皮书》中要求,各政府部门开放数据策略中时应明确将开放数据划分为大数据(big data)和个人数据(my data),大数据是日常业务过程中收集到的数据,可以对所有人开放,而个人数据仅仅对某条数据所涉及到的个人自己开放。下面介绍一下个人信息的具体分类。

一般情况下个人资料包括:1.姓名、性别、年龄、户籍、身份证号码、遗传特征、指纹、揭示种族或民族起源、政治意见、宗教信仰;2.与医疗相关信息包括有健康情况、病历;3.通信以及活动方式信息包括有财务情况通信地址、E-mail地址、家庭住址、工作单位、电话、账号与密码;4.社会经历信息包括有学历、犯罪记录、婚姻。

在科技发展背景下的活动记录信息及其他可以识别该个人的信息则为大数据面向的信息:如通话记录、网上购物记录、网站浏览痕迹、IP地址等网上活动。

(二)脱敏技术

目前数据脱敏的技术方法有很多种,目前投入实际应用的技术有k-匿名、L-多样性、数据抑制、数据扰动和差分隐私。

(1)k-匿名:

企业因为业务原因公开数据时候都会简单处理,例如会把姓名删除,但如果黑客通过其他渠道获得的信息与之相匹配,就可以获得敏感数据。这称作为链接攻击。匿名化就是为了解决链接攻击造成的敏感信息泄露问题而提出的。它要求发布的数据中存在至少为k的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体, k-匿名通过参数k指定用户可承受的最大信息泄露风险。定义参数k,则视具体数据与脱敏深度要求而定。

(2)L-多样性:

L-多样性样性是在k-匿名的基础上提出的,外加了一个条件就是同一等价类中的记录至少有L个“伪真实”的值,使得隐私泄露风险不超过 1/L,“伪真实”的意思是该数据有多个格式合法的近似值。比如这几个值不同,或者信息熵至少为logL等等。

(3)數据抑制

数据抑制又称为隐匿,是指用最一般化的值取代原始属性值。在k-匿名化中,若无法满足k-匿名要求,则一般采取抑制操作,被抑制的值要不从数据表中删除,要不相应属性值用“ **”表示。例子如下:

>>> s = "CREDITCARD"处理后为>>> s[-4:].rjust(len(s)或 "*")'******CARD'

(4)数据扰动

数据扰动是通过对数据的扰动变形使数据变得模糊来隐藏敏感的数据的规则,即将数据库 A变形为一个新的数据库 A′以供研究者或企业查询使用。A′会和 A很相似,从 A′中可以挖掘出和 A相同的信息。这种方法通过修改原始数据,使得敏感性信息不能与初始的对象联系起来或使得敏感性信息不复存在,但数据对分析依然有效。

(5)差分隐私

差分隐是基于数据失真的隐私保护技术,采用添加噪声的技术使敏感数据失真但同时保持某些数据或数据属性不变。数据微小变化后,分析人员仍然可以从数据中进行正常的数据挖掘工作。其中分析人员通过数据的可用性来定义数据变化的幅度大小,这种变化的范围由参数ε控制,对任何可能的结果,该参数设置了变化的边界。ε的低值,例如0.1,意味着关于任何个人的看法的改变非常少;ε的高值,例如50,意味着关于个人的看法的变化更大。正式的定义如下。

当且仅当以下情况下,算法A是ε-差分隐私的:

Pr[A(D) = x]≤ e^? * Pr[A(D') = x]

差分隐私保护可以保证,在数据集中添加或删除一条数据不会影响到查询输出结果,因此即使在最坏情况下,攻击者已知除一条记录之外的所有敏感数据,仍可以保证这一条记录的敏感信息不会被泄露。

(三)脱敏系统

常见的脱敏系统中有两种,人工识别系统与自动识别系统。在脱敏过程中,一般分为两个阶段。一是敏感数据识别,二是数据脱敏任务执行阶段。人工识别系统与智能识别系统区别在于敏感数据识别方式不同。

1.人工识别系统

下面举Oracle数据脱敏技术Data Masking(下面简称DM)为例简述脱敏系统运作流程。

DM并不是简单的把数据加密或者混淆就好了,为了让脱敏后的资料能在非生产环境完全正确运作,需要考虑字段的依赖,保证引用的完整性。可以说DM给测试人员或者开发人员提供了一份“最真实的假数据”。这也是数据脱敏的核心所在。DM提供两个功能:(1)屏蔽格式库,格式库内包含一组即用型屏蔽格式。掩蔽格式可以是您创建的格式,也可以是Oracle提供的默认掩码格式的列表格式;(2)掩蔽定义,屏蔽定义要在数据库中的一个或多个表上实现的数据屏蔽操作。屏蔽定义将表格列与用于屏蔽数据的格式相关联。他们还使用相关列维护数据库中未正式声明的列之间的关系。

作为最佳做法,组织应为所有常见的受管制信息创建掩蔽格式,以便不管敏感数据位于哪个数据库中,敏感数据应用于数据库表格之间。这样可确保所有敏感数据在整个运营过程中始终屏蔽。

通过Oracle数据库进行人工识别并进行数据脱敏的步骤一般为以下四步:加载管理数据屏蔽格式库、识别数据库中敏感数据、使用预定义掩码格式和创建并应用用户定义的掩码。

第一步:加载管理数据屏蔽格式库

Oracle创建数据屏蔽软件包是为安全管理员提供了维护常见屏蔽格式集中式定义的能力。此集中式定义可确保数据库在整个企业中应用相同的屏蔽规则,而不管敏感数据所在的数据库。因此,组织和企业可以确保敏感数据被一致地屏蔽,并符合既定的数据共享标准。简单的说应用Oracle数据库的用户都可以共享统一标准的脱敏数据。Oracle使用格式库这种预加载模板的方法,有利于增加统一脱敏标准后数据的可移植性。

第二步:识别数据库中敏感数据

数据库中数据是通过识别主键 -外键来互相关联的,这也是需要脱敏的数据的识别源。数据通过主键 -外键识别后,就需要通过已定的数据屏蔽模式进行屏蔽。数据屏蔽定义是具有掩蔽格式的一组模式中的表和列的关联,包含应用程序表中敏感列的列表。

第三步:使用预定义掩码格式

Oracle提供的预定义掩码格式一般是生成随机数或随机数,并执行后期处理,以确保最终结果是有效的现实值,在Oracle数据库11.2版中,足够支持绝大部分数据库的数据类型脱敏,支持屏蔽的数据类型包括:(1)数字类型(Numeric Types):NUMBER、FLOAT、RAW、BINARY_FLOAT、BINARY_DOUBLE;(2)字符串类型(String Types):CHAR、NCHAR、VARCHAR2、NVARCHAR2;(3)日期类型(Date Types):DATE、TIMESTAMP

第四步:创建并应用用户定义的掩码

如果应用程序或业务有非常具体的要求,则需要创建特殊掩码。需要创建掩蔽定义时,数据库管理员导入掩码模板。注意创建自定义掩码时,确保选择的格式不违反检查约束,并且不会破坏任何使用数据的应用程序。创建自定义掩码的一般步骤为:(1)输入掩码定义名称,(2)选择所需操作表格中的敏感信息主键,(3)选择敏感数据工具并选为用户定义功能,(4)定义掩码名称,确定后注意生成掩码格式。系统通过验证掩码模板并基于模板创建掩码定义来进行响应,并生成脱敏脚本,(5)此后,数据库管理员使用新创建的掩码定义来启动数据库的屏蔽。系统通过验证屏蔽定义,验证空间可用性,然后将掩码格式应用于测试阶段数据库中的数据来进行响应。完成数据自定义脱敏步骤。自定义掩码对数据库使用者友好,能比较简便对特殊数据进行匹配掩码模板制定掩码,这要求使用者对数据库功能有一定的掌握。

2.自动识别系统

自动识别是在手动识别基础稳定后才可以实现的,目前处于理论阶段。区别于手动识别系统,建立自动识别脱敏系统,需要在敏感数据识别阶段前针对不同数据的特点,设计建立敏感数据识别所需的模型、算法、知识库等,在数据录入的时候进行匹配识别。因此自动识别数据脱敏系统主体流程包括脱敏配置、敏感數据识别、脱敏策略配置和数据脱敏四个个环节。(1)脱敏配置:根据数据库对应的表格类型,预先设定需识别的数据类型,根据信息的内容价值分配脱敏的权重,根据权重进行定义配置。(2)敏感数据识别:对用户的数据库进行识别时,根据对主键-外键的处理,需要对字段的格式与语义进行分析,从而识别出系统中的敏感数据。(3)脱敏策略配置:根据业务情况,可供两种脱敏策略,一种是基于系统配置的敏感数据类型,采用系统智能匹配的脱敏技术进行脱敏策略;一种是用户自定义,贴合与实际要求的脱敏策略。(4)数据脱敏:按照用户使用情况选择静态数据脱敏和动态数据脱敏。

三、企业脱敏系统应用案例分析

(一)案例背景

东营银行全名东营银行股份有限公司,是山东省的一家地方性城市商业银行。截至2015年年底,全行资产总额560亿元,各项存款余额450亿元,贷款余额289亿元。

东营银行信息技术部负责全行信息系统的开发、运维和管理。部门员工20人,而负责运维的各类信息系统有50个以上。为解决人员少工作量大的问题,外包成为该银行常用的手段。随着东营银行管理分析类系统的建设,东营银行的数据资产面临很大的泄露风险,特别是银行卡数据、客户信息数据、经营管理信息。同时,监管部门也要求做好客户信息的保护工作。结合银监会2015年银行信息科技风险管理课题研究,东营银行开始启动数据脱敏系统建设项目。

(二)脱敏系统建设情况

项目建设的总体目标为:根据东营银行现有业务为基础建立一套易用安全的数据安全保护系统,该系统防止内部数据资产泄露,并具有良好业务扩展性。其中脱敏系统的基本功能包括:

(1)敏感信息发现和提取

通过预先设定敏感数据特点格式,来实现敏感数据识别。系统管理界面可以提供敏感数据的生产规则分析,检测到的敏感信息字段会显示在管理界面中提供查看,降低识别错误率。

(2)脱敏规则管理

数据脱敏系统可针对不同业务系统、不同表的相同类型数据应采用相同的数据脱敏规则。在此基础上,对于业内不同的业务环境,分别配备不同的脱敏策略。

(3)脱敏操作管理

数据脱敏系统针对每一个脱敏任务分别进行记录并展示。脱敏任务运行过程中,系统针对每一个脱敏任务生成一个唯一的任务ID,而这些ID会被存储在元数据库中。用户可以通过状态监控窗口检查详细的状态,包括输入的参数,选择的纪录,作业描述,当前状态,执行时间标签和一个详细的日志文件等。

(4)监控管理

数据脱敏系统通过状态监控、调试配置、子任务状态、日志文件来实现对脱敏任务的监控。通过反映信号能监控到脱敏进程的执行情况,确保运维人员能够清晰判断执行结果。同时,每个作业都会有资料输出方与操作人员的工号记录。造成信息事故的员工会追究责任。

(5)权限管理

数据脱敏系统具备完善、统一的权限管理体系,可以针对用户设定不同的使用权限,可以针对业务对象授予不同的访问权限,实现数据行级的权限控制。

(三)系统实施结果

东营银行最终敲定脱敏系统分为以下分支系统,其对应的数据库版本如下表4-3-1所示。

脱敏系统对敏感数据进行脱敏处理,保持了脱敏数据的数据主外-键关联性、关联字段的业务语义关联性以及业务语义不变。经过银行业务流程系统测试,脱敏后数据可满足系统对数据仿真度要求,保持业务规则与脱敏数据通用性。表4-3-2是客户名称和证据号码关系表,表4-3-3为该表脱敏后效果。

数据脱敏系统的建设大大提高了东营商业银行测试数据准备效率,通过规范化的系统脱敏,如今东营银行可以独自进行敏感数据处理,有助于形成企业内闭环信息流大大提高非生产环境数据使用的安全性。同时并帮助企业符合法律法规要求,达到安全管理部门的审计监管要求,取得较好成果。具体表现为:

(1)加快运营速度。通过数据脱敏系统的应用,东营银行在数据隐私保护的处理过程中实现了全自动化、安全化、工具化、流程化、智能化,加快了其在大数据金融的建设速度。

(2)减少成本。数据脱敏系统基于东营银行业务需求进行研究,对开发和测试部门提供合适大小的数据库,降低开发、测试和交付可靠应用的总体成本。

(3)提高效率。减少了銀行DBA和质量保证测试人员的工作量。

(4)降低风险。数据脱敏系统通过一系列的规章制度,明确了数据脱敏工作中的工作职责,减少了银行隐私数据的泄露风险,减少系统上线后的出错风险。

五、结语

社会对于企业数据使用的规范的呼声也日益高涨,同时数据脱敏能有效使企业数据运营得到安全保障。未来数据脱敏将会发展得更全面,结合不同生产环境,对于数据的脱敏的标准与深度会有更详细的定义。在大数据背景下,统一标准与深度的数据脱敏将从自动化发展,高效处理大量数据。从而构造一个用户安心,满足企业与社会要求的和谐网络环境。

参考文献:

[1]大数据隐私保护技术之脱敏技术探究. http://mt.sohu.com/20161119/n473618006.shtml.2016.

[2] Database Management 11g Release 1 (11.1).

http://docs.oracle.com/cd/E11857_01/em.111/e11982/database_management.htm#DAFGJEIF.

[3]Replacing Sensitive Data Using the Data Masking Pack.http://www.oracle.com/webfolder/technetwork/tutorials/obe/em/obe10gemgc_10204/datamask/datamask.htm?cid=5387&ssid=35030654250237.

[4]陈天莹,陈剑锋.大数据环境下的智能数据脱敏系统[A].通信技术,2016,49(7).

[5]吴行飞.中小城市商业银行数据脱敏研究--以东营银行为例[D].山东大学,2016.