APP下载

面向大数据安全运营的数据服务网关

2016-05-14

信息通信技术 2016年6期
关键词:脱敏数据服务字段

中国联通研究院 北京 100032

引言

大数据作为新一轮的科技浪潮,在经济社会各个领域都受到重视,对大数据的掌控、分析能力决定了企业乃至国家的核心竞争力。

为充分发挥大数据价值,需要盘活数据资产,开放共享数据。电信运营商和互联网公司等拥有海量大数据,他们积极探索并投身建设大数据开放平台。一方面,封装自有的数据资源以及数据存储、数据加工、数据挖掘分析能力,以数据服务的方式开放给第三方(尤其是中小企业以及应用开发者),开发各种大数据创新服务;另一方面,与政府、公共服务部门以及跨领域行业开展合作,融合加工多源异构数据,融合开放跨行业数据,带动产业发展新型业务形态[1-5]。

在大数据的开放、运营或者变现过程中,如何保证开放数据的合规性、避免敏感信息的泄漏、对交易数据进行计量或者计费以及对数据进行审计等成为当前亟需解决的问题。

目前,国内外对大数据开放平台的研究和实践刚刚开始,暂无完全针对大数据安全运营的法律法规[6-14]或者技术,仅有部分涉及其中的数据安全或者数据传输的要求或者技术点[15-18]。例如,文献[16]提出一种分布式数据网关的体系结构,提到分布式数据网关在安全方面的特点是通过数据服务的方式,保障数据本身的授权;通过数据网关安全模块,实现交换和传输的安全性;该方案只是保障数据的正确传输,未涉及敏感数据的过滤、结果数据的合规检查和审计等。文献[17]公开了一种服务网关系统,该服务网关系统建议采用防火墙、杀毒系统、IPS系统、数据流过滤系统、数据流杀毒系统、用户认证系统或访问日志记录等工具系统的组合,实现网络安全功能,保护服务网关上的数据安全和组织机构网络内部数据的安全性;其中的数据流过滤系统用于保护组织内部关键和敏感数据不从内部泄漏,该方案只建议需引入敏感数据的过滤,未涉及过滤后结果数据的合规检查和审计等。文献[18]公开了一种数据交换方法和系统及一种网关服务器,提出采用网关服务器实现外部系统和内部系统之间数据消息的协议转换,从而实现外部系统和内部系统之间的数据交换;该方案只提出数据交换和传输要求,未涉及数据内容的处理,尤其是敏感数据的过滤、结果数据的合规检查和审计等。

为解决以上现实问题,本文将探讨一种面向大数据安全运营的数据服务网关Gateway,在数据开放、运营或者变现交易过程中,对于定义的数据中的敏感信息,根据数据的脱敏要求进行过滤和脱敏,保证输出数据中无敏感内容;针对不同用户、不同数据类型,根据不同的合规检查规则,审核输出数据,保证输出数据的合规性;对于脱敏后输出的合规数据,根据用户的等级、输出的数据量大小和数据价值属性进行计量和计费;同时,在数据输出过程中,对数据输出的时间、对象(用户)、数据的元数据、脱敏规则、合规检查规则等进行永久性存档,以便于未来的运营合规性审计。

1 数据服务网关Gateway内涵分析

1.1 Gateway基本概念

数据服务网关Gateway是数据中心与数据服务需求者之间的数据服务中介模块,对数据服务输出数据进行数据脱敏、合规检查、安全审计等处理;数据服务需求者通过Gateway,提交取数申请,获取数据服务。如图1所示。

图1 数据服务网关Gateway定位

图1中,根据数据的流向,划分为三个区域:1)数据内网区。由数据中心构成,是数据开放服务的提供者和运营者。2)审核区。由Gateway构成,是数据开放服务运营的安全保障执行者,包括8个功能模块:用户管理、服务管理、取数管理、规则管理、数据脱敏处理、安全审计、工单管理和系统管理。3)外网合作区。包括各类数据服务的需求者,数据服务需求者可以是具体的自然人,也可以是第三方系统。

数据服务需求者通过Gateway,查询数据服务信息,提出取数申请;经审批通过后,由数据服务提供者/运营者将数据服务文件同步到Gateway,进行数据脱敏、合规检查,如满足数据安全合规检查要求,则可以输出给数据服务需求者使用。

其中,数据服务信息(元数据)由3类信息构成:1)服务基本信息。包括服务编码、服务名称、服务类型(实时服务或周期服务)、服务周期(年、季、月、周或日;对于周期服务)、周期数据就绪日期(对于周期服务)、服务输出集编码、服务输出集名称等;2)服务输出字段信息。包括服务输出集编码、字段编码、字段名称、字段数据类型、字段描述等;3)服务计费信息。例如每单元字段或每行的价格等。

1.2 用户分类

根据在Gateway中的职能分工,Gateway用户可以分为数据服务需求者、业务管理人员和系统管理人员。

1)数据服务需求者。数据服务需求者就是对数据服务提出需求的用户,包括机构用户和数据用户。

其中,数据用户是数据服务的需求用户或第三方系统/应用,并且每个数据用户必须关联一个机构,数据用户可以申请获取数据服务,并获得合规的服务数据。不同数据用户间的资源隔离,可以独立设定不用数据用户的取数优先级、服务元数据查看权限、服务数据取数权限(数据脱敏/合规检查规则)、数据文件上传/下载FTP。机构用户作为数据用户的责任人,是数据用户所在企业或组织机构的责任人,一个机构下只有一个机构用户,可以拥有多个数据用户。机构用户和数据用户均可以自行申请,通过对机构用户和数据用户的申请及修改进行审核,可以更好地追踪和记录服务数据的流向。一旦发生数据用户数据泄密问题,可以追溯相关机构,协助追究责任。

2)业务管理人员。业务管理人员是数据服务需求的审批和管控人员,对服务输出数据的安全性负责。

业务管理人员包括数据安全管理员和审核人员。其中,数据安全管理员负责分配用户的密级、数据服务信息查看权限、取数权限、取数优先级权限以及配置数据过滤、脱敏及合规检查的规则。审核人员负责审核用户的注册/修改/注销,以及审核数据过滤、脱敏及合规检查的规则等。

3)系统管理人员。系统管理人员是指系统运维支撑和系统设置的管理人员,主要负责系统基础数据配置管理和系统日志监控。系统管理人员包括运维人员和系统管理员。其中,运维人员负责系统日常运营和维护;负责数据用户的数据文件上传/下载FTP的对接测试;负责系统异常处理。系统管理员作为超级管理员,具有系统的全部权限。

2 Gateway架构建议

Gateway系统功能架构如图2所示。其中,规则管理模块是Gateway的关键模块。

规则管理模块用于对各机构用户和/或数据用户的权限进行独立配置,针对不同的用户和不同的数据服务生成不同的查看权限、取数申请授权、取数优先级权限、数据过滤脱敏规则、合规检查规则以及服务数据的输出行数等,从而可实现不同数据用户间的资源隔离。任何规则配置只能由数据安全管理员操作,并需经过审核人员的审批后生效。

数据服务的查看权限,指机构用户和数据用户能否在数据服务列表中看到该服务及其详细信息。不同的用户所看到的服务列表可以各不相同。

数据服务的取数申请授权,指数据用户能否获取该服务的数据。数据用户可以在取数管理模块针对有查看权限的服务,提交取数申请,经过审核、配置取数申请授权后,可以通过取数管理模块发起取数请求。

数据服务的取数优先级权限,指多个数据用户同时发起取数请求时,取数管理模块创建取数任务的排序优先级规则。

由于不同机构用户或数据用户的密级要求一般不同,因此,为尽量避免多个数据用户通过共享获取的服务数据进行重组而获得敏感信息,针对不同用户和不同数据服务配置不同的数据过滤脱敏规则和合规检查规则。同一服务面向不同用户独立配置其数据过滤脱敏规则、合规检查规则、服务数据的输出行数。数据过滤脱敏规则和合规检查规则可以随机配置或预先配置,只要能尽量使得属于同一个机构用户下的数据用户很难通过获取的服务数据恢复出敏感信息即可。

需要说明的是,规则管理模块中必须设置数据的合规检查规则,从而确保提供给用户的服务数据的合规性。在数据中心已经配置有过滤脱敏功能的情况下,Gateway无需配置数据的过滤脱敏规则。

2.1 数据的过滤脱敏规则

图2 数据服务网关Gateway功能架构

过滤脱敏规则包括服务输出字段筛选、字段的条件过滤和字段内容处理。

1)服务输出字段筛选。服务输出字段筛选即为数据表的列过滤。例如,某服务的源数据中包括9个输出字段,字段名称分别为省份、用户编码、姓名、出生日期、身份证号、手机号、套餐类型、机型、月均话费。根据文献[6]规定,不允许输出用户姓名、出生日期、身份证件号码、住址、电话号码、账号和密码等字段;因此,针对数据用户的该服务请求,规则管理模块设置字段筛选规则使得该服务只输出省份、用户编码、套餐类型、机型和月均话费5个字段,则服务源数据中的姓名、出生日期、身份证号和手机号这4个字段都将被过滤掉。

2)字段的条件过滤。字段的条件过滤即为数据表的行过滤。字段的条件过滤又可分为两种过滤。第一种是根据字段的字典进行的过滤。例如,上例服务中的输出字段“省份”对应的省份字典包括“北京”、“河北”、“天津”、“河南”、“山东”5个取值,规则管理模块可以针对数据用户设置该服务的输出字段“省份”的取值过滤条件为只包括“北京”,则对于该数据用户,服务源数据中的省份字段取值为“河北”、“天津”、“河南”、“山东”的数据行都被过滤掉。第二种是针对数值类型的字段,根据数值比较表达式进行的过滤。例如,上例服务中的输出字段“月均话费”的数据类型是double,规则管理模块针对数据用户设置该服务的输出字段“月均话费”的取值过滤条件为:字段取值范围在50~100之间,则服务源数据中的月均话费字段的取值小于50或者大于100的数据行都被过滤掉。

3)字段内容处理。字段内容处理包括两种处理。第一种是对特殊字符进行替换的处理。例如,上例服务中,规则管理模块针对数据用户设置对该服务的输出字段“用户编码”进行特殊字符替换,将特殊字符(123)替换处理成***,则服务源数据中的字段“用户编码”中的“123”都将被替换为“***”。比如,服务源数据中的“用户编码”为“1235678”,经过替换处理后显示为“***5678”。第二种是对连续位数的字符进行截取替换的处理。截取替换包括:将前端N位字符替换成指定字符,将中间连续N位字符替换成指定字符,或将后端从第几位开始的字符替换成指定字符。

当要求将“用户编码”中的前4位换成6666时,如果服务源数据中的“用户编码”为“1235678”,则经过替换处理后显示为“6666678”。

当要求将“用户编码”中的第2至5位换成6666时,如果服务源数据中的“用户编码”为“1235678”,则经过替换处理后显示为“1666678”。

当要求将“用户编码”中从第4位之后的字符换成6666时,如果服务源数据中的“用户编码”为“1235678”,则经过替换处理后显示为“1236666”。

2.2 数据的合规检查规则

合规检查规则包括数据字段匹配、数据字典匹配、数值范围检查和字段长度检查。

1)数据字段匹配。数据字段规则定义了输出数据文件中包含的数据字段的个数,如果检查发现服务源数据中出现了额外的字段,即判定为非法输出数据。例如,上例服务中,应当只输出省份、用户编码、套餐类型、机型和月均话费5个字段,如服务源数据中出现了6个(含)以上的字段,则判定该服务源数据为非法输出数据。

2)数据字典匹配。数据字典规则定义了某输出字段的所有合规值,如果检查发现服务源数据中该字段的某个值出现了不在数据字典定义范围内的值,即判断为非法输出数据。例如,上例服务中,数据字典规则中定义了“省份”的合规值只有“北京”,如服务源数据中的“省份”字段的某个值出现了其他值,如“河北”、“天津”、“河南”或“山东”,则判定该服务源数据为非法输出数据。

3)数值范围检查。数值范围规则定义了数值类型的输出字段的合规范围,如果检查发现服务源数据中该字段的某个值出现了不在数值范围内的值,即判断为非法输出数据。例如,上例服务中,数值范围规则中定义了“月均话费”的合规数值范围为50~100,如服务源数据中的“月均话费”字段的某个值出现了该数值范围外的值,如“48”或“102”,则判定该服务源数据为非法输出数据。

4)字段长度检查。字段长度规则定义了字符类型的输出字段的长度的合规范围,如果检查发现服务源数据中该字段的某个值的长度超出了该范围,即判断为非法输出数据。例如,上例服务中,字段长度规则中定义了“用户编码”的合规长度范围为50,如服务源数据中的“用户编码”字段的某个值长度超出范围,如长度为51,则判定该服务源数据为非法输出数据。

3 Gateway业务流程

Gateway业务流程如图3所示,具体包括以下步骤。

步骤1:数据服务需求者(用户)通过Gateway的用户管理模块进行用户注册。

步骤2:Gateway的服务管理模块从数据中心同步各种数据服务的信息。

步骤3:Gateway的规则管理模块对用户进行数据服务查询权限的授权。

步骤4:用户通过Gateway的取数管理模块提交服务的取数申请。

图3 数据服务网关Gateway业务流程

步骤5:Gateway的规则管理模块对用户进行数据服务取数权限的配置。

步骤6:Gateway的取数管理向数据中心提交用户授权服务的取数申请。

步骤7:数据中心生成服务源数据。如果用户提交的是实时服务取数申请,则数据中心生成实时服务源数据;如果用户提交的是周期服务的取数申请,则数据中心将根据周期服务的生成周期,生成周期服务源数据。

步骤8:数据中心将服务源数据(实时服务源数据或者周期服务源数据存储信息)返回给Gateway。

步骤9:Gateway的数据脱敏处理模块根据规则管理模块中设置的针对该用户的数据过滤脱敏规则,对服务源数据进行数据过滤脱敏。具体的数据过滤脱敏可参照前述,此处不再赘述。

步骤10:Gateway的数据脱敏处理模块根据规则管理模块中针对该用户设置的合规检查规则,对经过数据过滤脱敏后的服务源数据进行数据合规检查,如果存在不合规数据,则中断本次服务数据取数流程。

步骤11:Gateway的数据脱敏处理模块根据规则管理模块中针对该用户设置的服务数据的输出行数,对满足数据合规检查规则的、过滤脱敏后的服务源数据,从首行开始,顺序截取规定行数的数据,生成服务数据。

步骤12:Gateway的取数管理模块将服务数据返回给用户,并进行计量和计费。实时服务的服务数据通过Web Service接口返回给用户;周期服务的服务数据采用数据文件方式通过FTP接口推送到用户的FTP服务器。对于输出的服务数据,根据用户的等级、输出的数据量大小和数据价值属性等进行计量和计费。

步骤13:Gateway的安全审计模块负责记录用户的操作日志和取数日志,取数日志内容包括数据输出的时间、对象(用户)、数据的元数据、脱敏规则、合规检查规则等,并定期对操作日志、取数日志进行审计。

4 结束语

本文探讨一种面向大数据安全运营的数据服务网关Gateway,该成果已在电信运营商的生产系统中应用,现已成功支撑了运营商对外开放服务数据的脱敏和合规检查,并已通过工业和信息化部电信研究院的技术测试。测试结果表明,Gateway对外提供统一数据访问服务、取数控制服务与安全管控处理,能够保障输出数据的安全性,满足中关于个人信息保护的相关法律法规、标准,在业务数据交互过程中符合的规定[6-14]。

当前,电信运营商对外开放数据服务还在起步阶段,主要还是围绕自有数据资源深度加工后的服务;随着未来跨领域数据合作的推进,跨领域数据的深度融合、共享、开放、流通和交易,可能对数据的脱敏、合规性提出更高要求,这将是一个值得未来继续深入研究、探索的课题。

参考文献

[1] 中国计算机学会大数据专家委员会中关村大数据产业联盟.中国大数据技术与产业发展报告(2014)[R].机械工业出版社,2015

[2] 范济安,李卫,魏进武.电信运营商的大数据发展战略[J].信息通信技术,2015,9(6):5-12

[3] 李卫,魏进武.电信运营商数据开放服务架构[J].信息通信技术,2015,9(6):24-28, 35

[4] 刘春,邹海锋,向勇.大数据环境下电信数据服务能力开放研究[J].电信科学,2014(3):156-161

[5] 马琳,宋俊德,宋美娜.开放平台:运营模式与技术架构研究综述[J].电信科学,2012(6):125-140

[6] 中华人民共和国工业和信息化部2013年第24号令:电信和互联网用户个人信息保护规定[EB/OL].[2016-04-15].http://www.miit.gov.cn/n11293472/n11294912/n11296542/15514014.html

[7] GB/Z 28828-2012:信息安全技术公共及商用服务信息系统个人信息保护指南[M].北京:中国标准出版社,2012

[8] 2014-1039T-YD:电信运营商的大数据应用业务安全技术要求[S/OL].[2016-04-15].http://www.ccsa.org.cn

[9] 中华人民共和国国务院:中华人民共和国计算机信息网络国际联网管理暂行规定实施办法[EB/OL].[2016-04-15].http://www.law-lib.com/law/law_view.asp?id=13818

[10] 中华人民共和国信息产业部令(第3号): 互联网电子公告服务管理规定[EB/OL].[2016-04-15]http://www.gov.cn/gongbao/content/2001/content_61064.htm

[11] 中华人民共和国主席令第二十一号: 中华人民共和国侵权责任法 [EB/OL].[2016-04-15].http://www.gov.cn/fl fg/2009-12/26/content_1497435.htm

[12] 中华人民共和国第九届全国人民代表大会常务委员会第十九次会议: 全国人民代表大会常务委员会关于维护互联网安全的决定[EB/OL].[2016-04-15].http://www.npc.gov.cn/wxzl/gongbao/2001-03/05/content_5131101.htm

[13] 中华人民共和国公安部令第82号:互联网安全保护技术措施规定[EB/OL].[2016-04-15].http://news.xinhuanet.com/newmedia/2006-03/01/content_4240889.htm

[14] 2014B21:电信互联网大数据开放平台标准化研究[EB/OL].[2014-04-15].http://www.ccsa.org.cn

[15] 胡坤,刘明辉,宫雪等.电信运营商应用数据的安全管控与隐私保护研究[J].信息通信技术,2013,7(6):63-67

[16] 丘金源.分布式数据网关研究[D].广州,广东工业大学,2005

[17] 王春皓.服务网关系统:中国,CN200610062810.5[P].2006-09-27

[18] 任钢,吴隆萍,陈文军,等.一种数据交换方法和系统及一种网关服务器:中国,CN 201410177069.1[P]. 2014-04-29

猜你喜欢

脱敏数据服务字段
地理空间大数据服务自然资源调查监测的方向分析
图书馆中文图书编目外包数据质量控制分析
激光联合脱敏剂治疗牙本质过敏症
基于数据中台的数据服务建设规范研究
谈一谈脱敏治疗
数据服务依赖图模型及自动组合方法研究
让青春脱敏
如何运用税收大数据服务供给侧结构性改革
Nd:YAG激光作用下牙本质脱敏机制的研究
CNMARC304字段和314字段责任附注方式解析