基于大数据平台敏感数据流转全生命周期监控的研究与应用
2018-02-28严敏何庆
严 敏 何 庆
(中国移动通信集团南方基地IT支撑中心运营分析室 广州 510640)
在当今的信息时代,信息具有越来越大的价值,移动互联网的到来促进了信息交流沟通的灵活便捷,同时,也带来了敏感信息、隐私信息泄露的风险.面对较高价值的数据、较多的信息获取通道而相对较低的获取成本,非法活动无孔不入.调査数据反映内部是泄露敏感信息的短板,除了财务上的损失,更严重的是一些数据泄密事件给企业造成了恶劣的声誉和社会影响.
这样的背景之下,运营商对客户敏感信息的管控得到前所未有的关注,这关系到运营商的业务是否可以顺利的开展,能否留住优质用户,新兴增值业务是否有安全保障,也关系到广大用户的隐私安全[1].虽然三大运营商近几年来都持续地开展了许多网络安全建设,投资了大量的网络安全设备,但是针对客户敏感信息保护这一视点的管理思路和安全办法仍需要不断提高.我国运营商的发展和建设迫切需要一套完善的客户敏感信息管控体系来保驾护航.
1 敏感数据全生命周期监控的研究
1.1 国内运营商客户敏感信息安全管理现状分析
通信运营商因为通信运营的责任和使命决定了其业务支撑应用系统(IT支撑系统)承载了大量的客户信息、生产数据和运营决策数据等企业敏感信息.其中与客户相关的敏感信息指用户向运营商各级公司提供的用户相关的各种信息,以及用户在使用运营商通信服务的过程中产生的各种通信记录和消费记录等非通信内容.这些信息被窃取或纂改会对客户隐私、公司利益、公司声誉带来安全隐患.
国内运营商敏感信息作为运营商核心的无形资产,不但关系着运营商的业务推广、市场开拓、客户满意度,一旦遭到泄露和公开还会导致企业信誉品牌受到重创.目前国内运营商的客户敏感信息现状令人堪忧.
1.2 国内运营商客户敏感信息安全管理面临的挑战
敏感信息的存储位置多,流转链条长,涉及众多系统,虽然己经意识到敏感信息泄露的严重现状,但保护企业客户信息和敏感数据的安全,一直以来也是安全业界的难点.近年来,国内电信运营商在安全建设方面做了很多工作,但针对敏感信息防护的安全手段局部,敏感信息安全仍然存在诸多问题亟待解决.例如敏感信息的存储地点、访问途径、风险点梳理起来工作量巨大,面临大数据分析的难题和瓶颈.能够接触到敏感信息的人众多,有内部人员、代维人员、系统开发厂家等,信息安全的管理触及人员多,推进难度大.随着时间的推移,运营商IT系统有意无意地被很多人了解,这里面不乏心怀不轨者,而IT系统面临的黑客安全攻击则更隐蔽、更趋利、手段更多.
1.3 基于大数据平台敏感数据流转全生命周期的研究
1.3.1结合运营商大数据平台分层架构,识别信息生命周期的安全风险[2]
大数据平台的分层架构,反映了信息的生命周期阶段特征[3],如图1所示:
图1 敏感数据生命周期
1) 数据采集层对应于信息的收集和传输,需重点关注数据的可靠性保证和数据通信安全;
2) 数据存储处理层对应于信息的存储、挖掘和归档,侧重于数据的保密性和完整性保证;
3) 数据服务层对应于信息的使用和共享,强调数据的保密性和可用性保证;
4) 数据应用层对应于信息的销毁,重点是数据访问安全.
1.3.2基于运营商大数据平台分层架构,实现对敏感信息的保护[4]
针对每种敏感信息保护技术的特点和适用场景,本文设计了一种基于运营商大数据平台架构的敏感数据保护方式,如图2所示.
图2 大数据平台敏感数据架构
1) 数据采集层的传输数据加密/解密;
2) 数据存储处理层的数据失真处理;
3) 数据服务层的数据匿名化限制发布;
4) 数据应用层的数据审计监控;
5) 贯穿各层的敏感信息元数据管理.
1.4 基于大数据平台敏感数据流转全生命周期监控的应用
敏感数据分布范围广、访问操作频繁,通过多种视图综合呈现敏感数据在大数据平台中的存储、流转、操作,访问等情况,形成可定制的管控视图,展现大数据全生命周期管控过程.
图3 大数据平台敏感数据监控应用
1.4.1敏感信息资产分布监控试图
在咨询和信息收集过程中,已经基本上把包含敏感信息的主机、数据库等资产情况摸清.但是,资产信息并不是一成不变的,随着业务的变化和业务系统的变更,存储敏感信息的资产会动态变化.为了更好地监控敏感信息资产的变动情况,我们需要建设一套敏感信息资产监控系统,用于主动探测敏感信息资产的动态更新情况,以保证在敏感信息分级和监控中的准确性和有效性.系统界面如图3所示.
该系统是为了监控敏感数据在其生命周期中的使用、存储环节,对敏感数据在使用、存储过程中不断发生的变化进行防护,防止敏感数据在存储载体中被泄露的可能[5].主要包含以下几个步骤:
1) 数据资产搜集;
2) 资产主动扫描、被动发现;
3) 资产人工导入.
1.4.2数据安全合规性检查
为了更好地保护敏感信息,在敏感信息创建过程中必须进行安全管控.敏感数据安全合规性检查,是在各业务支撑系统的敏感数据创建、导出等过程中的防护,对创建和导出转移的数据进行模糊化处理.
1) 数据安全合规管理;
2) 数据取样规则管理;
3) 模糊化规则管理;
4) 模糊化核查策略管理;
5) 数据安全合规检查.
1.4.3敏感数据等级分布详请
为了解决包含敏感信息的敏感数据在存储、使用、流转过程中的泄密途径,需要对敏感数据的详细分布情况进行记录和查询监控,系统界面如图4所示.保证数据在创建之后的存储、使用、归档直至销毁都是处于加密的状态下进行的.
图4 大数据平台敏感数据展示
1.4.4敏感数据操作日志分析
需要分析出不同数据库产生的敏感数据操作类标准日志,通过对日志相关属性如日志类型、操作对象、操作命令、时间、源IP、目的IP等进行多维、综合关联分析,输出敏感数据[6].
收集敏感数据源信息,确认敏感数据传播扩散起始点,收集的数据源信息包括敏感数据源设备类型、数据源IP、访问方式、解密脚本等.
获取所有敏感数据对象,保存至敏感数据对象列表SL中.敏感数据对象信息包括敏感数据源IP、敏感数据名称、敏感数据操作语句、敏感数据生成时间等.
遍历敏感数据日志的对象,以对象属性敏感数据源IP、对象名称、数据形态、存储路径为条件,与有敏感数据操作标识的标准化日志相关属性(如:源IP、操作对象名称、操作内容)进行匹配,匹配成功,则根据标准化日志相关属性信息生成过程敏感数据对象操作,并存储在过程敏感数据对象列表PL中,同时生成敏感数据访问或操作路径节点对象,存储在操作路径节点对象列表TL中.重复以上步骤直至遍历完SL中的所有对象.操作路径对象信息包括上一级节点IP、当前节点IP、流转方式、流转时间、敏感数据名称、账号.
查询过程敏感数据对象列表PL中的对象,找出该敏感数据对象访问、操作的节点.以该过程敏感对象属性如敏感数据源IP、对象名称、存储路径为条件,与有敏感数据操作标识的标准化日志相关属性进行匹配,若匹配成功则将该对象移除PL列表,根据匹配的标准化日志相关属性信息生成过程敏感数据对象,并存储在过程敏感数据对象列表PL中,同时生成敏感数据访问路径对象,存储在流转路径对象列表TL中.如果匹配失败则将该对象移除PL列表.重复以上步骤直至遍历完PL中的所有对象.
2 结 语
运营商大数据应用方兴未艾[7],为积极稳妥地推进大数据平台的服务能力提升,避免探索创新过程中可能遇到的舆论和法律风险,需要高度重视大数据平台的敏感信息保护问题.
本文探讨了运营商大数据平台的敏感信息范围,给出了敏感信息保护的方法步骤,总结了该研究领域内的关键技术及每类技术的主流技术方法,并针对实际的运营商大数据平台的分层架构,设计了不同敏感信息保护技术的技术实现方案.
需要指出,学术界所研究的敏感信息保护技术,一般是基于单一静态数据集的环境给出的理想模型.而实际的运营商大数据生产环境要复杂得多,数据集是无时无刻不在变化的,而且这种变化一般都不是完全随机、独立的,而是相互关联的.如何在实际的复杂环境下同时实现对动态数据的利用和敏感信息保护, 还有待于更深入的理论研究和实践探索.
[1]周水庚, 李丰, 陶宇飞, 等. 面向数据库应用的隐私保护研究综述[J]. 计算机学报, 2009, 32(5): 847-861
[2]冯登国, 张敏, 李昊. 大数据安全与隐私保护[J]. 计算机学报, 2014, 37(1): 246-258
[3]电信和互联网用户个人信息保护规定[OL]. 2014 [2017-12-15]. http://www.miit.gov.cn/n11293472/n11294912/n11296542/15514014.html
[4]王博. 大数据发展背景下网络安全与隐私保护研究[J]. 软件导刊, 2016, 15(8): 171-172
[5]刘雅辉, 张铁赢, 靳小龙, 等. 大数据时代的个人隐私保护[J]. 计算机研究与发展, 2015, 52(1): 229-247
[6]张文科, 刘桂芬. 云计算数据安全和隐私保护研究[J]. 信息安全与通信保密, 2012 (11): 38-40
[7]华汪明, 张新跃, 汪飞. 电信运营商敏感信息保护体系研究与设计[J]. 现代电信科技, 2011, 11(11): 229-247