无线音乐业务敏感数据保护技术研究
2013-06-01杨雪涛
杨雪涛
(中国移动通信集团四川有限公司,成都 610041)
无线音乐业务敏感数据保护技术研究
杨雪涛
(中国移动通信集团四川有限公司,成都 610041)
中国移动无线音乐基地从2005年创立至今,得到了飞速的发展,目前用户规模超过1亿,在业务快速发展的同时,如何保护好上亿用户的个人敏感数据,成为音乐基地信息安全管理的一个重大课题。本文结合音乐基地个人敏感信息的特点和网络系统架构的实际,综合运用业务应用敏感数据检测等技术,探索实现了一种保护音乐基地敏感数据的方法。
信息安全;敏感数据;数据保护
1 研究背景
随着信息技术的高速发展,用户私人信息的泄露情况也日益严重,已经成为一种亟待解决的社会现象,据统计88.9%的人表示曾因个人信息泄露遭遇困扰,其中84.2%的人认为个人电话号码最需要立法保护。电信企业拥有大量有价值用户信息和自身敏感的商业数据,成为信息泄露源头之一。
目前音乐基地业务量已达到很大的规模,敏感数据主要存在于音乐基地六大门户(WWW网站, WAP门户,IVR门户,手机客户端,PC客户端,短信门户)、业务系统及中音平台中,涵盖生产系统、支撑系统、测试系统、已备份的数据等各个层面。
从数据内容来看,敏感数据主要包括用户个人手机号码、用户个人铃音库、集团客户资料等。
从访问者、访问途经的角度来分析,音乐基地敏感数据的泄露存在于以下几个环节中。
(1) 开发环节:涉及集成商、第三方、音乐基地开发和测试人员、外围系统人员(包括应用开发环节、数据迁移、应用接口、应用测试等环节)。
(2) 运维环节:涉及音乐基地维护人员、代维厂商(包括主机管理、数据库管理、应用管理、安全管理、存储管理、网络管理等环节)。
(3) 使用环节:涉及音乐基地业务支撑部门以外的业务部门和人员包括客户服务环节(营业厅、客服坐席、跨区服务面向最终用户服务、渠道或代销合作伙伴。
目前,音乐基地已经建立了比较完善的管理制度,同时结合身份认证、访问控制、后台审计等技术手段来进行数据安全管理,但这些技术手段主要是从访问者的行为角度对其访问行为进行记录和审计,以访问控制为基础,达到防止违规访问的目的,并通过日志审计对合法访问者的访问进行审计。但现有的这些手段难以从业务流中识别非法者的访问,综合以往的信息泄露事件来看,敏感信息的泄露,往往是具有合法身份的人对敏感数据合法或非法的访问。如果合法访问者采取较为隐蔽、复杂的方式访问敏感数据,如采用跳转、运行脚本等,则很难单纯地利用审计日志分析其行为的合法性。
为了达到防止音乐基地敏感数据泄露的目的,除了需要建立完善的访问控制机制来控制、审计访问行为外,还需要从网络数据流中感知传输的敏感数据、分析敏感数据全局网络流向,关联分析访问行为,从而全面发现并防止敏感数据的非法访问。
2 无线音乐业务敏感数据保护技术研究
2.1 当今主流的敏感数据保护技术及优点
当今主流的敏感数据保护技术主要是通过数据采集、数据还原、数据检测及分析等方法来实现的。
图1 当今主流的敏感数据保护技术
2.1.1 镜像数据接入采集及还原技术
数据采集通过普通网卡或是专用采集卡来实现。采用专门定制的智能网卡,智能网卡能够接入2~4个吉比特以太网线路,能线速处理2 Gbit/s以上流量。
对于网络数据流量的采集可以通过在核心交换机上镜像数据或是对核心交换链路进行分光,复制出网络数据流,然后通过对网络数据流利用旁路捕分组技术,实现对网络数据的采集。网络数据底层采用UDP、TCP/ IP进行传输,对采集的网络数据按照UDP、TCP/IP协议规范进行还原、重组,得到目前网络中交互的各种数据。
2.1.2 业务应用敏感数据检测技术
对于业务应用敏感数据的保护,首先在于能够识别出网络中传送的业务数据流,并能够区分出敏感的业务内容。
(1)IP业务流自动识别模型。目前业务识别技术是基于五元组(IP协议字段、IP源目的地址、TCP源目的端口号)的流分类技术,但对于上层的应用协议识别技术的算法研究并不多,实际可行的成熟算法实现并不多见。流分类技术分关键性在于查找的时间效率和空间效率,算法已经比较成熟。
(2)基于业务流的敏感内容检测模型。目前对于敏感内容的检测,主要基于深度分组检测技术即DPI技术来实现。DPI是一种基于应用层的流量检测和控制技术,当IP数据分组、TCP或UDP数据流通过基于DPI技术的带宽管理系统时,该系统通过深入读取IP分组载荷的内容来对OSI 7层协议中的应用层信息进行重组,从而得到整个应用程序的内容,然后按照系统定义的管理策略对流量进行整形操作。对与网络中传递的数据内容的检测,目前采用基于“特征字”的识别技术;应用层网关识别技术;行为模式识别技术方式来实现。
2.2 无线音乐基地敏感数据保护所采用的主要技术及优点
在音乐基地目前的网络环境中,通过对核心交换链路的分光/镜像等技术手段,旁路采集网络数据流并进行重组、还原,然后通过应用业务自动识别,发现业务数据流,并对业务交互中出现的敏感内容进行识别,从而对访问敏感内容的行为进行监管。
2.2.1 镜像数据接入采集及还原技术
2.2.1.1 镜像/分光采集
音乐基地网络环境具有高带宽的特点,采用了专门定制的智能网卡,能够接入2~4个吉比特以太网线路,能线速处理2Gbit/s以上流量,并且通过零拷贝技术将数据报文直接送到监控程序运行的用户态,从而将整个监控系统在镜像数据接入采集上的计算资源消耗降低到小于1%的CPU消耗。同时,智能网卡能够对报文进行同源同宿的分流,即在确保报文同源同宿的情况下把报文送到多个不同的缓冲区中,这样监控程序才可以充分发挥多核CPU硬件系统的计算能力。
2.2.1.2 网络协议还原
协议分析还原技术从IP分片报文开始,一直到应用层的HTTP会话,一层层进行协议还原,首先完成IP分片的重组,获得完整的IP报文后进行TCP会话重组,获得TCP的原始报文流以后进行HTTP协议还原,对压缩内容进行解压,从而获得完整的HTTP会话数据。
IP分片和完整IP报文差不多拥有相同的IP头,ID域对于每个分片都是一致的,这样才能在重新组装的时候识别出来自同一个IP报文的分片。在IP头里面,16bit识别号唯一记录了一个IP分组的ID,具有同一个ID的IP分片将会重新组装;而13bit片偏移则记录了某IP片相对整个分组的位置;而这两个表中间的3bit标志则标志着该分片后面是否还有新的分片。这3个标志就组成了IP分片的所有信息,接受方就可以利用这些信息对IP数据进行重新组织。
分片重组是IP层一个最重要的工作,其处理的主要思想:必须进行分片的报文分组,在IP数据分组的报头有若干标识域注明分片分组的共同标识号、分片的偏移量、是否最后一片及是否允许分片。传输途中的网关利用这些标识域进行分片,有主机把收到的分片进行重组以恢重数据。因此,分片分组在经过网络监测设备、安全设备、系统管理设备时,为了获取信息、处理数据,往往必须完成数据分组的分片或重组。
2.2.1.3 TCP数据流重组
建立TCP流需要进行三次握手信息,当断开连接时需要四次握手信息,具体交互如图2所示。
图2 TCP三次握手技术
由于网络的复杂性,TCP协议还规定了重发机制以保证数据流的完整性,同时不同的TCP数据分组,由于网络时延、数据分组丢失等原因,可能会产生分组乱序现象,因此对于整个TCP数据流的处理,远比对单个分组进行检测难度大很多。着眼于大流量高速TCP流的重组还原,具体需要考虑TCP数据流高速缓存查找算法和TCP数据分组快速排序算法。
2.2.2 业务应用敏感数据检测技术
对网络数据流进行还原后需要针对业务应用场景进行业务流的识别,以准确定位含敏感内容的业务交互。
基于流的敏感内容检测模型是针对识别到的业务流结合特征字检测、行为模式分析等手段对整个业务流进行监测,从而判定业务流中是否存在敏感数据内容。
2.2.2.1 敏感数据特征库
建立敏感数据多维特征库,以识别传输内容中是否含有敏感数据。敏感数据特征库应包含以下3个方面。
(1) 敏感数据存放特征:对于数据库中存放的敏感数据包括了数据库服务器地址、数据库服务端口、数据库类型、数据库实例名、表名、数据表结构描述等信息;对于存放于主机中的敏感数据文件,包括主机地址、开放协议类型、端口、文件存放路径、文件名格式描述等信息。
(2) 敏感数据内容特征:包括敏感数据内容格式特征、敏感数据关键字特征、敏感数据类型特征等。
(3) 敏感数据操作命令特征:包括HTTP请求命令特征、FTP操作命令特征、Telnet执行命令特征、数据表查询命令特征等。
2.2.2.2 敏感数据内容发现
根据敏感数据多维特征库,利用模式识别技术对解析后的内容,进行模式识别,判断是否进行敏感数据访问,获取相应的访问方式等信息。主要包括以下两方面的识别。
(1) 访问目标识别:根据访问目标的IP、端口等要素,结合敏感数据存放特征和敏感数据操作命令特征进行匹配,判断访问目标是否存放有敏感数据。
(2) 访问内容识别:根据解析、还原出来的应用协议内容,结合敏感数据内容特征,判断是否正在访问敏感内容。
2.2.2.3 访问行为分析
访问行为分析是根据解析访问者的HTTP请求命令、FTP操作命令、Telnet执行命令、数据库操作命令等信息,综合回应的内容、流量、数据来源等信息,并关联其它系统提供的如访问者身份、操作日志等信息进行分析以确定访问行为。
3 无线音乐业务敏感数据保护技术实践
在无线音乐基地敏感数据保护工作中,首先在核心交换机处部署镜像分光设备,用以采集网络访问数据,之后将这些数据传送到数据库分析服务器、数据库服务器、Web等服务器,对业务流中敏感数据的还原、分析、保存。对识别出的违规使用敏感信息行为进行告警。
系统测试组网如图3所示。
图3 系统测试组网图
(1) 采集服务器:抓取从核心交换机镜像出来的数据。
(2) 数据分析服务器:对还原、重组后的TCP数据流进行包括业务应用协议识别、敏感内容识别等分析。
(3) 数据库服务器:用于存储还原后的原始数据,并提供关联分析的基础。
(4) Web展现服务器:提供用户访问的UI。
要实现对无线音乐敏感信息的保护,还有一项重要工作,就是对敏感数据特征库的配置。这需要基于对目前无线音乐业务敏感数据的全面准确的调研,包括对存储有敏感信息的数据库的表、字段等特征进行详细的调研,同时对合法访问这些敏感信息的途径进行统计和抽象提取;除此之外,还需要对无线音乐敏感信息的内容特征进行统计和抽象提取,如手机号码、身份证号码等这些字段的特征。
在把上述信息统计好后,配置到数据库服务器的应用中,就可以对还原的网络数据流进行关联分析了,对发现的不合规的敏感信息访问和操作行为,即可视为对敏感信息的非法访问,从而予以识别和告警。
在实际应用中,获得的统计数据如表1所示。
表1 系统测试数据
4 结束语
目前无线音乐业务往往面临两难境地,一方面,为使信息的价值实现最大化,它们必须向员工、商业伙伴和顾客公开信息;另一方面,这种公开使企业难以进行访问控制,也难以限制信息被复制的次数,给对敏感数据的保护带来一定难度。
本文总结了前期无线音乐基地探索实现敏感信息保护所采取的一些尝试和努力,在实际的工作中发挥了较好的作用,为移动数据业务发展中敏感信息防护提供了一套有益的解决思路和方法。
随着移动互联网的不断发展,提供给用户的业务越来越开放,敏感信息的防护也面临越来越严峻的挑战,敏感信息防护技术也必将随之不断发展。无线音乐基地也将持续关注敏感信息防护技术的最新发展,不断提升敏感信息的防护力度,以确保无线音乐业务的健康发展。
[1] Stallings William著, 潇湘工作室译. 网络安全要素——应用与标准[M]. 北京:人民邮电出版社, 2000,9.
[2] Housley R. Internet X.509 Public Key Infrastructure Certificate and CRL Profile,RFC2459[S]. January 1999.
[3] 刘乐伟. 面向数据发布的隐私保护技术研究[J]. 数字技术与应用,2012,(12).
[4] 王波,杨静. 数据发布中的个性化隐私匿名技术研究[J]. 计算机科学,2012,(04).
[5] 韩璐. 针对推荐系统中信息共享需求下隐私保护机制的研究与实现[D]. 南京:华东师范大学,2011.
[6] 张立丰. 基于动态数据集面向多敏感属性的隐私保护技术研究[D]. 呼和浩特:内蒙古科技大学,2011.
News
泰克最新前沿相干光测试完整解决方案
泰克公司日前在亚洲光纤通信与光电国际会议 (ACP 2013)上展出了其最新前沿相干光测试完整解决方案,其中包括宽带OFDM光通信系统测试解决方案、400G/1Tbit/s多载波相干光调制方案以及40G/100G光通信一致性解决方案。
在大会现场,泰克专家向与会观众介绍了泰克宽带OFDM光通信系统测试解决方案,这是一套结合了泰克最新推出的AWG70000任意波形发生器与高带宽的DSA73304D数字荧光示波器组成的无缝测试解决方案。AWG70000采样率高达50GS/s、带宽高达20GHz,可以直接生成现代相干光通信系统要求的IQ基带信号,而DSA73304D高达33 GHz的带宽、100GS/s采样率,以及PDOJET专业抖眼图动测试软件、SignalVu(OFDM)信号分析专业软件,完美满足了接收机测试对高带宽、高性能示波器的要求。
Research on wireless music business sensitive data protection technology
YANG Xue-tao
(China Mobile Group Sichuan Co., Ltd., Chengdu 610041, China)
China Mobile Wireless Music Base was founded in 2005, has been rapid development, at present the user scale more than 100,000,000, in the rapid development of the business, how to protect sensitive personal data of millions of users, has become an important research topic music base for information security management. In this paper, sensitive personal information music base characteristics and the actual network system architecture, comprehensive use of business application of sensitive data detection technology, exploring music base to achieve a kind of protection sensitive data.
information security; sensitive data; data protection
TN918
A
1008-5599(2013)12-0055-05
2013-06-08