“鹰眼”大数据安全管控平台的技术实现解析
2017-03-10李丽红
【 摘 要 】 计算机和互联网技术正在改变人们的生活方式,同时而来的是信息安全问题。为了防御外部攻击,保障日常应用系统可靠运行,需要投入大量资金用于防火墙、交换机等网络安全产品和数据库、服务器等基础设施建设,这些系统日常运行中以日志形式记录大量的信息,是信息技术人员日常监控、维护的重要依据。随着大数据技术的成熟,我们利用数据挖掘、关联分析、模式识别等技术实现从基础设施日常运行产生的海量日志数据中及时发现潜在的安全威胁,并形成实时的、自动化的阻截能力,将成为安全防御体系的发展方向。
【 关键词 】 网络安全;海量日志;安全威胁;安全防御;数据挖掘;关联分析
Technical Analysis of “Eagle Eye” Big Data Security Management Platform
Li Li-hong
(Information Security Management Dept,China Pacific Insurance (Group) Co.Ltd. Shanghai 200233)
【 Abstract 】 Computer and Internet technology are changing the activities of human society, and also bring information security issues. In order to defend against network attacks and maintain business systems stable, it is necessary to invest a lot of money in network security products such as firewalls and IPS, infrastructure system such as databases and servers. In day-to-day operation, these systems create a large amount of logs which are the important information to monitor and maintain by technical personnel. With the maturity of big data technology, we use data mining, threat intelligence, reputation feeds, pattern recognition etc to identify, understand, respond to security threats. Based on the "Eagle Eye", we built a real-time situational awareness, actionable intelligence to block attack automatically which is the main direction of our security construction.
【 Keywords 】 network security;massive log;security threat; security defense;data mining;threat intelligence
1 引言
隨着移动、云计算、大数据、互联网和移动终端的广泛运用,传统保险业快速向互联网转型,保险产品营销和服务实现移动化、自助化不断加速,各种APP如雨后春笋,层出不穷。互联网+保险,以技术作为最主要驱动因素催生了传统保险业营运和商业模式的变革。据不完全统计,全国通过互联网渠道销售的保险收入逐年翻倍增长。
2 互联网+保险面临的安全问题
新技术应用给保险行业的发展带来了新的机遇,但同时,由于互联网先天存在的虚拟特征,给企业带来许多信息安全问题和挑战。
一是各保险公司为提升客户体验,向用户提供手机、PAD、互联网等多种接入方式、多渠道支付方式,金融支付类病毒利用系统漏洞盗取用户账户信息事件频发。
二是大数据日益显著的商业价值导致信息泄漏更严重。
三是全球化的商业竞争导致黑客攻击更严重和频密,金融平台的特殊属性,更容易成为各类恶意攻击的首选目标。
四是商业化、工具化的黑客工具唾手可得,原来复杂的需要专业技能和设施的攻击往往很方便可以从网上下载或购买。
五是内部人员的权限控制不当造成的信息泄露、篡改、丢失也是潜在的威胁。正如一把双刃剑,移动互联网技术既给保险业带来了前所未有的创新,给客户带来从未有过的高效便捷,也给行业的信息安全带来了挑战和压力。
3 “鹰眼”信息安全综合管控平台
面临新的挑战,传统的、依靠不同厂商的安全设备堆叠的安全防御系统需要改造升级,传统的依靠安全和运维人员人工发现、判断、分析和处理问题的流程需要优化提升,需要建设一个集成的安全防御系统以实现各类威胁的预知、防御的自动化处理、追踪的可视化展现,实现以用户可接受的运营成本,快速抵御更多威胁。
大数据技术的快速发展和日益成熟的应用为我们提供了技术手段。在信息系统中任何系统操作都会留下日志,黑客入侵的操作也会留下日志,而按照监管规定,保险业务系统、操作系统、数据库、网络设备、安全设备均需保留一定时间的日志,对于一家大型保险公司而言,每日产生的日志量在数十亿条。自主研发的“鹰眼大数据信息安全管理管控平台”(简称“鹰眼系统”)正是借助大数据技术通过对这些日志的分析,来发现各类潜在威胁。
3.1 “鹰眼”系统架构和功能
“鹰眼”系统目前部署在太保集团上海数据中心和成都数据中心,可同时分析两大数据中心的安全事件。“鹰眼”系统的部署架构如图1所示。
ERC日志采集系统做HA提高其可用性,同时ERC也支持虚拟化平台。
ELM日志存储系统主要承担接收、查询原始日志的角色。
ACE事件关联分析系统可提供实时关联分析和历史关联分析。
ESM承担整个生产SIEM的管理角色,也是用户的访问接口界面。
DAS-50是50T直连存储,直连ELM-4600用于长期在线存储原始日志,或直连ESM用于长期存储关联事件及参与关联的规范化事件。
3.2 安全事件响应处置流程
“鹰眼”系统将各类安全事件集中监控,通过关联规则将有价值的安全事件呈现出来,再根据安全事件的大小与影响范围,设置安全事件处置等级,依据等级进行不同优先级响应。针对高风险的外部攻击事件,平台不仅可以立刻告警邮件通知相关人员,还能够自动联动IPS设备进行主动隔离;针对普通安全事件平台能生成工单自动发送给安全运维人员及时处置。
4 “鹰眼”安全管控平台的关键技术解析
4.1 各类设备和应用运行日志的统一采集和甄别
我们收集的对象为网络设备日志、防火墙日志、入侵检测日志、代理服务器日志以及操作系统、数据库审计日志、事件日志等。这些信息由ERC日志采集系统收集,并且转发给ESM集中管理平台, ESM集中管理服务器把原始的事件一份直接存储到ELM日志存储系统上,另外一份解析成统一的能够被关联引擎所识别的格式,提供给ACE关联分析引擎进行进一步的分析。
4.1.1日志采集范围和技术
“鹰眼”系统采集事件日志类型有几种。
操作系统日志:主要包括Windows、Linux、AIX、HP-UX系统。
网络设备日志:主要包括防火墙(Cisco、Juniper)、交换机(H3C、Cisco、华为)、路由器(Cisco)、ACS、VPN、无线AC、负载均衡(F5、Radware)。
安全设备:主要包括IPS、WAF、邮件安全网关、安全代理、SSL加速、DP、TDA、TMCM、DeepSecurity、Officescan、SEP、WSUS、DLP、MVM、BVS、Appscan、堡垒机、特权CyberArk。
辅助系统:主要包括CMDB、Remedy、Patrol、Windows AD。
采集日志的方式主要有Syslog、WMI、FTP、文本、读取数据库等方式。
4.1.2各类事件日志的标准化处理
不同类型的设备记录日志的格式不同,从各类设备采集的日志必需经过解析处理并整理成统一的格式后才有价值。
我们在开发过程中首先对设备和事件日志设置唯一编号,每一种设备的编号为Normalized ID,日志的分类号为Signature ID,然后建立统一(Normalization)日志格式:事件日志触发时间(Frist time)、结束时间(Last Time)、源地址(Source IP )、目的地址(Dest. IP )、源端口(Source Port)、目的端口(Dest. Port)、严重级别(Event Subtype)、唯一事件号(Signature ID),事件類别编号(Normalized ID)等等。这样处理后可以标准化事件分类,在运维和问题排查过程中,可以很方便的定位故障点,管理和追踪攻击来源。
4.1.3正则表达式在安全事件标准化中的应用
一般成熟的厂商会标准化大部分产品的输出日志格式,很多自己开发的系统以及部分国产产品日志格式并不能被直接解析成标准格式,因此就需要人工对unknown的日志进行解析,我们使用正则表达式识别并标准化此类日志。
正则表达式(Regular Expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。
举例来说,如下收到原始日志格式为:
<29>Jul 30 00:03:47 [10.1.4.103.128.42] id=tos time="2012-07-29 23:32:33" fw=WT-NGFW4000-A pri=6 type=pf src=10.100.64.66 dst=10.1.4.103 sport=62595 dport=8 smac=00:1C:57:29:00:40 dmac=00:13:32:02:21:E8 proto=ICMP indev=intranet rule=Accept policyid=8057 msg="中文测试null"
“鹰眼”系统默认的识别规则不能解析,通过正则表达式可将日志中关键项提取出来并赋值到标准化字段中,编写的正则表达式如下:
\x5d\s+id\x3d([^\s]*)\s+time\x3d\"([^\s]*\s[^\s]*)\"\s+fw\x3d([^\s]*)\s+pri\x3d([^\s]*)\s+type\x3d([^\s]*)\s+src\x3d((?:\d{1,3}\x2e){3}\d{1,3})\s+dst\x3d((?:\d{1,3}\x2e){3}\d{1,3})\s+sport\x3d([^\s]*)\s+dport\x3d([^\s]*)\s+smac\x3d([^\s]*)\s+dmac\x3d([^\s]*)\s+proto\x3d([^\s]*)\s+indev\x3d([^\s]*)\s+rule\x3d([^\s]*)\s+policyid\x3d([^\s]*)\s+msg\x3d([^\s]*)
通过上述标准化处理工作,可有效实现对不同设备日志的统一化管理。目前已实现可接入所有网络、安全设备、数据库、中间件、操作系统及业务系统日志,覆盖太保集团上海、成都两大异地数据中心六大类32种设备类型,每天收集的实时日志信息均在30亿条左右,全部实现集中、标准化管理和可识别处理。
4.2 基于大数据技术的海量日志事件关联分析平台技术原理
我们研发的事件关联分析平台通过对各类外部攻击、内部合规等事件的特征进行抽象归纳、提取特征值,再利用关联、基线等分析技术对海量日志进行关联分析,可以把在一个点发现的威胁迅速在平台共享,形成安全威胁的主动发现与精准定位,该平台具备几项功能:(1)安全事件的快速定位、溯源;(2)安全攻击等行为的及时预警;(3)海量安全事件的自动化关联分析;(4)安全风险趋势的可视化呈现与监控报告生成。
下面主要介绍在“鹰眼”系统的设计中如何利用大数据的关联规则、模式识别等技术,并就实现的一个案例做详细分析。
除了日志的标准化工作外,关联分析是“鹰眼”核心技术所在。而找到数据库中存在的数据关联就是知识发现的过程。理论上讲,若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、因果关联、时序关联,关联分析的目的就是发现海量数据中存在的、对我们有价值的各种规律并表达出来。Agrawal等人1993年首先提出了挖掘客户交易数据库中数据间的关联规则问题,之后人们对原有算法不断优化,如引入随机采样、并行计算的思想等提升算法的执行效率。在研发中,主要是通过对海量存量日志的关联分析发现用户的正常行为模式,并描绘当前时点日志数据中展现的用户行为模式,通过对比分析发现某些用户的异常行为。
模式识别的具体方法这里不再论述,在实际应用中需要根据对象的性质选择合适的方法。在应用中将句法和决策理论两种方法结合使用收到较好的效果。下面重点展示下我们利用大数据关联分析和模式识别技术的一个场景的片断。
案例设计:能够侦测蠕虫病毒爆发并自动拦截
(1)日志源:IDS、IPS日志、防火墙日志
严重性:高;
规则说明:IDS、IPS日志中蠕虫类报警,3分钟内出现了50次以上相同报警,触发自动终止动作。
(2)策略参数
Rule Name:CPIC10-Internal-Malware Breakout in Production Segments;
Signature: 47-6000009;
Severity : 75;
Normalization Name: Malware;
Tags: Current Threats:Worm,Malware:Worm;
Group By : N/A。
(3)判断逻辑
展示Logic 3的实现:
在防火墙设备上发现有生产网IP在10分钟内访问可疑端口(137、138、139、445)2000次以上,就产生Correlation Event。
(4)过滤条件
Part 4:
目前已完成207条规则开发、60张合规报表的开发。其中设计关联规则和调优是难点,需要不断优化算法收敛模型,使平台输出的结果更加精准。通过历时几个月的模型训练,目前已从每天30多亿的安全日志中可自动产生50000次左右威胁告警,其中需要运维人员关注、处置的300件左右,已实现“蠕虫传播”、“暴力破解”、“安全攻击”、“GTI全球智能威胁恶意地址访问”、“违规访问生产环境”、“非授权路径访问”、“非法重启服务器”“高危操作”等安全威胁的实时监控、精准报警和自动化拦截。
4.3 可实现自动拦截的快速事件处置机制
开发的分级安全事件响应机制,是在实现集中监控各类安全事件的基础上,重新设计自动化管理流程、岗位和职责,设置安全事件等级和响应级别:针对高危攻击事件,平台能够自动向IPS等安全防御设备发出指令自动隔离;针对普通安全事件平台能生成工单自动发送给安全运维人员处置,真正实现7×24自动化监控。
目前平台每月发现并自动隔离来自全球的外部攻击源达到两千到一万多次,每月自动化生成安全事件工单千件左右,涵盖越权与滥用、恶意代码与病毒、入侵和攻击、破坏完整性、安全平台系统五大类安全事件。
5 “鹰眼”系统应用成效显著
“鹰眼”系统能把各种看似没有关联的各种事件源数据进行集中监控、智能分析,敏锐地感知到可能会发生的安全威脅,并预警和准确定位,系统实施以来,成功发现、防范了多起安全事件。
典型应用案例:通过对内部网络访问日志的分析,及时发现恶意代码行为。“鹰眼”系统在2015年11月曾触发告警:“某服务器向内网各地址段扫描可疑端口。”经跟踪分析,确认该服务器已感染木马控制病毒,正在扫描攻击其他主机系统。安全运维人员随后为该服务器安装防病毒软件并查杀该恶意软件后,及时解除了内网攻击威胁。
发现非法访问生产网数据库事件。“鹰眼”系统某日告警:某开发部软件开发人员在凌晨1:00时尝试破解应用系统密码并访问数据库,违规操作数据。内控人员接到告警邮件后立即联系开发部门应急处理。
通过对内部网络日志的分析,构建威胁模型与关联规则,主动发现网络异常行为。“鹰眼”系统在2016年7月曾触发告警:某网络链路负载均衡设备不停扫描内网TELNET(23)、HTTP(80)、SSH(22)、HTTPS(443)、SMTP(25)、RDP(3389)等敏感端口,经跟踪分析,确认为外部用户访问行为导致,存在网络配置的不规范性。
6 结束语
本文主要论述如何通过大数据技术对日常运维产生的海量日志数据进行关联、挖掘和对比分析,时刻监控系统安全状态,发现安全威胁信息。这也正是本项目的创新点,通常我们依靠不同的团队对各自掌握的日志信息孤立分析,单一设备或团队往往难以判断威胁的性质而不能很好的发现潜在问题。通过大数据技术训练并预定义正常行为模式库,再用库中的模式去匹配当前的行为,并将匹配的程度直观展现出来,因此当前系统的安全状态可一目了然。
此外,也可以将威胁行为特征抽象表达成模式规则,持续丰富模式库,对各类事件进行自动判断是否是安全事故、采取何种措施。这种首次将大数据技术应用于安全防御体系的设计思路首次得以实践并应用成功,使得可以建设一个集成的安全防御系统以实现各类威胁的预知、防御的自动化处理以及追踪的可视化展现,实现从小时级或日级的响应能力到分钟级或秒级的跨越。
本文的成果可以对拥有海量数据的企业在拓展数据挖掘和关联分析能力方面提供借鉴,对拥有海量运行日志的企业在如何实现和提升自动化运维能力方面拓展了思路。
参考文献
[1] 刘宜.我国互联网保险发展现状及其对保险行业的影响[J].吉林金融研究,2015年1期.
[2] 郑昊楠,陈露,江春华.“互联网+”红利时代传统金融行业转型的研究分析[J].中国商论,2016年20期.
[3] 曹瑞莹,邓喻方.把脉我国互联网保险[J].金融经济(理论版),2015年8期.
[4] https://www.cpic.com.cn/cpic/cn/companyeverts/latestactivity/26449.shtml.
[5] 唐辉.大数据时代信息资源建设面临的挑战和机遇[J].科技情报开发与经,2015年23期.
[6] 刘雅倩.浅析网络保险的风险及防范建议[J].中国经贸,2014年16期.
[7] 阮清娴.我国互联网保险的操作风险分析[D].暨南大学(硕士学位论文),2015.
[8] 韩志雄.移动金融的产生、发展及前景探析[J].南方金融,2015年02期.
[9] 陈曦.移动金融终端安全研究[J].信息安全与通信保密,2014年11期.
[10] 陈一鼎,乔桂明.“互联网+金融”模式下的信息安全风险防范研究[J].苏州大学学报(哲学社会科学版),2015年06期.
[11] 董纪昌,焦丹晓,张欣,宋子健,李秀婷.大数据金融背景下商业银行客户信息保护研究[J].工程研究-跨学科视野中的工程,2014年03期.
[12] 杨延娇著.异常数据挖掘在Web服务器日志文件中的应用[J].西北师范大学学报(自然科学版),2008年06期.
[13] 韩东海,王超,李群,编著.入侵检测系统及实例剖析[M].北京:清华大学出版社,2002.
[14] 景永霞,著.基于分布式数据库的关联规则挖掘算法[J].湛江师范学院学报,2007(6).
[15] 叶和平,著.一种面向入侵检测的数据挖掘算法研究[J].计算机技术与发展,2008(1).
[16] 张砚雪.基于数据挖掘的IDS日志算法的改进[J].齐齐哈尔大学学报,2008(6).
[17] E.Eugene Schultz,Russell Shumway,著,段海新,等译.网络安全事件响应[M].北京:人民邮电出版,2002.
[18] William Stallings,SNMP,SNMPv2 and SNMP v3.the Practical Guide to NetworkManagement Standards[M].北京:电子工业出版社,2002.
[19] Ralph Kimball,Joe Caserte.the data warehouse ETL toolkit[M].Wiley Publishing inc,2004.
[20] (美)邁克尔·贝里(MICHAEL J.A.BERRY),(美)戈登·利诺夫(GORDON S.L). 数据挖掘[M].北京:中国劳动社会保障出版社,2004.
[21] 朱明,著.数据挖掘[M].北京:中国科学技术大学出版社,2002.
[22] 袁玉波,杨传胜,黄廷祝,著.数据挖掘与最优化技术及其应用[M].北京:科学出版社,2007.
[23] 李雄飞,李军,编著.数据挖掘与知识发现[M].北京:高等教育出版社,2003.
[24] 毛国君,等编著.数据挖掘原理与算法[M].北京:清华大学出版社,2007.
[25] (美)OLIVIA PARR RUD,著.数据挖掘实践[M].北京:机械工业出版社,2003.
[26] 朱玉全,杨鹤标,孙蕾,编著.数据挖掘技术[M].南京:东南大学出版社,2006.
作者简介:
李丽红(1968-),女,汉族,河北定州人,毕业于上海交通大学计算机与系统结构专业,研究生,硕士学位,中国太平洋保险集团信息安全与内控管理部,副总经理;主要研究方向和关注领域:优化各项安全和内控管理策略、机制、流程。