数据驱动安全

2015-12-18杨光霍娜路沙

中国信息化周报 2015年47期

杨光+霍娜+路沙

物联网、云计算、移动互联网带来的新技术与新架构正在打破传统的网络边界，通过数据获取、整理、分析和可视化，大数据正赋予传统安全以新思路与新能力。

大数据技术是一种基础技术，其兴起和发展最初都来源于互联网企业。互联网企业为解决其实际问题，发展了大数据技术。而将大数据技术应用在安全分析领域，属于安全分析领域的革新和进步，但如何应用，需要找到安全痛点，数据创造价值，仍然要结合安全业务场景，通过大数据技术解决传统技术无法解决或解决起来非常困难的问题。

一个名叫海莲花（OceanLotus）的境外黑客组织发动针对中国的APT攻击已长达三年，主要攻击的目标是政府、科研院所、海事机构、海域建设、航运企业等领域，地域遍布国内29个省以及境外的36个国家。“海莲花”至少使用了4种不同程序形态、不同编码风格和不同攻击原理的木马程序，恶意服务器遍布全球13个国家，注册的已知域名多达35个。

“海莲花”的攻击早已被捕捉到，但之前只是零散的发现，直到360成立“天眼”实验室，利用大数据技术进行未知威胁检测，才首次发现了这些散见威胁间的联系，一个国家级黑客攻击行为的轮廓才逐渐清晰。

随着物联网、云计算、移动互联的发展，网络与IT的发展也进入大数据的时代，网络信息安全亦是如此。本质上讲，所有的安全机制都可以用在任何一种数据体制中，但在新时期，大数据保护呈现出了新特点，如何在已有的安全框架内丰富、发展原有的体系、技术和方法，以适应新形势，是从事大数据安全的业界人士需要思考的。

根据Gartner的预测，传统的以控制为中心的安全解决方案到2020年将会失效，到2016年，25%的大型企业将会采用至少一种大数据安全解决方案;到2020年，60%的企业信息安全预算将会分配在快速检测和响应的方法上。

北京理工大学软件学院信息安全等级保护国家工程实验室博士、副教授、硕士生导师闫怀志告诉《中国信息化周报》记者，与传统的信息安全相比，大数据安全呈现三个新特征。

第一，由于云计算时代数据外包给服务提供商，传统根据网络边界防护的做法保护数据安全在大数据时代就行不通了。

第二，云计算是虚拟化的操作，那么虚拟化安全就成为一个非常重要的领域。

第三，传统信息安全领域中，对于人隐私的保护不是特别强，因此有关隐私的保护需要加强。大数据一直存在，只是以前的网络和信息处理技术没有这样快捷，信息化使得原有的许多数据都关联起来了，形成了大数据的架构，原来数据的保护方法在大数据时代仍然是适用的。只是现在大数据的保护呈现出三个新的特征。现在大数据的保护离不开经典的安全保护的手段。

大数据时代安全到底有何不同，该如何实现，又有哪些难点和瓶颈？《中国信息化周报》记者通过采访多位专家和企业负责人来探寻答案。

传统安全边界正在被打破

新的架构与技术让网络边界变得越来越模糊，传统安全重在边界防御的手段也会逐渐失去效力。

物联网把每个实体都编上特征，然后将其加入到网络中，如今的信息系统已经和物理空间关联起来了，也就是所谓的信息物理系统（Cyber-Physical Systems，CPS）。

CPS分为计算决策层、网络通信层以及感知执行层，各层之间的互联互通需要通过一些通用协议以及各类软件的协调配合来实现。这个实现过程就成为CPS最主要的信息安全威胁。

与传统的IT信息系统安全需求不同的是，CPS设计需要兼顾应用场景和控制管理等多方面的因素，以优先确保系统的高可靠性和业务连续性。缺乏有效的安全防御机制和数据通信保密措施就成了CPS的安全隐患。

工业和信息化部计算机与微电子发展研究中心主任助理、博士曾晋在接受《中国信息化周报》记者采访时表示，CPS与传统的IT系统信息安全的不同具体表现在安全需求、安全保护优先级、安全补丁与更新以及安全防护技术的差异上。

为更好地应对CPS信息安全所面临的挑战，我们需要在清楚认识危害来源的基础上，更好地理解受到攻击后的结果，设计全新攻击检测算法、新的抗攻击弹性算法和架构以及适合CPS的身份认证与密码技术，并开发硬件兼容能力更强和适用于异构平台的安全防护技术。

“现在的信息系统涉及云计算、物联网、信息物理系统，在《中国制造2025》和‘互联网+大势下，关注大数据就得关注现代信息系统的发展。保护大数据的安全成为诸多厂商关注的领域。”闫怀志告诉记者。

360企业安全集团天眼实验室高级总监韩永刚告诉记者，传统方法的问题一是在于主要依赖于一些已知“规则”进行防护，而对越来越多的攻击检测对抗手段、未知威胁以及复杂攻击无能为力。二是，传统方法的视点较窄，往往只聚焦在局部范围以及实时上，对于高级威胁，尤其是综合多种攻击手段，长时间针对特定目标的持续定向攻击，无法做到有效发现与完整的防护。

将大数据技术用于安全领域能为业界找到新的方法与驱动力应对新挑战。在安全需要变革的时代，大数据分析、可视化分析、威胁情报这些技术重新给予我们“看见”安全态势的能力。

新思路老办法新能力

闫怀志认为，大数据分析技术几乎已成安全产品的必需组成部分。这也从一方面说明依托大数据安全分析的安全防御思路正在变得越来越被广泛接受。大数据安全有两种理解，一种是使用大数据技术来分析安全问题，第二种就是大数据自身的安全问题。大数据技术体系包括大数据应用、大数据处理机制，大数据系统中包含的海量数据。

无论是哪种数据都离不开数据的获取、数据的传输、数据的存储和数据的应用，只不过云计算架构下，数据获取的方式、存储方式和应用方式发生了变化，对应的安全机制也要进行调整。

韩永刚介绍，数据驱动安全是360企业安全的核心思维，这符合当今时代的安全思路。数据是基础，驱动是手段，安全是目标。而传统的防护体系、产品、服务不是都没有用途了，而是通过数据驱动赋予它们现在缺失的基于大数据技术的安全可见与态势感知能力。

绿盟科技解决方案中心项目总监张旭认为，数据驱动的安全并不只依赖数据，数据是安全业务目标的底层支撑。在安全业务目标明确下，首先进行安全场景梳理，进而进行安全场景模型建立，最后才是数据梳理与安全分析工作。

而具体到安全数据可视化，绿盟科技采用更为直观的展现方式，如平行坐标图通常用来进行攻击链展现，气泡图用来进行威胁程度展示，地理图进行攻击路径展示，力图用来做动态拓扑展现等，力求能够更直观地将安全事件展示到决策者眼前。

启明星辰泰合产品本部产品总监叶蓬告诉《中国信息化周报》记者，在目前，网络攻防双方的能力已经不对等，攻击占据上风，攻击耗时远远低于防守耗时。攻防的对抗其实就是数据的对抗、知识的对抗和人的对抗，数据驱动的安全一定程度上是在弥补防守耗时，以求尽快识别攻击并进行响应、阻断和反制。

在这个过程中，数据的获取、整理、分析和呈现都很有讲究，每个环节都很重要，并且环环相扣。可视化是一种呈现方式，主要面向两类角色。一类是分析师，帮助其更高效地进行交互式分析，即所谓威胁捕猎。另一类是管理层和决策者，帮助他们了解整体安全态势，做出清晰、有效的决策。

在进行数据可视化的时候，不能一味追求酷炫的展示效果，更要注重内容的表达，帮助客户实现对安全的可见性（Visibility）比实现对安全的可视化（Visualization）更重要。

瓶颈是什么

北信源董事长助理/核心技术发展中心总经理钟力博士告诉《中国信息化周报》记者，大数据安全的瓶颈在于关联分析能力，即如何分析处理数据，获得知识，再上升到智慧感知的层次。

这包括两个方面的要求：一是对数据的融会贯通，根据线索汇聚、处理、分析海量数据;二是对网络攻击的理解，能够理解网络攻击的行为模式和特征。

张旭则认为，大数据安全分析主要的问题在于将业务目标与技术实现混淆以及业务目标不明确两个方面。

他认为，大数据仅仅是一种技术手段而不是一个业务目标，安全分析才是实际要解决的核心问题。

其次，错误地假设了大数据安全分析可以解决当前全部为解决的安全问题，粗犷地认为只要部署大数据安全产品就可以将安全问题逐一解决。正是由于这样的假设深入人心导致现在大数据安全项目无法达到过高的预期。

最后，对于大数据技术在安全分析的项目设想得过于简单易行，习惯性认为安全问题就是防护设备的堆叠，那么大数据安全分析也是类似的方式运作。而实际上，大数据安全分析恰恰需要极为详细的业务梳理、安全分析、数据分析等一系列工作，但这些往往被忽视。以上三点正是大数据安全分析类的瓶颈。

北京天融信科技股份有限公司产品线总监唐宁认为，大数据安全分析的全过程会分成数据收集、数据整理与存储、数据分析和数据展示等多个阶段，目前来说有如下几点问题：数据收集不全，有些数据量太大，存在数据丢失的问题，有些数据缺乏手段，甚至都无法收集;数据分析手段不够灵活，安全形势是变化的，没有办法以不变应万变，必须有一种技术手段迅速构建分析模型;数据可视化不够直观，数据分析结果的展示非常不直观。

为解决这些问题，从数据收集层面，必须有各种被动、主动的数据收集方式，数据收集必须涵盖从终端到网络，从应用到行为，从内网到互联网等多种维度，保证不漏掉任何有用的数据;从数据分析和可视化的角度，必须有一套平台进行技术支撑，这样才能在不断变化的网络安全对抗中脱颖而出。

叶蓬告诉《中国信息化周报》记者，随着大数据技术生态的逐步成型，大数据技术逐渐成为一种货架技术。基于这些技术，目前大数据安全分析过程中的数据采集和存储技术已经被先进企业所掌握，可视化水平也突飞猛进，存在的瓶颈主要是应用场景、安全分析场景方面。尽快突破的办法就是结合安全业务场景，以场景驱动安全分析，以数据带动技术进步。

与此同时，安全分析师、业务分析师、领域工程师等技术人员的匮乏也是制约大数据安全分析应用发展的重大瓶颈。在大数据分析情境之下，对分析师的人员和技能要求更高。

借力“天眼” 见微知著掌控安全态势

据悉，支撑360数据驱动安全的首先是丰富的安全大数据资源以及强大的大数据存储和计算能力：360目前大数据服务器规模超过40000台，总存储数据量接近1EB，每天各种数据计算任务10万个，每分钟可以调动几十万颗CPU核参与计算，具备每秒钟处理1TB数据的能力;积累了海量的情报数据，主防库总日志数50000亿条，样本库总样本数高达95亿， DNS库解析记录超过50亿条，URL库每天查询300亿、每天会处理100亿URL。庞大的存储计算资源与海量宏观安全数据就构成了大数据分析的基础。

“有了数据只是第一步，还需要有相应的数据挖掘分析的方法，如综合使用统计分析、关联分析、机器学习、可视化分析、攻防分析，才能够从海量数据中找到有价值的线索，发现与高级威胁相关联的各类信息，形成高价值的威胁情报。”韩永刚举例说，通过大数据技术，从一个捕获的恶意软件，可以通过同源分析找到新的相似的恶意软件，以及远端的攻击服务器。再通过对域名解析记录的查询，找到相关联的用于攻击的恶意域名，以及更多的攻击资源。如此一来，一次复杂的高级定向攻击，甚至攻击组织的行为、攻击途径、动机、组织背景都逐步展现在我们面前。

360的天眼系统依托于360的安全大数据技术，帮助企业与组织实现高级威胁的发现，以及安全态势感知。据韩永刚介绍：“天眼其实分为云端与客户端两个部分。云端即基于安全大数据体系的‘见广的部分。而另一侧，在企业与组织的本地，天眼系统也帮助企业提供了产品化的本地轻量级大数据平台，将与安全相关的各类数据进行采集、日志还原、分析，从而让企业形成‘见微的能力。而衔接这种微观与宏观大数据的，就是威胁情报，从而将互联网大数据分析的结果应用在企业本地，快速定位与解决高级威胁。”

在实战的应用中，360通过天眼系统，能帮助客户发现与定位高级持续攻击，找到受害者，并进一步通过拓展分析，回溯出攻击发生的过程，以及产生的数据资产的损失，进而帮助阻断攻击。这样一套基于安全大数据分析，从发现、阻断、取证、溯源，再到拓展分析的闭环过程，成为帮助客户应对新威胁形式的有效手段与新安全思维。

大数据安全分析技术是催化剂

在安全数据收集、整理、分析的过程中，张旭认为最关键的是对安全的理解。他强调，只有准确理解安全数据背后的意义和内在的联系，才能有效地实现安全数据分析和安全态势理解。准确理解安全态势，才能使得可视化时“看见”的内容是正确的、有用的。

“理解安全数据背后的意义和内在联系，可以协助客户对有联系的数据进行关联整合，实现安全数据的关联聚合。安全数据关联聚合后，会大幅度减少需要处理的事件数量，使安全运维人员有能力做重点事件分析处理，避免每天‘处理几百上千万数据的情况发生。”张旭如是说。

以网络入侵检测的应用场景为例，绿盟科技研发了基于对抗的网络入侵威胁感知引擎和攻击推理引擎，可以有效进行网络入侵数据的关联聚合。张旭举例说，曾经在某市骨干网络进行测试，对40G网络带宽进行入侵监测。10天时间产生网络入侵检测原始日志达到2336万条，平均每天近234万条入侵告警日志，这么多入侵告警是无法靠人工处理的。经过绿盟科技的数据分析整理，仅形成979起入侵事件告警日志，平均每日不足100起，这样的数据量就可以让运维团队进行事件处理响应。利用绿盟科技对网络入侵告警数据的理解，我们对数据分析、聚合、压缩，可以达到24000：1的数据压缩比，将原来人工不可能完成的工作变成可能。

在绿盟解决方案中心平台经理胡喆骞看来，大数据安全分析就利用大数据分析的技术，对海量安全数据进行整理，发现安全问题，及时进行安全策略调整、安全事件响应，进而提高安全防御能力。可以说，大数据安全分析技术就像是催化剂，在现有安全数据中发现新价值，提高安全数据自身的价值。

据胡喆骞介绍，绿盟提出“智慧安全”概念，其核心理念是“智能、敏捷、可运营”。第一，智能。安全数据自动化高效率的智能分析技术将快速发展并迅速成为安全敏捷防御能力的助推器。第二，敏捷。安全防御能力、安全响应能力将更强，可以利用数据分析结果实现安全防御动态调整、安全事件快速响应。甚至实现未卜先知的攻击预警和打击黑客的主动防御能力。第三，可运营。未来势必会需要专业的安全数据分析运营人才，对大量的安全数据进行分析。

定位行业终端的大数据安全分析

北信源管理着超过4000万台企业级终端，因此，公司将大数据安全分析的重点放在了行业终端上。基于行业终端的大数据安全分析，需充分考虑行业的安全需求。北信源董事长助理钟力博士分析说，首先，大数据安全分析应该实现从网络安全合规性管理，到网络安全态势感知，再到威胁情报感知的三个逐级提高的目标;其次，大数据安全分析应该充分体现空间维度和时间维度的统一，以有效发现APT类型的网络攻击;第三，在大数据的采集、传输、处理和存储过程中，其自身的安全十分重要。

“北信源大数据分析系统是面向行业终端的大数据安全分析体系的一个具体实现，用于部署在一个行业、企业或组织的网络信息系统或私有云上。”钟力说，“同时，北信源云安全服务平台不会主动向这些行业云提取任何数据，只会接收他们授权提交的可疑数据和网络威胁数据，并及时对他们提供网络威胁情报信息和安全服务。”

谈及北信源大数据分析系统的下一步发展方向时，钟力提到，将会从网络攻防对抗、博弈的角度，通过自动化分析处理与专家智慧相结合的方式，强化云端的安全分析、安全管控和威胁情报感知能力，并进一步转化到对APT类型攻击的监测、检测、预警和控制，以持续提升产品品质和安全服务水平。

安全防御的价值在于有效发现和抵御网络攻击，任何网络攻击都会以真实或伪装的状态隐藏在数据之中。理论上，如果捕获了所有的数据（大数据），网络攻击就肯定藏身于其中。因此，对这些数据采用大数据的分析处理方法，就能够发现网络攻击。

钟力解释说：“通过基于特征和基于行为的网络攻击检测方法，我们发现了绝大部分的网络攻击，但这些网络攻击都是碎片化的、独立的。如果要发现这种关联，就需要进行大数据安全分析，并以此为线索发现更多可能相关的攻击。现已披露的APT攻击，都是安全人员对网络攻击事件及相关原始数据进行长时间的分析而得到，人与大数据分析系统相互支撑，缺一不可。未来的网络攻防对抗，归根结底是人与人的对抗，因此，人必须要参与到大数据安全分析的进程当中。大数据处理用于发现线索、聚焦数据，人则对线索和特定数据进行深入分析。“

全范式安全分析体系

在当前网络攻防对抗的形势下，企业和组织传统的安全防护体系和思路必须进行改变。叶蓬提到，我们要从全新的视角去看“建立纵深防护体系”这个理念，要建立一种“高维度的纵深防护体系”。这种高维度是指不仅要考虑攻击路径上的纵深，还要考虑防范攻击的时间纵深、管理纵深、物理纵深。因为我们的对手总是试图发起高维攻击，我们必须建立高维纵深。

面对当前网络安全的挑战，结合新技术的发展情况，启明星辰创造性地提出了一套全新的安全分析方法论——全范式安全分析体系。所谓“全范式安全分析”体系，就是强调要综合利用四种安全分析范式来构建一个完备的安全分析体系。

启明星辰在2014年发布的泰合大数据安全分析平台是国内首个面向企业级客户的大数据安全分析平台。系统融合先进的流式计算、交互式计算和批式计算技术，采用云计算和分布式文件系统及索引技术，对包括日志、网络流、数据包和威胁情报在内的结构化、半结构化安全要素信息进行采集、存储、分析和展示，使用智能关联、情境分析、机器学习等多种数据分析及挖掘技术，构建了全新一代安全分析平台。

据了解，某政府客户的应用场景是智慧城市背景下的大数据安全分析应用。泰合大数据安全分析平台将海量的安全数据采集上来，进行统计分析、聚类分析、用户画像，总结出了很多有趣的用户行为，识别出了一些安全异常行为。

“结合国际上安全分析的发展趋势、Gartner的分析报告，以及启明星辰对国内客户的差异性分析和具体实践，”叶蓬说，“我们认为，未来几年数据驱动的安全分析技术的发展动向将是：智能化、情报化、交互化、协作化。”

接着他又做了如下阐释：智能化，这是数据驱动的安全分析的核心，强调不依赖于既有特征和规则的分析。未来这方面将进一步增强，更多高级统计、机器学习的技术将引入安全分析。情报化，安全分析将更加依赖安全情报，情报驱动的安全分析将盛行。交互化：安全分析、尤其是高级安全分析和威胁狩猎，将更多地依赖人机交互。协作化，既包括人机协作、内外部情报协作，更包括因国内现实情况而产生的人人协作。