大数据环境下的数据安全技术分析
2022-02-13田沛霖
田沛霖
(复旦大学文献信息中心,上海 200433)
随着大数据技术的发展,各行各业都积累并存储了海量的相关数据,其附属的分析机构可以利用数据挖掘技术从中获取更有价值的信息[1]。但在面临海量数据的收集、传输、存储和分析挖掘时,鉴于大数据特别的“4V+1C”新特征,传统的数据安全技术并不能满足新形势下的数据安全需求[2],而企事业单位中承载极大数据量的信息系统一旦发生安全问题,造成泄密事件,势必会导致企事业单位的公信力、经济效益大幅降低,同时伴有经济活动参与单位或个人信息泄露等次生灾害,产生连带效应造成巨大损失,甚至危害国家安全:如2015年5月美国国税局系统遭到攻击导致10 万纳税人永久信息遭到泄露事件,造成国税局的退税服务系统被迫关闭,纳税人的退税资金的安全受到威胁。所以如何利用大数据技术保护大数据环境下数据的安全性的问题应运而生。
1 大数据环境下数据安全问题分析
1.1 “大数据”的作用
在大数据环境下,“大数据”与数据安全问题的关系有两方面:大数据既是“保护对象”,又是“保护手段”。一方面,大数据环境下的数据安全主体是大数据的安全;另一方面,大数据分析等安全技术也是信息系统防范外界攻击的重要手段。
1.2 大数据环境下的数据安全挑战
大数据环境下的数据存储单位往往具有强大的数据体系,但也很容易存在网络问题,如出现漏洞,用户的相关数据很容易被不法分子利用或者进行售卖,对个人数据安全造成严重威胁[3]。同时,为实现大数据的有效处理,相关工作也引入了分布式的计算与存储框架,这些新型框架也带来了新的安全风险。在这样的安全环境下,信息泄露的风险时刻存在,不法分子利用大数据的技术便利进行大规模的犯罪活动,会阻碍社会和谐稳定发展。大数据面临的数据安全问题主要集中在隐私泄露、外界攻击和数据存储3个方面。
1.2.1 隐私泄露
数据隐私即数据收集与数据传播间的关系,涉及公共隐私预期、技术、法律与政治等多领域要素。企业本身对数据的保护程度不够造成了用户隐私在系统未被攻击的情况下的可能泄露。如在匿名问题中,企业仅关注了对用户标识符的消除,而忽略了对IP 地址、HASH值等亦能反映用户特征的数据,导致某些用户在系统中的行为日志记录项即使被匿名化处理,仍能精确地定为于特定用户;或者匿名信息在与其他未匿名化处理的数据源结合时,通过行为匹配,匿名信息的用户就有被识别的可能。
1.2.2 外界攻击
大数据由于其体量大,多样性丰富的特点,更容易成为黑客攻击的目标:攻击规模大的数据集合使黑客在所获数据量与努力值相比的“收益率”大大提高,这驱动黑客倾向于攻击大数据信息系统。
黑客的攻击通常具有很强的目的性,在编辑攻击大数据信息系统的程序时,会针对系统的防御架构,因此更容易破坏系统数据安全体系,造成数据泄露与损失。此外,随着数据安全技术的不断提升,大数据信息系统的安全性也显著提升,近年来虽然没有发生大规模的黑客攻击事件,但黑客仍会进行较小规模的入侵,在用户未察觉的情况下盗取用户信息,这种攻击方式对数据安全造成了很大影响,不仅会导致信息系统崩溃,而且会使大量数据泄露。
1.2.3 数据存储
传统数据安全体系倾向于将数据虚拟化统一存储,这会带来两方面的问题:(1)存储设备经常会是异构的,其虚拟化存储功能难于统一部署和管理;(2)虚拟化存储的实现过程是在相同物理介质上混合存储不同密级数据,加之用户并不清晰自己的数据以何种存储方式存储在何种地方的何种介质中,容易造成数据的越权访问,进而可能导致数据泄露。
通过分析与传统数据安全体系特点的比对,发现实现大数据安全的捷径是在传统数据安全体系框架中,补充对于由大数据带来的数据安全风险的防护功能。
外界攻击是使数据安全发生问题的最高频原因,因此也是研究探讨技术的主要涉及领域。
2 相关技术的国内外研究现状
2.1 基于H adoop的安全架构
Hadoop是一个使用Java编写的开源分布式软件框架,其以可靠、高效、可伸缩的方式对大数据进行分布式处理,在存储和计算方面与普通的现有的单节点计算相比具有显著优势,在全球范围内应用广泛。汪来富等[4]研究了基于Hadoop 的大数据安全架构,主要设计了一种Hadoop的技术架构,以分层、分功能模块的形式对可能存在的威胁情报进行滚动分析和动态更新。
但大数据分布式计算天生的缺点是难于保证异构平台、各数据结点间的一致性和安全性,较大的数据冗余、难以及时准确地定位、没有嵌入安全传输层协议TSL都使其安全机制非常薄弱。
2.2 威胁情报系统
威胁情报是通过大数据、分布式系统等方式获取的漏洞、威胁、特征、行为等的知识集合及可操作性建议[5],其基于攻击者的视角,依靠广泛的可见性及对互联网威胁的全方位理解,对传统防御方式进行了逻辑上的补充,从而帮助管理者全方位地了解可能的威胁,并采取准确的行动以消弭损失。宋晓峰等[5]研究了私有威胁情报系统的构建,设计通过爬取、流量分析等方式采集威胁情报数据,利用大数据和机器学习技术构建私有威胁情报系统,以获取可疑IP、域名或HASH值的详细威胁报告。
2.3 A PT 攻击检测
APT(Advanced Persisted Threat)攻击是针对重要数据进行的一系列多方位多方法的持续攻击行为,在发动攻击前收集被攻击对象的业务流程和目标系统等相关信息。在收集过程中,APT 攻击会主动挖掘目标受信系统和应用程序的漏洞,利用其组建攻击者所需的网络,并利用漏洞进行精确攻击。周涛[6]研究了5种APT 攻击检测方案,其研究的主要思想是借助大数据分析技术,综合以深度学习为基础的网络异常行为和异常流量检测、未知行为沙箱行为检测、攻击溯源等检测技术,对APT 攻击链的7个阶段进行全面关联检测。文献同时为不同检测技术和APT攻击链不同阶段间建立了逻辑关系模型。
2.4 网络隔离
网络隔离技术是指把两个或两个以上可以路由的网络通过不可路由的协议进行数据交换,从而达到隔离的目的。范浩[7]提出了采用内墙和外墙两种模式隔离网络的方法:内墙防护数据系统,只与特定的业务系统交互;外墙防护业务系统,避免攻击渗透到内网。
但2018年11月初发生的伊朗核设施遭到以色列“震网”病毒攻击导致瘫痪的事件向我们证明了即使是与外界物理、通信都隔离的系统也有被攻击的可能,这说明网络隔离的方法从逻辑上仍需改变。
2.5 身份认证
身份认证技术是当前应用最广泛的数据安全防护策略,即系统在对操作者身份加以识别时,以特定数据为依据,对用户进行认定并授权。因此,可利用身份认证技术,借助个性化指令、个性化认证密钥的应用,判断当前操作者是否合法,以此推动数据安全防线的构建。高阳等[8]提出通过数字证书、虹膜识别等身份认证方式来授予用户接触数据的权限。但这种单一的身份认证方式在用户、硬件上均有其局限性:用户的专属标识可能会被盗取、木马截获或因经济利益出卖;忘记携带或认证过程过于繁琐也会对日常工作造成很多负担。
2.6 安全规则挖掘
数据安全技术可以通过数据挖掘来建立安全规则,保证数据信息的安全,其主要手段是聚类分析,按照数据中所发现对象的描述信息和关系信息对数据对象进行分组。谭正云[9]提出运用K-means 的聚类型数据挖掘算法探索并求证数据安全规则,从而实现防火墙或入侵检测的功能,研究也对K-means 算法做了相关改进:突破了其数据项仅适用于数字的情况的限制、采用了基于密度的自动聚类,在很大程度上克服了算法的初始条件敏感性和可能的聚类失效问题。
3 技术缺陷的解决方案探索
经过对大数据环境下数据安全技术研究现状的探索,研究发现在这些主流技术中,基于Hadoop 的安全架构、网络隔离与身份认证技术存在较明显的问题,是下面研究探索解决方案的对象。
3.1 解决思路与实施办法
根据问题的难易程度与现实状况,研究采取文献研究法、功能分析法、个案分析法与描述性研究法解决问题:针对Hadoop 平台架构的安全机制问题,通过查阅相关文献资料并尝试总结归纳以得出解决方案;针对网络隔离与身份认证技术,由其实现的机制及反映缺陷的案例入手,从整个业务流程角度探索技术路线的优化方案。
3.2 解决方案
3.2.1 Hadoop平台架构的安全机制
(1)针对其数据结点难于准确定位与平台安全性的问题,可以采用基于密钥-证书系统的结点认证措施以识别并及时阻断恶意结点,保护数据通道;并依据不同密级与权限,为不同应用程序与用户分发不同级别的密钥。相关认证与密钥授权服务可基于Kerberos 身份认证机制实现[10]:即在安全性不确定的网络通信环境下,实体使用Kerberos 机制以安全的方式向另一个实体证明其身份,其核心是密钥分发中心,基于系统-单一用户间记载每个Kerberos 用户的密钥数据库,密钥分发中心为需要进行通信的两实体间建立临时会话密钥,从而加密其交互信息。该机制的实现首先要在Hadoop集群的每个节点上配置Kerberos认证并安装密钥分发中心,建立对应的数据库,最后配置Hadoop 集群使用Kerberos认证。
(2)针对其没有嵌入安全传输层协议TLS的问题,可以在Hadoop的各数据结点间、数据结点与应用程序间嵌入TLS组件,保障服务器与代理间的交互,并对用户的访问进行加密保护,以设计出可靠的安全通信机制。
3.2.2 网络隔离的脆弱性
从伊朗核设施遭“震网”病毒攻击一事来看,只注重物理上的防御机制是不够的:(1)要从管理层面,严控供应链管理,从源头保障设备的安全性;加强从业人员的保密意识,防止系统漏洞信息外泄或被盗;同时,要做好移动存储介质的管控,减少恶意代码和病毒的传播;(2)要从技术层面,做好网络流量监测审计、设置安全设备进行网络边界防护、安全域划分和控制系统主机防护等措施,广泛采用各种安全技术,从技术层面加强系统安全防护能力。
只有实现保密单位“人防”、“物防”和“技防”三位一体,才能切实增强系统抵御如APT攻击等破坏、窃取数据行为的能力,通过网络实现数据安全防护。
3.2.3 身份认证的局限性与不便性
(1)增强对涉密人员关于涉密数据的保密意识的培训,加强对间谍及危险行为的甄别、抵制能力,严防特异性数据的泄露。
(2)从立法角度对针对涉密数据的违规行为进行限制,违者严惩。
(3)运用大数据综合分析手段,结合用户生物特征及行为特征的特异性,进行多维度身份识别,如可以结合指纹控制系统和视网膜控制系统共同参与身份认证;也可以采取动态电子口令认证的形式来进一步强化数据的安全性。
(4)在加强对合法用户获取数据时的安全性的控制的同时,也需要加强对非法用户入侵的管理和防范,可以通过建立黑名单系统,在云端加强数据安全防护能力。这一来防止敌对分子仅使用某一项授权特征即获得数据权限,二来多维度身份识别使用户不再为缺失某一项特征而烦恼,提高了系统的友好程度。
3.3 解决方案的不足之处与未来技术发展的可行路径
(1)研究针对Hadoop 平台架构安全机制提出的解决方案未能从实际操作的角度开展实验,完成并演示Kerberos认证机制和嵌入TLS组件的具体实现流程,后续有条件可以对相关操作进行详细论述。
(2)在探索网络隔离的解决方案时,未找到“震网”病毒所涉及技术的细节,因此在“技防”领域不能列举出采用的针对性技术,后续可以尝试深入了解“震网”病毒及其攻击原理与应对技术,从而更具体、更针对性探讨相应的数据安全问题。
4 结论与讨论
伴随着大数据的快速发展与广泛应用,相关的数据安全问题也日益凸显。大数据作为一种技术,可以与其他各种技术相结合,为作为数据源的自身提供安全防护。通过对流行技术的分析与对其缺陷的调查,不难发现只有全面完整的安全技术体系才能为大数据产业链的各阶段提供可靠的数据安全保障。通过技术调研,研究发现在当前主流的数据安全技术中,基于Hadoop 的安全架构、网络隔离与身份认证技术有较大改进空间,所以相关研究人员需要从整体和细节两方面入手,积极创新现有的数据安全技术研究方法和研究内容,从而更加有效地保障大数据的安全和可靠,提高大数据所参与行业的信息安全水平,进而促进大数据相关产业的蓬勃发展。