APP下载

基于流量场景的工业互联网数据安全监测系统的设计与研究

2022-03-24栾鹏林

江苏通信 2022年1期
关键词:敏感数据数据安全流量

栾鹏林

江苏省通信管理局

0 引言

工业互联网数据是指工业生产经营各环节和各流程产生或使用的联网数据,工业互联网数据涉及的主体繁多,数据类型丰富,如工业企业的研发设计数据、生产制造数据、运营管理数据,工业互联网平台企业的平台知识机理、数字化模型、工业APP信息,集成商和工控厂商的设备实时数据、设备运维数据、集成测试数据等等。2020年底,工业与信息化部发布《工业互联网创新发展行动计划(2021-2023年)》,指出数据是工业互联网中的关键资源,要进一步发挥数据在工业互联网创新发展中起到的重要作用。

然而,工业互联网打破传统工业系统与互联网天然隔离的边界,工业企业IT和OT(Operation Technology,操作技术)不断融合,企业内部工业网络、管理网络与互联网逐步打通,导致传统互联网安全风险渗透到制造业关键领域,数据安全与工业安全风险交织,特别是随着近些年云计算、大数据、人工智能、5G、数字孪生、虚拟现实等新技术新应用的不断发展,逐渐产生了更多的数据安全风险隐患,直接影响工业生产安全、经济安全乃至国家总体安全。江苏是工业制造业大省,工业互联网设备、系统触网数量庞大,漏洞风险较高且分布广泛,部分重点行业隐患突出,安全攻击频发,关键行业和设备系统风险隐患集中,安全攻击和事件无处不在。根据《2020年江苏省互联网网络安全报告》统计,2020年我省发现暴露在互联网上的工业互联网资产达60万个,发现已知漏洞的资产为3343个,针对已发现工控资产的攻击行为达到8313万次,工业互联网网络信息安全一时成为关注焦点。

2020年6月,江苏省发布《关于加强工业互联网安全工作的实施意见》,多部门协同,加快构建省内工业互联网安全保障体系,开展数据安全试点建设。2021年9月,《中华人民共和国数据安全法》正式施行,一方面为企业的数据安全提供了法律保障依据,另一方面对政府监管机构提升数据安全保护和数据经济治理能力提出了更高的要求。工业互联网数据安全是保障各型工业企业优化生成和服务资源配置的前提,面向重要行业典型工业互联网平台运营场景的敏感数据监测和防护系列化技术研究和论证十分必要。

1 任务分析

工业互联网因其承载着大量接入设备、业务系统,以及企业、个人信息和重要数据等,产生的数据商务价值较高、战略意义重大,日益成为黑客的重点攻击对象。如何增强工业互联网安全技术保障手段及数据安全防护技术手段建设,提升安全态势感知和综合保障能力,是摆在行业监管部门面前的重要课题。

省通信管理局依托行业监管优势,围绕工业互联网平台重要数据安全审计、异常流动监测、数据泄漏发现等安全需求,运用多种技术手段,包括主动监测、流量分析、多维数据关联融合等技术,建设一个具备重要数据境内异常流动监测、风险通报和追踪核查能力的工业互联网数据安全监测平台。本文基于流量场景,从被动分析的角度设计工业互联网中数据资产的探测、数据流动和泄露的监测方法,为建设综合工业互联网安全保障体系做准备。

2 关键技术

基于互联网流量的采集及报文分析是通常采用的网络安全分析手段,传统的技术路线需结合对工业数据特征的深入理解,才能更好地发挥其在工业领域数据安全的作用。因此传统的网络安全企业深入到工业领域往往出现水土不服的现象。相反,专注于工业企业信息化领域的企业又缺少内生安全基因。基于传统的流量解析还原技术,强化对工业数据的理解是本方案的基础支撑。

2.1 流量解析还原技术

依托行业监管数据,充分运用互联网流量解析还原技术,主要分为网络层和应用层流量分析。网络层流量分析可对NetFlow、IPFIX、sFlow等流量日志进行分析,也可对防火墙的访问控制日志进行分析,或者使用全流量的会话数据进行分析。用于分析IP、端口、流量大小、报文长度、报文数量、会话持续时间、会话标志位、流量方向、地理位置等维度。应用层流量分析可对web访问记录中的URL、User_Agent、Referrer、POST等特征进行分析,也可对DNS访问日志中的Qname、Qtype、TTL等特征进行分析。

2.2 数据类型识别技术

数据类型识别技术涉及自然语言处理、机器学习、内容搜索等多项领域。数据类型识别技术实现上具备自动编码格式识别及转换,如按关键字、字典、正则表达式及数据标识符等多种匹配方式;需支持常见数据类型,如姓名、手机号、身份证号、银行卡号等常用的数据类型的定义;需支持结构化和非结构化数据的提取,其中包含办公文档、工程图纸、应用数据等丰富文件格式。数据类型的识别对于后续提高敏感数据特征的识别准确性具有关键作用。

2.3 帐号解析提取技术

基于流量进行分析有很多显著优势,其中之一就是具备完整通信过程分析的可能。比如从页面返回数据中匹配到“User:XX”,进而提取出XX作为帐号。下一步通过对应用系统的更多行为进行分析,生成应用系统的帐号知识库,基于知识库建立帐号与每个接口的关联方式,描绘应用操作人员画像。

2.4 敏感数据特征识别技术

敏感数据的特征识别是技术核心。识别特征参照工信部2020年2月印发的《工业数据分类分级指南(试行)》相关标准的定义,在技术实现层面又将敏感文件进一步划分为以下三类。

(1)基础类。主要包含身份证号、电话号码、位置信息等,这类数据的判别技术较为简单,往往通过明确、单一的正则特征即可识别。

(2)复合类。主要包含通信录、设备配置、运维材料等,这类数据的识别往往采用多种判别方式相结合的方式,如N条正则、M1条正则+M2项关键字、H1条正则+H2文件特征等。

(3)模式识别类。主要包含通信记录、各类日志、网络拓扑等,这类数据没有固定特征、没有指定关键字,需通过机器学习的方式,建模构建隐藏的数据结构,实现自动化识别与分类。

敏感数据的识别引擎需要在业务生产内网中进行较长时间的训练,不断克服网内终端在操作系统版本、已安装应用程序、杀毒软件、域控策略、防火墙策略等诸多方面的复杂性,以及不确定性因素的干扰,精准识别敏感数据的相关泄露事件。

3 方案设计

省通信管理局依托行业监管,对城域网流量、移动互联网流量、IDC流量以及工业互联网企业专线流量等开展监测分析,搭建统一的大数据平台,部署数据资产探测发现、数据流动监测、数据泄露发现等监测业务应用,摸清省内工业互联网资产的底数,掌握工业互联网数据安全整体态势,促进构建工业互联网安全综合评估体系。系统架构设计示意图如图1所示。

图1 系统架构示意图

系统整体分为三层架构:数据采集层支撑着系统的数据来源,是前提保障;数据处理层对数据进行加工和预处理,构建数据中台,为业务提供数据总线等服务;业务应用层由多个业务子模块组成,对应各种业务场景,为监管决策提供综合分析支撑。各层具体作用如下:

数据采集层:针对多种类型流量场景,构建若干数据采集子系统,实现工业互联网相关数据源的汇聚和采集。以被动流量分析为主,采用主被动结合的方式保证数据的全面、准确、有效。

数据处理层:采用统一大数据平台赋能,提供统一数据存储、分析能力,同时为大数据平台供给工业互联网数据安全资源库、主体库、业务库和知识库,丰富大数据平台数据类型,为上层业务应用提供数据服务支撑。

业务应用层:基于统一的开发框架,新建工业互联网数据资产监测、数据流动监测和数据泄露监测三种场景的应用模块,三个业务模块相互关联、不可分割,分别实现思路如下:

(1)数据资产监测业务模块通过机器学习自动分类、中文自然语言处理、常规内容检测技术和误报漏洞对照分类高级识别检测技术,对数据及其内容进行有效认知,从而完成对应的识别和审计。在传统关键字、指纹、正则、词典等技术的基础上,引入人工智能引擎的内容识别技术,提升识别精准度和性能,并可通过人工,对数据的类别和等级进行校准研判,对数据资产进行打标,使得识别模型准确度不断提升。

(2)数据流动监测业务模块实现数据通联分析、异常流转分析、跨境流转分析等功能。具备实时流量统计、流量类型、流量方向、异常流量、共用流量等功能,实现对流量变化的综合感知、精确管理。具备实时异常数据流感知、跨境不明数据识别、数据非法跨境流动溯源取证、违规数据提取等功能。

(3)数据泄露监测模块对数据内容进行有效认知,从而完成对应的识别和审计。配合监控、预警、审计等手段来实现对指定数据的泄露防护,同时基于策略和规则自动响应。辅以高级检测技术,例如指纹文档比对等,以及多语言和语义的检测支持,实现精确识别数据泄露,及时告警。

4 核心功能

4.1 数据资产监测

以被动流量分析为主,主动探测为辅,主被动相结合的方式,通过资产指纹、POC检测等技术,检索工业互联网数据中的资产指纹,包括端口、协议、IP等信息。结合相关备案数据、标识解析等数据,识别联网工控设备、工业APP、工业互联网平台、工业互联网企业等相关信息及活跃度,建立工业互联网基础信息库和资产化画像库。

4.2 数据流动监测

针对网络流动中的敏感数据进行监控与报文还原。监测内部信息外泄,对网络流量中的信息进行全量抓取,获取相关的敏感数据资产信息及时告警,降低数据资产暴露风险;监测高危敏感数据操作,获取敏感信息的操作行为,尽早发现数据盗取或者间谍行为;监测高危用户操作,排查风险和权限问题。

4.3 数据泄露监测

内容检测识别技术可以实现数据智能分级保护,快速定位、准确识别企业核心数据,配合机器学习、大数据分析等高级检测技术,实现核心数据事中检测响应的防护理念。作为行业监管部门,数据泄露监测发现应立足于总体国家安全观,保护企业即个人隐私数据。

5 方案可行性验证

本文阐述了工业互联网数据安全监测手段建设的必要性,设计了基于流量场景下工业互联网数据安全监测系统的实现方案,以及系统需实现的三个核心功能,即数据资产监测、数据流动监测和数据泄露监测。通过贯彻数据分类和分级防护的理念,指导如何构建工业互联网数据安全综合防护体系。基于以上设计思路,对方案可行性进行了初步验证,抽样南京、扬州、苏州等地的部分工业企业,均值流量约105Gbps的互联网专线流量进行监测分析,期间监测发现工控设备资产约5.3万个,按类型统计如图2所示。月均监测发现与工业生产制造、运行维护、平台运营等相关工业类型数据363万条,数据流动日志975万条,这些数据以分析后的日志方式存储于大数据平台,包含IP、端口、协议报文以及关联的资产标签、敏感特征等数据,为进一步实现数据泄露研判提供可能。

6 结束语

限于篇幅,本文未对工业互联网网络安全展开说明,但现实中数据安全与网络安全往往是伴生关系,结合网络安全事件的分析结果有助于我们更深刻、更全面地了解数据安全事件产生的原因,建立防范机制,以便更全面指导工业互联网数据安全监管工作。

猜你喜欢

敏感数据数据安全流量
冰墩墩背后的流量密码
我国5G数据安全保护供给不足,“四步”拉动产业发展
张晓明:流量决定胜负!三大流量高地裂变无限可能!
基于大数据的智能数据脱敏系统
寻找书业新流量
实现虚拟机敏感数据识别
从泄密途径谈网络敏感数据安全的有效防范
云计算中基于用户隐私的数据安全保护方法
建立激励相容机制保护数据安全
大数据云计算环境下的数据安全