面向渔政管理信息系统的网络安全态势分析

2021-09-23陈孟婕刘慧媛蒋庆朝倪晨瀚

渔业信息与战略 2021年3期

陈孟婕，刘慧媛，蒋庆朝，徐硕，倪晨瀚

（中国水产科学研究院渔业工程研究所，北京 100141）

近年来，随着网络规模迅速扩大，网络的脆弱性特点也使得病毒、漏洞、攻击等网络安全问题层出不穷，诸如2021年美国先后发生的“太阳风”（Solar Winds）黑客事件、科罗尼尔管道运输公司（Colonial Pipeline）石油运输管道事件、挪威Volue公司与爱尔兰卫生服务执行局（Health Service Executive，HSE）遭遇的勒索软件攻击事件等［1，2］，凸显了网络安全严峻态势，给包括渔政管理系统在内的各类信息系统造成严重威胁。信息网络安全问题已引起各国政府部门的高度重视，我国自2016年以来先后推出了《中华人民共和国网络安全法》《网络信息内容生态治理规定》《关键信息基础设施安全保护条例》《网络安全审查办法》等一系列网络安全保护相关法律法规，加强网络安全领域监督管理，各国也通过立法、研究资金支持、政企合作等方式，加强网络安全管理［3，4］。

在宏观政策指导下，信息系统网络安全管理工作以各类网络日志数据作为基础研究资料，开展网络日志、网络流量分析，掌握网络整体情况、辨识安全风险，提升网络安全防御能力。面向网络安全的网络日志分析技术主要解决海量、多源异构日志采集与处理、数据模式识别与分析挖掘等问题，识别网络安全问题并实现攻击行为防御，具体包括网络监控、异常检测、特征分析、态势感知等［5－6］。基于网络日志及网络流量分析技术，各个厂商开发了防火墙、防病毒、入侵检测系统等常规的安全产品解决一部分安全问题，进而提供以网络综合管理系统为核心的网络安全系列产品，提供整体的网络管理服务。网络综合管理系统运行在信息系统运行环境中，通过收集各类网络设备（如防火墙、入侵检测系统等）日志信息，在预先设定的规则下进行网络原始数据的分析筛选，实现网络情况与用户情况的监视记录、网络异常行为的识别与告警以及数据分析结果的输出，为网络状态的掌握及安全风险的应对提供依据。网络管理系统规则库的建立依赖于专家的实践经验，无法随着网络的改变而实时更新。因此，虽然网络管理系统在一定程度上提供了特定信息系统网络安全分析，但是数据分析功能在灵活性上有所欠缺，面对大量的日志记录数据，用户通常只能在发生重大问题后作为事后检查的依据［7］。研究者针对网络管理系统缺乏灵活性问题，展开网络安全管理系统研究，实现多种网络日志综合分析利用。例如辛云龙［8］研究了MVC框架下的网络安全数据管理系统，对网络安全设备进行统一的管理和配置，对网络安全信息数据进行高效的审计，增强安全设备与网络安全管理者之间互操作性。杨舒琴［9］设计和实现了网络安全审计管理系统以实现多个主机、网络设备来源的网络日志分析、告警与报表。肖和明［10］在研究中构建了多源网络数据可视化管理系统，实现对网络安全设备、监管设备等日志信息的采集、关联分析与容和处理。对于网络安全管理系统提供的分析数据的研究仍较少，而对这类数据的高效分析挖掘，有利于信息安全管理人员对信息系统网络安全态势的准确把握。

以渔政管理信息系统为例，该系统是面向渔业管理的全国性政务系统，部署在农业农村部信息中心，其信息安全架构是在信息安全等级保护制度1.0标准（“等保1.0”）的背景下，按照信息安全等级保护三级的要求投入建设的，并运用相应的网络安全手段保障系统安全运行［11，12］。渔政管理信息系统的网络安全由农业农村部信息中心网络安全管理系统提供统一的技术支持，获取以网络告警数据分析为主的网络安全分析报告数据，报告由统计分析和数据详情组成。目前，网络安全分析报告数据未得到充分开发与利用，主要原因有以下方面：（1）数据格式多样，不便于融合使用；（2）数据详情部分冗余、关键字段信息不完整，网络管理软件规则库未公开，不利于报告的理解和使用；（3）报告分析不够深入，缺乏针对性，未能提供有效决策支持。本文以渔政管理信息系统的网络安全分析报告作为分析数据，针对报告数据量大、利用率低、难以融合分析等问题，构建融合网络知识资源的渔政管理信息系统漏洞数据，对网络攻击事件主题、数据关联关系展开分析挖掘，为渔政管理信息系统网络安全运维提供技术支撑和建议，为各类信息系统基于网络安全分析数据的再分析、再挖掘提供研究思路。

1 数据与方法

1.1 数据来源

本文通过渔政管理信息系统网络的安全管理系统，导出2019—2020年全部网络安全分析报告6份，包含详细数据记录约50 000条，每条数据内容主要是时间、攻击IP、摘要、目标端口以及攻击次数，均为半结构化文档格式，数据样例如图1所示。网络安全分析报告提供的分析结果仅对攻击IP按次数进行统计，未提供信息系统专项分析，因此发挥的安全指导作用有限。在现有数据资料基础上，需要对数据进行补充完善和分析挖掘，进一步掌握网络安全情况，为网络安全防护提供一些思路和建议。

1.2 网络日志数据融合与分析关键技术研究

由于网络安全分析报告提供的分析结果过于简单，数据详情部分信息不完整，数据难以分析挖掘，需要对数据进行清洗转换，构建便于分析使用的网络日志数据库。本文从数据融合与分析入手，实现关键数据识别与存储，主要包括三个流程：原始数据预处理、关键字信息识别提取和数据融合处理。其总体技术框架图、详细技术流程图如图2、图3所示。

图2 网络日志数据融合与分析技术框架Fig.2 Technical framework for web log data fusion and analysis

图3 网络日志数据融合与分析技术流程图Fig.3 Flow chart of web log data fusion and analysis

原始数据预处理主要是对收集的原始数据进行预处理，具体包括数据格式转换、目标数据筛选、结构化处理、标识分配、数据合并、残缺信息补充或剔除等，实现异构数据的清洗和统一存储，便于数据分析利用。

对于数据中以文本格式存储的“摘要”字段，包含了攻击行为简要介绍或者片段介绍，是数据分析的重要对象。经分析，日志原始数据的“摘要”字段中有大量重复的、难以分析利用的文本记录信息，例如“TCP＿建立SSL握手连接”；同时，也蕴含了具有分析价值的攻击事件，例如包含国际公开的信息安全漏洞字典（common vulnerabilities and exposures，CVE）编码信息的摘要。对于这部分摘要，以“CVE－”作为关键字提取数据中CVE编码，并根据字符串模糊匹配算法进行编码的补充完善。

在提取CVE编码之后，根据数据分析需求，引入CVE字典库，建立面向渔政管理信息系统的CVE编号目录索引，帮助快速查找日志摘要中漏洞的相关信息以及修复信息。由于CVE中对漏洞分类分级信息不完善，本文引用中国国家信息安全漏洞数据库（China national vulnerability database of information security，CNNVD）中的漏洞分类分级信息，包括危害等级（漏洞综合评估）、厂商信息、漏洞类型、威胁类型和通用漏洞评分系统（common vulnerability scoring system，CVSS）评分等。通过关键信息的融合处理过程，补充关键信息，促进了后续用户对数据的理解和使用。

经过以上原始数据预处理、关键字信息识别提取和数据融合处理的过程，完成了渔政管理信息系统网络漏洞数据库的构建，为网络安全态势研究、网络安全漏洞挖掘、网络安全评估定级以及安全事件的快速解决提供数据来源。渔政管理信息系统网络漏洞数据库结构如图4所示。

图4 数据库ER图Fig.4 Database entity relationship diagram

2 结果与分析

2.1 网络攻击事件类型分析

对渔政管理信息系统的网络漏洞数据进行分析，2019—2020年，渔政管理信息系统受到的网络攻击次数共23亿次，识别不同的网络安全漏洞253种。分析结果显示，攻击者的访问路径中，以远程代码执行漏洞利用的攻击为主，比例占99%，相比本地漏洞利用方式，攻击面更广。对于攻击技术，木马类攻击占15%，比其他攻击行为规模更大。受影响的系统部件中，对服务网络（包括DNS、网络管理设备等）和Web中间件的威胁占较大比例。其中，基于Weblogic Server（Oracle公司的Web应用服务器）、Apache Tomcat Server（Apache软件基金会应用服务器）、IIS（微软Web应用服务器）等Web中间件的应用系统相比于Jboss（JBoss公司应用服务器）、Websphere（IBM公司的应用服务器）等其他中间件应用，在互联网上暴露的高危漏洞呈现大幅增长的趋势。表1列出了攻击次数最多的前5个漏洞，这些漏洞的威胁类型均为远程（其他类型还有本地、邻接等），漏洞类型包括设计错误、通用性漏洞、代码问题、输入验证错误以及命令错误。根据2020年新颁布的网络安全漏洞分类分级国家标准［26］，这5个漏洞的分类均为代码错误，即网络产品和服务的代码开发过程中因设计或实现不当而导致的漏洞。

表1 攻击次数最多的漏洞分级信息Tab.1 Vulnerability classification information with the most attacks

2.2 网络攻击事件关联关系分析

漏洞攻击的关联特性体现在攻击者对某个漏洞利用，有时候也会伴随着对其他漏洞的利用，一方面，序列化的漏洞将构建完整的攻击；另一方面，应用在网络中的脆弱点存在于应用、数据、系统和物理环境等多个层面，这些方面均是可以被利用的攻击点。因此，组合攻击将造成更严重的攻击危害。显然，对漏洞关联关系的挖掘，将为提高网络安全防范措施提供有力的技术保障。Apriori算法作为最经典的关联分析算法之一，是日志分析中的常用算法，该算法核心是基于两阶段频集思想递推计算挖掘关联规则。

渔政管理信息系统网络安全漏洞数据的关联规则挖掘包括两个阶段。第一个阶段是算法数据预处理，将日志数据转换为适合关联规则挖掘的数据对象。该步骤以攻击者IP作为攻击者唯一标识，对日志数据分类，合并同一个IP的攻击事件，形成不同攻击者的攻击事件集合。数据预处理代码如图5所示，数据处理结果如图6所示。图6中，每个集合为同一个攻击者的攻击事件集合，集合中的数字表示一种攻击事件类型。第二个阶段是关联规则挖掘，其算法应用示例如图7所示，通过两阶段关联分析挖掘，得到5条符合要求的关联规则。在算法实现中，通过调整算法的最小值支持度（minSupport）、最小置信度（minConf），可以得到不同的频繁项集及关联关系。算法运行结果如图8和图9所示。其中，图8是最小值支持度为0.3、最小置信度为0.5的运行结果，图9是最小值支持度为0.1、最小置信度为0.5的运行结果。如若设置最小置信度为0.5，则无运行结果。这是由于数据集中有大量无关数据，具有较高偏差，数据关联性更为隐蔽。

图5 数据预处理代码片段Fig.5 Data preprocessing code

图6 数据预处理结果Fig.6 Converted algorithm data

图7 网络攻击事件关联分析模型Fig.7 Network attack event correlation analysis model

图8 置信度为0.3的运行结果Fig.8 Run results with a confidence of 0.3

图9 置信度为0.1的运行结果Fig.9 Run results with a confidence of 0.1

对运行结果分析，可知具有较强关联规则（置信度大于0.8）的漏洞有两类，第一类是CVE-1999-0517（编号7）、CVE-1999-0278（编号55）和CVE-1999-0833（编号8），主要是对网络节点的攻击，例如DNS服务器、网络设备管理服务器；第二类是CVE-2015-4852（编号41）、CVE-2017-12615（编号45），主要是对Weblogic、Tomcat等中间件漏洞的攻击。其中，漏洞CVE-2017-5638（编号48）与第二类漏洞有一定关联（置信度超过0.5），该漏洞是对Apache Struts（Apache软件基金会开源Web框架）上传文件模块的攻击。因此，渔政管理信息系统在网络安全运维中，需要即时跟进产品的漏洞补丁，尤其是网络节点服务器以及依托的Web中间件产品的补丁。

3 结语

本文研究了网络日志数据融合与分析技术，构建了渔政管理信息系统网络漏洞数据库，研究分析了系统网络安全态势、网络攻击特点、不同漏洞被利用的关联关系。本文研究的不足在于分析的数据对象为静态数据，未对接网络安全管理系统，因此分析结果也未能及时有效更新。另外，分析的数据样本仍较少，当采集更多网络安全分析数据时，算法复杂度增加，需要进一步研究网络日志大数据分析相关算法，优化算法性能与效率。再者，在网络环境风险评估方面，可以基于现有的漏洞评分基础，结合渔政系统的实际部署架构，对漏洞进行准确评估，为系统运维人员提供更加全面有效的安全防护建议。