APP下载

钻井企业数据防泄露EDLP系统设计与实现

2024-09-04袁铭蔡海超高翔

电脑知识与技术 2024年20期

关键词:数据安全;数据防泄露;网络安全;数据识别;元数据

0 引言

钻井数据是指钻井企业在石油勘探和开采过程中收集的有用数据,这些数据对于评估石油储藏量、设计钻井方案和优化工艺都有极高的利用价值。钻井数据包含的内容主要有以下几类[1]:

1) 地质数据:包括钻井的地理位置坐标、所属地块,以及钻井区域的岩石类型、各类岩层厚度、组成、孔隙率、渗透性和岩心取样数据,以及声波测井、伽马射线测井等数据。这些数据有助于设计适合的钻井方案,调配适当的钻具,采用适合的技术。

2) 生产测试数据:包括产量测试、压力测试和样本分析等,这些数据对于评估油井的生产潜力和产出价值有很高的参考价值。

3) 钻井参数:包括钻具选择,以及设定并记录的钻井速度、钻压、泵速等操作参数。这些数据对于监测钻井过程、保障安全生产,改进钻井效率及为优化同区域后继钻井作业非常重要。

4) 井身轨迹:包括钻进的方向、深度和井眼轨迹。这对于准确地定位油藏位置是必不可少的。

这些钻井数据的收集贯穿在勘探和开发的各个阶段,对于提高钻井效率、降低生产成本、保障安全生产、优化钻井方案具有极高的利用价值,是钻井企业的核心数据资产。钻井数据发生泄露,尤其是地理位置、生产成本和产量预测等数据如果被竞争对手掌握,就会极大地影响企业的竞争力和盈利能力[2]。

长庆油田于2022年成为我国第一大油田。其勘探范围达到37万平方公里,覆盖了5个省、16个地级市和61个县(旗)。钻井队遍布这片广袤的区域。长庆钻井总公司的信息中心每天收到来自各个井队产生的各类钻井数据。其网络拓扑结构高度分散,层级多。2023年,长庆钻井公司加强了对钻井数据的治理,部分开展了分类分级工作,制订了钻井数据分类分级的模板,并进行了小范围试用[3]。

1 企业数据防泄露EDLP 系统的设计

在完成钻井数据的分类分级后,非常重要的一项工作是根据数据分类分级的结果确定数据的合规操作,而企业数据防泄露是其中不可或缺的一环。

2022年5月31日,在中国计算机学会抗恶劣环境计算机专业委员会的指导下,由中国电子科技集团公司第十五研究所(信息产业信息安全测评中心)、安全牛和谷安研究院联合发起编制了《数据防泄露(DLP) 选型指南》报告[4]。报告中指出,企业数据防泄露(EDLP)系统的设计目标是对企业重要数据进行监控,杜绝非法访问和不合规使用,协助安全管理人员降低企业数据泄露和丢失的风险。同时,EDLP系统具有功能复杂多样、对处理性能要求较高的特点,既要保证数据的安全,又不能让过于烦琐的监控影响数据使用的便捷性。

本文以指南为参考,开展了企业数据防泄露(En⁃terprise Data Loss Prevention,EDLP) 系统的设计与开发工作。EDLP系统不仅涉及技术,还需要有配套的操作流程。解决方案包括监控用户行为,检测和阻止来自内部或外部网络及智能终端设备对数据存储系统中敏感信息的不合规行为,保护数据资产的安全和完整。

1) 数据识别:首先需要从每天存储和生成的数据中识别出敏感数据。识别的手段可以采用关键词匹配、数据格式匹配、正则表达式、决策树等机器学习方法。

2) 数据分类分级:依据数据分类分级的模板,找出敏感数据所在的安全等级,按照数据合规操作规范确认哪些行为是受限制的,哪些行为是被允许的。

3) 数据监控:在企业网络中的各个出口安插DLP 工具,例如存储设备的外部接口、网络访问、电子邮件、智能设备的App访问等,对内部和外部的通信进行实时监控,保障数据安全。

4) 系统响应:当EDLP系统发现违规操作时,可自动采取预定义的措施进行响应,阻止违规行为,包括自动断网阻止数据流动、提示用户越界、通知管理员等。

5) 报告和审计:系统提供所有发生事件的详细的报告和日志,帮助安全管理人员复查系统漏洞,改进安全措施,并为追究肇事者的法律责任提供呈堂证供。

如图1所示,EDLP系统主要包含以下3个功能模块:

1) 网络DLP(Network DLP) 模块:主要针对在企业网络中传输的数据进行监控,包括几乎所有常见类型的网络通信,例如网页浏览、FTP、电子邮件、微信及QQ等即时通信软件、社交媒体等。网络DLP能够识别保密数据,并自动阻断其发送或接收,从网络层面防止数据泄露。在企业网络中,在出入口处设置了一个DLP,用于解析和监控流经的网络数据包。本文采用的是MYDLP,该软件可以解析常见的文件格式,如Excel、PPT、Word、PDF等。本文设计了专用于识别钻井数据的算法,例如基于决策树、随机森林的钻井液数据识别算法等,还梳理出一些基于正则表达式的规则用于检测数据内容。

2) 服务器DLP(Server DLP) 模块:主要针对存储在数据库、文献库、档案库的服务器或云平台中的数据,通过扫描并识别存储在这些设备中的保密数据的存储位置,颗粒度可以精确到数据库中的某些表,甚至某些字段,以实施精准的读写控制或数据掩码,从服务器、云平台的层面保证数据安全。在服务器上安装了OpenDLP,并将钻井数据识别算法安装到OpenDLP中,通过扫描本地存储,找出敏感数据的精确位置进行保护。

3) 终端DLP(Endpoint DLP) 模块:主要是面向用户终端设备的数据防泄露,例如用户工作站主机、笔记本电脑、云终端、智能移动设备、打印机等。阻止用户将保密数据复制或打印到外部设备,或对外复制打印的数据进行数据掩码,屏蔽真实数据的外漏。此部分可以使用成熟的商业软件,例如绿盟或启明星辰等,并根据厂家提供的API或规则库接口写入自定义的钻井数据识别算法。

2 面向钻井数据的识别方法

在网络DLP,服务器DLP和终端DLP模块中都需要数据识别,判定是否为敏感数据。对于数据识别可以采用多种方法:

1) 在数据库系统中可以采用读取元数据的方法来了解数据库表,字段的信息。通过检索访问控制表(ACL)来判定是否用户有权限访问数据。

2) 通过分析与特定用户或设备关联的数据,可以识别由特定用户创建或经常访问的敏感数据。

3) 有的企业会在文档和电子邮件中使用数据标签来标识信息的敏感级别。DLP系统可以根据这些标签来识别敏感数据。

4) 内容检测方法,常见的包括:正则表达式、关键词匹配、机器学习算法等[5]。

由于在不同企业中的数据类型和形57f4f6adc7c68a318fbbab27b543b228d0d108d8a94f7669ddcc20a4f8121e12式都千差万别,除了像身份证、电子邮件、门牌地址等数据具有统一格式,各个企业都有自己独有的数据类型,所以在目前各种商业或开源的企业数据防泄露EDLP系统的实现方案中,都会预留内容检测的接口,用于适配每个企业的个性化需求。钻井企业中的数据也很有特点,例如,一组钻井液数据如表1所示。

对于不同的字段就要采取不同的方式来识别。对于井号、其中带有汉字、数字及“-”,就可以按照其形式直接定义一个正则表达式进行判断,给出的正则表达式如下:

这个正则表达式应该能有效地匹配跟随汉字后面的数字、短横线以及另一个数字的字符串,这对于某些命名习惯或标识符是典型的。

工况和地层的类型很像,它们的取值都是有限的几个专业词汇,例如工况的取值常见的就是“钻进”“电测”“二开钻进”“起下钻”等。地层的取值常见的就是“山西组”“本溪组”“塔里木盆地”“鄂尔多斯盆地”等,这些都可以通过简单的有限集合元素的匹配进行识别。如密度、酸碱值等数据类型同样具有一些直观的数据特征,像密度的值在1左右浮动,酸碱值为7左右的整数值,通过这样的数据特征也可以通过设定置信区间的方法来制订识别该类数据的规则。比较复杂的是像钙离子浓度和井深的数据,它们的取值范围重合度很高,井深可以是从0到7 000米,钙离子浓度取值范围可以是从几十到几千,大多数情况都在1 000以下。对于这些比较相似的数据,可以通过数据变化趋势来判断。井深数据是递增的,而钙离子浓度则没有这种变化趋势。对于表1所示数据,根据这些特点构建出的用于识别钻井液数据的分类决策树如图2所示。

这些个性化定制的数据识别算法可以嵌入网络DLP、主机DLP和服务器DLP模块中,用于识别敏感数据。

3 结论

近年来,国家越来越重视信息安全。2021年,《中华人民共和国数据安全法》提出,将数据安全提升到影响国家安全的高度。长庆钻井总公司作为一家大型国有企业,长期以来收集了大量的钻井数据。这些数据不仅关系到企业的利益,同时也对国家安全有着重要的影响。因此,企业数据防泄露(EDLP) 系统成为数据安全中的重要一环。只有正确开发和部署EDLP 系统,根据数据特点设计识别算法,才能最大限度地发挥EDLP系统的作用,为企业的顺利发展保驾护航。