APP下载

电力监控系统敏感数据存储安全技术分析

2022-07-07吴金宇苏扬江泽铭易思瑶张富川

电子技术与软件工程 2022年5期
关键词:敏感数据字典密钥

吴金宇 苏扬 江泽铭 易思瑶 张富川

(中国南方电网电力调度控制中心 广东省广州市 510623)

电力监控系统主要作用是对其管辖范围内的电网进行集中监控,收集电网各种资产和设备的运行和生产数据,并将其存储在数据库中。其中这些数据主要包括电网模型数据、发电计划数据、关键负荷数据、设备控制数据和用户管理数据等这些数据与电力安全生产有着密切的关系。然而,在数据存储方面,只有极少部分关键数据被加密,例如管理用户的关键数据,而其他重要的关键数据,例如设备模型数据、电力生产计划数据、关键负荷数据、设备控制数据等仍以纯文本形式存储在数据库中。随着“重业务、轻安全”的发展思路,人员的数据安全防护意识薄弱,数据安全防护不到位,入侵者能够很容易通过数据库获取到电网设备的关键模型数据、关键控制指令数据、关键负荷数据以及发电计划数据等,造成电力系统的一些关键数据泄密事件,给发电带来了严重的安全隐患。因此,本文对电力监控系统中存储关键数据的安全技术进行了研究和分析,以确保关键数据的安全,从而保证电力监控系统的安全稳定运行。

1 电力监控系统数据现状分类

电力监控系统数据应包括静态模型参数数据、管理用户数据、实时动态断面数据和历史数据。其中模型数据应包括网格设备的模型数据和收集的模型数据;管理用户数据主要指与用户组、用户和授权角色有关的数据;实时动态断面数据包含联络线的有功、无功、电流数据,母线的电压数据,负荷的有功、无功、电流数据,发电机的有功、无功出力数据,电容电抗器的无功数据,变压器的档位、温度数据,以及负荷计划、机组计划数据等;历史数据是指所有断面数据在指定的间隔周期内存储到数据库的数据。此外,还包含一些非模型数据,如报警描述数据、调度日志数据、软件用户手册、功能技术规范等。

2 敏感数据管理与处理

敏感数据管理与处理本文中主要通过敏感数据分类、定级、脱敏等三个方面进行了研究与分析。

2.1 敏感数据分类

为了便于为敏感数据制定合理的数据安全策略,在扫描待识别的数据集并识别所有敏感数据后,有必要对电力监测系统的数据资产进行分类。文中分别基于内容和用户对敏感数据分为以下两类:

图1:敏感数据定级别图

(1)采用基于DLP的内容匹配策略和算法,将数据分为公共数据、外部敏感数据、部门间内部敏感数据、部门内部敏感数据、极端敏感数据等。

(2)当没有明确的合规性指示时,采用基于用户的分类;可以为用户提供分类工具,根据实际情况对数据进行分类,如公开数据、仅供内部使用的数据等。

2.2 敏感数据定级

为便于对敏感数据进行管理,需要对敏感数据进行定级,按照敏感级别的不同,采取不同管理措施。一般情况下,敏感数据定级别图如1所示。

2.3 敏感数据脱敏

数据脱敏是指通过脱敏规则对某些敏感信息进行变形,以实现对敏感隐私数据的可靠性防护。当涉及客户安全数据或某些商业敏感数据时,实际数据会被转换,并在不违反系统规则的情况下供测试使用。本文对敏感数据进行脱敏处理,主要基于采用脱敏国密算法对敏感数据进行加密/解密处理。国密算法是国家加密局制定的标准算法,包括对称加密算法、非对称加密算法以及杂凑算法等。

2.3.1 密钥管理

在国密算法中,无论是对称算法、非对称算法还是杂凑算法,密钥都必须参与算法的计算。因此,在信息安全领域,正确的密钥管理是非常重要的。密钥管理必须管理整个密钥的生命周期,确保私钥不被未经授权的人访问、使用、披露、修改和替换,并确保公钥不被未经授权的人修改和替换。当前电力监控系统中使用的双因子登录调度员密钥存储在USB闪存驱动器中,并由调度员存储。当您登录或执行系统操作时,系统会将其插入计算机中的USB闪存驱动器完成双因子身份验证。在存储敏感数据的过程中,存储本身是一种动态行为,关键数据实时存储在库中。因此,此过程不适用于使用USB闪存驱动器保存密钥。

2.3.2 安全控件研究

对于密钥敏感数据的存储,原始数据通过加密算法进行处理,加密后的数据存储在库中,以确保密钥敏感数据的机密性;从库中读取数据时,将通过解密算法进行处理,并恢复为原始存储数据,以供其他授权应用程序服务使用。开发统一的安全控件产品,提供统一的算法应用,安全高效地存储各种电力监控系统应用服务的敏感数据是解决当前密钥敏感数据加密存储问题的一种快速有效的方法。作为安全控件产品必须保证自身的安全,首先必须混淆密钥代码,以防止代码文件被反编译和解码;其次必须确保自身的安全,以避免被特洛伊木马或其他病毒入侵。

3 敏感数据识别规则

对电力监控系统的数据进行敏感识别研究,本文中主要采用人工指定与自定义规则自动识别相结合方式进行识别。其中人工指定方式用于对某些固定的数据实时进行敏感数据处理;自定义规则自动识别用于自动扫描数据库表或文件,按照定义好的特征规则识别发现敏感数据。

3.1 人工指定

人工指定方式就是由用户来指定那些数据为敏感数据。用户可对电力监控系统中某些类型一致的数据进行指定,这一类数据是关系到电力生产安全的数据,是结构化的数据,这类数据的泄密能对电力安全生产产生直接影响。譬如管理用户数据表中的用户密钥数据、采集模型中的控制点号数据、发电机组的计划发电数据、关键负荷的负荷数据等,把这类数据定义为敏感数据,需要在存储时进行脱敏处理。人工指定方式需要扩展自动化监控系统的库表,由人工在数据库中对数据进行敏感性定义。目前调度自动化系统涵盖了整个电网的数据,数据量庞大,需要耗费大量的人力来实现,效率较低;厂站自动化系统数据量较小,可采用人工指定的方式实现对敏感数据的识别定义。

3.2 规则自动识别

敏感数据通过规则自动识别,需要定义规则特征库,通过规则特征库中的特征关键词与数据库中的数据进行匹配,进而识别出敏感数据。规则特征库实际上是一个词库字典,字典中定义敏感数据的特征关键字,通过扫描数据库或文件中的数据进行特征匹配检查来识别敏感数据。其中词库字典建立过程如下:

(1)首先,是预处理过程,对要进行识别的数据集进行训练并加以处理,提取出初步特征词汇集;

(2)其次,是特征词筛选过滤,对其中的没有意义的特征词,譬如虚词、代词等要进行删除处理,最后得到更有意义、更具代表性的特征词,一般采用“TF-IDF”加权重技术处理特征词,一个词在被处理时出现的次数越多,则表征这个词很重要,其代表着其向量权重就越高,作为特征词规则的价值就越大;

(3)最后,人工手动确定最佳特征词。在建立和完善词库词典后,对词库进行人工分类识别,进一步提取敏感词;相关技术人员合理地检查敏感词和容易识别的数据,并收集和整理这些敏感词和数据,形成敏感词汇词典。

3.3 敏感数据识别方法

3.3.1 人工指定识别方法

所谓人工指定识别敏感方法,实际上就是调度自动化系统管理人员或厂站自动化系统管理人员在系统数据库表中识别数据敏感性,并完成数据敏感性的标记。这种方法要求调度自动化系统和电站自动化系统扩展数据库表结构,并添加字段以识别数据敏感性。为此得出,人工指定方法虽然在原理上简单易懂,也简单易用,能准确识别敏感数据,但维护工作量大,效率低。

3.3.2 规则的自动识别方法

识别过程主要使用分词技术建立的敏感函数字典,使用敏感函数字典,并对从识别数据集中提取的特征词进行相似性匹配。在匹配过程中,如果某类敏感词的累积值过高,则该数据很可能是敏感数据。

3.3.3 词典构造方法

字典构造方法是构建一棵结果树。具体方法是准确找到根节点,将根节点作为一级节点,然后从根节点中找到叶节点。这样,每个节点的级别逐渐增加,最终形成结果树,从根节点到叶节点,每个节点的阶段数将逐渐增加。除根节点外,每个节点对应汉字的汉语拼音。每个关键字中的每个汉字都匹配一个叶节点的汉语拼音和两个汉字之间的分隔符组成一个字符串,这与从根节点到叶节点的路径中的汉语拼音和匹配的节点分隔符相同的字符串一致。如图2字典构法树状图中以“有功总加”和“无功总加”进行介绍,第一级节点为“GUANG”,第二级为“ZHOU”,第三级为“YOU”和“WU”,第四级为“GONG”和“GONG”,第五级为“ZONG”和“ZONG”,第六级为“GONG”和“GONG”,最终在一颗结果树上找到“有功总加”和“无功总加”。

图2:字典构造法树状图

3.3.4 智能匹配法

智能匹配方法是逐行、逐列识别和匹配。读取待识别数据集的数据后,识别每一行和每一列的数据。获取所有要识别的数据记录,然后识别每个要单独识别的数据行。具体匹配方法如下:

从数据表中检索到50行要识别的数据后,可以识别第一行和第一列的数据,以确定第一行不包括特征密钥字典中的密钥分词,然后再识别第一行第二列的数据。假设特征密钥字典中的密钥分词包含在第一行和第二列中,就表明第一行中所有列的数据都已识别,则特征特征密钥字典中的密钥分词不包含在第一行的其他列中,第二列除外;此时,判断第二行待识别数据的每一列是否包含特征密钥字典中的密钥分词,进而假设第二行待识别数据的第五列仅包含特征密钥字典中的密钥分词;假设要在其他行的所有列中标识的数据不包括特征密钥字典中的密钥分词,则整个数据表的第二列和第五列中包含的数据被确定为敏感数据。

综上所述,智能适配方法必须在不需要人工参与的情况下扫描和检查数据集中每一行和每一列的数据,但操作效率较低,适合于数据库表的整体扫描。

3.3.5 敏感数据的高精度自动识别方法

目前,敏感数据的识别主要依靠字典匹配法和人工识别法,但这两种方法都不能取得很好的效果,主要体现在:

3.3.5.1 识别率低

字典匹配识别法还是基于模式化匹配的方式,因此敏感数据的识别准确度取决于数据字典的建立。当特征数据字典不完整或特征数据字典建立不正确时,识别精度将降低,一些未识别的敏感数据将被忽略。

3.3.5.2 识别速度慢

面对大数据,人工处理的方式比机器识别耗时太长,而且人工处理方式对处理人员的专业素质要求较高;

3.3.5.3 评定标准不统一

因为识别敏感数据的过程主要取决于人们的主观判断,不同的人对相同数据可能会有不同的评价标准,同一人在不同时间识别的结果依然也存在不同,这导致敏感数据识别结果的不同。

简而言之,敏感数据的识别和分类是混淆业务数据安全管理的根本问题。迫切需要一种准确有效的敏感数据分类和识别方法来识别和分类内部数据。因此,本文提出了一种高精度的敏感数据自动识别方法,包括两个阶段:敏感样本数据的采集和敏感数据的识别与分类。

(1)收集敏感数据的样本数据:

在电力监控系统中,数据库中的结构化数据和文件系统中的非结构化数据被自动收集。样本数据收集方法主要包括数据库采集和工件数据采集。

数据库采集。以特征字典表的形式收集原始数据信息,如数据表和数据字段的名称、类型和注释信息。

工件数据采集。确定文档中文本的格式,并使用文档中的自动分词方法对文件中的内容进行剪切和合并。对于一些特殊的文件类型,如票据文件,从文本模式识别中提取原始数据和示例。在收集原始数据和样本后,对这些数据进行过滤和汇总,以消除数据中的“杂质”,提高数据样本的质量,从而减少敏感数据识别和分类过程中的计算繁琐性。

(2)敏感数据的识别和分类:

敏感数据的识别和分类是数据安全的关键所在。通过筛选不同类型的数据,可以识别和分类敏感数据,并对不同类型的数据进行分类保护。为了实现更准确的数据识别方法,需要在原有的匹配特征词典分析方法的基础上,对敏感数据识别方法进行进一步优化,通过语料库准备、文本预处理、分类处理、分类检验等四个步骤完成敏感数据的识别和分类。其中敏感数据识别和分类过程示意图如图3所示。

图3:敏感数据识别与分类过程示意图

词库创建。利用分词技术对训练数据库进行预处理,得到词汇库。在删除词汇库中的无意义词汇(如虚词和代词)后,将获得一个有意义的词汇库。然后根据“TF-IDF”进行处理。当一个词在所有训练数据库中出现得更频繁时,该词的重要性更大,这也表明该词的向量权重更大,并且计算每个词的向量权重以完成语料库的建立。

敏感词的特征获取。获取语料库后,用户手动定位并分类语料库。这一过程主要取决于风险评估师和公司人员,并选择可以用敏感数据代表意义的,以形成敏感词数据库,包括匹配常用的敏感词模式,敏感词的分类和敏感词的权重。

敏感特征词组合。为了分类、识别和提取目标的特征,分词技术主要用于处理目标数据。然后将提取的特征与敏感的同义词表相结合。在记录组合结果时,会显示敏感词的分类和权重。当给定类别敏感词的累积权重值较大时,目标数据倾向于对该类别进行排序,并根据敏感词的累积权重值从上到下进行排序。

评估敏感数据的识别质量。识别和分类结果的评估主要包括两部分:一是纠正错误的分类,主要是对敏感词进行重新分类或建立多个敏感词的对应关系和分类;另一部分是对未识别词进行分类和整合,进一步扩展敏感词数据库的内容。

4 结束语

在电力监控系统中,各类信息资产已成为电力企业的核心资产。因此,存储敏感数据的安全技术是数据资产保护的第一要素。为此本文中基于电力监控系统数据现状,分别通过对敏感数据识别方法和处理方式等安全存储技术进行了研究与分析,以确保电力监控系统安全稳定运行。

猜你喜欢

敏感数据字典密钥
开心字典
探索企业创新密钥
开心字典
干扰条件下可检索数字版权管理环境敏感数据的加密方法
密码系统中密钥的状态与保护*
实现虚拟机敏感数据识别
基于透明加密的水下通信网络敏感数据防泄露方法
基于4A平台的数据安全管控体系的设计与实现
一种对称密钥的密钥管理方法及系统
基于ECC的智能家居密钥管理机制的实现