基于信息安全考虑的数据识别分析
2016-12-31侯君
侯 君
(大庆油田信息技术公司北京分公司,北京 100000)
基于信息安全考虑的数据识别分析
侯君
(大庆油田信息技术公司北京分公司,北京 100000)
数据识别技术,对于企业内网数据的有效处理和安全保护等方面意义重大,在当前大数据的环境下,对于数据识别技术的需求尤为突出。基于此种考虑,本文首先针对油田工业环境中的数据特征及数据安全状态展开了深入的分析,然后进一步在此基础之上,对如何切实推动数据识别技术的发展予以深入讨论。
信息安全;数据识别;油田企业
1 油田工业环境中的数据特征分析
在工业生产工作环境中,数据主要来源于管理和工业生产两个领域。管理领域的数据相对而言比较常规化,主要涉及人力资源等相关管理领域工作数据,但是随着科技的不断深入发展,大量生产流程中的设备状态数据纳入到企业数据环境之中,而这种趋势,在油田工业领域中更是尤为突出。油田生产工作过程中一贯以数据的庞大繁杂著称,数据用以反映生产过程中众多设备的状态。通过这些数据可以判断整个工作过程的安全水平,然后展开进一步的调整。
随着物联网相关技术的发展,更多的数据纳入油田工业环境之中,实时性和海量性成为其主要特征。对于实时性而言,油田工业环境之中,生产过程中的数据关系到诸多设备的工作状态及安全水平,因此,只有对其展开及时的识别才能妥善处置。而对于海量性而言,主要是考虑到油田工业领域中必然会引入的大数据技术,从客观上要求对这些数据展开及时的深入分析,发挥其既有价值。因此从这样的两个方面看,对数据展开必要的识别,是有效针对不同种类来源的数据展开及时分析的必然要求。
与此同时,从安全的角度看,数据识别同样意义重大。当前数据安全的解决方案,通常会从传输和存储两个方面展开,即在传输过程中通过各种类型的网关等来对传输数据实现过滤,或者面向存储状态的数据展开分析,来确定数据中是否夹杂有不安全的因素。此种安全分析工作方式在传统企业环境下,当数据量以及传输总量相对较少的时候能够十分有效地展开工作,但是随着数据量的不断增加,流媒体数据也开始涌入到工业生产环境之中,想要切实有效地对所有的数据展开分析,就显得较为困难。相关安全系统的计算能力不断得到挑战,必须采取必要的措施改善此种情况。
在这样的背景之下,如何实现有效的数据识别,就显得意义重大。良好的数据识别体系,能够帮助安全系统以及相关的大数据技术依据不同的数据特征展开区分,从而来决定为不同的数据群体提供不同安全级别的保障,也便于为大数据分析系统优化其数据材料,并且在最短时间内响应不同数据消费端的查询请求。
2 推动数据识别体系建设
数据识别服务于整个油田数据系统。数据识别工作展开的有效性,关系到整个企业局域网数据的安全水平,对于其他多个方面的数据信息处理工作也有不容忽视的重要价值。从目前数据识别技术的发展状况看,主要是基于数据特征的识别技术,但是随着工业环境中更多数据的涌入,基于数据生命周期的识别技术同样也是未来发展的主要特征。
对于基于特征的数据识别方法而言,具体包括两个阶段的工作,第一,元数据和样本数据的采集;第二,敏感数据数据的识别与分类。
在第一个阶段中,数据识别系统的主要工作任务是通过自动化的方式面向数据库、文件系统及传输过程展开对于数据的结构化与非结构化数据样本和元数据信息的采集。采集主要内容包括元数据信息(数据表和字段的名称、类型、注释信息等)、文件类型数据(在获取文件格式的基础上,采用自动化分词等相关技术将文件内容进行切割和合并,并且建立起对应的文件特征数据)。然后在这样的采集基础之上,对获取到的数据进行梳理和过滤,提升样本整体质量。
在第二阶段中,展开对于敏感数据数据的识别与分类。应用数据识别技术,对不同类型的数据进行甄别,确定其中的敏感数据,并对其进行甄别和分级分类,从而便于进行更具有针对性的数据安全保护工作。这一部分的工作,具体包括词库建立、敏感特征提取、敏感特征匹配以及敏感数据识别质量评估等几个方面。其中词库建立主要是对采集到的数据进行收集和整理,剔除其中的无价值词汇,获取到符合识别需求的词库。而敏感特征提取,则是在建立起词库的基础之上,对词库展开分析和识别,以相关人员作为主要的力量进行构建,并且随着人工智能的发展,相关技术也在逐步引入到该环节之中。敏感特征匹配主要是对分类和识别目标展开特征提炼,将目标数据采用分词技术进行分词处理,然后进一步将提取到的特征与词库进行匹配,依据匹配情况进行排序。最后,敏感数据识别质量评估主要对识别结果进行评价,包括对错误分类的进一步纠正和对于未能识别的敏感词的补充,完善词库。
除此以外,基于生命周期的数据识别也是未来发展的一个重要方向,同样不容忽视。这主要是考虑到数据从诞生到消亡,不同的数据在不同的生命阶段中会呈现出不同的安全需求,并且数据在不同环境下面对的人群不同所产生的功能和价值,也均会有所不同。从油田工业环境的角度看,实时性强的数据随着时间的流逝,其安全价值呈现出逐步递减的趋势,而核心技术领域的数据,通常需要自始至终的密切保护。因此,对于数据产生环境和来源等方面特征的识别,能够进一步提升数据安全工作的针对性,提高数据安全体系工作整体效率。
3 结 语
在面临油田大数据环境时,数据识别技术是不容忽视的重要支持。只有在实际工作中不断深入分析和完善对应的识别规则,才能获取良好效果,为油田的发展奠定坚实基础。
主要参考文献
[1]冯建云,张月琴.内网安全信息防泄漏系统的开发与实现[J].电脑开发与应用,2010(7).
10.3969/j.issn.1673 - 0194.2016.14.108
G203
A
1673-0194(2016)14-0154-01
2016-06-08