APP下载

大数据环境下安全数据失真机理模型研究*

2021-06-24吴家豪吴超雷雨

科技促进发展 2021年7期
关键词:流动分析过程

■ 吴家豪 吴超 雷雨

1.中南大学资源与安全工程学院 长沙 410073

2.中南大学公共管理学院 长沙 410073

0 引言

信息时代的到来,安全大数据的重要性日益凸显[1-3]。安全大数据中蕴含安全信息和规律,促使安全评价从定性转变为定量模式,并使安全管理更加科学有效。安全数据的完整性对安全管理起着关键作用,是安全决策的重要支撑和信息来源[1,4,5]。但是,当前安全大数据存在难以从海量数据中挖掘到有价值安全信息的困境。在大数据价值密度较低的环境下,安全数据应用过程容易出现失真现象。

过去,学者对于数据失真进行了相关研究,主要研究集中在失真特点[6-9]、失真原因[10-14]和失真防治对策[13-18]等。例如,孔杰[8]指出数据失真导致基于大数据的社会治理分析发生偏差,造成决策失衡;王莎莎[14]从管理机制、执法力度、人员素质和统计方法4个方面分析统计数据失真的原因;喻友员[16]针对政府统计数据失真提出了5 点建议,包括改革管理体制、完善统计方法、加强人员培训、鼓励媒体监督和加大执法力度。但是,数据失真研究很少涉及安全科学领域,特别是缺乏大数据环境下安全数据失真防治的相关研究。另外,虽然有学者指出了造成统计数据失真的缘由,但在安全科学视域下数据失真的内容、形成原因和失真机理方面缺少研究,使得安全数据分析结果缺乏科学性和应用性。

因此,完善大数据在安全学科领域应用的理论基础迫在眉睫,大数据环境下安全数据失真的防治手段亟待补充。此外,安全数据失真对挖掘到的安全信息、安全知识和安全规律的信度和效度造成负面作用。研究大数据环境下安全数据失真过程,有利于提高安全信息价值性,对加强安全决策针对性具有重要实践和理论价值。鉴于此,笔者拟从安全大数据出发,分析安全数据的失真内容和成因,构建安全数据失真的机理模型,并提出减少安全数据失真的防治策略,从而提升安全决策的科学性。

1 安全数据失真

1.1 安全数据失真过程

安全大数据[3]广义上是指在进行与安全有关活动过程中,通过一定方式获取到的可反映安全问题本质、特性、规律的数据集,以及对安全数据集进行加工所使用的挖掘方法和处理技术。本文所涉及的安全大数据为其狭义含义,即安全生产相关的数据集,主要包括安全生产相关的文本、图形、符号、图像、动画和声音等多种类型。安全数据流动过程包括输入、分析、输出和应用4个过程。输入过程主要包括采集、传输、清理和整理等安全数据预处理过程,该过程是安全大数据应用的铺垫和准备,也是安全数据从安全系统到安全数据库的过程;分析过程是挖掘和提取安全有效信息的过程,是安全大数据利用的核心部分,也是安全大数据在安全大数据库中处理的过程;输出过程是对安全有效数据的进一步提炼和认知,是安全大数据的深化阶段,是安全大数据从安全数据库到安全用户的过程;应用过程是用户对认知的安全数据的利用,是安全大数据实用阶段,是安全大数据从安全用户再次作用于安全系统的过程。

根据安全大数据和数据失真可归纳出安全数据失真的概念,安全数据失真是指在安全大数据流动过程中,由于各种外部原因和内部原因使得安全用户应用的安全大数据与安全系统的安全大数据发生不对称的现象。简单地说,安全数据失真可以理解为安全大数据产生了“畸变”,即安全大数据内容、形式和数量发生了改变。安全数据失真与其流动过程息息相关,因此建立了大数据下安全数据失真过程图(图1)。相关内容阐述如下:

图1 大数据环境下安全数据失真过程

(1)安全大数据流动的每个阶段都对应一个系统安全状态,安全大数据是安全状态的载体,安全状态是安全大数据的内涵。安全数据流动过程中,前后两阶段安全数据不对称,发生安全数据失真,各阶段安全状态也发生改变,因此安全数据失真深层次可以理解为安全状态的失真。

(2)安全数据失真流程:首先把从安全系统中采集的数据储存到安全大数据库,安全大数据库运用挖掘技术得到安全价值信息,并对结果进行上传展示;然后安全用户对数据展示结果进行认知和利用,并进行安全决策和安全管理,安全决策和安全管理会影响安全系统状况,驱动下一个新循环的起始安全状态和安全大数据的改变。

(3)在安全大数据流动过程中,安全数据失真主要包括4部分:输入失真、分析失真、输出失真和反馈失真。输入失真指在安全系统和采集者之间安全数据交互的输入过程中,由于数据输入引起的输入数据与安全系统数据不对称现象。分析失真是指在采集者和分析者之间发生数据交互的分析过程中,由于数据挖掘比采集的数据所表达的信息少的现象。认知失真是指在利用者和安全用户之间发生数据交互的认知过程中,由于安全用户的安全素养和数据理解能力不足引起的用户不能完全接收数据的现象。反馈失真是指在安全用户重新应用安全大数据于安全系统的反馈过程中,由于安全用户对安全数据的利用能力不足导致不能将安全数据全部作用于安全系统的现象。

1.2 安全数据失真形式

根据安全数据失真的外在内容和的表现方式不同,将安全数据失真分为3种形式:

(1)安全数据缺失:由于系统安全数据采集存在困难、采集方法和技术的限制、存储和处理设备的问题、人为删减等原因,采集的安全数据并不能满足用户需求。

(2)安全数据干扰:由于采集和处理方法、人为失误、设备问题和环境影响等,导致安全大数据中混杂大量无关、干扰数据。数据干扰主要包括无关、错误、替换、冗余数据等的干扰作用。无关数据是指与安全目的无关的大数据,会使安全大数据的分析和理解更加困难;错误数据是由于数据收集技术、分析和处理方法、人为失误和人的误理解等,导致获得的安全数据与原有数据发生较大偏差,比如极端值;替换数据导致的失真是由于统计方法、人为操作、数据处理方法等的问题引起,如统计量的替换;冗余数据是对同一时间的同一参数重复采集而造成的数据重复,占用存储空间。

(3)安全数据延时:由数据收集、处理分析和利用等流动过程中所用时间过长而引起的安全大数据流动不及时、不同步的现象。

总之,从量的关系方面比较,安全数据失真有少、重复和多余干扰等情况;从内容方面比较,安全数据失真有无对应、对应错和多对应等情况;从时间方面比较,失真情况有延迟输入、延迟分析、延迟输出延迟反馈4 种情况。

2 安全数据失真成因

2.1 失真影响因素

根据安全数据失真的对象、主体、外部条件将安全数据失真影响因素分为4个层面,分别为内容层面、人因层面、技术层面和环境层面。具体解析如下:

(1)内容层面。安全数据失真对象是安全数据,系统安全数据的质量是安全数据失真的核心影响因素。内容层面通过安全数据内容、数量、形式和可操作性4个角度影响安全数据失真。具体包括安全数据的数量多少、完整性、相关性、正确性、冗余性、可读性和可理解性等性质,以及安全数据的采集、传输、储存、预处理、分析和共享等操作难度大小。

(2)人因层面。人是安全大数据流动过程中的采集者、处理者和拥有者和执行者,是安全大数据失真的主体,人因层面主要从人的“硬”实力和“软”实力两个方面共同导致安全大数据失真。“硬”实力是指人员的安全数据的采集、分析、认知利用和执行能力,是影响安全大数据流动过程直接导致安全大数据失真;“软”实力是指人员的安全数据素养[19]、安全意识和安全观等思维意识,是通过影响人的行为能力间接导致安全大数据失真。

(3)技术层面。安全大数据流动过程中采用的方法、理论、算法、程序、工具、平台等。技术层面主要从技术方法和平台工具两方面导致安全数据失真。技术方法是指安全数据采集、挖掘、存储和可视化过程采用的方法、模型和算法等,平台工具是指安全大数据库平台和开发挖掘的应用程序等。

(4)环境层面。安全大数据流动过程处于特定外部条件,这些条件都能对安全数据失真的内容和程度造成影响。环境层面分为内部环境和外部环境两方面。内部环境是指领导机关和主管部门的作风建设、部门实施的考核机制、监管体制等;外部环境是国家发布的法律法规、以及法制宣传和执行力度。

2.2 失真成因综合分析

根据上述对安全数据失真影响因素的分析,并结合安全大数据流动过程的4 个部分,对安全数据失真成因进行综合分析,建立安全数据失真成因矩阵图(图2)。

图2 大数据环境下安全数据失真成因矩阵

失真成因矩阵图是从安全数据失真影响因素维度和安全大数据流动过程维度共同研究安全数据失真形成原因。横轴表示安全大数据流动过程,从横轴上可发现安全大数据是在哪一流动过程出现失真现象,针对这一过程寻找出失真原因,提出相应的应对措施。纵轴表示安全数据失真的影响因素,从纵轴上发现具体是哪一影响因素导致的安全数据失真,可以探讨单一影响因素对整个安全数据流动过程的影响。从整个失真成因矩阵图可以准确迅速找出安全数据失真环节,并根据具体的失真成因,针对性地提出相应整改措施。

3 安全数据失真机理模型

3.1 失真机理模型构建

在构建安全数据失真机理模型之前,可做如下分析:

(1)安全数据失真属于安全大数据应用过程中产生的问题。由于不能综合运用安全数据核心、安全科学导向、安全关联交叉、安全价值转换等安全大数据应用的基本原理[2],最终发生安全数据失真的现象。

(2)结合失真成因矩阵图对失真触发过程进行分析,安全大数据流动环境影响人员的安全意识和安全执行能力,进一步影响人员利用技术手段作用于安全大数据的过程,这些环节都可能导致安全数据失真。例如,在输入过程中,当环境符合成因矩阵图中(1,4)的情况、采集人员具备(1,1)条件、采集技术具有(1,3)缺点或者安全系统中的安全数据具有(1,2)特点,最终这些条件都作用于安全数据,就会产生安全数据失真。

(3)安全数据失真现象是一定存在的,这是由于安全大数据的安全数据隐含原理所决定。安全决策信息都要从安全系统中的原始数据经过一系列的清洗、整理、分析和提炼等过程而得到的,这些过程之后安全数据的数量、内容和表现形式都会发生改变,失真现象不可避免,因此我们只能减少安全数据失真,并不能杜绝这种现象。理想状态的安全大数据流动是,输入过程是对安全系统全面正确的反映;分析过程中把系统安全数据的正确规律全部都挖掘出来;认知过程中安全数据完全被安全用户所接受;应用过程能全被安全用户应用于安全系统内。

(4)安全数据失真直接结果是导致安全大数据可靠性降低。而安全大数据的可靠性主要包括安全数据内容可靠、数量可靠、时效可靠和呈现形式可靠。安全数据缺失和干扰导致安全数据内容可靠性和数量可靠性降低;安全数据延时导致安全大数据的时效可靠性降低;安全数据缺失、干扰和延时导致安全大数据的呈现形式可靠性降低。

基于以上对安全数据失真的相关分析,以安全数据失真形成原因为出发点,按照失真前、失真时和失真后的安全数据失真时期为研究路径,结合安全数据失真成因矩阵图和安全数据失真过程图建立起安全数据失真机理模型,(图3)。

图3 大数据环境下安全数据失真机理模型

3.2 失真机理模型解析

失真机理模型全面说明了整个安全数据失真流程,失真流程为:在安全大数据流动过程的某一阶段,安全数据失真成因作用于安全数据,导致了该流动过程中发生安全数据失真现象,其外在表现为三种安全数据失真形式,最终降低了安全大数据的可靠性。具体解析如下:

选择GE64排128层CT作为检查设备,患者足部先进,仰卧在CT检查台上,对患者进行制动处理,从患侧足背的浅静脉部位进行注射,并对踝部进行压迫结扎,以阻断浅静脉回流迫使造影剂进入深静脉系统,对患者其他部位做好防护处理。参数设置:层间距3.75mm,层厚3.75mm,螺距为0.6,薄层0.625mm进行重建[2]。注射使用碘海醇30ml与生理盐水150ml配置而成的造影剂,注射速率为2ml/s。检查后通过VR、CPR、MIP等技术进行成像显示,观察静脉血管壁中血栓的大小、位置、性状和血管狭窄程度等[3]。

(1)失真前,模型理清了安全数据失真成因导致安全数据失真的流程。在安全大数据流动过程的某一阶段,当环境、人、技术和内容4 个影响因素中某一因素具备失真成因条件时,该阶段就会发生安全数据失真,其失真程度跟失真成因的种类和数量相关,并对下一阶段的安全数据也会造成影响,并由此下去,安全数据失真程度不断加深。

(2)失真时,失真成因作用于安全大数据上,导致在该阶段与下一阶段的安全数据进行交互时,安全数据发生不对称,安全状态不对等,造成了安全数据失真。安全数据失真成因的作用对象为安全大数据,安全数据失真现象发生在安全大数据流动过程。输入过程包括数据采集、传输、清洗和整理;分析过程主要包括描述性分析和建模分析两个方面;认知过程包括安全数据拥有者上传安全数据,安全数据库与安全用户进行对接以及安全用户获取安全数据;应用过程是安全用户利用安全数据作用于安全系统,做出安全决策和安全管理。

(3)失真后,安全数据失真主要以三种失真形式表现出来,最终导致安全大数据的可靠性降低。失真形式可导致安全大数据可靠性降低,那么就可以从提高安全大数据可靠性的角度出发,提出减少安全数据失真的防治策略,防治策略从4个方面分别展开,分别为减少安全数据干扰、降低安全数据缺失、保证安全数据时效和确保安全数据正确呈现,该防治策略是从安全数据失真后时期进行防治的。

4 失真防治策略

在安全大数据的流动过程中,每个阶段都会发生安全数据的失真,而产生的原因可能不同,但安全数据失真最终结果都是对系统安全造成极大的威胁。另外,安全数据失真程度会影响分析结果的可靠性,也会影响安全数据的可信度和可用性。因此,针对安全数据失真提供如图4所示的防治策略。

图4 大数据环境下安全数据失真的防治策略

安全数据失真防治策略是以安全数据失真不同时期为导向的,分为3 个时期:失真前,从失真的4 种影响因素角度做好失真预防;失真时,从失真的4种类型做好失真控制,失真后,从失真的3 种表现形式做好失真处理。从这3 个时期减少失真形式,降低安全数据失真程度,提高安全数据可靠性。

从安全数据可靠性角度出发,在失真防治策略中,内容可靠由数据干扰和缺失的措施保证,数量可靠由数据缺失的策略保证,时长可靠由数据延时的策略保证,呈现形式可靠由技术和人因方面保证。因此,在研究安全数据失真过程的基础上,通过分析安全数据失真的防治策略,可以提高安全大数据的质量和可靠性,为安全决策提供基础。

5 结论

通过对安全数据失真进行分析和研究,得到如下结论:

(1)在安全大数据的基础上,定义安全数据失真的概念,提出了4 种安全数据失真类型,即采集失真、分析失真、认知失真和反馈失真,归纳出安全数据失真的3种表现形式,包括安全数据缺失、安全数据干扰和安全数据延时。安全数据失真贯穿整个安全数据流动过程,对安全数据的应用起负面作用。

(2)在安全数据失真内容的基础上,从安全大数据流动过程和安全数据失真影响因素两个维度分析概括出安全数据失真成因。其中安全大数据流动过程从输入、分析、输出和应用4 个方面进行分析;安全数据失真影响因素从内容、人因、技术和环境4 个层面进行分析。可以从这两个维度、多个方面对安全数据失真形成原因进行综合分析。

(3)以安全数据失真形成原因为出发点,按照失真前、失真时和失真后的安全数据失真过程为研究路径,结合安全数据失真成因矩阵图和安全数据失真过程图建立起安全数据失真机理模型,失真机理模型阐述了安全数据失真全流程。从失真前、失真时和失真后的失真3个时期,结合安全数据失真的相关内容,提出了针对安全数据失真的防治策略,这些策略能有效提高安全数据的可靠性,提升安全决策的科学性。

因此,从以上研究结论出发,提出以下对策建议:

(1)针对性地提升人的安全数据素养。人是社会-技术系统的核心,个人和组织的安全行为共同促进了系统的运行,安全数据的重要性使得安全数据素养的提升成为了系统安全提升的关键。因此,政府、组织和部门可通过安全教育、安全培训等方式针对性地提高人员的安全数据素质。例如,部门可以针对于安全数据统计人员进行系统培训,提高其安全数据统计能力,减少安全数据采集失真。

(2)从技术层面提升安全数据质量。当前,对于安全系统中产生的安全大数据,仍停留于表面的收集、分析和利用,缺乏深层次的挖掘及多方面的共享,导致安全数据质量下降,无法实现其应有的价值。因此,可通过更新技术和设备、完善数字化基础设施、共享多个部门相关的安全数据等手段来优化安全数据,进而保证安全数据的可靠性、完整性和时效性。

(3)改善安全数据应用的外部环境。安全数据近年来逐渐进入了人们的视野,由于缺乏相关的认知及响应动作使得安全数据应用的外部环境不能满足当前的安全需要。因此,政府需健全相关制度、法规;企业应提高对安全数据工作的重视程度,加强企业的安全文化建设;公民和媒体积极发挥对安全数据相关部门的监管职能,多方面共同营造一个有利于安全数据流动的环境,以削弱安全数据失真对安全决策的负面作用。

猜你喜欢

流动分析过程
隐蔽失效适航要求符合性验证分析
分析:是谁要过节
描写具体 再现过程
临终是个怎样的过程
电力系统及其自动化发展趋势分析
为什么海水会流动
在这个学习的过程中收获最大的是哪些,为什么?
圆满的过程