APP下载

工业大数据安全应用探讨

2019-12-25门嘉平

网络安全技术与应用 2019年12期
关键词:工业生产海量数据安全

◆门嘉平

工业大数据安全应用探讨

◆门嘉平

(南京天规信息技术有限公司 江苏 210000)

在工业互联网快速应用推广的当下,工业大数据伴随工业互联网应用而呈几何倍数增加。信息技术在工业生产领域中也被广泛普及,以及在工业领域中大量使用价格低廉的传感器,工业控制和生产过程具备了基本的状态感知能力,海量数据的采集和传送已经突破了时间和空间的限制,源源不断地汇集到企业的数据中心。这些工业大数据的产生,同时带来了巨大的隐性安全隐患,随时可能会给工业生产造成灾难事件。本文根据工业大数据的自身特点,对工业大数据的安全性分析方面进行了探讨。

工业互联网;工业大数据;安全性;安全分析方法

随着信息技术在工业生产领域的不断普及,以及价格低廉的传感器的广泛应用,工业控制和生产过程具备了基本的状态感知能力,海量数据的采集和传送已经突破了时间和空间的限制,源源不断地汇集到企业的数据中心。一方面,存储和计算设备的成本在不断降低,从软盘、硬盘、内存卡到固态硬盘,有限的存储空间和存取速度已经不再成为瓶颈;另一方面,以虚拟化为核心的大数据关联与处理技术,不但降低了工业数据使用的技术门槛和支出成本,还大幅减轻了工业大数据的处理成本,从而降低了企业负担。

工业大数据是连接工业控制生产环境中物理空间(Physical Space)实体设备和网络空间(Cyber Space)虚拟资产的纽带,也是工业互联网相关技术在企业生产业务应用过程中的具体应用与落地。本文主要对工业大数据自身安全性分析方面的应用进行了探讨。

1 工业大数据的分类和特点

根据企业具体生产过程中产生的工业大数据频度,可以将其按两个维度进行划分,分为静态数据和动态数据。静态数据包括企业资产信息、控制流程设计、网络拓扑、管理员账户、访问权限控制及管理等不变化或者改动较小的数据;动态数据包括控制生产设备、传感器等产生的大量模拟量、数字量、网络流等信息,生成的频度较高,而且数据量大,实时性强。

根据工业大数据各个环节与各类设备产生的具体来源,可以将其按两个维度分为生产性数据和辅助生产性数据。生产性数据包括工业控制生产环节产生的各种数据,构成了工业大数据的主体;辅助性生产数据包括各类传感器采集的数据,包括生产环境的温湿度、实时监测的设备运行状态、设备健康状况等信息,甚至包括监控探头等采集的信息,对工业生产过程具有辅助决策作用。

工业大数据的采集和传输具有时间跨度大,空间范围广、数据粒度细的优势,这些使得工业大数据既具备常规大数据的基本特征,同时还具有工业生产应用方面的独特特征。

1.1 首先,工业大数据具备典型大数据的“4V”特征

第一个V是Volume(数量巨大),体现了大数据本身应该具有的规模特征。对于工业大数据来说,尤其是工业生产环境中大量传感器和各类设备日志,涵盖了工业生产过程的设备运行状况、用户操作行为、环境参数等海量数据。

第二个V是Variety(种类繁多),代表工业大数据自身生产过程的具有多样性。能将熟知的各种关系型数据库(比如Mysql、SqlServer、Oracle等)储存与处理的数据按特定算法转化为结构化数据,保存在指定的数据库表中。工业大数据中存在大量控制信息、报表、图像和音频、视频等多源异构数据,其实时存储和处理是当前研究的热点之一。

第三个V是Value(价值挖掘),具有两方面的含义:(1)大数据中包含的数据类型、数据规模均超过了以往数据集,但是数据中有价值部分占比较低;(2)海量数据中数据类型丰富,来源广泛,因此可以更加详细、系统地进行数据分析,从而获得在小数据集中无法获得的重要结论。但是,数据的真正价值往往隐匿在海量数据之中,需要通过定制化的算法对海量数据进行全面而深入的数据挖掘才可能挖掘找出其真正价值。

第四个V是Velocity(速度要求),具有两方面的含义:(1)数据生成速度快,需要较快的采集和存储;(2)数据分析结果有较强时效性,对海量工业数据的分析结果需要对数据处理过程的速度非常高。

1.2 其次,工业大数据具有其独特的“2V”特征

第一个V是Veracity(信息真实),强调的是工业大数据生产的数据来源与数据质量,即工业大数据存在生产数据的时间跨度大,数据来源的范围广,数据采集和提炼过程既需要确定数据来源的可靠性,还需要保证数据本身的质量,从而为数据挖掘和分析提供坚实的基础。

第二个V是Visibility(结果呈现),工业大数据分析的任务是发掘数据的价值(value),对生产的大数据中隐匿的各类信息进行全面分析和深入挖掘,最终将简单而清晰的数据提取结果呈现给具体工业用户使用。工业控制和计算机科学是两个相对不同领域,因此工业大数据的分析需要考虑结果呈现的方式。

1.3 最后,工业大数据还存在“3B”问题

第一个B是Blow Surface(特征隐藏),工业大数据注重的是数据背后的物理意义。如果不考虑实际的物理场景,分析的结论将毫无意义。

第二个B是Broken(数据碎片),从工业生产环境获得大数据由于其来源多样,呈现出明显的异步性和相对无序性,导致虽然获得的数据量比较大,但是仍然有分散、不连续的特点。另一方面,工业生产全生命周期不同时段的数据也具有相对独立性,给工业大数据的关联分析带来了困难。

第三个B是Bad Quality(质量较差),工业大数据来自不断反复的生产过程,具有一定的重复性和相对周期性,但同时还有一些操作和控制频度很低。因此,数据的“量”和数据的“质”需要进行权衡,有时为了保证样本数据的完整性,数据采集过程需要持续很长时间。

2 工业大数据安全利用特点

工业大数据的“量变”促成了对数据进行安全分析的“质变”。主要体现在以下几个方面:

第一,从抽样分析到关注全体。传统的数据分析,往往采用统计学中抽样分析的方式,以尽可能少的数据,去评估数据整体的特征。但是在安全分析领域,网络攻击和异常操作所占的比例相对较小,如果采用抽样的方式,极有可能导致结论的偏差。而且,工业大数据中海量数据也不再具有抽样分析方法作出的独立同分布的假设,因此,统计学中假设检验、参数估计等应用条件和算法机制需要进行较大改进才能继续使用。

第二,准确性要求高。在利用互联网大数据进行分析和预测时,往往使用概率来给出结论。但是工业大数据的安全分析,需要在有效数据占比较低的情况下,进行全面的数据分析,从而能确定出相对准确的数据分析结论,以便安全或业务操作管理人员进行快速而有效的决策。如果出现失误,可能会造成严重的后果。在工业大数据诸多安全分析研究中,误报率均是重要的评价指标之一。

第三,跨类型、跨领域数据联合分析。工业大数据的安全分析涉及控制设备、生产设备、网络设备、安全设备等多种异构日志和数据流量,往往呈现出多源异构的特点。这些工业生产过程中产生的数据类型不同,有结构化数据,也有非结构化数据;有些数据来自一般计算机领域和通信领域,更有些数据大量来自工业自动化控制领域、工业生产领域和工业安全保障领域。因此,需要对这些海量的各类数据进行跨域的整合与梳理,生产归并为同类型数据后,才能比较好的开展关联分析,进而为发现工业生产各环境中的异常成为可能。

3 工业大数据安全分析方法

“有之以为利,无之以为用”,工业大数据时代,我们面临的是海量数据是“有”,而数据蕴含的价值是“无”,工业大数据安全分析就是去发掘和利用“无”的过程。

3.1 关联规则分析

关联规则分析就是从工业生产及其辅助过程产生的海量数据中进行数据管理分析与挖掘的过程,属于无监督(unsupervised)的机器学习算法。频繁模式是指在数据集中频繁出现的模式,一般包括频繁项集、频繁子序列、频繁子结构等类型。频繁项是指在数据集中频发出现的个体;频繁子序列是频繁项按照一定的先后特征构成的序列片段;频繁子结构与频繁子序列有些类似,只不过针对的是树、图、网格等具有复杂内部结构的数据集。常用的关联规则分析算法有:Apriori算法和FP-growth算法。Apriori算法基于频繁项集的所有非子集也是频繁的规则进行逐层迭代搜索,第 k此迭代获得的频繁k项集用于支持对频繁(k+1)项集的挖掘。FP-growth算法不生成候选的频繁项集,采用的频繁模式逐段增长的方法,面对海量数据集具有更高的效率。关联规则分析主要用于工业生产控制的正常行为建模和安全事件的关联分析,常被用来进行异常行为检测和追溯,比如阀门的开合顺序。

3.2 分类和回归分析

分类(classification)和回归(regression)分析都属于有监督的(supervised)机器学习算法。都是使用函数对目标变量进行拟合,从而进行预测,区别在于前者的目标变量是离散型,后者的目标变量是连续型。分类是根据一定的分类算法或模式对挖掘研究对象提取共有的相关特征,然后建立关联与分类模型并对未知数据进行远期预测。常用的分类方法有决策树、贝叶斯、SVM(支持向量机)、神经网络等,常用回归方法有线性回归、多项式回归、树回归等。“预测”能力体现了工业大数据安全应用的强大之处,通过分类,可以识别不同类别的网络攻击,如扫描,欺骗等;通过回归,可以对实体行为(用户+设备)进行分析。

3.3 聚类分析

聚类分析时将一组对象按照其相似性划分为若干不同类别(簇、子集等),使得同一类别中样本的相似性尽可能大。聚类算法属于无监督的机器学习算法之一。聚类分析需要根据研究对象的特有属性选择恰当的相似性/差异性指标,在选择指标并计算相似度的过程中,一般会使用欧氏距离、马氏距离、余弦相似度等空间距离计算方法。在工业大数据安全分析领域,常用于区分恶意文件和正常文件,也可用于用户行为分析,将多个用户根据其操作行为划入不同的用户组。

4 工业大数据安全应用关键问题

工业大数据的安全应用在日产各种生产与生活过程中的前景非常广阔。但是,我们应该清晰地认识到我国工业目前正处在“工业2.0补课、工业3.0普及、工业4.0示范”的并联式发展道路,工业大数据存在数据质量差、数据管理水平弱、关联程度低等缺点,需要从以下几个方面进行加强。

第一,工业大数据质量问题。目前我国的工业大数据尚未形成统一的标准,导致同一企业内部数据质量没有参考依据,往往采集了大量重复无用的数据,而造成采集的数据不完整;不同企业间的大数据共享能力较差,无法有效迁移到其他数据分析平台。所幸工信部已经在着手相关工作,一直在致力于推进工业互联网标识解析体系的建设,从源头上保证了工业大数据的质量。

第二,工业大数据集成问题。工业大数据的安全应用需要重构数据支撑平台,通过数据支撑平台接口打通企业内部各个部门、各个生产过程,数据支撑平台接口能够成为工业内部网络生产数据与外部网络相关交互数据、结构化数据与非结构化数据的必经通道,实现多源异构海量数据的有效整合,才能降低数据采集成本,实现工业大数据利用的效益最大化。同时,由于工业大数据安全应用的时效性问题,需要有支撑异构、海量、非结构化数据的快速存取平台和工具,比如支持非结构化数据存储的NoSQL数据库、分布式计算的MapReduce和Hadoop平台等。

第三,工业大数据关联分析问题。工业大数据由于业务与应用的差异,导致其来源各异,具有海量、异构、多源、高噪等特点,使得工业大数据的安全分析面临巨大挑战。如何建立关联分析模型,对海量多源异构数据进行关联分析,从而发现隐藏在数据中的异常,是目前大数据安全分析要解决的重点问题。尤其是在APT(高级持续性威胁)攻击日益严重的今天,如何做跨时间、跨空间的关联分析,具有很大的研究价值和现实意义。

[1]李杰.工业大数据:工业4.0时代的工业转型与价值创造[M].机械工业出版社,2015.

[2]周济.智能制造—“中国制造2025”的主攻方向[J].中国机械工程,2015,26(17):2273-2284.

[3]维克托・迈尔-舍恩伯格.大数据时代:生活、工作与思维的大变革[M].浙江人民出版社,2013.

[4]艾伯特-拉斯洛・巴拉巴西.爆发:大数据时代预见未来的新思维[M].北京联合出版有限公司,2012.

[5]工业互联网产业联盟.工业大数据分析指南[M].2019.

猜你喜欢

工业生产海量数据安全
一种傅里叶域海量数据高速谱聚类方法
海量快递垃圾正在“围城”——“绿色快递”势在必行
云计算中基于用户隐私的数据安全保护方法
建立激励相容机制保护数据安全
“海量+”:大学生品格提升的浸润方——以高职艺术设计专业为例
数据安全政策与相关标准分享
一个图形所蕴含的“海量”巧题