基于SLA波长业务的ASON风险规避算法
2021-01-06林民山
林民山
摘 要:粗糙集属性应急数据存在冗余特征,降低挖掘效率,提出基于信息熵的粗糙集属性应急数据去重挖掘算法。将粗糙集理论和信息熵相结合,离散化处理应急数据,离散化完成后,约简对于决策表的条件信息熵大小不产生任何影响的属性,设定决策属性集合和条件属性集合,选取将同约简属性集合B的属性组合数目最小的熵值实现约简,去除冗余特征,完成应急数据去重挖掘。以大型船舶应急数据为研究对象展开数据去重挖掘,结果表明:可有效去重挖掘到船舶旋回性相关应急数据,利用数据增比特征能够分析到各因素对船舶旋回性的影响,并且所研究算法的挖掘效率较高,在数据量为1400条时,耗时仅为0.33 s。
关键词:信息熵;粗糙集属性;应急数据;去重挖掘;离散化;约减
中图分类号:TP18 文献标识码:A
监控预警信息、突发事件信息、交互信息等应急数据信息海量增加的同时,也为应急数据带来的大量重复性冗余信息,为此,如何实现应急数据的快速分析、处理、挖掘是目前亟待解决的问题[1-3]。粗糙集理论是一种新型的处理模糊和不确定知识的数学工具,广泛应用于人工智能、知识与数据发现以及故障检测等方面[4]。粗糙集属性约简可以在有效保证数据分类能力不变的基础上对不相关和不重要的属性进行去除,消除冗余特征,有效缩减参与数据挖掘的数据量,提升数据挖掘效率[5]。
在利用粗糙集理论进行数据挖掘时,通常要求实际数据形成的决策表中数据属性为离散化表达,若数据为连续的,则需先进行离散化处理,然后再利用基于信息熵的粗糙集属性约简去重挖掘应急数据,获取知识结果简单易懂的应急数据[6,7]。
1 基于信息熵的粗糙集属性应急数据去重
挖掘算法
1.1 信息熵基本概念
信息熵是信息总体的平均不确定性量度,对于特定信息源而言,信息熵只有一个,不同信息源的熵值不同。其中信息熵值越大代表变量的不确定性越大[8,9]。
综上所述,通过设定决策属性集合和条件属性集合,选取将同约简属性集合B的属性组合数目最小的熵值实现约简,去除冗余特征,完成应急数据去重挖掘。
2 算法验证
为验证提出的应急数据去重挖掘算法有效性,以某船舶研究部分积累的大量应急数据为研究对象。采用三台机器搭建Hadoop 集群环境,每个节点的操作系统都是Ubuntu12.04,每台机器的配置如表1所示。
数据来源为大连海事大学航海研究院提供的日本现在持续运营中的40000吨以上的超大型船只主要应急数据,采用本文算法对该应急数据实施离散化处理,结果如表2所示。属性C1-C12的程度均用0,1,2,3表示,分别代表程度低、较低、中、高;其中根据专家知识评定可知,最大横距越小,表明旋回性越好,决策属性D中,0,1,2,3分别表示旋回性好、较好、一般、差。H表示船号。
采用本文算法对表1数据实施属性约简,获取:核为{C4,C5,C6,C7,C10},约简属性集为{C4,C5,C6,C7,C10},将表2约简后去除重复集不相容属性后,获取到的约简结果,即去重挖掘结果如表3所示。
从表4可以看出,船舶旋回性与各影响因素之间的关系为,船舶旋回性与方形系数、垂线间宽度、最大纵距以及深度呈正相关性;与舵面积比和垂线间长度呈负相关性。结果表明本文算法可有效挖掘到的船舶旋回性与影响因素间的增比变化。
为验证本文算法在数据去重挖掘的时的时间效率,研究不同应急数据条数下的本文算法挖掘所需时间,结果如图3所示。
分析图3可知,伴随应急数据量的增加,算法去重挖掘耗时呈上升趋势,当数据量达到1400条时,挖掘耗时仅为0.33 s,实验结果表明,本文算法数据去重挖掘效率较高。
对离散化和约简之后的数据进行挖掘和对原数据进行挖掘的对比结果如图4所示。
上图反映了随着数据集规模的增大,原数据空间复杂度呈指数增长,离散化以及约简后的数据空间复杂度呈线性增长,在空间复杂度上具有很大的优势。主要原因在于数据离散化以及约简后,应急数据属性所包含的属性值种类较少,即数据属性离散化后的空间维数应尽量减少,降低了空间复杂度,使得数据挖掘性能增强。
3 结 论
通过研究基于信息熵的粗糙集属性应急数据去重挖掘算法,利用粗糙集理论可以不依靠任何附加信息,利用隐藏在数据中的真实特性做决策特点以及信息熵可作为信息总体不确定性量度的特点,将二者有效结合在一起,对应急数据实时去重挖掘,获取知识结构清晰、简单应急数据,并将其更好的应用到各个领域。
参考文献
[1] 姜智涵,朱军,周晓锋,等.基于信息熵的混合属性数据谱聚类算法[J].计算机应用研究,2019,36(8):2256-2260.
[2] 张倚萌, 贾修一, 唐振民. 基于条件信息熵的区间集决策信息表不确定性度量[J]. 南京理工大学学报(自然科学版), 2019, 43(4):393-401.
[3] 高阳,刘遵仁,纪俊.基于矩阵保留策略的邻域粗糙集属性约简算法[J].计算机应用研究,2019,36(12):3570-3573.
[4] 姚晟,汪杰,徐风,等.不完备邻域粗糙集的不确定性度量和属性约简[J].计算机应用,2018,38(1):97-103.
[5] 梁律.基于语言值聚合算法的数据去重产品选择[J].控制工程,2018,25(1):176-182.
[6] MNDEZ P, MEDEIROS M. Density modelling of ionic liquids using the electrolyte Soav-Redlich-Kwong equation of state[J]. The Journal of Chemical Thermodynamics,2017,105:414-422.
[7] 郝艷妮, 吴素萍, 田维丽. 数据挖掘算法在葡萄酒信息数据分析系统中的研究[J]. 计算机科学, 2017, 44(s1):491-494.
[8] 于军,丁博,何勇军.基于平均多粒度决策粗糙集和NNBC的滚动轴承故障诊断[J].振动与冲击,2019,38(15):209-215.
[9] 陈伟,居江宁.基于大数据可视化技术的审计线索特征挖掘方法研究[J].审计研究,2018(1):16-21.
[10]杨阳,丁家满, 李海滨, 等. 一种基于Spark的不确定数据集频繁模式挖掘算法[J]. 信息与控制, 2019, 48(3):257-264.
[11]吴胜磊,温颖,宋超然,等.融合粗糙集和信息熵的复合绝缘子污闪状态评估[J].高压电器,2019,55(6):131-136.
[12]王征,汪梅.信息熵多属性约简的煤粉尘图像特性机理[J].西安科技大学学报,2019,39(4):713-719.
[13]廖寒逊,滕欢,卢光辉.基于MapReduce的电力大数据增量式属性约简方法[J].电力系统自动化,2019,43(15):186-192.
[14]赵晓君,张立梅,杜坤.基于聚类算法和粗糙集理论的分布式电源状态约简[J].电力系统及其自动化学报,2019,31(5):103-109.
[15]FENG Ting-ting, GUO Yu-chun, CHEN Yi-shuai.A novel user behavioral aggregation method based on synonym groups in online video systems[J].Science China(Information Sciences),2016,59(2):237-239.