APP下载

基于大数据分析的网络资源缺失信息碎片智能识别方法

2019-11-07李田英

关键词:相空间能量消耗维数

李田英

基于大数据分析的网络资源缺失信息碎片智能识别方法

李田英

商丘医学高等专科学校现代教育技术中心, 河南 商丘 476100

针对传统网络资源缺失信息碎片识别方法中识别准确度较低、完成时间较长、能量消耗较大等问题,提出一种基于大数据分析的网络资源缺失信息碎片识别方法。通过对网络资源信息分析,利用非线性时间序列对网络资源不完整信息进行相空间重建,引入关联维数对网络资源不完整信息特征提取;考虑到不完整信息特征中缺失信息碎片对信息类别的贡献度,利用信息熵来衡量缺失信息碎片之间的差异,利用以BP神经网络为基础的集成分类器对缺失信息碎片分类,完成缺失信息碎片识别。结果表明,所提方法识别准确度较高、完成时间较短、能量消耗较小。

大数据分析; 网络资源; 缺失信息; 智能识别

计算机网络技术的快速发展,大量的网络资源迅速增长,大数据分析技术应运而生,成为网络资源获取、处理、分析或可视化的有效手段[1]。从网络资源大数据中发现,实际应用的大部分数据分布是不完整的,在进行不完整网络资源信息识别时,常会遇到信息碎片问题,这些信息碎片通常被放置在网络存储介质的隐蔽位置,且内部信息已遭到损坏[2,3],现阶段应用的碎片智能识别方法普遍存在着识别准确度较低、完成时间较长、能量消耗较大等问题。在此背景下,如何有效提高网络资源信息缺失信息识别精度和效率,成为当今社会亟待解决的问题[4,5]。文献[6]提出一种基于谱回归特征降维后神经网络资源信息的识别方法。该方法对网络资源信息进行特征提取,将提取后的结果进行降维处理,把降维后的网络资源信息输入到BP神经网络分类器中进行识别。该方法具有较高的识别准确度,但是识别完成时间较长。文献[7]提出一种基于含缺失信息属性值的数据识别方法。该方法根据不同缺失信息属性设计出不同的检测方法,利用相应的检测方法对缺失信息进行修复和补充,完成对缺失信息有效识别。该方法识别完成时间较短,但是识别准确度较低。针对上述问题,提出一种基于大数据分析的网络资源缺失信息碎片识别方法。实验结果表明,所提方法识别准确度较高、完成时间较短、能量消耗较小。

1 方法

1.1 网络资源不完整信息特征提取

通过对网络资源信息进行分析,利用非线性时间序列对网络资源不完整信息进行相空间重建,引入关联维数对网络资源不完整信息特征进行提取,具体过程如下所述:

网络资源不完整信息一般都是没有明显规律和顺序的,利用关联维数对其进行分析,实现网络资源不完整信息特征提取。

假设,不完整网络资源信息一维时间序列为{1,2,…,q},利用下式给出不完整信息重建的相空间表达式:

式中,代表网络资源信息重建时延,代表网络资源信息维数。

关联维数是不完整网络资源信息在多维空间中疏密程度的表现,代表网络资源不完整信息样本之间的关联程度。对网络资源不完整信息进行相空间重构,得到一个相空间矢量,将网络资源不完整信息的任意两个矢量的最大分量看作成两者之间的距离,利用公式(2)对其进行描述:

假设两者之间的距离低于设定正整数的矢量被叫作关联矢量,不完整网络资源信息重建相空间中存在着个信息点,获取不完整信息相关矢量对数,将所有存在相关矢量对数的这种情况当作关联积分:

式中,代表Heaviside函数,利用公式(4)给出该函数的表达式:

式中,代表不完整网络资源信息关联维数。选择合理的,使可以用来表示网络资源不完整信息混沌吸引子的相似结构,则近似值为:

标准差是网络资源不完整信息样本点的分散程度。当不完整网络资源信息样本在标准差较大的情况下,不同的资源信息样本与实际值差别较大,则在空间中分布不集中,相应的关联维数不高。结合此特性利用下式对网络资源不完整信息特征进行提取:

1.2 基于集成分类器的缺失信息碎片识别

以网络资源不完整信息特征提取为依据,考虑到不完整信息特征中样本缺失信息对信息类别的贡献度,利用信息熵来衡量缺失信息之间的差异,以BP神经网络为基础的集成分类器对缺失信息进行分类,完成识别。具体过程如下:根据不完整信息特征中样本缺失信息集进行划分,得到多个互相之间没有任何关系的缺失信息子集,为了更大限度的利用原始的网络资源信息,需要把缺失信息样本存入相对应的网络资源信息中。

其中,碎片子集1的缺失信息为1,2中缺失信息集为2,3中缺失信息集为3。在此基础上,根据信息熵计算网络资源信息权值为:

利用网络资源信息权值的集成结果实现对网络资源缺失信息碎片进行分类识别。

2 仿真实验与结果分析

为了验证所提基于大数据分析的网络资源缺失信息碎片识别方法的综合性能,设计如下实验。实验操作系统为Windows7,内存48 g。为保证实验结果的有效性,将所提方法(方法1)与基于谱回归特征降维后神经网络资源信息的识别方法(方法2)和基于含缺失信息属性值的数据识别方法(方法3)。对比3种方法的识别准确度(%)实验,实验结果如表1所示。

表1 不同方法识别准确度对比

分析表1可知,3种方法都随着网络资源缺失信息数量的不断增加,识别准确度会有不同程度的降低。当缺失信息数量为5个时,方法2和方法3的识别准确度与所提方法识别准确度之间分别相差1.86%和3.66%。当缺失信息数量为35个时,方法2和方法3的识别准确度与所提方法识别准确度之间分别相差1.70%和4.21%。但所提方法的识别准确度最高,一直保持在99%以上。对3种方法进行网络资源缺失信息识别完成时间比较,结果如图1所示。

图1 不同方法识别完成时间对比图

分析图1可知,随着缺失信息数量增加,3种方法识别完成的时间增减增加。当网络资源缺失信息数量从0个增加到400个时,所提方法识别完成时间一直在33 s~37 s之间浮动,方法2的识别完成时间一直在35 s~50 s之间浮动,方法3的识别完成时间一直在44 s~58 s之间浮动。相比之下所提方法的识别完成时间最短。对比3种方法进行缺失信息识别的能量消耗情况如表2所示。

表2 不同方法识别能量消耗对比

表2可知,随着网络资源缺失信息数量的不断增加,3种方法的识别能量消耗也随之增加。当缺失信息数量从8个增加到48个时,识别能量消耗相差414 J;方法2识别能量消耗相差529 J;方法3识别能量消耗相差821 J。实验结果表明,所提方法识别能量消耗最低,具有一定的应用价值。

3 结语

针对网络资源中存在的信息碎片缺失的问题,提出一种基于大数据分析的网络资源缺失信息碎片识别方法。该方法与传统方法相比较,具有较高的识别准确度,并且识别的完成时间相对较短,能量消耗较小,可广泛应用于各个领域。

[1] 王志鹏,王星,田元荣,等.基于压缩感知的辐射源信号数据级融合识别方法[J].兵工学报,2017,38(8):1547-1554

[2] 王锋,武龙,吴东升,等.脉冲风洞天平短时振荡测力数据稳态值提取的优化识别方法[J].振动与冲击,2018,37(8):153-157

[3] 邱建青,杜春霖,周婷,等.多变量数据缺失机制的识别方法[J].中国卫生统计,2017,34(6):1002-1005

[4] 陶江玥,刘丽娟,庞勇,等.基于机载激光雷达和高光谱数据的树种识别方法[J].浙江农林大学学报,2018,35(2):314-323

[5] 陈虹君,罗福强,赵力衡,等.大数据下网络资源信息丢失优化识别仿真[J].计算机仿真,2017,34(9):358-361

[6] 邬战军,牛敏,许冰,等.基于谱回归特征降维与后向传播神经网络的识别方法研究[J].电子与信息学报,2016,38(4):978-984

[7] 高科,刁兴春,曹建军.含缺失属性值的问题数据检测与修复[J].计算机工程与设计,2016,37(3):643-649

An Intelligent Identification Method for Missing Information Fragments of Network Resources Based on Big Data Analysis

LI Tian-ying

476100,

Aiming at the traditional network resource missing information fragment identification method, there are generally problems such as low recognition accuracy, long completion time and large energy consumption. This paper proposes a method for identifying missing information fragments of network resources based on information entropy and integrated classification. By analyzing the network resource information, the nonlinear spatial time series is used to reconstruct the incomplete information of the network resources, and the correlation dimension is introduced to extract the incomplete information features of the network resources, taking into account the information of the missing information in the incomplete information features. The contribution of categories, using information entropy to measure the difference between missing information, the BP neural network-based integrated classifier classifies the missing information and completes the identification. The experimental results show that the proposed method has higher recognition accuracy, shorter completion time and less energy consumption.

Big data analysis; network resource; missing information; intelligent identification

TP311.13

A

1000-2324(2019)05-0870-03

10.3969/j.issn.1000-2324.2019.05.029

2018-09-25

2018-10-08

2015年河南省医学教育研究项目:依托网络专题教育社区的医学超声诊断技术教学模式改革的探索(Wjlx2015170)

李田英(1982-),女,硕士,讲师,主要研究方向为计算机科学与技术及网络安全. E-mail:lty_1218@126.com

猜你喜欢

相空间能量消耗维数
太极拳连续“云手”运动强度及其能量消耗探究
β-变换中一致丢番图逼近问题的维数理论
中年女性间歇习练太极拳的强度、能量消耗与间歇恢复探究分析
没别的可吃
相干态辐射场的Husimi分布函数在非对易相空间中的表示
实值多变量维数约简:综述
非对易空间中的三维谐振子Wigner函数
相空间中含时滞的非保守力学系统的Noether定理*
铝诱导大豆根系有机酸分泌的能量消耗定量研究
具强阻尼项波动方程整体吸引子的Hausdorff维数