物联网通信大数据库半结构化数据识别方法
2021-12-10孙学军李长银
孙学军,李长银
(临沂大学费县校区,山东 临沂 273400)
1 引言
由于物联网通信大数据库中存在多种且复杂的数据种类,其中较为典型的半结构化数据,其数据量庞大域数据相似性较高,已经成为目前物联网通信领域的重点研究对象。国内对半结构化数据的识别进行了大量研究,较为经典的能够分成两种即:多重分形理论半结构化识别算法[1]与Softmax回归的识别方法[2],多重分形理论识别方法会拟定网络通信数据流的分形谱,计算通信数据流的估计谱,在拟定的核域里融合灰色关联度算法估计谱分析,以估计结果完成对数据的识别。该算法在低信噪比的状态下,可以得到较高的识别率,但识别结果容易被分形特征提取的结果干扰,存在不稳定性。而Softmax回归识别算法,会把网络通信数据的循环谱密度特征当做训练样本集,通过主成分分析算法筛选数据特征,依靠Softmax回归分类器对数据进行分类识别。该方法对数据的识别效果较好,但由于算法需要构建计算和回归分类器,这就导致了该算法的识别效率低下。
针对上述问题,本文提出一种物联网通信大数据库半结构化数据识别方法,依靠对数据的稀疏度系数、系数子空间与半结构化数据的结构的分析,获得数据之间的关联特性和数据储存的节点位置,随后将主成分分析算法和德尔菲算法进行融合,依靠融合后的算法赋予识别指标权重,使用Tanimoto系数度量半结构化数据的相似性,凭借数据的相似性与其它数据的关联性,实现对半结构化数据的识别。
2 大数据库半结构化数据识别方法
2.1 数据稀疏度系数和稀疏子空间
为了识别半结构化数据,拟定一种D维数据集内存在N条记录,所有维均离散化成θ种区间,同时所有记录之间是互相独立的,从中挑选出k种属性构建K维立方体,此时N条记录的概率为(1/θ)k,按照伯努利概率随机分布至立方体内,所有区域中具有的平均记录总量是其数据期望N×(1/θ)k。定义稀疏度系数与系数子空间数据是否存在偏移与偏移程度。
定义1:稀疏度系数S(D)的描述式拟定成
(1)
式中,n(D)代表存在于D内的对象总量,fk=1/θ为数据偏移程度,针对离群数据[2],其所处子空间中含有的记录数远远低于平均值,所以稀疏度系数S(D)不会超过0。
定义2:针对一个随机的半结构化数据集,其属性集拟定成M,对象集拟定成G,拟定D1代表通过属性集P1(P1⊂M)组成的|P1|维的随机子空间[3],其含有的对象集是O(O⊆G),如果不具有通过属性集P2(P2⊆P1)组成的子空间D2,同时D2内存在相同的对象集O,那么描述D1成约简子空间[4],P1能够描述成约简属性集。
定义3:针对一个随机的半结构化数据集,其属性集是M,对象集是G,TS代表拟定的稀疏度阈值,拟定D代表约简属性集P(P⊂M)组成的|P|维随机约简子空间,如果D的稀疏度系数是S(D)≤TS,则描述D代表稀疏子空间。
2.2 半结构化数据构造分析
半结构化数据又能够被描述成半形式概念数据,该数据的所有记录节点都是一种形式概念,其通过两部分构成:外延,即概念所覆盖的实例;内涵,即表示的概念,该概念覆盖实例的共同特征。此外,半结构化数据通过Hasse图生成与简洁的描述了这些半结构化数据之间存在的特性与泛化关系,由于半结构数据具有完备性、直观性与简洁等特性[5],其也被认为是一种数据描述的转换工具。
定义4:一种形式背景K=(G,M,I)具有两种集合G与M,其能够被描述成是一种二元关系I⊆G×M,G内的元素为对象,M内的元素为属性,假如g∈G与m∈M在二元关系I内,拟定成(g,m)∈I或gIm,即对象g内存在属性m。
定义5:形式概念J即满足以下两种条件的一种序偶(A,B),其中A⊆G,B⊆M,A为形式概念J的外延,B为形式概念J的内涵。
A=B′={a∈G|∀b∈B,aIb}
(2)
B=A′={b∈M|∀a∈A,aIb}
(3)
其中,a、b为A和B中的元素。
定义6:拟定K=(G,M,I)代表随机形式的数据背景,其中所有形式概念之间的偏序关联[6]能够被描述成(A1,B1)≤(A2,B2)⟺A1⊆A2⟺B2⊆B1,通过形式数据背景K内的所有概念与概念之间的偏序关联能够组成一种半结构,将该半结构描述成〈L(G,M,I)〉。
定义7:拟定K=(G,M,I)代表随机形式数据背景,拟定h1=(A1,B1)与h2=(A2,B2)代表概念〈L(G,M,I)〉的随机两个节点,h1≤h2。假如不存在节点h3=(A3,B3),则h1≤h3≤h2成立,那么h1即为h2的直接例化,h1代表h2的子节点,也能够将其描述成h1是h2的子概念,表达成h1=child(h2),拟定h2是h1的父节点[7],其也能够描述成h2是h1的父概念,拟定成h2=father(h1),假如存在节点h3=(A3,B3),h1≤h3≤h2成立,那么描述h2是h1的祖先节点。
2.3 基于综合加权的半结构化数据识别指标权重确定
半结构化数据识别过程内的关联流程就是确准识别指标的权重[8]。主观赋权法与客观赋权法是当前较为常见的两种权重确定算法。主观赋权法凭借决策者的意向确准所有指标之间的权重系数,决策或评测结果存在较大的主观随机性,常用的算法有层次分析法与德尔菲算法等。而客观赋权法确准所有指标的权重系数,虽然其存在较强的数学理论依据,但其无法反映决策者的意向,常用的有主成分分析法与因子分析法等。为了避免单一赋权法的缺点,本文将主成分分析算法和德尔菲算法进行融合。使其成为一种综合加权法。借助综合加权法对识别指标赋予权重。其核心思想如下所示:
首先,查看半结构化数据的关联信息模型,同时构建半结构化数据管理体系[9],依靠该体系搜索出半结构化数据的大致坐标,随后运算出半结构化数据识别指标的数据资料。
1)把识别数据指标的初始数据进行标准化处理即
(4)
2)利用德尔菲算法对半结构化数据识别内的指标权重进行打分,指标的权重能够描述成
γ=(α1,α2,α3,α4,α5,α6,α7,α8,α9)
(5)
对所有指标变量分别乘以权重系数,获得改进之后的半结构化数据矩阵X′。
对X′内的指标数据进行主成分分析,获得最终的半结构化数据识别指标权重。
1)计算获得指标数据的关联矩阵[10]
(6)
2)利用雅可比算法计算关联系数矩阵R的特征值(λ1,λ2,…,λp)与对应的特征向量li=(li1,li2,…,lip),i=1,2,…,p。
3)挑选关键的主成分,同时拟定出主成分描述公式。
主成分分析能够获得p种主成分,但因为各个主成分的方差是递减的,其所含有的信息量也是递减的,因此在实际分析时,通常不会挑选p种主成分,而是凭借各个主成分累计贡献率的大小挑选前m种出成分,这里的贡献率即指某种主成分的方差占所有方差的比重,就是某种特征值占所有特征值合计的比重,其运算公式如式(7)所示
(7)
其中,λi为主成分的方差,即某种特征值。贡献率越大就证明该主成分所含有的初始变量信息越多。在主成分个数挑选内,需要累计贡献率超过85%以上,确保综合变量能够包含初始变量的大部分信息。
4)凭借主成分累计贡献率85%,挑选m种主成分A=(k1,k2,…,km)。各项特征值对应的特征向量是(l1,l2,…,lm),随后运算获得的所有指标权重
F=A*(l1,…,lm)=(f1,f2,f3,f4,f5,f6,f7,f8,f9)
(8)
2.4 基于Tanimoto系数的半结构化数据识别
2.4.1 Tanimoto系数
Tanimoto系数又能够被描述成Jaccard系数,能够度量半结构化数据的相似性,同时在二元属性情况下归约成Jaccard系数,因此本文提出有一种基于字节频率分布的半结构化数据识别模型,该模型以扇形的半结构化数据为最小测试单元,同时所有测试扇形区域内的字节频率分布F(x),经过Tanimoto系数进行处理,就能够获得扇形测试区域V和样本扇形区域S的相似度。
(9)
拟定半结构化数据di归属于第i类,同时i≠j,那么di∩dj=Φ。同一种类型的半结构化数据就存在类似的分布模型,就是聚集在同一分布范围Ti中。T={T1,T2,…,Tm}内共存在m种半结构化数据类型。所以di的分布范围能够通过Ti进行标明,在Ti范围里的半结构化数据属于第i类半结构化数据。本文使用样本数据训练获得标准值ηi,对于所有类的半结构化数据的分布范围Ti,只在Ti≥ηi时,Ti才是存在效果的。
2.4.2 参数优化
识别半结构化数据的初始数据种类,与评测数据是否属于复合型文件结构的一部分,是目前半结构化数据识别的难题所在。所以把特有的元数据与文件结构信息融合到物联网通信大数据库内,以此提升半结构化数据的识别率。
1)文件结构
数据类中特有的元数据或文件结构信息通过δ表示,那么δ={δ1,δ2,…,δm},其中δi={δ1,δ2,…,δπ},同时δi又能够代表任意一种数据种类存在π种不同的特有元数据与文件结构信息π≥1。
2)分布范围
同一半结构化数据间隔分布在32种数据块里的可能性是80%。所以半结构化数据在磁盘内不会随机分布,数据之间存在一定的关联性,即某一段连续的半结构化数据属于同一种文件。
2.4.3 识别过程
1)预处理
包括收取样本模型S={S1,S2,…,Sm},收取半结构化数据特有的结构特征δ={δ1,δ2,…,δm}与收取半结构化数据字节频率分布F(x)。
2)构建识别模型
经过Tanimoto系数构建对应的识别模型,运算样本S和测试数据F(x)之间字节频率分布的相似程度Tx。
3)评测被测试半结构化数据x的相似度Tx是否处于Ti范围种。
如果Tx∈Ti,半结构化数据x属于第i类数据,反之,如果Tx∉Ti,半结构化数据x不属于第i类数据,需要继续评测Tx是否处于Ti+1范围种。
4)参数优化1,搜集被测试半结构化数据x的相关结构特征δx。
拟定,第x种半结构化数据Tanimoto系数相似度是Tx∈Ti,同时δx产生在半结构化数据x内,δx=Tj。在i=j时,x∈Ti,反之在i≠j时,能够认为该数据是无法识别的。
5)参数优化2,初步考虑半结构化数据之间的关联性。
在i=j时,x∈Ti反之在i≠j时,继续评测下一个半结构化数据x+1,直至连续产生∂次的Ti=Tj,此时x∈Ti,反之评测该半结构化数据时无法识别的。
3 实验证明
为了证明所提方法的实用性,进行仿真,拟定试验环境为:一个1GB的闪存,物联网的物理页是2kB,所有半结构化数据块内存在64个物理页。把半结构化数据识别算法内的更新信息缓存拟定成最多可储存50个更新区域,把不通过识别的半结构化数据队列拟定成最多能够保留100条数据信息。为了能够更加快速的得到算法的优劣信息,首先在闪存内添加524个数据文件文件,最大的半结构数据占用8193个物理页,最小的半结构化数据占用一个物理页,这些数据总共占用闪存的90%空间,随后拟定闪存空间的2倍是单轮更新的数据量。总共进行10轮更新,每次更新的半结构化数据从先前存在的524个数据内随机挑选。
图1即物联网通信大数据库半结构化数据在文献[1]算法和文献[2]算法与使用本文方法识别半结构化数据下,数据的有效重写率,其结果如图1所示。
图1 半结构数据的有效数据重写率
通过图1能够看出,由于半结构化数据既包含信息也包含结构的信息,本文方法的重写率远远小于文献[1]和文献[2]方法,最高为半结构化数据比例为40%时,有效数据重写率为1759块。同时本文算法能够有效的提取数据,大大缩减了半结构化数据的重写操作,在回收冗余数据时,数据不会因为重写率较高,产生冗余数据不断回复问题,并且通过Tanimoto系数对半结构化数据的识别参数优化,以确定数据的种类,以降低数据重写的概率。
为了进一步证明所提方法的实用性,拟定一个物联网通信大数据库内共存在1000个数据,将种类为10种,测试平台是Matlab。现通过本文方法对上述10种不同种类的数据进行半结构化据识别,同时将其结果与已知结果进行对比,其对比图如图2所示。
图2 本文提取算法与已知识别结果对比
通过图2能够看出,本文方法与已知识别结果相差不大,相较于文献[1]方法和文献[2]方法,识别正确率更高,其识别的正确率是98.6%,这就证明本文方法在半结构化数据识别中有着准确率高的优点。
4 结束语
为了凸显半结构化数据的特性,提出一种物联网通信大数据库半结构化数据识别方法,依靠综合加权法与Tanimoto系数实现对数据的识别。
1)半结构数据的有效数据重写率实验结果表明,本文方法有效数据重写率较低,最高为半结构化数据比例为40%时的1759块。
2)本文提取算法与已知识别结果对比实验表明,本文方法半结构化数据识别正确率是98.6%。
3)由于所提方法内,会依靠稀疏系数自带的粗去噪进行滤波,因此并没有对数据的噪声进行精准的去噪,导致识别的半结构化数据内,依旧存在少量噪声,这种噪声虽然不会干扰识别结果,但其会在数据块内形成细小的白点,影响观看与查询的结果,因此下一步需要研究的课题即:在所提方法内添加滤波器,依靠滤波器进行精准的去噪处理。