APP下载

大数据相关性挖掘技术研究

2021-09-24贺怡

电脑知识与技术 2021年23期
关键词:相关性分析挖掘大数据

贺怡

摘要:在信息技术飞速发展的时代,信息正以数字化方式进行存储、交互,人们通过各种电子设备连入互联网,并使得信息交互和存储变得越发快捷。当数据呈爆炸式增长后,从海量数据中获取人们需要的信息变得十分困难,在人工智能等技术的发展过程中,通过对大数据进行分析和计算,可以快速得到目标信息,极大地推动了大数据发展。本文通过对数据特征相关性分析,提出基于特征相关性进行统计和排序,完成对大数据相关性分析,可以通过该方法对大数据中有用数据提取,并实现对网络中数字化信息的挖掘。

关键词:大数据;相关性分析;数据特征;挖掘

中图分类号:TP311      文献标识码:A

文章编号:1009-3044(2021)23-0023-02

在数据分析使用上,大数据采用部分样本相关性作为研究重点。相关性是指数据变量之间的量化值之间具有一定规律。一般而言,数据变量并不会直接表现出相关性,而是数据变量的某些特征之间具备一定线性或非线性交互关系。从大数据中挖掘数据特征之间的隐含关系是数据挖掘的主要价值。当前常用的数据挖掘技术主要是从数据量、数据类型和数据增长角度对信息进行挖掘,由于数据量大,为获取完整且针对性强的信息需要对样本进行平衡和去噪[1]。数据相关性最主要的运用在推荐系统,人们通过对大数据相关性分析,获得用户偏好和用户画像,可以精准推送可用信息[2]。本文提出一种基于数据特征排序的数据挖掘算法,可以在面对高维度数据时有效讲冗余信息排除,且最大程度保证信息完整性。在对大数据进行相关性分析时,需显式给出数据特征相关性,可以得到最优的信息解。

1数据特征选择方法

在特征提取方面,最初假定某特征的特征值仅为0和1,且在所有输入样本中,大部分数据的特征取值均为1,可认为该特征作用不大。仅当特征值为离散型变量时,该方法可用于特征判断。选择单变量特征,将其依次进行测试,并衡量该特征和相应变量之间的关系,根据得分去除不好的特征,可以对数据进行较好解析,但在特征优化和泛化能力上并不占优势。因此可以在数据特征选择上采用析因设计,该方法是一种结构化分析法,将数据的每个要素相互组合,进行两个和多个评价,是多因素的交叉分组设计分析[3]。其统计模型如下:

式中,数据样本的特征为[x1、x2、x3]等,特征相互作用为乘积[x1x2]、[x1x3]、[x1x2x3]等,[ε]是随机产生误差。当系数[β]代表特征之间的相关性时,则根据[β]进行排序,当值越大时代表该特征与数据样本的相关性最大。基于数据样本的析因方法过程是:(1)采用对称不确定性对特征进行排序。其优化方程如下:

其中,[xk]属于数据样本的待选特征,其余两者为选定的特征。该方法能保留特征之间的相互作用。通过排序得到的顺序[k]个特征进行测试,减小搜索空间的范围。(2)将数据样本所有特征进行二值化,当样本特征属于高范围时,设定为1;属于低范围时,设定为负1。(3)计算峰值,使数据样本能获得足够多的特征集合,完成矩阵,对单个特征、二阶特征及N阶特征进行构造,完成二值化。(4)计算特征。首先初始化实验的理想数据样本值,通常记作R,根据实验得到结果r,将其取均值,能有效减少随机误差产生。(5)计算复杂度,完成最终排序。在最大样本特征判定时,首先将输入的数据样本按照矩阵中第一个特征(选定特征集)进行归类,分为高范围和低范围区间;第二次遍历则按照第二个特征进行归类,依次类推到选定的顺序[k]个特征。

基于特征的选择算法将数据样本记录为输入特征和输出目标值的集合。其中每一列特征对应一行数据,令K阶相互作用为向量,则每一向量组成特定的特征内积。如采用下列三个样本数据相互正交:

将样本目标值令为上述样本数据的异或组合:

在将四阶交互[Ix1;x2;x3;y=1] ,其余项交互为0,即单独项与目标值,两两组合项与交互值,则得到三样本相交为:

由此可见,三者交互恰好与样本目标值相等,说明在高阶作用比低阶组作用更大,采用降维既可以减少运算,又保证了相关性。

2数据挖掘参数选择

在进行数据挖掘时,常常会对算法进行一些参数调整。比如在使用深度学习时,模型错误率、匹配程度、数据集构造等。在具体的运用中,要将模型参数调整到适合的值,才可以获得最佳的挖掘性能,而当前的参数调整已成为数据挖掘的瓶颈之一,通过特征筛选可以直接获得相关性较好的模型。设挖掘的模型参数集为[U=x1,x2,...,xM] ,这些集合等价于特征选择的特征。其性能以y表示,相当于整个模型的响应。在调整参数时,首先将其完全遍历,并采用特征排序同样方法进行数据二值化,使特征参数均分布在高范围1和低范围负1之间。然后根据特征集合的数量,设计适合的表格,将其参数分布在表格中。最后根据表格进行测试,对每一个参数组合进行训练,并得到性能y,重复测试训练多次,得到多个指标y,最终形成指标集合。单在一个参数的选择上并不会直接影响结果,可以通过特征的不同组合进行判断。判断的原则是将特征进行一一组合,当计算得到的特征表格和信噪比组成表格时,计算各组合目标参数,并将其排序,靠前的参数作为主要调整对象。

根据表格和测试结果,首先对各个组合的随机误差进行信噪比对比。其中指标响应的均值、标准差、信噪比计算公式如下:

完成上述计算后,在对信噪比进行排序。根据排序方法,可以获得表格中取值为1的特征组合的信噪比:

同样可以获得表格中低范围信噪比:

两者的信噪比差值为:

其差值也等价于表格中首位两列的内积除6。最后根据排序选择最优的特征组合。根据信噪比差值可以快速完成特征组合排序,当排序在前時,证明该特征与数据样本的相关性较强。通过选择目标特征的排序最优,就能得到上述参数的目标值,依次作为调整的阈值,对于信噪比低的参数则可以将其作为模型的不相关特征进行处理,以此可以加快模型的运行速度。

猜你喜欢

相关性分析挖掘大数据
上市公司财务指标与股票价格的相关性实证分析
淘宝星店成长中的粉丝力量
中国城市化与经济发展水平关系研究
关注数学思考 提升数学本质
大数据技术在商业银行中的应用分析
基于大数据背景下的智慧城市建设研究