多访问并行特征提取下大数据准确推荐仿真

2023-09-04许朝阳王尚鹏

计算机仿真 2023年7期

李斌,许朝阳,王尚鹏

(1. 福建师范大学协和学院,福建福州 350117;2. 莆田学院机电与信息工程学院,福建莆田 351100;3. 福建师范大学数学与统计学院,福建福州 350117)

1 引言

随着互联网技术的发展,用户越来越多,对推荐的要求也越来越高。推荐算法通常会根据用户间存在相似属性作为参考值去选择用户。例如,在电商平台上,根据浏览、收藏以及购买等几个简单的步骤就可以挑选出用户感兴趣的商品。电子商务平台会将使用者和产品的互动记录下来,其中含有大量的用户感兴趣的内容,但却不能很好地反映出使用者的喜好,所以很难从消费者的兴趣中抽取出相关的信息[1-2],从而影响了消费者对产品的使用。

针对上述问题,一些专家对此做了研究,例如刘欢等人[3]提出基于评分可信度的大数据线性回归推荐算法,优先将用户的兴趣漂移度以及活跃度等信息全部考虑到用户评分可信度的计算方法中,引入线性回归推荐算法,通过优化的线性回归推荐算法对用户评分展开预测,最终完成大数据推荐。陈嘉颖等人[4]提出一种融合语义分析特征提取的推荐算法,通过知识图谱将实体识别和连接技术有效结合,提取项目特征,分析各个项目特征之间的关系,组建子知识库以及协同学习框架,通过损失函数优化全部特征向量,最终通过用户—项目表征结果完成推荐。陆航等人[5]将通过TF-IDF相关理论计算权重取值,引入指数衰减函数分析用户兴趣变化规律,对用户兴趣相似性和评分差异性两者加权融合处理,得到精准的用户最近邻,进而完成预测项目评分以及推荐。

在以上几种算法的基础上,提出一种基于多访问并行特征提取的大数据推荐算法。通过提取用户访问特征,构建训练集,将BiasSVD算法和聚类算法有效结合,实现大数据推荐。实验结果表明,所提算法能够有效提升覆盖率和加速比,获取满意的大数据推荐结果。

2 算法

2.1 用户访问特征提取

用户日常访问的网页以及使用的应用类别全面反映了用户的兴趣倾向。目前,互联网上存在一些网址导航类以及网站收录类的站点,对常用网站展开收录和分类操作,详细的操作步骤如下所示:

1)对各个网站点爬虫处理,得到各个站点不同类目下全部被收录网站的域名,采用统一的形式存储。

2)汇总各个站点获取的爬取结果。

3)对各个站点的分类信息汇总和分析,同时参考国内各个主流网络的导航标签,确定使用网站的类目体系以及标签关键字。

4)将相同类别的标签划分到同一个表述词上面,同时为相同类别的标签分配一样的类别ID。

将经过爬虫分析以及调整后的网站分类信息检索表放置在分布式缓存系统中存储。将用户在不同类别网站上形成的记录数据作为基础,组建用户兴趣特征向量。设定用户集合为E={e1,e2,e3,…,ei},网站类目集合为W={w1,w2,w3,…,wj}。通过式(1)给出用户ek的网站访问行为兴趣向量sek:

sek={sk1,sk2,sk3,…,skj}

(1)

式中,skj代表用户ek在类别为wj的网站形成的访问记录。通过式(2)给出全部用户形成的网站兴趣矩阵C:

(2)

其中,用户em和en之间的网站兴趣向量距离可以采用式(3)所示的欧几里得距离d(em,en)表示:

(3)

电商用户的每一次访问记录均可以表示为一个4元组,如式(4)所示:

record={user,item,behavior,time}

(4)

式中,user代表用户;time代表时间;behavior代表网站类型;item代表商品类型。

访问记录是各个电商平台在不干扰用户正常购物的状态下所采集到的数据,通过访问记录可以更加真实反映用户的购物模式。利用商品之间的关联性学习,获取商品向量。其具体步骤如下所示:

1)获取交互商品序列集:

根据用户的访问时间按序排列,并按照需求将其分组,将记录中的商品提取出来,构建交互商品序列集。将序列中的相邻元素去重处理,促使相邻的两个元素属于不同的具体商品,最终获取交互商品序列集seq-set,如式(5)所示:

seq-set={(item1,1,item1,2,…,itemn-1),…,

(itemm,1,itemm,2,…,itemm,n-m)}

(5)

2)训练集的构建:

将窗口长度设为n,在用户交互商品序列上滑动,将中间位置的商品p作为输出,构建训练样本(m,n)。

3)采用item2vec算法学习商品的隐向量,同时构建全新的二维矩阵,其中每一行代表一个商品向量,并对其初始化处理,以此为依据搭建输入层,采用神经网络对全部参数初始化处理,通过交叉熵损失计算获取网络损失,更新网络参数。

4)粗粒度用户兴趣点提取:

在向量空间中对商品向量聚类处理,获得多个聚类簇,将其作为聚类中心并计算平均值,以此构建粗粒度用户兴趣点集合。

交互商品序列具有上下文相关性,以下通过序列特征提取方法获取用户访问特征。通过网络神经元关注各个输入的特定内容,采用神经网络提取非线性特征,引入分类树有效解决手写数字识别问题[6-7]。序列特征提取网络结构如图1所示。

图1 序列特征提取网络结构图

其中,LSTM层对于各步输入都具有对应的输出,选取最后一步输入到对应的输出,并与全连接层1连接。其中,网络的全连接层主要用于特征提取,将全连接层2的输出作为序列特征添加到兴趣商品预测模型的特征集合中。序列特征提取训练集的详细操作步骤如下所示[8-9]:

1)获取交互商品序列集:

即用户访问记录通过时间序列分组处理,获取用户访问记录序列集合rec-seq-set,如式(6)所示:

rec-seq-set={(r11,r12,r13,…),

(r21,r22,r23,…),…,(rn1,rn2,rn3,…)}

(6)

2)训练集的构建:

对步骤1)中的用户访问记录序列集合展开遍历,将记录中购买的商品设为样本输出,提取交互商品添加到序列u中,直至u相邻去重长度达到设定值,输出用户访问特征。

2.2 大数据推荐

矩阵分解方法有很多不同的类型,奇异值分解是目前使用比较广泛的一种方法[10-11]。奇异值分解(SVD)主要是将p×q阶的原始评分矩阵S分解处理,形成三个大小相同的低秩矩阵,将三者相乘即可输出最终的分解结果,如式(7)所示:

Sp×q=U×N×I(h)

(7)

式中,U代表酉矩阵;N代表对角矩阵;I(h)代表原始矩阵的奇异值。

结合相关先验知识,优先需要对评分矩阵降维处理,同时选取矩阵中取值比较大的n个奇异值构建对角矩阵。大部分矩阵分解方法都是利用梯度下降法求解,所以梯度下降法实现比较容易,但是收敛速度比较快。采用梯度下降法求解偏差矩阵分解,详细的操作步骤如下所示:

1)计算总体平均值;

2)将全部偏置项的取值均设定为0;

3)将原始评分矩阵和经过降维处理之后的低秩矩阵初始化处理;

4)通过随机梯度下降法的迭代获取经过优化处理的矩阵以及向量;

5)计算预测评分。

为了获取更加精准的计算结果,需要在传统模型的基础上引入偏置项,降低预测结果和真实结果两者之间的误差。虽然误差得到降低,但是仍然存在。通过真实和预测评分两者的差值,并对其调整误差,进而目标用户能够获取最近邻。

通过改进的Pearson相关系数获取用户和聚类中心的相似度,详细的计算式如下:

I(u,v)

(8)

随机选取m个聚类中心,通过式(8)计算用户和聚类中心的相似度,同时将用户划分为m个簇。将全部相似度计算结果排序,根据排序结果得到和目标用户相似度最高的簇。在目标用户所在的簇中,将全部相似度计算结果排序处理,选取前n个相似度最高的用户构建目标用户最近邻集合,如式(9)所示:

(9)

通过式(10)计算最近邻集合中各个用户对项目真实评分和预测评分两者之间的平均差值,通过平均差值完成预测评分调整,得到目标用户的最终评分:

(10)

式中,rvi代表目标用户的最终评分;svi代表用户真实评分;pvi代表预测评分。

通过式(11)获取目标用户对商品的最终预测评分dui:

(11)

式中,β代表基准分;bu[u]代表规范化因子;ci[i]代表用户偏好向量;Puk代表偏移量绝对值;Qik代表用户评分矩阵。

通过上述分析,将BiasSVD算法和聚类算法两者有效结合,最终实现大数据推荐[12-13],详细的操作步骤如下所示:

1)收集全部用户的偏好信息以及评分记录,将其整理形成一个规格为m×n的评分矩阵Gm×n,如式(12)所示:

(12)

2)计算全部评分记录的平均值,同时将用户和项目的偏好向量初始化处理,将其取值设定为0;同时对用户特征矩阵和项目特征矩阵初始化处理。

3)通过梯度下降法[14-15]获取最优用户和项目好向量,同时得到最优用户和项目特征矩阵。

4)通过式(8)获取相似度,当全部用户完成分类操作后,即可形成多个簇,利用簇完成目标用户最近邻的选择。

5)通过式(11)计算获取目标用户用户对项目的最终预测评分,最终完成大数据推荐。

3 实验分析

为了验证基于多访问并行特征提取的大数据推荐算法的有效性,选取来自A大学研究组的实验数据集作为测试样本,同时采用5台虚拟机搭建实验平台,采用基于评分可信度的大数据线性回归推荐算法、一种融合语义分析特征提取的推荐算法做对比。分析用户网站访问和原始网站访问两者之间的关系如图2所示:

图2 用户网站访问和原始访问之间的关系

通过分析图2中的实验数据可知,网站的原始访问频率变化概率和用户通过关注查找展开的网站访问频率两者走势基本一致,由此可见,通过用户关注度对用户的行为展开分析是切实可行的,且获取的数据是有效的。

在上述分析的基础上,为了进一步验证所提方法的性能,选取覆盖率和加速比作为测试指标,其中两者对应的计算式如下:

1)覆盖率coverage主要是用来衡量模型挖掘物品的能力,取值越大越好,具体的的计算式如式(13)所示:

(13)

式中,R(u)代表为用户推荐一个长度为N的商品列表;U代表全部商品;P代表商品评分集合。

2)加速比speedup(p)主要用来衡量算法的可拓展性,详细的计算式如下:

(14)

式中,T1代表网络中随机一个节点的运行时长;Tp代表p个节点的运行总时长。

分别采用所提算法、基于评分可信度的大数据线性回归推荐算法(参考文献[3]算法)、一种融合语义分析特征提取的推荐算法(参考文献[4]算法)做对比,验证不同推荐算法的覆盖率如图3所示。

图3 不同推荐算法的覆盖率对比

分析图3中的实验数据可知,覆盖率会随着推荐列表长度的变化而变化,在推荐列表长度为12时,所提算法的覆盖率在75%～98%之间。但是和另外两种推荐算法相比,所提算法的覆盖率明显更高一些。因此,说明所提算法具有比较强的挖掘能力,可以更好完成大数据推荐。

通过表1分析三种不同算法的加速比变化情况。

表1 不同推荐算法的加速比实验结果对比

经过对比和分析表1中的实验数据可知,在三种大数据推荐算法中,在节点个数为35个时,所提算法的加速比取值为2.7,另外两种推荐算法的取值分别为2.1和2.0,均低于所提算法。由此可以说明所提算法具有比较好的可拓展性。

4 结束语

针对传统大数据推荐算法存在的加速比以及覆盖率取值较低等问题,提出一种基于多访问并行特征提取的大数据推荐算法。经过实验对比分析可知,所提算法可以具有良好的推荐能力和可拓展性,确保大数据推荐结果的准确性。为了进一步提升大数据分析能力以及处理效率,后续将扩大研究范围,对数据存储方式展开优化,全面提升数据的处理速度。