APP下载

个性化商品推荐系统的混合推荐算法研究

2023-12-05王晖张慧

科技资讯 2023年22期
关键词:推荐算法

王晖 张慧

摘要:推荐算法是推荐系统的核心内容,推荐算法的评价标准包含预分类准确性和测准确性。传统的推荐算法有两个明显缺陷,使用词频作为搜索文本的特征向量与无法克服高频词汇干扰。通过TF/IDF特征词加權改进算法提升分类准确性。提出混合模型LDTF,从信息增益的角度计算每个词性对词义的贡献增益,来判断一个特定词再此词性下能够代表的词义权重,用动态的计算不同词性的词性比,解决传统TF/IDF算法在文本识别的缺陷,使用CW-TF/IDF优化算法提升特征词的分类效果综合提升推荐准确度。为了解决内容推荐稀疏矩阵问题引入WSBCF协作推荐算法,提升推荐系统的用户体验,实验结果表明能在不同评分矩阵稀疏度下,统计能显著且明显提高。

关键词:商品推荐   特征词加权   推荐算法   稀疏矩阵   词义权重

中图分类号:TP391.3     中图分类号:A

Research on the Hybrid Recommendation Algorithm for the Personalized Product Recommendation System

WANG Hui   ZHANG Hui

Taizhou Mechanical and Electrical Higher Vocational SchoolTaizhouJiangsu Province225300 China

Abstract:A recommendation algorithm is the core content of a recommendation system, and the evaluation criteria for the recommendation algorithm include pre-classification accuracy and measurement accuracy. The traditional recommendation algorithm has two obvious drawbacks: using word frequency as the feature vector for search texts and being unable to overcome the interference of high-frequency words. This article improves classification accuracy through the improved TF/IDF feature word weighting algorithm. This article proposes a hybrid model LDTF, which calculates the contribution gain of each part of speech to the meaning of a word from the perspective of information gain to determine the semantic weight that a specific word can represent under this part of speech, solves the shortcomings of the traditional TF/IDF algorithm in text recognition by dynamically calculating the part of speech ratio of different parts of speech, and improves the classification effect of feature words by using the CW-TF/IDF optimization algorithm to comprehensively improve recommendation accuracy. In order to solve the sparse matrix problem of content recommendation, this paper introduces the WSBCF collaborative recommendation algorithm to improve the user experience of the recommendation system, and the experimental results show that the statistics can be significantly and obviously improved under different scoring matrix sparsity.

Key Words: Product recommendation; Weighted feature words; Recommendation algorithm; Sparse matrix; Semantic weight

传统商品推荐完全是人工分发,工作效率低,不能对投诉者快速回应,还会引起类似产品的问题堆积。但是现有的推荐算法大多基于内容,只利用词汇频率来表示文本的特征,对某些常用词汇的表征能力不足,本文构建一种混合推荐模型LDTF克服上述缺陷。

1 混合模型LDTF

在推荐模型中,LDA模型充分考虑到了商品文本所蕴含的语义信息,因此能够更加精准地为其寻找到最合适的话题,而TF/IDF则倾向于挖掘更能够代表该商品文本的词汇。在推荐系统中,用户通过对文本进行分析后可以发现潜在的需求信息。当人们填写商品内容时,通常是为了反映他们所面临的问题,以便更好地推荐他们的产品,所以可以将两者的优势相结合,提高商品推荐的准确率[1]。通过将LDA技术与TF/IDF技术相互融合,可以更准确地描述文本的特征,并提取出文本中的关键信息。本文构建了一种融合两者的LDTF模型,模型由4层构成,具体叙述如下。

1.1单词层

1.2主题层

1.3文本-主题层

1.4文本-特征词层

2.2 CW-TF/IDF优化算法

传统文本分类器使用TF/IDF度量对各个词语进行权重分配,但该加权方法没有充分利用分类任务所隐含的信息对文档进行表达,虽然有学者将POS(粒子群优化算法)与TF/IDF算法融合形成形成pos-TF/IDF算法,该法没有使用分类任务的隐藏信息,实际应用效果并不理想。ID/IG算法(贪婪迭代算法)是一种新型智能优化算法,主要由邻域搜索、扰动算子和接受准则3个基本部分组成,该算法参数少、易实现和效率高[5]

基于此提出了一种新的特征词加权方法CW-TF/IDF,通过计算某个词的词性在该词义的贡献增益来确定该词的信息增益。由于不同的话语在不同的情况下表达含义不同,所以采用一种动态的方法来计算词性比率 [6]

信息增益指的是某一情形下,某个随机变数不确定。总之,X(明天下雨)为随机变量,可计算X熵,Y(明天多云)为随机变量,多云天气下,如果也知道下雨的信息熵(联合概率分布)作为条件熵,二者的差值为信息增益,如公式(7):

3基于加权相似度的协作过滤算法

目前,因未对用户群的相关知识进行有效挖掘,使得推荐结果与用户模型之间存在较强的耦合度,难以挖掘出用户隐含的信息需求,难以实现具备某种关联度的推荐结果。在市场营销方面,如果有新的使用者或是使用者资讯不全,则不能完成使用者模型化,進而会对接下来的评分预测工作造成影响。针对该问题,本采用带权重的协同过滤方法(WSBCF)提高推荐服务质量的同时,解决稀疏问题。

3.1 WSBCF 协作过滤算法

针对数据稀疏性对协同推荐系统中相似性计算的影响,以及权重调整方法缺陷,本节研究自适应多个指标间的重合度关系,并利用重合度关系对传统相似性计算方法进行改进。同时,对项目间公众评价在整体评价中所占的比例进行量化,并着重考虑公众评价的重合度对相似性的影响。可以从得分重合的角度来区别相似度计算结果的可信度,得分越高,相似度就越能反映出项目之间的真实关联性,反之可靠性就会降低。

WSBCF在评价时,使用了经典的加权评价聚合法,通过对评价对象的已有评价以及评价对象的近邻关系进行评价,得到评价对象与评价对象之间的相似性作为评价权重;用权重相加来达到对目标项目的预期得分。提出了一种基于模糊聚类分析的协同推荐方法。在活跃用户的评项目集中,选取最接近于目标项目的p个项目,并将其视为目的项目的近邻。然而,由于不同的用户具有的被评项目数目不一定相同,如果使用以上的绝对阈值p来选取邻区,则很有可能会与不同的用户被评项目的数目不一致,所以,WSBC提出了一种基于相对阈值的邻区选取方法,以减小由于被评数目的差别所引起的邻区选取的影响。

在计算时间复杂性上,WSBCF算法相比于传统的协同推荐算法,仅在推荐过程中增加了符合系数的计算。WSBC算法的得分矩阵设置为R(m*n),计算项目间样本的重合系数的算法时间复杂度是O(mn),对于相似度计算的时间复杂度是O(mn2),那么,对于整体WSBCF算法而言,整个时间复杂度与传统协同推荐算法的时间复杂度相近。

4 实验效果分析

为了验证算法准确性,本实验对数据集Gavemcomplaint进行了随机划分,构造了5个不同稀疏度的数据集,分别将融合WSBCF的CW-TF/ID算法、IG/ID算法、Pos-TF/IDF算法以及传统的TF/IDF算法进行数据处理比较。实验中采用同样的分词器ICTCLAS,横坐标代表稀疏度A值,纵坐标代表结果方差算术平均值,该值越小,说明算法预测越准确,实验结果如图1所示

(1)在分类实验中,使用了3 种不同的基于TF/IDF的分类算法:Pos-TF/IDF、TF/IDF 以及经过改进的算法CW-TF/IDF。经过实验比较,发现改进后的算法CWTF/IDF 的分类准确度比另外两种算法的准确度都要高。这验证了改进算法增加的词性与词频信息增益元素的有效性,使不同词性具有不同的权重,从而更准确地计算每个词的权重,提高了分类精度,同时这种改进也使分类效果更加稳定。通过以上实验,我们证明了改进算法的有效性和实用性,可以应用于文本分类等相关领域。

(2)类别和准确率呈现反比状态,稀疏度A值越大,说明随着文档的增加,干扰项不断增加,改进后的算法的稳定性还是比Pos-TF/IDF 以及TF/IDF 的稳定性要高。

5 结语

研究个性化商品推荐系统的混合推荐算法,提出了LDTF混合推荐模型,基于TMDF的特征词加权改进,为进一步优化模型,解决推荐算法对内容依赖度高,推荐的内容和用户模型耦合度较重,在持续发掘用户潜在需求上存在缺陷的问题,提出WSBCF算法,使用项目评分因子和相似度标记商品属性,通过邻居项目即商品和评分预测,发掘近似商品并进行推荐,同时此算法较好的解决了推荐矩形稀疏性问题。本文提出的推荐模型经过测试,验证得出在推荐的性能上得到更好的效果。

参考文献

[1]   周舟. 基于深度学习的个性化商品推荐系统的研究与实现[D].南昌:南昌大学,2022.

[2] MEENU M, KURADE  C, NEELAPU B C, et al. A Concise Review on Food Quality Assessment Using Digital Image Processing[吖21] [J]. Trends in Food Science & Technology,2021,118:106-124.

[3]   柴朝辉. 基于词嵌入的Bi-LSTM商品推荐系统[D].石家庄:河北科技大学,2021.

[4] VAN DAT N,VAN TOAN P,Thanh T M.Solving Distribution Problems in Content-based Recommendation System with Gaussian Mixture Model[J].Applied Intelligence, 2022,52(2):1602-1614.

[5] FERREIRA L G,BARBOSA J L V,GLUZ J C,et al.Using Learner Group Profiles for Content Recommendation in Ubiquitous Environments[J].International Journal of Information and Communication Technology Education (IJICTE),2020,16(4):1-19.

[6] 熊肖肖.基于多算法融合的商品共同推薦系统[D].南京:南京邮电大学,2021.

[7] ZHANG Y,LIU Z,SANG C.Unifying paragraph Embeddings and Neural Collaborative Filtering for Hybrid Recommendation[J].Applied Soft Computing,2021,106:107345.

猜你喜欢

推荐算法
基于内容的互联网推荐算法
一种改进用户相似度的协同过滤推荐算法
XGBoost算法在电子商务商品推荐中的应用
基于二分Kmeans的协同过滤推荐算法
校园社交平台中标签系统的研究
基于相似传播和情景聚类的网络协同过滤推荐算法研究
社交网络推荐系统
混合推荐算法在电影推荐中的研究与评述
一种改进的基于位置的推荐算法
基于情景感知的高校移动社交网络平台设计与开发