APP下载

基于文本信息处理的深度网络推荐技术研究

2022-02-18牛成磊

科技创新与应用 2022年4期
关键词:文档卷积节点

牛成磊

(北京比图科技有限公司,北京 100102)

目前在建模中,可以充分地采用输入文本信息。数字信息目前越来越强大,所以在互联网中也会出现一些信息拦截的情况。用户在使用互联网时,希望可以快速准确的得到想要的信息,然而目前信息出现了过度膨胀,所以用户需要消耗大量的时间来进行搜索查询。互联网商家提供的服务,其实是希望能够精准掌握客户的需求,然而为客户推送的相关内容,有的时候并不符合客户的需求。根据以上的内容推荐系统现在已经产生了新的推荐系统,就是把用户的相关信息进行分析,然后再进行历史交互,历史交互包含用户的购买记录以及查阅记录等。通过这些特点,能够了解到用户目前的上网习惯。所以项目特征也随着历史交互被了解。

1 文本信息处理技术

1.1 概述

文本信息处理简单的讲就是对文本进行处理,在里面找到所需要的信息,这一过程对于文本处理来讲非常重要。以NLP领域为中心展开研究,但是推荐系统领域中,可以直接采用研究成果对此领域中的数据展开处理,根据提取的信息,将文本引入到推荐过程,能够获得最佳的推荐效果。在自然语言处理领域中文本信息有很多的种类,并且可根据不同形式展开处理,由于受到篇幅的限制,所以本节对于设计中的推荐模型展开了讨论,以及对文本信息处理技术展开讨论。

1.2 深度学习模型

深度神经网络概述。深度神经网络在进行深度学习技术的时候,是比较基础的一个部分,然而感知机模型想要得到更好的拓展,需要添加隐藏层,这样才能够促使非线性激活函数能够更加充分的体现自身能力。深度神经网络在各领域中应用的非常广泛,能够表现出较强的特征。同时也可以根据模型进行设计,并充分融合深度网络,最终达到模型中的强大功能。最近系统研究领域会出现各种推荐模型,同时根据文中所提出的,采用卷积神经网络,可以将文本特点进行提取,从而促进推荐任务在深度网络中所推荐的领域得到具体应用,另外,想要捕捉更多用户的喜好,首先应该在推荐模型中使用注意力机制。在很多工作中,可以使用图神经网络充分的与推荐系统相融合,从中能够得到更好地推荐效果,最终会形成DNN,并广泛应用到推荐领域。

2 基于文本的注意力神经网络推荐模型

根据上文的内容,协同过滤推算法一般可以用于训练时使用,主要针对数据种类比较单一,并且还会出现信息不完善等情况,所以应使用要推荐的模型为用户建立更好的固定特征向量,但是从而也会导致忽视用户的爱好。如果想要找到更好的解决方法,首先应该评论文本信息,并适当的添加到推荐过程之中,然而模型建筑会获得更多的信息输入,最重要的是在文本中,一般会囊括用户所选择的项目以及看法等。另外,在使用时也会体现出用户的感受,能够帮助模型挖掘用户更多的喜好,同时也可体现出模型挖掘的特征。

在用户使用某一项目的时候,会产生不同的想法,例如手机项目用户在对手机项目进行评价的时候,会根据手机的外观以及通话质量等来发表自己的意见以及感受。挖掘评论文本所体现出的信息会支持模型的构建,同时也可以根据用户以及项目的不同等级为用户来推荐更多的模型输入,从而能够获得更多的补充信息,并且也会获得更多的功能。ANAR模型主要分为4个内容,共内容主要是用户嵌入向量、文本特征、项目嵌入向量、项目的文本特征。与传统的隐语义模型相比,现在用户所使用的项目能够体现出隐向量思想,根据用户的id,能够反映出用户正在使用的嵌入向量Embi∈Rk。

文本特征θu∈RK和项目文本特征Embi∈Rk都是使用特殊设计,最终获得卷积神经网(CNN),根据数据集评论去获得文本。要注意的是,在本文中所采用的实验大多来自于美国亚马逊电商网站,因为这些数据都属于公开的,所以在选择数据的时候,会对文本进行评论,同时所有的文本均为英文,根据ANAR模型所提取到的相关流程可参考如下内容,文本数据再进行清洗时,首先要考虑真实语言环境,因为很多词语,不具备实际的意义,所以要考虑限定词以及语气词等。在进行数据清理时,首先应该将这些词语删除,另外,如果在数据集中,将所有的评论文档进行整合,汇总成为一个总评论文档,这与推荐任务不会有任何的关联,并且对推荐任务还会有所影响,主要是因为高频词无法正常的体现出用户的喜好。低频词容易出现错误,导致数据中会产生噪声,所以应该适当的被删除,根据所选择的数据展开评论,并且进行统计分析,最终设定数据总评论文档应该使用低频词,如果文档中低频词的数量已经超过3万,那么此时应该被设定为高频词。

根据以上的内容分析数据,在进行清洗的时候,首先总评论文档不应该使用高频词或者是低频词,因为这些词语应该被删除,另外在生成用户或者是评论文档的时候,首先要完善。在文本清洗时,首先应该把CNN文本进行提取,尤其是其特征,所以在很多环节会产生评论文档。根据数据分析用户发表的评论,会按照首尾相接的形式进行整合。如果集合大于265个单词,那么应该在此处展开阶段,并且保留前面的词语进行评论集合。如果长度小于256个单词,那么在这个集合中的单词都应该被复制,并且整合到末尾单词的后边,要将这个过程进行重复,直到长度大于256个单词。之后,这种方式应该及时中断,并且应该为用户建立单独的256个单词的评论集合,针对所获得的评论集合展开向量化操作,根据上文所述,目前选择使用谷歌公司建立的预训练模型,完成此项任务,针对评论集合中的每一个单词都要掌握维度正常应该在300个单词向量。从而也应该为用户创建维度在(256,300)的评论文档,文档中应该具备256个单词,并且每300个单词为向量维度。

以上是根据数据集中一个用户所产生的文档评论,全部的过程根据数据集中对用户在使用时阐述相关步骤,最终得到数据集中对应用户建立的评论文档,整合数据集中的项目评论文档,最终会形成相应的思路,并且不会被重复使用。特殊设计的卷积网络,并且从中能够汲取到文档的特征,另外还要设计比较特殊的卷积网络,但此时单层在连接网络的时候,不会出现向量维度的改变。

注意力交互部分本身属于核心设计,同时也属于an AR模型,所以根据本文的引言能够分析出用户在使用各种项目的时候,也应该关注不同点,所以模型在进行推荐时,应该捕捉到更好的多样性喜好,从而能够使推荐准确度获得提升。

3 基于文本的图卷积网络推荐模型

近几年,图卷积网络已经被广泛地使用,并且在每一个领域中都能够见到这种网络,现在这种网络的构建已经存在很大的优势,能够使信息达到目标节点,能够帮助模型去学习目标节点。并且形成相应的特征,根据以上的内容分析,评论文本信息通过节点信息再进行传递,根据这一过程,文本信息会得到更好地利用。

3.1 模型介绍

本章节主要是简单分析RAGCN模型,首先对此模型的概论进行介绍,然后具体分析怎么进行,在进行训练时能够找到关键点以及使用关键的步骤,这样才可以进行设计,最后将此模型的训练方法以及如何优化进行介绍。

3.2 模型概述

在对RAGCN模型展开阐述之前,首先在本文中应该注意公式符号,要尽量设置正确的符号,所以在推荐系统中,相关数据以及相关数据包会对用户产生一定的影响,同时也会建立相应的集合,根据所选项目,所构成的集合数据集中,用户一般会使用量Embi∈Rk。项目量Embi∈Rk,所表示的是自身相对应的评论文档,在文档中首先应该采用bert去提取文本向量,然后根据这个向量逐层地将其转化成为项目评论,并与向量Embi∈Rk融合。

3.3 基于图卷积网络的特征学习

图卷积网络表示方式,会通过信息的传递以及策略学习,用户选择项目等。根据数据集中能够体现出每一个用户量Embi∈Rk,并且将其特征与用户相结合,能够得到的嵌入向量会与用户节点的特征相符合,并且能够查找到评论本文节点中所有的特点,根据以上的步骤在图网络结构中会包含所有节点,同时也都包含特征向量,根据此项任务能够知道图卷积网络可以支持用户节点以及用户特征等,能够使特征不断地进行更新,学习优化,同时还可以及时被利用。要注意一点,再进行学习时,首先要评论本文节点中产生的特点,信息中一般不会出现更新的状态。然而在通过项目节点进行传输时,往往会以学习的方式进行参与,很多时候图卷积网络在系统中会起到很大的作用。

3.4 注意力机制

如前文所述,在一个推荐情境中,不同的相邻项目节点对于目标用户节点的重要程度是不一样的。例如:假设某用户近期购买过《新华字典》和婴儿纸尿裤两种商品,那么对于刻画该用户特征画像的作用而言,《新华字典》这个商品几乎起不到任何作用,因为无论是什么身份、什么年龄、什么性别的用户,都有购买《新华字典》的理由;而对于婴儿纸尿裤则完全不同,因为购买此商品的用户,其身份概率大多是刚刚为人父母的人。因此,对于这个用户所对应的用户节点而言,在图网络消息传递的过程中,其两个相邻的项目节点对其传递过来的信息重要程度应当是截然不同的,婴儿纸尿裤这个项目对应的节点应该被赋予更大的消息传递权重。

4 结束语

本文主要针对文本信息处理展开了深入研究,尤其是应用于深度网络技术中,根据文本信息以及用户在使用数据进行交互时,对其融合并且深度学习相关技术以及模型的构建,同时也为用户推荐模型。根据现有的文本推荐方法有的时候会忽视用户在使用时的多样性以及喜好,由于没有建立较完善的模型,所以在输入文本信息时,首先应该给用户提供更多的推荐任务,以此满足用户的多样性以及喜好。对于项目特征应该更加细致并且建立模型,首先针对文本,要提高神经网络模型的推荐。另外,在感知方面也要融合到端神经网络,同时也要注意对其预测进行评分,并根据抽取用户以及项目评论等推荐模型适当的对特征信息进行提取,同时要设计一个交互网络,通过动态捕获相关项目,在进行交互的时候也会产生多样性。针对图卷积网络,要适当地了解其节点信息,对图卷积网络传递能力要不断地进行提升,不断学习更新以及优化用户节点。同时根据公开的数据对其进行实验,入门信息大多都作为辅助,而此时辅助信息可以构建更好的模型,并且完善训练,能够提升推荐的表现。图卷积网络比较适合处理在推荐系统中所产生的交互关系,同时也可以让文本信息在输入的过程中能够得到充分的利用。对于图卷积网络构建在进行学习时,可以适当的推荐模型,这样能够支持用户在选择各种项目的时候所使用。

如果在文本信息中能够适当的引用辅助信息则可以构建更好的模型,并且能够更加完善训练,还可以促使推荐表现获得不断的提高。在如今的大数据时代,不仅仅要注意文本信息,同时还要注意其他相关的数据能够充分的被使用,在推荐系统中,最主要的来源就是信息,其中包含图片、项目、属性等。在未来的科技研究中,辅助信息将会被应用的非常广泛,同时也会伴随着推荐技术不断的升级,不断的研究,根据多种辅助信息与模型相融合的状态,对多元化信息再进行输入时,应适当的采用推荐系统,相对比较传统系统已不具备太多优越性,所以建议使用推荐系统。

猜你喜欢

文档卷积节点
CM节点控制在船舶上的应用
浅谈Matlab与Word文档的应用接口
基于3D-Winograd的快速卷积算法设计及FPGA实现
有人一声不吭向你扔了个文档
基于AutoCAD的门窗节点图快速构建
概念格的一种并行构造算法
卷积神经网络的分析与设计
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
Word文档 高效分合有高招