APP下载

基于深度学习的精准营销推送算法设计与仿真

2020-12-07苏翠华熊婷

现代电子技术 2020年22期
关键词:深度学习

苏翠华 熊婷

摘  要: 针对目前用于精准营销推送的用户画像模型普遍存在全面性与深入性差等问题,文中基于深度学习技术研究用于精准营销推送的用户画像模型构建算法。该算法利用结巴分词算法与SIFT方法对短文本与图片进行预处理与融合,借助PGBN深度学习模型及吉布斯向上?向下的采样方法对用户画像模型进行构建与训练,从而获取用户的兴趣、爱好等信息。对测试数据集进行的仿真计算结果表明,该文算法由于融合图片与文本数据,相较于普通算法,能够较为全面地获取用户的属性特征,因此在精准营销推送中发挥着重要作用。

关键词: 精准营销推送; 深度学习; 用户画像模型; 模型训练; 信息获取; 数据集测试

中图分类号: TN911?34; TP181                   文献标识码: A                      文章编号: 1004?373X(2020)22?0144?04

Abstract: In allusion to the problems that the user portrait models used for precision marketing push are generally poor comprehensiveness and depth, the construction algorithm of the user portrait model used in precision marketing push is researched based on the deep learning technology. In this algorithm, short text and pictures are preprocessed and fused by means of the stuttering segmentation algorithm and SIFT method, and the user portrait model is constructed and trained by means of the PGBN deep learning model and Gibbs up?down sampling method, so as to obtain the users′ interests, hobbies and other information. The simulation results of the testing dataset show that, in comparison with the ordinary algorithm, the algorithm can acquire the attributive character of users more comprehensively because of the fusion of image and text data, so it play an important role in the accurate marketing push.

Keywords: precision marketing push; deep learning; user portrait model; model training; information obtain; dataset testing

0  引  言

互联网技術的发展与社交媒体的诞生促进了信息的传播,为人们的沟通及交流提供了新的渠道与方法[1?2]。其可以通过社交媒体等开放的公共平台,跨越时间与物理距离,进行自由的分享、学习、沟通和交流,呈现并记录自己的日常生活,表达内心的兴趣爱好。因此社交媒体所产生的社交数据,能够充分反映出用户的兴趣爱好、日常行为与习惯、心理活动等属性特征。对于互联网思维下各行业的精准营销、产品个性化分析与优化而言,具有较高的挖掘价值[3?5]。

目前,利用用户画像模型提取与分析用户在社交媒体上表现出的特征是数据挖掘及应用的一种常用手段[6?7]。通过用户行为习惯、基本属性等特征的提取与分析,可构建包含兴趣爱好、年龄、性别、职业、消费行为等在内的标签化用户画像模型。然而,由于用户属性事先定义的局限性与社交媒体内容模式的多样性,传统用户画像模型的属性描述通常存在不全面、不够深入等缺陷[8]。基于此,本文针对微博的图像与文本数据,通过引入深度学习技术,设计并研究了用于精准营销推送的用户画像模型构建算法。

1  理论和技术分析

1.1  用户画像及构建方法

用户画像,即根据社交媒体上呈现出的用户行为习惯、基本属性、心理活动等内容。构建标签化的用户原型,从而得到用户的年龄、性别、职业等标签特征。其构建的一般流程如图1所示,依次为基础数据收集、预处理与建模。

其中,基础数据收集主要包括用户的基本属性信息数据(用户注册过程中提交的姓名、性别、教育情况等信息)、浏览行为与内容数据(用户日常的行为习惯与发表内容,如网购记录、网页浏览记录、发表的图文等)、相关属性信息数据(如产品评价)和服务需求数据(如查询操作)等;数据预处理主要包括文本与图片数据的处理,通过对文本数据的分词、停用词去除与词频统计,以及对图片数据的特征提取与表示,从而进行爬取数据的标准化操作,供后续处理与分析评价的使用;用户画像建模主要通过遗传算法、聚类算法和各类神经网络算法对用户属性进行抽象提取。

1.2  预处理技术

预处理技术主要用于实现文本与图片的预处理。对于文本而言,主要为特殊用语、停用词去除与文本分词、建立文本词袋模型等步骤。其中,分词方法主要有基于知识理解、基于词库匹配或基于词频统计的三类方法。本文则选用结合词库匹配与词频统计的结巴分词方法,综合前者分词速度快与后者针对新词或歧义词分词效果好的两种优势,能够得到较为理想的分词效果[9]。

对于图片而言,预处理主要为图片特征提取,用于图像典型像素点信息的提取。图片特征提取方法主要有HOG方向梯度直方图、HAAR矩形特征、SIFT尺度不变特征变换、LBP局部二值模式等方法[10?11]。考虑到SIFT方法具有较高的容忍性、独特性与多量性,本文的图片特征提取方法选用SIFT方法。

1.3  PGBN主题模型

PGBN为有向深度网络主题模型,有别于DBN等传统网络的二元隐藏单元。其非负实隐藏单元符合伽马分布,能够无监督地推导表示出多层多元的计数向量,实现隐藏可见特征相关性的简单有效表示[12]。PGBN主题模型将观测计数向量(泊松近似下)分解转换为第一层隐藏单元(伽马分布下)与因子载荷矩阵的乘积,并进一步将该层隐藏单元分解转换为下一层隐藏单元与连接权重矩阵的乘积。相比于传统二元隐藏单元深层网络的推理处理及网络深度与各层宽度的调整要求,PGBN主题模型能够在第一层宽度确定的情况下,使用非负实隐藏单元对后续层宽度进行推导。

2  用户画像模型的构建

2.1  文本和图片预处理

本文文本预处理的一般流程如图2a)所示。借助结巴中文分词包配套的Python组件进行分词操作,经停用词表遍历后,将无意义的停用词与无效词过滤,进而整合成词汇表。词汇表中,同种词汇有序放置在同一行,各种词汇所对应的行数记为索引值。进一步列出计数矩阵[Xw],用于统计微博中的词频,其各元素[Xw(i,j)]即表示词汇[i]出现在文档[j]中的频率。

图片预处理则使用了SIFT方法对图片局部特征进行提取。在不同空间尺度中,对极值点进行寻找并将其作为关键点,进而得到图像特征向量。该向量包含方向、尺度与位置信息。其一般流程如图2b)所示。用[128×n]的描述子对得到的局部特征关键点的维度与数量进行表示,所有的描述子则构成了该幅图像的集合。由于每幅图像得到的SIFT矢量数目庞大,会给计算资源带来较大的压力。因此采用聚类算法对上述集合元素进行聚类,生成与特征矢量逐一对应的视觉序列,从而得到描述该幅图像的字典。字典的构造步骤可描述为:对[M]幅图像的[N]个SIFT特征进行提取;利用K?means算法进行聚类,得到[k]个聚类中心(即视觉词),进而得到长度为[k]的字典;计算各特征与上述聚类中心的距离,并对与聚类中心距离最近的词频进行统计,从而得到表示每幅图像的词频矢量;归一化处理每幅图像经聚类得到的字典矢量,最终构造出字典。

2.2  模型框架和构建方法

文中主要根据目前使用广泛的微博内容进行用户画像模型的构建,因此数据集主要由微博用户的图片与配套短文本构成。本文用户画像模型的框架即流程如图3所示。

借助词袋方式对图像与文本数据进行处理,得到相应的原始特征,进而生成视觉与文本词袋。用潜变量[Θ(t)j∈RKt+]描述文件[j]中图片与文本的模态共享,该潜变量符合伽马分布,为串联的视觉与文本隐藏单元[θ(t)w-j∈RKt+]和[θ(t)v-j∈RKt+]。其中,层数[t=1,2,…,T-1],[R+={w:w≥0,v:v≥0}]。此外,用[θ(t)v∈RKtKt+1+]与[θ(t)w∈RKtKt+1+]分别表示图片和文本中表现出的主题。基于PGBN深度学习网络模型建立包含5层隐藏单元的深度网络,并使用吉布斯向上?向下的采样方法对参数进行推导采样[13]。

3  仿真和分析

文中随机选择2 985名微博活跃用户,爬取基本用户信息与其所发布同时含有文本与图片的257 952条微博,作为本文模型的训练与测试数据集。在训练模型时,选用了Layer?Wise训练方法,第一层的宽度设置为400,网络深度设置为5,初始化超参数值为[a0=b0=0.011],[e0=f0=0.9],所有层均满足[η(t)=ξ(t)=0.04]。

在对训练数据集进行文本与图片预处理后,训练并构建本文的用户画像模型,得到包括军事、美食、宠物、体育、旅游、数码、健身、音乐、美妆、游戏在内的10个偏向于兴趣爱好的用户属性主题。其部分主题的主题词与权重如表1所示。可以看到,部分主题词会在不同的主题中出现,例如“跑步”同时出现在健身与体育主题中,这是因为两者具有较高的关联性。此外,各主题下的大部分主题词均具有独特的特征,比如动作、瑜伽、健身等能够较明显地看出其属于“健身”这一主题。

本文挑选的3名微博用户兴趣爱好情况如图4所示。从图4可看出,不同用户具有不同屬性特点,在各个主题的偏好上具有不同的倾向分布。其中,用户1对美妆主题具有最高的关注度,其次是健身、美食、宠物与游戏;用户2则偏爱于健身,其次是美妆与美食;用户3对于军事主题具有较高的关注度,而对于其他的主题则关注度较低。因此,可以利用本文的用户画像模型获取用户的属性与兴趣爱好,进而实现精准营销与推送。

此外,本文同样利用测试数据集对传统的用户画像模型进行测试。发现当用户发表的内容形式单一时,得到的用户属性通常并不完整,缺失用户兴趣爱好标签的概率较大。这是因为传统模型只针对文本或图片进行构建,而本文算法由于融合了图片与文本两种数据,所以能够有效改善这一状况。

4  结  语

本文基于深度学习技术对用户画像模型构建算法进行了研究。通过借助结巴分词算法与SIFT方法,对短文本及图片进行了预处理与融合,并结合PGBN深度学习模型与吉布斯向上?向下的采样方法,实现了用户画像模型的构建和训练。本文方法能够同时利用网络上的文本与图片信息,精准地采集、分析出用户的兴趣爱好特征信息并全面获取用户的属性特征,从而有效提高营销推送的精准性与目的性。

参考文献

[1] 李鑫,郭进利,张禹.互联网空间下的城市网络格局及结构研究[J].计算机应用研究,2017,34(3):808?812.

[2] 田鹤,赵海,王进法,等.互联网传播行为的时序演化与预测[J].通信学报,2018,39(6):116?126.

[3] 田亚明.铁路移动互联网营销策略研究[J].铁路计算机应用,2017,26(6):48?51.

[4] 葛从进.基于移动互联网的客户营销管理系统的设计与实现[D].南京:南京理工大学,2018.

[5] GAO Weifeng, HUANG Lingling, LIU Sanyang, et al. Artificial bee colony algorithm based on information learning [J]. IEEE transactions on cybernetics, 2015, 45(12): 2827?2839.

[6] 李恒超,林鸿飞,杨亮,等.一种用于构建用户画像的二级融合算法框架[J].计算机科学,2018,45(1):157?161.

[7] BOYER V. An artistic portrait caricature model [C]// International Symposium on Visual Computing. Berlin: Springer, 2005: 212?216.

[8] 于兴尚,王迎胜.面向精准化服务的图书馆用户画像模型构建[J].图书情报工作,2019,63(22):41?48.

[9] 成于思,施云涛.面向专业领域的中文分词方法[J].计算机工程与应用,2018,54(17):30?34.

[10] LI Y, HU M, WANG T Y. Weld image recognition algorithm based on deep learning [J]. International journal of pattern recognition and artificial intelligence, 2020, 34(8): 17.

[11] 辛亮亮.基于局部二值模式的圖像特征描述方法研究[D].重庆:重庆邮电大学,2019.

[12] 郭丹丹,陈渤,丛玉来,等.基于PGBN模型的SAR图像目标识别方法[J].电子与信息学报,2016,38(12):2996?3003.

[13] 张志远,杨宏敬,赵越.基于吉布斯采样结果的主题文本网络构建方法[J].计算机工程,2017,43(6):150?157.

猜你喜欢

深度学习
从合坐走向合学:浅议新学习模式的构建
面向大数据远程开放实验平台构建研究
基于自动智能分类器的图书馆乱架图书检测
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
利用网络技术促进学生深度学习的几大策略
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究