用户画像构建研究

2019-09-10马朋辉王雪宁李勇邵帅

现代信息科技 2019年6期

马朋辉王雪宁李勇邵帅

关键词：用户画像;Word2vec;词向量;Stacking

中图分类号：TP391.1;TP391.4 文献标识码：A 文章编号：2096-4706（2019）06-0017-03

Abstract：This paper mainly studies user portrait construction based on user browsing data of Sogou engine. We describe user characteristics concretely，labeled and targeted，and use this as the basis of market analysis，business decision-making and precise marketing. User portrait technology can help search engines more targeted service users. The main work of this paper is as follows：Firstly，the data set of user search is preprocessed. In word segmentation，we choose Jieba word segmentation tool;secondly，we use TF-IDF-based vector space model to select feature words;thirdly，we use Word2vec to transform feature words into word vectors;finally，we use different classifiers to construct user portraits，we use Stacking model here.

Keywords：user portrait;Word2vec;word vector;Stacking

0 引言

大数据时代的到来，有力的缓解了信息爆炸的问题，搜索推荐系统也一直在致力于从“拉”模式到“推”模式的改变[1]，与此同时，随着互联网计算机技术的快速发展，云计算技术的出现为大数据的及时性分析、处理提供了技术上的支持[2]，用户画像是根据用户的社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”。通过构建搜索引擎的用户画像可以大大减少平台的运营成本。

1 相关技术介绍

Word2vec：Word2vec模型其实就是简单化的神经网络，一般分为CBOW（Continuous Bag-of-Words）与Skip-Gram两种模型。CBOW模型的训练输入是与某一个特征词的上下文相关的词相对应的词向量，而输出的就是这特定的一个词的词向量。Skip-Gram模型和CBOW的思路是反着来的，即输入是特定的一个词的词向量，而输出是特定词对应的上下文词向量。CBOW对小型数据库比较合适，而Skip-Gram在大型语料中表现更好。

Stacking模型：Stacking是一种分层模型集成框架。以两层为例，第一层由多个基学习器组成，其输入为原始训练集，第二层的模型则是以第一层基学习器的输出作为训练集进行再训练，从而得到完整的Stacking模型。

2 用户画像模型构建

2.1 数据集

本文中所采用的数据来源于CCF竞赛平台，搜狗公司提供的用户搜索数据，其中用户的ID经过加密算法加密。其中每条数据包含用户的ID、Age（年龄）、Gender（性别）、Education（教育程度）、Query List（用户搜索词列表）。数据说明如表1。

数据的预处理包括数据清洗、自定义词典、分词处理。在数据清洗过程中，我们主要对空值进行了处理，为了提高最后所做预测的准确程度，我们对于有空值的用户信息选择舍去，因为我们认为被丢弃的数据占比太小，对预测的准确程度影响不大;在自定义词典过程中，我们花费了大量的时间和精力进行了一些词语的替换来换取准确率的提高，比如将百度网盘网址替换为“网盘”;在分词处理工作中，我们主要使用了结巴分词，在分词后又使用了正则表达式和去停用词来实现精确分词。

用户搜索词列表分词前：

中财网首页财经 http：//pan.baidu.com/s/1plpjtn9 周公解梦大全查询2345 曹云金再讽郭德纲总裁大人行行好

用戶搜索词列表分词后：

中财网财经网盘周公解梦曹云金郭德纲小说

2.3 特征词的抽取

特征词的选择即从上述总分词库中筛选出最能代表用户搜索内容的词，简单来说就是如果某个词汇出现的次数多，那么这个词语就能被筛选出作为特征词。在这里我们使用TF-IDF算法筛选出特征词，TF-IDF算法是经典的文本特征加权方法，它衡量了某一个单词在文档中的重要性;TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反相关。式（1）是TF-IDF算法的公式：

特征词处理完毕之后，就该着手把特征词转换为计算机能读懂的语言，那么问题来了，根据词向量，该如何表达特征词呢？假设某用户含有N个特征词，每个特征词使用K维的词向量表示。有人可能会说，把词向量拼起来，将一个用户形式化为N*K的向量，但这种做法并不合适，因为无法解决不同用户的特征词数量所导致的维度不一致问题，下面为我们的方法：首先，使用传统的One-Hot方式，具体是先构建一个词典，它包含所有我们选取的特征词;然后，对于用户的每一个搜索词，如果它在词典中出现了，对应位置就标记为1，否则标记为0;最终，每一个用户的特征表示就是01序列，长度为词典长度。再然后使用Word2vec把特征词向量加和求平均值，根据特征词的语义获得其分布式表达，且词语之间的相似性可以由向量的余弦夹角来表示，丰富了词语特征的表达。测试集第一个用户特征向量表示如下（一共是300维向量，这里只展示24维向量）：[-0.13521618 -0.12654323 -0.29329249 -0.09194205 0.08417522 0.27917215 0.13377914 0.05475752 -0.09656907 0.14759752 -0.39463448 -0.0143092 -0.60612251 -0.39274153 -0.16835085 -0.21356585 -0.29147161 0.40192119 0.37719944 0.25010119 -0.29925515 0.31874303 -0.1342936 0.43075851]

2.5 用戶画像模型

Stacking模型：集成学习就是通过构建并结合多个学习器来完成学习任务，多个学习器的结合常可以获得比单一学习器显著优越的泛化性能。其中Stacking是一种著名的集成学习方法。

Stacking先从初始数据集训练出初级学习器，然后“生成”一个新的数据集用于训练次级学习器，在这个新数据集中，初级学习器的输出被当作样例输入特征，而初始样本的标记仍被当作样例标记[3]。

Stacking集成最大的特点是灵活，我们可以设置多层级的Stack，每层可以设置合适的分类器簇，并且可以将新特征很方便的融合在层之间的中间结果里。经典的Stacking框架分为2层，第一层含有T个分类器，产生T组与原数据集规模相同且维度为1的结果，将这T组结果拼在一起可组成新的数据集，用以构成第二层的输入。在一层中，对于T个分类器中的每一个分类器，我们把训练数据分割为N份，利用其中的N-1份做训练，剩下的那一份做预测，这样对训练集重复N次，就可以得到在一个分类器下对原始训练数据的一个完整预测结果，于是一个分类器可以得到N*1的新表达，那么T个分类器就可以得到N*T的新表达，而这就是用于下一层的输入。

2.6 模型预测结果

Stacking模型预测准确率如表2所示。

3.1 总结

我们在实验中遇到了很多难题，比如庞大的数据量，繁多臃肿的特征向量，为保证精准性，并没有做大批量删除处理，在保证结果的精度的前提下我们只保留了频率大于50的词，对小部分数据进行删减，使数据更加精简整洁，在解决数据冗杂的问题后，我们利用模型得到的结果与实际相比较准确率较低，因此，我们对预处理部分做了进一步优化，筛选出没有使用到的词，在此基础之上，变换不同的Word2vec维度，以得到准确率更高的结果。

在如今互联网高速发展的背景下，勾勒用户画像作为一种手段，有非常广泛的用途，例如：精准营销，用户分析，数据分析，数据应用等。用户画像根据用户搜索记录，搜索频数，浏览时间等建立用户个性化配置文件，再使用各种数据挖掘工具从用户历史记录中学习用户个人爱好与偏向，即这可以作为是从搜索即浏览记录中刻画用户画像，从而应用在个性化订制推荐中[4]。曾鸿等（2016）通过采集分析新浪微博等用户社交数据，定量分析定性描述社交网络用户的群体行为特征，构建基于社交数据的用户画像模型，支撑精准营销[5]。

本文基于十万搜狗用户的搜索词条，在经过数据预处理、特征选择、建立特征向量等处理后，我们采用Stacking分类模型对性别、年龄、学历三项进行预测，并与正确结果做比较，所得结果如下：性别标签的精确度为0.783;年龄标签的精确度为0.584;学历标签的精确度为0.601。

3.2 展望

本文是通过用户搜索词对用户贴标签，由于存在同一账号不同用户使用的情况，可能会导致一些误差，所以可以分时间段对词进行处理，以提高准确性。

参考文献：

[1] 赵鑫，丁效.浅析推荐系统中的用户画像构建与应用 [J].中国计算机学会通讯2017，13（11）：45-51.

[2] 李雅坤.基于搜索引擎的用户画像构建方法研究 [D].山西：山西财经大学，2018：1-3.

[3] 周志华.机器学习 [M].北京：清华大学出版社，2016：183-185.

[4] Adomavicius G，Tuzhilin A. User profiling in personalization applications through rule discovery and validation [A]. Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery and data mining [C]，DBLP，1999：377-381.

[5] 曾鸿，吴苏倪.基于微博的大数据用户画像与精准营销 [J].现代经济信息，2016（16）：306-308.

作者简介：马朋辉（1999.08-），男，汉族，河南周口人，软件工程专业，本科，研究方向：机器学习、数据挖掘;王雪宁（1997.08-），女，蒙古族，辽宁朝阳人，计算机科学与技术专业，本科，研究方向：网络与信息安全;李勇（1998.07-），男，回族，宁夏吴忠人，本科，研究方向：数学统计;邵帅（1998.06-），女，汉族，黑龙江哈尔滨人，网络与信息安全专业，本科在读，研究方向：网络与信息安全。