融合大小数据分析的用户画像构建

2022-03-30蔡皎洁

情报工程 2022年1期

蔡皎洁

1. 湖北工程学院孝感 432000；

2. 湖北小微企业发展研究中心孝感 432000

引言

早期用户画像模型一般是基于设计师的主观想象进行构建，而设计师主观想象的直接表现就是通过问卷设计来了解用户喜好。随着移动互联网及社交网络的迅速发展，用户喜好表现于散布网络平台上的行为数据中，不同于以往问卷、访谈等形式所“制造”的数据，网络数据呈现出相对客观中立、海量多结构化、实时变化等特征，这为传统定量及定性分析带来了技术、模型及研究范式等多方面的挑战。随着机器学习、文本挖掘、自然语言处理等多种新型数据分析技术的兴起，开启了基于大数据分析的用户画像研究模式。大量研究表明，大数据分析的优势在于挖掘事物间相关关系，以往基于问卷等小数据分析优势在于论证事物间的因果关联，但两者并非取代关系，而是互补和增进关系。在用户画像构建中，如何将两种不同的数据分析思路、方法与研究范式融合在一起，提高对用户偏好分析的深度与宽度，是本文研究的目标。从大小数据分析的特征及与用户画像构建的语义关联出发，构建基于大小数据分析的用户画像研究框架，并以互联网股票投资领域为例，进行研究框架与方法实践，实现语义完整的用户画像构建。本文为用户画像的构建提供了一种全新的研究思路。

1 相关研究概述

1.1 大小数据分析研究概述

本文的小数据仅指问卷样本单结构化数据，而非在体量上“小”的针对单个事物所抽取的多结构化大数据。在社会科学研究领域，大小数据分析优劣势的争论主要有：

（1）大数据分析是否能够真正代表社会本源[1]。反对者认为“全样本数据仅是一个美丽的谎言，数据并不能代表社会生活的全部”[2-3]。“数据为王，技术主导”[4]的观点也得以反驳，如Silver[5]认为数据驱动的分析低估了人的重要性。

（2）大数据分析是否能够抛弃小数据分析中的理论假设。齐磊磊[6]、彭理强[7]、方环非[8]等学者在充分剖析实证分析理论的历史来源及国内外代表性专家及著作理论观点的基础上，指出大数据分析是为了让理论在内涵及外延上得以更好的拓展，理论仍保持核心地位。

（3）大数据分析强调“相关关系”是否可以忽略小数据分析的“因果关系”。史蒂夫·洛尔[9]指出仅凭相关性是不够的，还要对因果关系产生启发性认识，两者需密切配合。Josh Cowls与Ralph Schroeder[10]、彭知辉[11]通过广泛的文献及访谈研究，指出相关关系是一种比因果关系更为广泛的概念，它是因果关系的派生关系，因果起着根本性的解释作用。

1.2 大小数据分析与用户画像构建研究概述

小数据分析有定性和定量分析两种形式，其中定性分析方法被广泛应用到用户画像构建中，张艳丰[12]等人基于SSO理论框架，利用扎根理论从构想问题的文本式回答资料中抽取用户画像标签，通过问卷采集用户数据实现不同群体用户画像分类。而采用“提出假设—构建模型—收集数据—验证假设”程式化定量分析过程构建用户画像的成果偏少，袁润[13]采集科学网博客可量化的用户属性和行为数据，通过构建计量模型，进行统计学分析和验证，来构建学术博客用户画像。无论是定性还是定量分析，小数据分析的优势是：（1）具有长期反复论证的理论模型做基础；（2）数据可信度较高；（3）体现变量间因果关系。缺点是：（1）理论在反复验证中不断精细化，而难以创新；（2）数据范围有限，且主观性较高。因此，将大小数据结合来构建用户画像可以做到优缺互补，大数据提供了让理论模型创新的数据条件，传统的理论模型也可以支撑大数据分析，通过理论解释现象[14]。融合大小数据分析思维的用户画像构建，是要解决有关用户偏好的“相关关系”挖掘与“因果关系”分析的标签融合问题。关于这一问题有两个研究趋势：

（1）基于传统理论引导大数据分类，获取不同分类标签，这一过程类似“有监督”式学习。林燕霞[15]利用社会认同理论作为用户群体分类的理论基础，利用LDA主题模型、多元logistic回归等技术抽取群体用户分类偏好标签。李伟卿[16]基于感知价值对网络消费者偏好进行预测，通过对消费者感知价值维度的分解，对海量用户行为数据进行目标价值分类，利用深度学习从不同感知价值数据中获取对应标签。

（2）基于大数据构建用户画像过程中融入情境因素，情境绝不仅指客观物理环境，而是包含了认知、意识、动机等主观因素[17]。通过情境建模[18]将用户画像由单一客观标签转为“客观—主观”多维标签。

2 融合大小数据分析的用户画像构建框架

围绕某特定领域构建“全貌”的用户模型，即要反映出用户感兴趣的领域主题是什么，又能反映出感兴趣的原因是什么。在用户画像构建中大小数据融合机制如下：

（1）利用大数据分析方法从用户多结构化数据中获取偏好标签。由于实验环境所限，本文选择用户评论和行为数据为大数据来源，主要体现出与问卷样本小数据在研究范式上的差别，在数据量和数据结构上仍与大数据有差距。利用修正的LDA模型无监督学习偏好主题间的相关关系。

（2）根据LDA主题模型中词频的分布，参考领域本体进行主题粒度设计，将主题引入传统的理论模型实现优化更新。

（3）基于更新后的理论模型，提出研究假设，设计问卷收集数据，实现主题间因果关系论证。

（4）对第一步生成的偏好主题间的相关关系和第三步生成的偏好主题间的因果关系，参照领域本体实现语义集成，构建语义完整的用户画像。其逻辑框架如图1所示，并在下文以互联网股票投资博客平台为例，按照该逻辑结构实现数据分析与实践。

图1 融合大小数据分析的用户画像构建框架

3 基于修正的LDA模型获取用户偏好相关关系

3.1 问题的提出与概念标签设计

用户画像具有较强的领域性，不同领域的核心诉求不同，对概念标签设计的要求不同。以互联网股票投资领域为例，研究投资者情感分类的主题标签对刻画精准用户画像有着重要价值。因此，偏好及行为属性标签要比基础信息标签对用户画像构建更重要，基于经验及可获取的数据，将概念标签维度设计如下：

（1）内容偏好维度。主要是用户评论形成的短文本数据，对购买的股票或有关股票的新闻热点、网络大V的专评文章等形成评论或解读内容。这些内容中隐含着持有不同情感的群体用户对股票特征的偏好趋向。

（2）行为偏好维度。用户通过“关注”“点赞”“奖赏”及“转发”等动态行为，构建自己的社会化网络。拥有相似偏好或动机的用户会通过上述行为关联到一起形成群体用户簇，表达相似的兴趣趋向。

3.2 数据爬取与偏好情感分类

由于实验条件所限，仅反映出非结构化文本数据和行为数据与传统问卷数据在分析流程和研究范式上的不同，利用八爪鱼采集器从东方财富股吧官网爬取10000条用户评论，选取“众数”作为集中趋势分析指标，删除不包含无效关键字的评论，保留有效评论8350条。由于针对一个平台的用户数据，评论主题的集中趋势度高，而离散程度较低，主题分布受数据量影响较小。利用中科院NLPIR系统对评论数据进行偏好情感分析，部分结果截图如图3所示。

图2 基于NLPIR系统对评论数据进行情感分析

3.3 融合内容与行为的LDA修正模型设计

LDA主题模型可有处理短文本数据中主题挖掘，本文将用户评论内容与用户行为相结合，参考郭光明在博士论文中所构建的LDA修正模型LUBD-CM[19]，但考虑到：（1）用户行为与所关注到的第K个主题相关，可将行为参数元组＜b1,b2,...,bL＞进行归一化处理为参数B，B代表不同用户行为发生的个数。（2）考虑背景词对用户偏好分类的价值，将背景词也归入主题词中。通过对LUBD-CM模型的修改与设计，本文应用的LDA修正模型概率有向图如图3所示。

图3 融合内容与行为的LDA模型概率图

采用Gibbs抽样学习公式（1）中的参数，根据贝叶斯理论，随机变量的先验概率分布均服从Dirichlet分布，分别为评论集中主题的先验超参数、主题集中词汇的先验超参数、行为集中主题与词汇并集的先验超参数。上述修正LDA模型的Gibbs抽样公式如下：

其中，z¬i代表第m篇评论里去除主题为zi的其他所有主题，t代表N词表中的词汇t。

3.4 与不同情感偏好相关的主题标签抽取

利用公式（2），分别对偏好分类处理后所生成的正面数据集和负面数据集实现主题抽取。使用Python的Gensim库生成修正LDA主题模型抽取的主题及相应概率结果如表1所示。

表1 正负面情感评价对应的主题词表

可见，对股票投资持有积极情感偏好的用户对股价上涨、上市公司业绩优良、利好信息、收益高、大盘走势稳定等投资属性标签有较高关注度；对股票投资持有消极情感偏好的用户对股价下跌、上市公司业绩亏损、利空信息、收益太低、佣金过高、疫情等投资属性标签有较高关注度。总之，与用户投资情感相关的投资属性标签有：股价、上市公司业绩、收益、市场利好利空、大盘走势、疫情等。

4 融合大数据分析结论与感知价值理论的用户偏好因果分析

4.1 基于LDA分析结论优化用户感知价值理论

顾客感知价值理论是由顾客内心的感知所决定的，是感知利得与感知利失之间的权衡[21]。本文将股票投资顾客感知价值定义为感知利益与感知风险权衡的结果。上述LDA分析结果可为感知利益和感知风险的构建提供完善素材，将感知利益划分为投资收益、股价涨幅、上市公司盈利能力、利好政策4个维度；将感知风险划分为上市公司经营风险、本金回收风险、利空政策、疫情影响4个维度。

4.2 假设提出及模型构建

Mitchell等[22]通过研究认为人们对金钱的理解会受到个体差异的影响，不同理财性格将会选择不同方式的理财手段。崔冬亮[23]研究发现不同性格的投资者在选择基金时会有明显的特征区别。因此，将投资性格作为外生变量，根据心理学的解释，从性格的态度特征、意志特征、情感特征和理智特征四个部分中，选取内向型人格、独立性、情感控制力、学习能力为观察变量。本文所构建的股票投资顾客感知价值模型如图4所示。

图4 股票投资顾客感知价值模型

该模型需要验证的是：（1）由“数据驱动”获取的主题标签是否对投资情感产生显著影响。（2）引入的外生变量“投资性格”是否对“数据驱动”获取的主题标签产生显著影响。因此，设定的基本假设如下：

H1：投资性格对股票投资顾客感知利益产生正向影响

H2：投资性格对股票投资顾客感知风险产生负向影响H3：感知利益对投资情感产生正向影响H4：感知风险对投资情感产生负向影响

4.3 数据收集与统计分析

4.3.1 问卷设计及信效度分析

参照已有的相关文献量表，利用问卷星平台制作问卷并网络发布，不设定具体人群，收集到有效问卷103份，使用SpssAU平台进行数据分析。首先对量表进行信效度分析，总体Cronbach’s α值为0.863。另外，各题项的因子载荷值大于0.5，证明量表设计有效且适合因果分析。量表结构及测评值如表2所示。

表2 量表结构及效度测评值

4.3.2 假设检验及因素标签获取

使用SpssAU系统的结构方程模型SEM功能模块，进行路径分析。采用标准化路径系数指标检测模型中潜变量之间的关系是否成立，以验证假设是否成立。路径系数分析结果如表3所示。

表3 模型回归系数汇总表

因子A对因子B影响时，标准化路径系数为0.285＞0，并且此路径呈现出0.05水平的显著性（z=1.591,P=0.031＜0.05），说明因子A对因子B产生显著的正向影响关系，假设H1成立。同理，因子A对因子C的路径系数为-0.417＜0，且在0.01水平下显著，假设H2成立。因子B对因子D的路径系数0.619＞0，在0.01水平下显著，假设H3成立。因子C对因子D的路径系数-0.429＜0，且在0.05水平下显著，假设H4成立。

由此可见，用户的投资性格直接影响股票投资感知利益与感知风险，且与“数据驱动”获取的主题标签，共同影响投资情感。因此，影响用户股票投资情感分类的性格等因素标签如表4所示。

表4 影响用户股票投资情绪分类的性格标签

5 基于语义集成的用户画像构建

为了使用户画像有更好的扩充性和兼容性，参照领域本体将上述获取的用户偏好相关主题词表与用户偏好因果主题词表进行语义集成，实现概念的边界扩充，提高用户画像预测的范围和质量。本文对用户投资情感分类的主题词表进行词云化显示，并刻画出与其对应的投资性格与态度因素，互联网股票投资领域用户画像抽象表示如图5所示。

图5 互联网股票投资领域用户画像抽象表示

利用八爪鱼从东方财富股吧官网爬取5000条评论数据作为测试集，分别检测包含相关关系和因果关系标签的用户画像系统（记为：BSUP）和去掉性格因素标签只包含相关关系标签的用户画像系统（记为BUP），对测试集中高价值与低价值投资用户进行分类。检测结果如表5所示，可见BSUP用户画像系统性能更优，因此本文所提出基于大小数据分析构建融合主题标签和因素标签的用户画像方案可行，由于其描述用户兴趣偏好的完整语义性，更能提升预测质量。

表5 基于BSUP和BUP用户画像系统的分类性能对比

6 研究总结

本文研究的创新点是：（1）在大数据分析日趋白热化，甚至可取代小数据分析的理论学说下，找出两者的优势与不足，发现其研究的契合点。（2）提出基于大小数据分析的用户画像构建框架，既发挥了“数据驱动”的客观性，又能使大数据分析结果根植于“知识驱动”的因果模型中，相互促进分析的质量。（3）将大小数据分析互相嵌入，构建即包含相关关系又包含因果关系的完整语义画像，提升画像预测效果。研究的不足是：（1）以互联网股票投资领域为例，大数据分析中仅收集了用户评论和行为数据，在数据结构和规模上都有所限制。（2）在小数据分析中，所构建的因果关系模型并未涉及到投资性格潜变量的各维度与“数据驱动”获取的主题标签之间的相关关系，导致所构建的用户画像还不够全面精准。