基于用户行为指标的在线健康社区用户画像研究
2022-07-06蔡春雨
摘 要:在线健康社区已成为公众获取健康信息和服务的重要平台,构建在线健康社区用户画像,有利于明确社区用户的群体特征和信息需求,为社区提高信息服务质量提供借鉴。从信息行为学角度出发构建群体用户画像分析模型,对用户行为指标进行提取,利用高斯混合模型对用户进行聚类分析,将社区中群体用户分为三类。通过对社区关键用户的识别和特征分析,一方面可以准确了解社区用户的信息需求,提供健康信息服务;另一方面可以提高关键用户的数量,促进在线健康社区的良好发展。
关键词:在线健康社区;行为指标;用户画像;高斯混合模型;信息服务
中图分类号:TP391 文献标识码:A文章编号:2096-4706(2022)06-0144-04
User Portrait Research on Online Health Community Based on User Behavior Indices
CAI Chunyu
(School of Management, Shandong University of Technology, Zibo 255012, China)
Abstract: Online health community has become an important platform for the public to obtain health information and services. Building online health community user portrait is beneficial to clarify the community user population characteristics and information requirements, and it provides reference for the community to improve the quality of information service. From the perspective of information behavior, the group user portrait analysis model is constructed, the user behavioral indices are extracted, and the Gaussian mixture model is used for cluster analysis of users, and the group users in the community are divided into three categories. Through identifying and analyzing the characteristics of key users in the community, on the one hand, it can accurately know the information requirements of community users and provide health information services. On the other hand, it can increase the quantity of key users and promote the good development of online health community.
Keywords: online health community; behavioral indice; user portrait; Gaussian mixture model; information service
0 引 言
截至2020年,我國65岁及以上人口占比高达12.6%,人口老龄化、慢性病及医疗资源分布不均的痛点对我国现在的医疗体系产生巨大压力[1],促使互联网医疗行业不断发展,在线医疗用户规模高达2.76亿人[2]。如何促进在线健康社区的发展,在于怎样利用用户大数据准确识别在线健康社区用户的特征,用户画像则能够实现用户属性与行为的关联[3]。通过用户的信息数据提取出用户的行为指标,可以准确识别用户的信息需求行为和内容特征。
基于此,本文以在线健康社区—胆管癌、胆囊癌QQ群为例,对在线健康社区用户进行群体用户画像研究,从用户的基本特征、信息特征、交互特征、情感特征四个维度出发,基于用户的行为指标构建在线健康社区的群体用户画像;并通过聚焦于在线健康社区群体用户行为指标的研究,致力于准确识别用户类型,从而为用户提供准确合理的健康信息服务。
1 用户画像研究
1.1 在线健康社区研究现状
在线健康社区(Online Health Community)是以健康为主题的在线社区,医生、患者及其家属就健康或疾病治疗等相关问题,用发文、回复等形式完成信息交互[4]。目前,关于在线健康社区的研究主要从社区内信息、社区和用户三个维度展开。在信息维度,学者们主要采用文本挖掘、机器学习等方法对信息内容或主题分析;在社区维度,研究大多集中于如何利用在线社区如微博、博客等进行健康消息的传播和共享;对于用户关系网络的研究主要从网络的整体结构、网络形成的影响因素、网络特征等角度展开。吴江等[5]用社会网络分析方法构建在线健康社区知识共享网络,发现在线健康社区的知识网络具有小世界效应,且存在核心知识贡献者,使得知识可以在社区内快速传播。
1.2 用户画像研究思路
用户画像(User Profile)是基于数据挖掘提取用户的属性及行为特征,抽象出用户社交属性、生活习惯、消费者行为等信息标签,再利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。71017D22-5E0E-468A-AB2F-A4DDF023E9BF
本文针对在线健康社区进行用户画像研究,主要从用户的基本特征、信息特征、交互特征和情感特征四个维度出发,获取用户活跃度、互惠度,信息多样性、均质性,正向情感频数、负向情感频数共6个行为指标,构建用户画像分析框架。
2 用户画像构建及分析
2.1 画像构建
用户画像构建框架如图1所示,首先对获取的数据进行预处理,并完成用户行为指标的提取;其次,融合用户的多维属性,构建用户画像分析模型,进行用户群体的划分;最后,根据群体用户的行为指标特征分析用户的特征,从而促进社区合理的信息服务。
2.2 框架分析
2.2.1 数据预处理
通过对社区内用户的群内标签信息进行文本挖掘后,可以得到用户的基本特征,包括性别、患病类型和地域。但是性别数据列存在少量的缺失值,为了保证用户基本特征的完整性,需要对性别缺失值进行填充。首先利用文本挖掘的方法,根据缺失值用户整个时间段的聊天文本,通过具有代表性别的字、词完成第一轮的性别填充;最后利用已知性别用户的男女比例,用随机概率的方法进行第二轮性别填充,完善性别特征。
2.2.2 用户行为指标的提取
本文在线健康社区用户画像构建的行为指标共包括:用户的活跃度、互惠度;信息的多样性、均质性;正向情感频数、负向情感频数等6个指标。用户行为指标计算的参数及描述如表1所示。
(1)用户交互特征:活跃度、互惠度。活跃度表示一个用户在整个时间段内的交互过程中活跃程度的高低。用户i的活跃度表示为ai,通过用户i在整个时间段内的交互次数的占社区总的交互次数的比值度量,计算公式为:
(1)
其中,wi是用户i在整个时间段内的加权度,是整个时间段内社区全部用户的加权度之和。
互惠度表示一个用户在整个时间段内的交互过程中信息传播倾向性的大小。用户i的互惠度表示为vi,通过用户i在整个时间段内的出度与入度的比值度量。当互惠度值大于1,表示用户倾向于信息传播;当互惠度值小于1,表示用户倾向于信息接收。计算公式为:
vi=ikout/ikin(2)
其中,ikout是用户i的出度,ikin是用户i的入度。
(2)用户信息特征:多样性、均质性。信息多样性表示一个用户在整个时间段内的交互过程中包含信息量的多少,代表用户信息质量的高低。用户i的信息多样性表示为di,通过用户i整个時间段内的关键词种类与社区内关键词种类的比值度量,计算公式为:
di=ni/N(3)
其中,ni代表该用户i在整个时间段内出现的关键词的种类,N代表整个时间段内社区内的关键词种类。
信息均质性表示用户在整个时间段内的交互过程中信息的全面程度。用户i的信息均质性表示为ji,通过用户i在整个时间段内在不同信息主题间的信息熵与用户i最大信息熵的比值度量。均质性j的取值范围为[0-1],当j越接近1时,信息全面性越高;反之,信息全面性越低。计算公式为:
ji=Hi/(4)
(5)
(6)
其中,H(i)代表用户信息主题的信息熵,P(it)表示用户i在主题t的概率,S代表用户i的信息主题个数。
(3)用户情感特征:正向情感频数、负向情感频数。情感倾向度表示用户在整个时间段内的交互过程中情感的倾向性。用户i的正向情感频数表示为Pei,表示一个用户在整个时间段内的交互过程中,正向信息数量的多少。负向情感频数表示为nei,表示一个用户在整个时间段内的交互过程中,负向信息数量的多少。
2.2.3 高斯混合模型(GMM)
高斯混合模型(Gaussian Mixed Model)是一种基于概率模型的聚类方法。GMM假设样本数据服从k个高斯分布,服从同一分布的样本聚为一类,再利用最大期望算法拟合k个混合高斯分布,以求得每个分布的均值μj和协方差εj(1≤j≤k)。以下为具体步骤:
步骤1:初始化k个多元高斯分布的参数μj和εj,假设每个混合元素具有各自的对角矩阵。
步骤2:遍历所有样本点,计算样本点xi(i=1,2,…,m)属于第j个高斯分布的概率γi,j。
(1)
式中:p(·)为概率函数;zi表示xi所属的类;d为xi的维度。
步骤3:按照公式2和3得到各高斯分布参数的新值和。
(2)
(3)
步骤4:重复步骤2和3,直至各高斯参数收敛。
步骤5:利用高斯参数,遍历所有样本,将样本归于概率γi,j最大的一类。
3 实证结果分析
3.1 构建用户画像分析模型
本文在线健康社区用户画像构建的行为指标共包括:用户的活跃度、互惠度;信息的多样性、均质性;正向情感频数、负向情感频数等6个指标。(1)通过交互网络中节点的加权度进行用户活跃度指标的计算,其中节点的加权度代表着用户整个时间段内的交互次数,体现着用户活跃度的大小;通过交互网络中节点的出度和入度两个指标进行用户互惠度的指标计算。节点的出度代表用户在信息交互过程中的信息传播行为;节点的入度代表用户在信息交互过程中的信息接收行为。(2)根据2020.07—2020.12时间段内每个用户交互的健康信息,进行关键词提取,每个用户关键词种类的频数与社区中所有用户频数的比值度量信息的多样性;首先基于LDA主题模型,结合切词工具pkuseg的医学模块词典和用户自定义词典(该类疾病的相关专业词汇),完成对社区中健康信息的主题识别和抽取工作。(3)用户情感特征的提取,主要通过对社区内的信息利用情感极性分析词典进行情感极性分析,可以将信息中的情感分为正向情感(score>0)、负向情感(score<0)和中性情感(score=0)三门类。71017D22-5E0E-468A-AB2F-A4DDF023E9BF
由于社区内用户的交互特征、信息特征和情感特征的行为指标数据是离散型数据,而高斯混合模型对于该类型数据的处理有较好的结果,因此,根据社区内用户的行为指标,利用高斯混合模型进行用户群体划分。依据高斯混合模型的BIC和AIC的值判断最优聚类个数,如图2所示。
从图2可以看出,当社区用户类别为大于5时,两者值的曲线变得相对平缓,故用户聚类结果最优。最后,根据高斯混合模型的用户聚类结果,可以将社区内用户大致分成五类。用户的行为指标如表2所示。
3.2 群体划分
根据自然断点法,将该社区用户活跃度分成5个等级,分别是1=非常不活跃、2=不活跃、3=一般、4=活跃、5=非常活跃。用户活跃度等级划分如表3所示。
结合表2中用户活跃度区间可以看出,Class0、Class3两类用户的活跃度处于非常不活跃等级,导致用户其余行为指标没有参考价值,无法准确体现用户的特征,因此将这两类用户群体删除。最后只得到Class1、Class2、Class4类用户群体。
3.3 信息服务
Class1类关键用户是社区中的志愿者组成,主要特征是活跃性高,倾向于信息传播;健康信息质量高,且健康信息全面;以正向情感信息为主;男女性别相当,主要是胆管癌患者。该类用户属于久病成医的用戶,在社区中积累足够的知识后,成为社区中的志愿者。主要在社区中分享乐观的健康信息,满足社区成员的健康信息需求,减少患者及家属的心理压力,属于正向健康信息传播者。
Class2类关键用户是社区中的患者及家属组成,主要特征是活跃性较低,既有大量的信息接收者,也有大量的信息传播者;健康信息质量较低,健康信息不全面,且有一定的主题倾向,偏向于医生医院类健康信息;以负向情感信息为主;男女性别相当,主要是胆管癌患者。主要在社区中寻求健康信息,且在信息交互过程中经常带有负面的情绪,属于负向健康信息传播者。
Class4类关键用户是社区中的管理者组成,主要特征活跃性高,倾向于信息传播;健康信息质量高,健康信息全面;保持理性情感,以男性为主,患病类别相当。主要在社区中提供理性的健康信息,既要阐明疾病治疗的后果,同时提供乐观的治疗经验信息,属于理性健康信息传播者。
4 结 论
本文以国内具有代表性的在线健康社区—胆管癌、胆囊癌QQ群社区为例,从用户的交互特征、信息特征和情感特征三个维度出发,通过用户的活跃度、互惠度,信息的多样性、均质性,正向情感频数、负向情感频数等6个行为指标,利用高斯混合模型进行社区关键用户的识别。为了全面刻画社区中关键用户的基本特征,结合用户基本特征,分析关键用户的基本特征。
最后该类社区的关键用户分成3类:一类是正向健康信息传播者,该类用户活跃度高,倾向于信息传播,健康信息质量高,且信息全面,以正向情感信息为主;男女性别相当,主要是胆管癌患者;一类是负向健康信息传播者,该类用户活跃度较低,既有大量的信息接收者,也有大量的信息传播者;健康信息质量较低,且信息不全面,且有一定的主题倾向,偏向于医生医院类健康信息;以负向情感信息为主;男女性别相当,主要是胆管癌患者;一类是理性健康信息传播者,该类用户活跃度高,倾向于信息传播;健康信息质量高,且信息全面;保持理性情感,以男性为主,患病类别相当。通过对社区关键用户的识别和特征分析,一方面可以准确了解社区用户的信息需求,提供健康信息服务;一方面提高关键用户的数量,促进在线健康社区的良好发展。
参考文献:
[1]艾瑞.2020年中国互联网+医疗行业研究报告[EB/OL].(2020-09-03).https://baijiahao.baidu.com/s?id=1676775102649072258&wfr=spider&for=pc.
[2]中国互联网络信息中心.第46次中国互联网络发展状况统计报告 [EB/OL].(2020-09-29).http://www.cac.gov.cn/2020-09/29/c_1602939918747816.htm.
[3] 陈慧香,邵波.国外图书馆领域用户画像的研究现状及启示[J].图书馆学研究,2017(20):16-20.
[4] YOUNG C. Community Management that Works: How to Build and Sustain a Thriving Online Health Community [J/OL].Journal of Medical Internet Research,2013,15(6):e119.[2022-12-20].http://med.wanfangdata.com.cn/Paper/Detail/PeriodicalPaper_PM23759312.
[5]吴江,周露莎.在线医疗社区中知识共享网络及知识互动行为研究[J].情报科学,2017,35(3):144-151.
作者简介:蔡春雨(2001.03—),女,汉族,山东济宁人,本科在读,研究方向:在线用户画像。
收稿日期:2022-01-2171017D22-5E0E-468A-AB2F-A4DDF023E9BF